您的位置:首页 > 新闻 > 会展 > 网上购物网站_北京论坛_厦门百度seo_百度舆情监测平台

网上购物网站_北京论坛_厦门百度seo_百度舆情监测平台

2025/6/1 1:40:09 来源:https://blog.csdn.net/scdifsn/article/details/147564744  浏览:    关键词:网上购物网站_北京论坛_厦门百度seo_百度舆情监测平台
网上购物网站_北京论坛_厦门百度seo_百度舆情监测平台

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。

本节课程地址:72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili

本节教材地址:11.10. Adam算法 — 动手学深度学习 2.0.0 documentation

本节开源代码:...>d2l-zh>pytorch>chapter_optimization>adam.ipynb


Adam算法

本章我们已经学习了许多有效优化的技术。 在本节讨论之前,我们先详细回顾一下这些技术:

  • 在 11.4节 中,我们学习了:随机梯度下降在解决优化问题时比梯度下降更有效。
  • 在 11.5节 中,我们学习了:在一个小批量中使用更大的观测值集,可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。
  • 在 11.6节 中我们添加了一种机制,用于汇总过去梯度的历史以加速收敛。
  • 在 11.7节 中,我们通过对每个坐标缩放来实现高效计算的预处理器。
  • 在 11.8节 中,我们通过学习率的调整来分离每个坐标的缩放。

Adam算法 (Kingma and Ba, 2014) 将所有这些技术汇总到一个高效的学习算法中。 不出预料,作为深度学习中使用的更强大和有效的优化算法之一,它非常受欢迎。 但是它并非没有问题,尤其是 (ef="https://zh-v2.d2l.ai/chapter_references/zreferences.html#id134">Reddiet al., 2019) 表明,有时Adam算法可能由于方差控制不良而发散。 在完善工作中, (f="https://zh-v2.d2l.ai/chapter_references/zreferences.html#id193">Zaheeret al., 2018) 给Adam算法提供了一个称为Yogi的热补丁来解决这些问题。 下面我们了解一下Adam算法。

算法

Adam算法的关键组成部分之一是:它使用指数加权移动平均值来估算梯度的动量和二次矩,即它使用状态变量

\begin{aligned} \mathbf{v}_t & \leftarrow \beta_1 \mathbf{v}_{t-1} + (1 - \beta_1) \mathbf{g}_t, \\ \mathbf{s}_t & \leftarrow \beta_2 \mathbf{s}_{t-1} + (1 - \beta_2) \mathbf{g}_t^2. \end{aligned}

这里 \beta_1 和 \beta_2 是非负加权参数。 常将它们设置为 \beta_1 = 0.9 和 \beta_2 = 0.999 。 也就是说,方差估计的移动远远慢于动量估计的移动。 注意,如果我们初始化 \mathbf{v}_0 = \mathbf{s}_0 = 0 ,就会获得一个相当大的初始偏差。 我们可以通过使用 \sum_{i=0}^t \beta^i = \frac{1 - \beta^t}{1 - \beta} 来解决这个问题。 相应地&#

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com