点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
题目:Towards Understanding Convergence and Generalization of AdamW走向理解AdamW的收敛与泛化
作者:Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan
摘要
关键词
自适应梯度算法,AdamW 分析 AdamW 的收敛性,AdamW 的泛化
I. INTRODUCTION
III. NOTATION AND PRELIMINARILY
IV. CONVERGENCE ANALYSIS
A. Results on Specific Least Square Problems
B. Results on Nonconvex Problems
C. Results on General Nonconvex Problems
D. Results on PŁ-Conditioned Nonconvex Problems
对于恒定学习率设置,假设恒定学习率 ,恒定 , 并且 在第 阶段。我们有:
对于衰减学习率设置,让 ,,, 在第 阶段的第 次迭代中与 。
V. 泛化分析
A. 泛化结果
B. 与 -正则化 Adam 的比较
VI. 实验
Investigation on Singular Values of Hessian
Investigation on Generalization
Investigation on Convergence
VII. 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编