扩散模型训练终于不再是噩梦了!
纽约大学的谢赛宁团队最近放出了一个重磅消息:他们发现了一种新方法,可以让扩散transformer(DiT/SiT)的训练速度提高18倍!
这个名为REPA(表征对齐)的方法,不仅大大缩短了训练时间,还能让模型达到更好的性能。
为什么扩散模型训练这么难?
扩散模型虽然强大,但训练起来却是个噩梦。
以前的研究者们告诉谢赛宁,训练一个DiT/SiT模型需要700万次迭代,要跑好几周才能达到论文里报告的FID分数。
这简直是在考验研究者的耐心和计算资源!
但是,谢赛宁与团队并没有被这个困难吓倒。他们深入研究了扩散模型学到的表征(representation),发现了一些有趣的现象:
扩散transformer 确实能学到不错的表征,而且生成效果越好,表征质量也越高。
但是,这些表征还是比不上像DINOv2、JEPA或MAE这些自监督学习方法得到的表征。
当我们测量扩散模型特征和DINOv2特征的对齐程度时,发现扩散模型在训练过程中确实在慢慢进步,但这个过程实在是太慢了。
表征对齐:扩散模型训练的突破口
谢赛宁团队的灵感其实来自于NYU的Yann LeCun教授的观点:仅仅依赖"渲染"损失是不够的。
如果你只关注重建漂亮的像素,就无法过滤掉输入中的无关细节——而这恰恰是学习强大表征的关键。
看来,即使你的目标是生成好看的图像,你也需要先学习一个强大的表征,然后才能处理那些让图像看起来漂亮的细节。
基于LuCen 提供的洞见,谢赛宁团队提出了REPA方法:通过一个简单的正则化项,让扩散transformer 的潜在表征与强大的外部视觉表征(如DINOv2)保持一致。
这个小小的改动带来了惊人的结果:
训练DiT和SiT变得容易多了。
在ImageNet 256x256上,他们用引导区间方法达到了最先进的FID=1.42。
这个方法还具有很好的可扩展性——对于更大的模型,改进效果更加明显。
谢赛宁表示,看到这些结果时,他并不觉得自己发明了什么全新的东西。相反,他感觉我们对扩散模型和自监督学习方法学到的表征还知之甚少。
不得不说,大佬就是这么谦虚!但也确实,我们需要保持着敬畏心,这很重要。
该研究对构建真正的世界模型有很多启示。而且,我们还需要新的、可扩展的方法来改进视觉表征。在生成模型和表征学习之间,还有太多等待我们去探索的领域。
它不仅让扩散模型的训练变得更加高效,也为我们理解和改进AI模型的内部表征提供了一个新的思路。
表征对齐的坑,已经挖好了,怎么上来填坑发paper,就看你的了!
相关资料
- Paper: https://arxiv.org/abs/2410.06940
- Project page: https://sihyun.me/REPA/
- Code: https://github.com/sihyun-yu/REPA
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!