谢赛宁:重要的话说三次,表征对齐很重要!!!

旅行   2024-10-14 14:00   北京  

扩散模型训练终于不再是噩梦了!

纽约大学的谢赛宁团队最近放出了一个重磅消息:他们发现了一种新方法,可以让扩散transformer(DiT/SiT)的训练速度提高18倍

这个名为REPA(表征对齐)的方法,不仅大大缩短了训练时间,还能让模型达到更好的性能。

为什么扩散模型训练这么难?

扩散模型虽然强大,但训练起来却是个噩梦。

以前的研究者们告诉谢赛宁,训练一个DiT/SiT模型需要700万次迭代,要跑好几周才能达到论文里报告的FID分数。

这简直是在考验研究者的耐心和计算资源!

但是,谢赛宁与团队并没有被这个困难吓倒。他们深入研究了扩散模型学到的表征(representation),发现了一些有趣的现象:

  • 扩散transformer 确实能学到不错的表征,而且生成效果越好,表征质量也越高。

  • 但是,这些表征还是比不上像DINOv2、JEPA或MAE这些自监督学习方法得到的表征。

  • 当我们测量扩散模型特征和DINOv2特征的对齐程度时,发现扩散模型在训练过程中确实在慢慢进步,但这个过程实在是太慢了。

表征对齐:扩散模型训练的突破口

谢赛宁团队的灵感其实来自于NYU的Yann LeCun教授的观点:仅仅依赖"渲染"损失是不够的

如果你只关注重建漂亮的像素,就无法过滤掉输入中的无关细节——而这恰恰是学习强大表征的关键。

看来,即使你的目标是生成好看的图像,你也需要先学习一个强大的表征,然后才能处理那些让图像看起来漂亮的细节。

基于LuCen 提供的洞见,谢赛宁团队提出了REPA方法:通过一个简单的正则化项,让扩散transformer 的潜在表征与强大的外部视觉表征(如DINOv2)保持一致。

这个小小的改动带来了惊人的结果:

  1. 训练DiT和SiT变得容易多了。

  2. 在ImageNet 256x256上,他们用引导区间方法达到了最先进的FID=1.42

  3. 这个方法还具有很好的可扩展性——对于更大的模型,改进效果更加明显。

谢赛宁表示,看到这些结果时,他并不觉得自己发明了什么全新的东西。相反,他感觉我们对扩散模型和自监督学习方法学到的表征还知之甚少。

不得不说,大佬就是这么谦虚!但也确实,我们需要保持着敬畏心,这很重要。

该研究对构建真正的世界模型有很多启示。而且,我们还需要新的、可扩展的方法来改进视觉表征。在生成模型和表征学习之间,还有太多等待我们去探索的领域。

它不仅让扩散模型的训练变得更加高效,也为我们理解和改进AI模型的内部表征提供了一个新的思路。

表征对齐的坑,已经挖好了,怎么上来填坑发paper,就看你的了!

相关资料

- Paper: https://arxiv.org/abs/2410.06940  

- Project page: https://sihyun.me/REPA/  

- Code: https://github.com/sihyun-yu/REPA  

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章