谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

科技 2024-11-11 14:01 广东

磐创AI分享

来源 | 量子位（QbitAI）

编辑 | 凹非寺

视觉自回归模型的Scaling，往往不像在语言模型里那样有效。

谷歌&MIT何恺明团队联手，有望打破这一局面，为自回归文生图模型的扩展指出一个方向：

基于连续token的模型比离散token模型在视觉质量上更好。
随机顺序生成与光栅顺序相比在GenEval测试上得分明显更好。

受到这些发现启发，团队训练了Fluid，一个基于连续标记的随机顺序自回归模型。

扩展至百亿参数的Fluid在MS-COCO 30K上zero-shot条件下实现了6.16的FID分数，并在GenEval基准测试中获得了0.69的整体得分。

团队希望这些发现和结果能够鼓励未来进一步弥合视觉和语言模型之间的规模差距。

100亿参数自回归文生图模型

回顾过去，两个关键设计因素限制了自回归图像生成模型的性能表现:

离散token。大多数此类模型借鉴NLP的做法，先用vector-quantized（VQ）方法将图像离散化为一组token，每个token只能取有限的离散值。这种量化难免损失大量信息。
光栅顺序。即按从左到右、从上到下的固定顺序生成token。这种方式虽有利于推理加速，但也影响了生成质量。

Fluid继承了团队在今年6月份研究《Autoregressive Image Generation without Vector Quantization》的思路，抛弃离散token，改用连续token。

它借鉴了扩散模型，用一个小型去噪网络近似每个token的连续分布。

具体而言，模型为每个位置的token生成一个向量z作为条件，输入一个小型去噪网络。这个去噪网络定义了token x在给定z时的条件分布p（x|z）。训练时，该网络与自回归模型联合优化；推理时，从p（x|z）中采样即可得到token。整个过程无需离散化，避免了量化损失。

再来看看生成token的顺序。按固定的光栅顺序逐个生成token，推理时虽然可以用kv缓存加速，但因果关系的限制也影响了生成质量。

Fluid另辟蹊径，随机选择要生成的token，并用类似BERT双向注意力的机制捕捉全局信息。

在推理时采用完全随机顺序，训练和推理过程的序列分布更一致；同时还能对每个token进行类似GPT的temperature采样，进一步提升了生成多样性。

得益于扩散损失和MAR范式的双重加持，作者将模型参数量扩展到超过100亿，在MS-COCO和GenEval数据集上取得领先结果。

更重要的是，随着参数量和训练轮数的增加，模型在验证损失、FID、GenEval Score等指标上表现出良好的可扩展性，为进一步扩大规模提供了理论支撑。这与语言模型的Scaling现象非常类似，表明视觉大模型的潜力尚未被充分挖掘。

更多Fuild模型生成图像精选：

论文地址：
https://arxiv.org/abs/2410.13863v1

http://mp.weixin.qq.com/s?__biz=MzU0MDQ1NjAzNg==&mid=2247587012&idx=2&sn=6dbbcf4c8266e739c8259a327549b017

机器学习算法那些事

号主是大厂人工智能专家，专注于机器学习，深度学习以及计算机视觉等研究方向，每天会更新人工智能最前沿知识和分享自己的论文总结和学习笔记，让你系统化的学习每个知识点，每天进步一点点。

最新文章

深入浅出Batch Size，对模型训练的影响分析

TPAMI 2024 | 扩散模型中的测量指导：来自医学图像合成的见解

特朗普上台，第一刀再次扎在了留学生身上。。。

Make U-Nets Great Again！北大&华为强强联合

电子科大提出注意力机制创新，改进 MobileViT变体在早期降采样阶段的注意力 QKV 操作研究！

MIT教授，何恺明大神最新课程资料下载！

基于有效样本的类别不平衡损失CB-Loss

又一985，落地深圳！

清华大学提出 TANet 用于综合恶劣天气图像复原的三重注意网络！

首次明确！国务院: 博士学位论文，不再非写不可

TPAMI 2024 | 烘焙神经辐射场以实现实时视图合成

今年顶会这情况。。。大家提前做准备吧！

使用 Transformers 进行概率时间序列预测实战

深度学习常用损失函数总览：基本形式、原理、特点

李飞飞团队新作：空间智能版ImageNet来了！

TPAMI 2024 | 延迟感知的统一动态网络用于高效图像识别

50K*16薪，进字节了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

浅谈频率学派和贝叶斯学派

教授何恺明在MIT的第二门课！

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

TPAMI 2024 | 不确定性增强的鲁棒视频活动预测

transformer的细节到底是怎么样的？Transformer 连环18问！

1700 页，6 大主题！AI 学习路线手册发布！

降维和特征选择的对比介绍

北大韦东奕上课照片走红，板书潇洒，新发型吸睛，网友：这要打脸多少“只会翻PPT”的老师？

TPAMI 2024 | 什么样的地方会成为异常之地？

姜萍造假实锤！阿里数赛出结果。。。

如何理解attention中的Q,K,V？

TPAMI 2024 | 迁移标注者和实例依赖的转移矩阵以实现从群体学习

网传北师大教授与女下属建立“永久亲密关系”，承诺对方读博和自由列支经费？北师大回应

TPAMI 2024 | 通过寻找相关子空间对神经网络预测进行解耦解释

算法岗和开发岗有什么区别？

新增9所985！这份名单，再扩容！

TPAMI 2024 | 多模态图像融合的通用空间-频率学习框架

热议！博士一毕业，直接回老家县城大专任教，事业编、副教授待遇，外加几十万安家费…

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

TPAMI 2024 | 风格化学习：跨任务和领域的持续语义分割

仅32所高校！教育部公布重磅名单

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

甘露寺2024年招聘公告！环境清幽，包吃包住，午休3小时。。。

TPAMI 2024 | 桥接动作：在照片之间生成3D姿态和形状

浙大高飞老师：读博士有多苦？

TPAMI 2024 | 边缘感知自监督全景深度估计Transformer与球面几何

比亚迪开奖，只要双211以上？！

TPAMI 2024 | 局部非刚性运动恢复结构的封闭形式、成对解决方案

又一院士被“除名”！院士终生制，没了？

欧式距离、曼哈顿距离、切比雪夫距离三种距离的可视化展示

NeurIPS'24｜大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉