智源研究院：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年

科技 2024-10-22 20:44 北京

Next-Token Prediction is All You Need。

作者｜王艺

编辑｜栗子

通往AGI的道路千万条，多模态大模型是极其重要的一条。

无论是Sora的发布引起的关于“世界模型”的讨论，还是Midjourney、Adobe Firefly、快手可灵、Runway Gen-3、Vidu等模型的爆火，抑或是作为具身智能机器人“大脑”出现，能感知多维环境信息、提升机器人适应性和创造力的VLM（Vision-Language-Model）……显然，多模态大模型的浪潮已不可阻挡。

据Gartner预测，建立在多模态大模型上的生成式AI应用，将从2023年的1%，激增至2027年的40%，未来的市场充满了想象空间。

然而，当今市面上绝大多数的多模态模型，要么采用Sora的Diffusion Transformer（DiT）架构，要么采用大语言模型+CLIP的训练方式。

尽管都能实现多模态的感知和生成，但是各个模态之间本质上是仍然是独立的，仍然需要各种显性或者隐性的pipeline进行连接。这种“各模态分开训练”的方式不仅模型复杂度高、训练数据需求量大，数据融合难度大，而且无法真正做到对图像和视频的理解，很容易造成信息的损耗和丢失。

时代呼唤能真正理解物理世界、实现端到端输入和输出的原生多模态大模型。

2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3架构示例图源：智源研究院

“World in One，One for World”。在媒体沟通会上，智源研究院院长王仲远用这样一句话形容Emu3的价值。

或许，中国原生多模态大模型时代正在到来。

1.真正的原生多模态大模型

“人工智能感知、理解物理世界的终极技术路线不是以语言大模型为核心对齐和映射其他模态的技术路线，而是应该采取统一模型的范式，实现多模态的输入和输出，让模型具备原生的多模态扩展能力，向世界模型演进。”

这是今年6月的智源大会上，王仲远对于大模型发展技术路线做出的预测。当时，他还预告了智源要发布多模态原生大模型的消息。

仅仅四个月之后，智源就兑现了他的承诺。

Emu3大模型通过下一个token预测的方式成功实现了视频、图像、文本三种模态的统一理解与生成，而且在图像生成、视觉语言理解、视频生成任务等表现上，也超过了SDXL 、LLaVA-1.6、OpenSora等知名开源模型。

图注：在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中，12 项基准测试的平均得分，Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。图源：智源研究院

具体而言，Emu3用一个从零开始训练的Transformer模型处理所有类型的数据——它提供了一个强大的tokenizer，能够将视频和图像转换为token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中，并统一到一个离散的token空间的。接着，Emu3通过auto-regressive（自回归）的方式一个接一个地预测序列中的token，然后生成文本、图像和视频。

这种算法架构给模型带来了高度的灵活性，不仅为Any-to-Any的任务提供了更加统一的研究范式，也使得直接偏好优化（DPO，是一种优化方法，旨在直接优化模型预测的用户偏好，而不是传统的间接优化指标）能无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

简单来说，使用Emu3，用户不仅可以生成对世界有着准确理解的图片，还可以预测后面的视频帧，生成更符合现实世界物理规律的视频。

Emu3文生图案例图源：智源研究院

用户问题: Describe the landmark.

模型回答: The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.

Emu3文生视频过程帧画面展示图源：智源研究院

除了算法上的创新，优秀的生成效果和优质的训练数据也不无关系。

Emu3的训练数据很大一部分来自于之前悟道系列Aquila天鹰大语言模型的训练数据，以及训练前两代多模态大模型Emu1、Emu2时候积累的数据。同时，智源研究院还和北京电视台签署了战略合作协议，北京电视台的部分视频数据也将被持续用于Emu3的训练过程中。

“作为科研机构，过去我们在大语言模型上为行业带来了一些基础的思潮和创新指引。在多模态大模型上，我们觉得也需要为行业指明一条新的方向。”王仲远说。

2.“自回归是多模态大模型的下一代技术路线”

曾几何时，关于哪种技术路线能带来AGI的争论喋喋不休。

尽管GPT和Claude、Llama等一系列大语言模型的成功证明了基于“next-token-prediction”的自回归路线的有效性。但却也不乏Yann LeCun等学者出来唱衰，认为现在的大模型“比猫还笨”，并且提出了基于自监督路线的联合嵌入预测架构（JEPA）。

LeCun的质疑不无道理。

“next-token-prediction”被认为是通往AGI的可能路径，但这种范式在语言以外的多模态模型中没有被证明。多模态的生成任务很长一段时间里被扩散模型（例如 Stable Diffusion）主导，而多模态的理解任务则由组合式的方法（例如CLIP视觉编码器与LLM结合）所主导。而由于效率、并行化能力和长依赖处理等问题，自回归的技术路线鲜少在多模态大模型的训练中被采用。

在王仲远看来，LeCun观点的核心在于他认为大语言模型到不了AGI，而这在某种意义上也说明了探索多模态模型自回归路线的重要性。

“大语言模型为什么比猫还笨？因为仅凭文本是无法理解世界的。猫或其他动物天然地就在凭视觉感知世界，因此我们也有很多学者在研究通过视觉信号触发智能的能力。语言的确很重要，但如果要做到对世界有足够的理解，它首先要看到、感知到，才能把不同模态的信息交互，进而做到理解。”王仲远说。

王仲远认为，一个真正的AGI需要做到“理解”这个世界，多模态大模型也不例外。

相较于DiT和LLM+CLIP，自回归技术路线的优势在于，它做到了生成和理解的统一，只用一个Transformer模型就能处理所有类型的数据，不仅具备可扩展性，而且可以复用现在的算力基础设施进行训练，极大节省了算力资源。

“Emu3目前的视频生成质量已经可以比肩Open Sora这种开源的模型，未来随着参数量、数据质量、训练效率的提升，甚至能生成具有情节的长视频、具备更强的推理能力，实现比Sora更强的效果。”王仲远介绍。

智源研究院将此次Emu3的发布比作大语言模型领域里的GPT-3时刻。在 GPT-3 之前，所有人工智能技术都是专用系统，模型不通用；而作为一个单一模型，GPT-3展现出来的“暴力美学”让人们看到了通用语言智能的可能性，这是NLP几十年发展以来大家一直在追求、却始终无法实现的理想。

Emu3统一了文字、图像和视频理解与生成的技术路线对多模态大模型领域有着同样的意义。

王仲远表示，原来学术界和产业界都对auto-regressive（自回归）到底能不能做图像和视频的生成持怀疑态度，但智源研究院认为，大一统的原生多模态大模型是大模型发展道路上必须去攻克的技术方向。

尽管也有很多国际同行在做大模型基础技术路线的研究，但在多模态大模型领域，智源是首个训练出成熟模型并面向国际社会发布的。

“智源研究院作为一个科研机构，我们会做高校做不了、企业不愿做的事情。所以一方面我们会坚持原始创新，另一方面我们也希望为世界多模态大模型的训练范式指明一个方向。”王仲远说。

3.加速具身智能和科学计算的发展

无论是大语言模型还是多模态模型，最终的目标都是实现AGI。

在去年的智源人工智能大会上，智源研究院理事长黄铁军总结了三条实现AGI的技术路线:

大数据+自监督学习+大算力形成的信息类模型，以OpenAI的GPT系列模型为代表；
基于虚拟或真实世界，通过强化学习训练出来的具身模型，以Google DeepMind的DQN深度学习技术为代表；
直接抄自然进化的作业，复制数字版本的人脑和智能体，即脑智能。

可以看出，除了大语言模型之外，黄铁军也十分看好具身智能和科学计算的发展，而这也是智源研究院目前着重布局的两个方向。

AGI可能的技术演化路径图源：智源研究院

由于可以与物理世界交互、并在此过程中不断发展智能体的学习能力，具身智能被认为是通往AGI的关键道路之一。

据不完全统计，今年以来“具身智能”融资事件超50起，其中最高一笔融资近10亿元，其热度可见一斑。而多模态大模型，作为具身智能的“大脑”，是具身智能感知和理解世界、与物理世界实现交互的重要基础。

Emu3证明了下一个token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。换句话说，Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将有利于产业化。

未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。

而将大模型应用于基础科学的AI for Science（科学计算），则是实现AGI的另一条重要道路。

今年的诺贝尔物理学和化学奖都颁发给了AI领域的科学家，这标志着AI与基础科学深入融合时代的到来。AI for Science将极大加速和扩展科学研究的效率和能力边界，底层科学的第一性原理也将成为AI向AGI进化的根本驱动和扩展引擎。

“大模型永远不可能只存在数字世界里，Emu3的技术路线是非常有潜力加速AI for Science的发展。”王仲远说，“就像蛋白质和DNA的研究，它是需要有图像的，这时候如果只靠大语言模型无法解决这些问题，还需要有视觉等多模态的理解和推理能力，这就是为什么我们认为Emu3‘大一统’的技术路线是更优的。”

尽管目前8B参数的Emu3模型已经可以很好地理解物理世界、生成更符合现实世界逻辑的图像和视频，但在智源看来，随着后续算力、数据和模型参数的扩大，以Emu3为代表的原生多模态大模型还将体现出更加令人惊叹的能力。

“Scaling Law在多模态大模型领域是存在的。事实上我们内部也有试验过更小的模型，包括1.8B的模型，到了8B之后，我们发现模型的效果确实是在变好。所以我们可以预计，如果模型参数进一步提升，那么多模态大模型的语言能力、跨模态理解能力也会大幅提升。”

同时，算法上的进步，也将为Emu3这种原生多模态大模型的未来发展打开更多的可能性。

“我们现在还是一个dense（稠密）的架构，未来还可以尝试往MoE模型发展。原来在大语言模型上可能的发展趋势和路径，未来在多模态大模型上可能都能得到验证。”王仲远说。

（封面图来源：智源 Emu3 官网）

END.

http://mp.weixin.qq.com/s?__biz=MzU5OTI0NTc3Mg==&mid=2247537488&idx=1&sn=6c5949ad25c4c28d4fd77288f1c780d0

甲子光年

甲子光年是一家科技智库，包含智库、社群、企业服务版块，立足中国科技创新前沿阵地，动态跟踪头部科技企业发展和传统产业技术升级案例，推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

最新文章

登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

中国电子签，十年已过万重山｜甲子光年

全球eVTOL研发排名第9，沃飞长空如何用钉钉做研发？｜甲子光年

独家专访新型神经网络FAN作者：用傅里叶分析弥补Transformer重要缺陷｜甲子光年

美国政府COO马斯克｜甲子光年

对话李彦宏：应用驱动是百度的第一性原理，基础模型两年一个大版本就够了｜甲子光年

首批重磅嘉宾曝光！2024甲子引力年终盛典等你参与！｜甲子引力

2024，终会成为直播电商拐点｜甲子光年

AI如何在物理世界更好的产生效用？｜甲子光年

“AI+代码”是暂存的假象，还是前途无量？｜甲子光年智库

新消费时代，柔性供应链如何帮助工厂打造“新质生产力”？｜甲子光年

零一万物发布行业解决方案：AI to B如何才能不赔钱？｜甲子光年

甲小姐对话RockAI刘凡平：以群体智能挑战OpenAI的造神之路｜甲子光年

【榜单征集：2024全球AI华人青年科学领袖奖】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

为什么这款只有345克重的手写AI笔记办公本出圈了？｜甲子光年

美国大选前的硅谷：政治漩涡中的权力游戏｜甲子光年

「甲子光年」在第19届亚洲品牌盛典、第十八届中国品牌节揽获四项大奖｜甲子光年

香港科技产业，不必再提“失去的二十年”｜甲子光年

独家直击Liquid AI发布会：非Transformer架构AI模型有了听觉和视觉｜甲子光年

【榜单征集：全球青年科学领袖奖】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

《2024年AI代码平台及产品发展简报》——重构智能时代的开发模式，释放AI数字生产力｜甲子光年智库

年度最大港股IPO诞生，地平线做对了什么？｜甲子光年

【万千流变，一如既往】2024甲子引力年终盛典将于12月10日-11日在北京召开｜甲子引力

城市算力网，为什么是海淀？｜甲子光年

【榜单征集：企业榜】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

【榜单征集：机构榜】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

智源研究院：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年

AI硬件如何摆脱“昙花一现”的魔咒｜甲子光年

AI手机爆发年，手机芯片如何从顺应潮流到引领潮流？｜甲子光年

AI触手可及，我们应该做些什么？｜甲子光年

玻色量子获数亿元A轮融资，量子计算离我们还有多远？｜甲子光年

史上录取率最低YC，一个信息检索工具为何脱颖而出？｜甲子光年

金华金义新区：因地制宜发展信创新质生产力｜甲子光年

特斯拉Robotaxi发布，马斯克望投资者再信他一次｜甲子光年

致敬稀缺：万千流变，一如既往｜甲子光年七周年

自动驾驶竞赛生死时速：中美“土洋萝卜”谁将主宰未来？｜甲子光年

人工智能学者拿下诺贝尔物理学奖，意料之外还是情理之中？｜甲子光年

处于多事之秋的OpenAI，决定拯救开发者预算｜甲子光年

从一所“年轻”大学走出的国际顶会获奖团队｜甲子光年

数据产业新实践：密态计算技术迈向商业化｜甲子光年

10个AI驱动的小产品，展现100种创新力量｜甲子光年

训练两个小时需要半个小时保存数据，如何破局？｜甲子光年

在百度这场大赛上，我们看到了“AI超级应用”的影子｜甲子光年

估值超200亿的AIoT独角兽要IPO了｜甲子光年

Meta开发者大会：黄仁勋亲测全新全息AR眼镜，Llama 3.2发布｜甲子光年

专访地瓜机器人：今天的具身智能就像八年前的自动驾驶，投入要趁早｜甲子光年

具身智能工业机器人，何必是人形？｜甲子光年

人被异化的投影，正在被机器人消除｜甲子光年

这家AI公司，做出了全球最大的原生3D大模型｜甲子光年

生成式AI落地的无数种可能，都在云栖大会看到了｜甲子光年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

智源研究院 ：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年

1.真正的原生多模态大模型

2.“自回归是多模态大模型的下一代技术路线”

3.加速具身智能和科学计算的发展

智源研究院：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年