对话智源研究院院长王仲远:纯语言模型无法实现AGI,多模态将是必经之路

科技   科技   2024-10-22 20:18   北京  

出品 | 搜狐科技

作者 | 梁昌均

运营编辑 | 王一晴

自ChatGPT诞生以来,大语言模型被视为加速迈向AGI(通用人工智能)的一条路径。但如今,这条技术路线已引发越来越多的质疑,某种程度上也推动了多模态大模型的发展。

提倡世界模型的图灵奖得主杨立昆(Yann LeCun),最近就怼了获得诺贝尔物理学奖的“AI教父”杰弗里·辛顿,认为其夸大了AI的威胁。“目前的AI还没有达到人类水平,甚至不如猫聪明,AGI还要等几年到几十年。”

此前,OpenAICEO山姆·奥特曼预测,人类有望在几千天之内达到AGI。马斯克、黄仁勋,以及刚落得诺贝尔化学奖的谷歌DeepMind CEO哈萨比斯等科技大佬都认为,AGI可能会在五年左右,甚至更快时间到来。

不过,到底哪种技术路线能够实现AGI,目前业内还没有共识。近日,智源研究院院长王仲远在与搜狐科技等媒体的沟通会上认为,纯语言模型无法实现AGI,技术往后发展一定会有统一的多模态大模型,这将是未来通往AGI的主流技术路线。

为什么大语言模型迈向AGI的潜力遭到质疑?王仲远称本质是文本数据用完了。“除了文本数据,像图像、视频、音频数据,包括真实世界的数据,是文本数据的十倍、百倍、千倍。”

不过,如何将更加海量的数据有效集成到大模型中去训练,是需要攻克的问题。智源研究院则在这一前沿领域进行了探索,并率先跑通了一条新的技术范式。

这次沟通会上,王仲远正式发布智源研究院历时半年多研发的原生多模态世界模型Emu3,其实现视频、图像、文本三种模态在同一个模型架构下的统一理解与生成。

众所周知,OpenAI的ChatGPT通过采用大规模的神经网络预测下一个token,从而为其带来智能涌现的能力。那么,这种能力能否用在图像、视频等多模态领域?

目前,在文生图、文生视频等多模态生成领域,国内都诞生了不少受用户关注的产品,其主要都是基于Diffusion或DiT架构为主的模型,这些架构基本都是为这些领域而量身设计。

在多模态理解领域,行业内常见做法是,以语言模型为核心,再把其他视觉信号映射到语言模型上,形成组合式的多模态模型。因此,目前多模态在理解和生成上存在割裂。

Emu3则选择了另外一条技术路线,摆脱扩散模型或组合式方法,验证了基于下一个token预测的多模态技术范式,为多模态发展指明了一个方向。

“Attention is all you need 开启了Transformer这样一条技术路线,Next-token is all you need可能开启多模态大模型一种新的训练范式,可能是下一代大模型的训练路线。”王仲远表示。

根据智源的评测,Emu3在图像生成、视觉语言理解、视频生成任务上的表现超过了SDXL 、LLaVA-1.6、OpenSora等知名开源模型。

据王仲远介绍,和目前主流的多模态技术路线相比,Emu3所采用的技术范式,最核心的区别在于采用一个大一统的模型去解决所有多模态的生成和理解问题,能够做到文本、图像、视频等多模态的输入和输出,并实现了多模态理解和生成的统一。

“现在的产业界在多模态方面,依然比较像传统的模式,即针对特定的产品和任务去做模型。”王仲远表示,Emu3则不需要去使用多种模型,只需要一个模型解决所有的事情,实现了“One for world,world in one”。

得益于这种统一大模型更通用、更泛化的能力,它未来将在机器人、智能硬件、多模态交互、自动驾驶等领域都具备落地应用的潜力。

他还强调,目前Emu3这种大一统多模态大模型在Scaling Law上的潜力还刚刚显现。如果数据、参数、算力等继续十倍提升,模型能力也将大幅增强。据了解,目前Emu3参数规模接近百亿,采用了数千张卡进行训练。

“Emu3是大模型发展历程中的一个重要里程碑,它相当于OpenAI当年发布的GPT-3。”王仲远表示,它还远没有到像ChatGPT一样,让所有人都非常容易去使用和广泛体验的阶段,希望能和行业企业进一起合作,期待多模态领域出现“ChatGPT时刻”。

今年2月,王仲远从产业界转向科研界,接任智源研究院院长。谈及过去半年在多模态上的探索,他感慨,不断在绝望和希望之间挣扎。“这就是科学探索的魅力,如果一帆风顺,就不是真正意义上的科学探索和创新。”

目前,智源已将Emu3的关键技术和模型开源,希望行业能够共建发展。此次沟通会上,王仲远阐释了智源进行多模态探索的初衷、具体的技术考量,以及实现AGI的技术路线争议等,以下是对话精编。

Emu3为多模态发展指明了方向,
技术替代周期会很长

媒体:智源研发Emu3的初衷和目标是什么?

王仲远:我们一直强调智源的机构定位,要做企业不愿意做,高校做不了的原始创新。智源要做下一代探索,做未来三至五年才会被行业认可的技术路线判断。

大语言模型,市场已经复现。但在多模态大的研究方向上,一直没有探索出真正的基础模型。当下的多模态理解,多模态生成,比较像之前的深度学习的方法,针对特定的产品、特定任务,这对Scaling Law或者AGI 来讲,产业界现有的方法是不够的。

Emu3是我们认为在整个大模型发展技术路线上必须要攻克的技术方向:原生多模态,统一理解和生成。过往智源在大语言模型上为行业带来了很多的技术思潮和方向,在多模态训练方向上,智源也需要为整个行业指明一个方向。Emu3的意义很有可能会在一两年之后,大家会有更强烈的感知。

媒体:Emu3是如何实现图像、视频和文字的统一输入和输出的?

王仲远:Emu3将文本、图像、视频各种模态的信息通过统一的tokenizer 映射到一个离散空间,通过Autoregressive(自回归)的方式进行统一训练。相当于发明了一种文字、图像、视频统一的“新语言”,这种语言能够在一个统一的空间里表达。

媒体:Emu3的多模态推理能力如何?和市场上生图、生视频等多模态大模型有什么区别?

王仲远:Emu3不是一个视频生成模型,也不是一个图像生成模型,它是一个原生的大一统多模态,还能做文字、图像、视频的理解。它是对已有的多模态大模型技术路线的颠覆,但是这个颠覆不是突然出来的,学术界、产业界一直都在探索,只是智源率先做出来了。

它综合能力很强,效果已经超越了很多开源模型,但还没有达到每一个方向上的最优,也还没有超越闭源模型的能力,这是跟资源投入、训练时间有关。

它很大的一个潜力是因为图像、视频、文本都在Token空间,可以做大规模的跨模态推理,可以是图像,视频或文本,类比o1 系列,具备更大规模化的能力。

媒体:Emu3验证的技术范式和过去的范式有什么优势?

王仲远:第一,多模态肯定是大模型发展的下一个重要方向。现在的多模态,或者是基于 Diffusion架构来做生成,或者是组合式模型,即把语言模型与CLIP结合的范式。

Emu3是把生成和理解统一,把文字、图像、视频从原生上,从最开始训练的时候就统一,并且具备扩展性,而且使用的是Autoregressive的方式,这种类似于语言大模型的训练架构,能够解决大一统的问题。

第二,能够复用现有的硬件基础设施,同时我们也证明了Scaling law,Emu3比前两代的版本有了巨大的效果提升。这很有可能是下一代多模态大模型的训练范式,在多模态上,我们第一次先于国际社会发布,率先验证了新的大一统的原生多模态技术路线。

媒体:您提到了Emu3的优势,它相较其它技术路线的局限性是什么?

王仲远:卷积神经网络在视觉用的非常广泛,DiT是过去这一两年新提出来的技术路线,效果确实比之前模型要好。DiT技术路线已经走通了,从确定性的角度来讲,企业会更愿意复现这样的技术路线。

Emu3的发布,更多的证明在Autoregressive这条技术路线上的突破。它所需的资源并不比大语言模型小,但是能极大程度复用现有的大语言模型训练的基础设施,比如GPU集群,训练框架不需要做特别大的修改,有望加速整个多模态大模型的迭代和最终产业应用。

媒体:Emu3对DiT或前几代的技术路线,是降维打击还是会完全替代?

王仲远:深度学习发展专用模型,在特定的产品应用中有其独特之处。例如,人脸识别,即使大模型做到现在这个程度,也没有直接替换人脸识别的专用模型。在图像、视频特定的一些场景,DiT架构有独特的优势。

Emu3大一统模型更重要的是更通用、泛化的能力以及理解和生成统一的能力上的独特优势,我们不期待立刻能够替换掉所有的DiT技术路线,替代的周期会比较长,但是技术的先进性是可以很容易做出判断。

实现AGI仅靠语言不够,

统一多模态大模型将是主流路线

媒体:大语言模型中有Scaling law且认为正在失效,这在多模态模型适用吗?瓶颈会是什么?

王仲远:Scaling law在多模态上是存在的,如果模型参数进一步提升,多模态大模型的语言能力也会大幅提升。Emu3是原生的,如果语言能力大幅提升,那么跨模态的理解和推理能力也会随之大幅提升。

Scaling law在语言模型上有没有失效已经开始有些争论,但是在多模态大模型上还远没有打开,还要去进一步验证千亿乃至万亿模型,也可以再往MoE的架构演进。所以,大语言模型所有可能的路径以及发展趋势,在多模态大模型上都可以得到进一步的验证。最大的瓶颈还是在算力,在多模态上验证Scaling law,参数如果扩大 10 倍,所需的算力必须增加。

媒体:现在大模型的技术路线非常多元化,这种多元化会是大模型的发展趋势吗?

王仲远:大语言模型的技术路线范式并没有发散,依然在沿着GPT的技术路线。反而是多模态模型,现在太发散了,没有收敛,比如,多模态的理解和生成能不能够统一?大家还没有形成共。

Emu3的重要的意义是让语言模型的技术路线和多模态的技术路线不是一个分叉的关系,而是一个统一的关系,我们认为统一的多模态基座是未来的趋势。

这个基座到底应该怎么训练?之前有很多的猜想和提议,Emu3 第一次成功验证了这条技术路线,将不同的模态信息,用原生的、同一种架构给压缩起来,并且展示了非常好的理解和生成效果。我们相信Emu3 会为未来整个多模态基座模型的发展指明一个收敛的方向,是下一代的多模态大模型的训练范式。

媒体:最近杨立昆说AI比猫还笨,是否代表GPT路线的错误?您如何看他提出的世界模型的技术路线?

王仲远:杨立昆认为现在的大模型比猫还笨,很重要的一个论点是他认为纯语言模型到不了AGI。从这个意义上来讲,我们也认为纯语言模型是不够的。如果要理解感知、推理这个世界,首先要看得到、感觉到世界,才能把不同模态的信息进行交互理解。

真正的AGI需要理解这个世界,这恰恰是Emu3统一多模态技术路线的非常重要的贡献。他还提出来一个新的认知框架,该框架通过借鉴于动物大脑,设计了多个可以类比的子功能模块,从而帮助实现具有自主性的人工智能系统。我们应该永远鼓励和支持不同的技术路线的探索,统一多模态世界模型也是其一。

媒体:现在通往AGI的路径,有各种不同说法或路线,如OpenAI最近又开始做强化学习,您对实现AGI的路径怎么看?

王仲远:对怎么达到AGI,行业现在没有共识,语言模型能不能,有很多争论。OpenAI的o1确实证明了大语言模型加强化学习能够进一步的提升模型的智能化的水平,但它到底能不能通往AGI仍然有争论。

杨立昆就认为大语言模型不足以通向AGI,我们认为AGI 是要真正像人类一样,不只是思考推理,还必须是要多模态的。多模态是AGI的必经之路,尤其是人工智能进入物理世界,进入各行各业的必行之路。

媒体:您为什么认为多模态大模型是通往AGI更好的路线?

王仲远:当前的多模态理解某些效果不错,是先把语言学到了非常高的能力之后,再把视觉的信息做了一个桥接,发挥语言的处理能力,在我们看来这更像是一种打补丁的方式,不是像人类大脑的原生方式。

Emu3的技术路径,是一开始就像人类一样,接收了各种不同模态的信号,展示出了能解决这些不同问题的能力。从最终效果上来看,Emu3可以做到每一个方向上最优秀的模型的效果,但这背后涉及到资源、训练时间、成本问题,包括各方面投入。

作为一个研究机构,我们更重要的是开源这条技术路线,给行业指明一条新的方向。我们现在做的是0-1的突破,但是1-10还需要大家共同努力。



搜狐科技
搜狐科技聚焦前沿科学与科技产业报道,深度跟踪基础科学、人工智能、互联网、通信等领域重大事件,洞察科技趋势与商业逻辑。
 最新文章