写在前面
01 AGI四个核心要素逐步明晰
随着Gemini 1.5和Sora发布,我们觉得,大模型或者说AGI的基本结构又进一步清晰。目前可以看到有四个核心要素:
模态层
模态包括语言、代码、语音、视觉等各种模态。这部分类似于representation, 其实是编解码,不同模态用不同的编解码头。这块相对浅层。背后的原因,我们推测是因为LLM作为基准,其他模态可以在此基础上做跨模态的知识迁移,因而模态部分的学习变得简单。例如,Sora 利用Transformer架构学习文本与视频之间以及视频本身的时空关系,通过将视频数据token化,实现了视频生成模型与大型语言模型(LLM)在架构上的无缝集成。Transformer架构本身跟语言关系不大,它只是在处理token之间的关系,最后再把这些token折换成语言。从这个意义上来说,不同模态的”语料“之间并没有质的区别。由于LLM是目前能力最强的模型,未来多模态模型很可能以LLM作为出发点,将LLM的认知能力迁移到其他模态,这不仅提高了其他模态的智能上限,也显著减少了对数据的依赖。
在Gemini 1.5里有一个例子令人印象深刻。卡拉芒语是一种全球使用人数不足200 人的语言,几乎从未在互联网上留下痕迹。把卡拉芒语语法手册放在prompt里,模型仅仅通过上下文学习(in-context learning),就能够学会将英语翻译成卡拉芒语,质量可与使用相同材料学习的人相媲美。这意味着,长提示效果非常好,模型可以从上下文给出的信息中学习新技能,而不需要额外的微调。
世界模型(World Model)
AI落地到具体应用场景,要理解当下任务并预测未来情景,需要超越简单的文本学习,深入获取各个领域知识、领域相关的私有数据以及相关任务的“过程数据”(即领域专家是如何分解任务、产生结果的)。人类的世界模型是非常复杂的网络。目前对于Sora到底多深地真正认知物理世界,是有争议的。
推理能力(Reasoning)
指AI解决复杂问题的能力,其中涉及规划、调整、组织、反馈、执行、预测等等。只有AI具备了足够的推理能力,才能真正落地到生产环境解决真实的问题。这是智能的核心。
记忆和学习能力
Gemini 1.5带来的1M token长上下文是个非常重要的突破,意味着模型已经能够一次性处理海量信息,而且是多模态——如1小时的视频、11小时的音频、超过30,000行的代码库、或是超过700,000个单词。这说明它的session context已经是一个有效的memory了。长上下文增强了in-context learning能力(Google最近发布https://arxiv.org/pdf/2402.09727.pdf,介绍了一种非常有效的in-context learning方法)。这样一来,AI的学习从pre-train阶段挪到了上下文prompt中,极大降低了学习的成本,让实时学习成为可能。最近,OpenAI也提到未来将支持cross session的long term memory。可见这是大模型发力解决的重点之一。
以上四个核心要素构成了基础的AI架构。其中,模态层相对简单,真正的壁垒在于其他三个要素。类比人脑,人脑也是靠浅层的多模态信息编码成更深层的神经元信号,来实现更深入的理解。除模态层外,其他三要素是通过embedding来交流的。不论什么模态的信息,最终都是抽象成跨模态通用的embedding来处理。其中,记忆和学习能力的技术相对成熟,大模型最核心的挑战还在于世界模型的构建以及推理能力的提升。
02 MoE架构给开源带来更多机遇
03 Sora的启示:视频生成自对弈的“恐怖闭环”即将开启
04 2024年值得关注的方向
2024一开年,就有两大巨头的新作炸场,大模型的竞争越来越激烈,也让我们对于这一年AI技术的发展更加兴奋和期待,根据Gemini 1.5与Sora揭示的线索,在24年我们认为AI领域如下值得从业者关注,也是我们会重点关注的投资方向。
视觉在某些方面对信息的抽象能力更强,带宽比文字要大很多。举个简单的例子,一张城市地图可以把一个城市landscape表达得一清二楚,而如果用文字描述,可能花费非常多Token也解释不清。有了视觉模态,大模型与人类互动的带宽大了很多,可以更低成本、更有效地获得大量信息。 视觉模态引入了时间维度,这样很好地表达了因果逻辑。大量的时间序列信息将把许多因果逻辑自然地给到大模型,而这些信息如果用语言描述,将是非常庞大的工作量。我们预计这将让大模型对物理世界的认知有巨大提升,从而大幅提升它的推理能力。
About Atom Capital