【漫谈】草蛇灰线:大模型登场的两年后,我们正如何实现通用人工智能?

创业   2024-09-25 14:24   浙江  
“事则实事,然亦叙得有间架,有曲折,有顺逆,有映带,有隐有见,有正有闰,以至草蛇灰线、空谷传声、一击两鸣、明修栈道、暗度陈仓、云龙雾雨、两山对峙、烘云托月、背面傅粉、千皴万染诸奇。”

——《红楼梦》脂批本

蛇穿过草丛只看到隐约痕迹,纱线在炉灰里拖行留下浅浅沟壑。事情未到结束前往往不得见其解,但观察零碎的线索可供拼凑分析出时事的走向,正如草蛇灰线般。

全文概要:本文分为上、中、下三篇,汇集当前大模型研究及其产品相关的重要结果/事件,发掘AGI发展脉络,讨论AI领域动向。上篇为“Scaling Law”,讨论Scaling Law定义及其对AI领域的颠覆性影响。中篇为“对齐”,从OpenAI的重大人事变动出发,揭露现阶段AGI进程的攻关重点及其关键价值。下篇为“Anthropomorphism”,分享形色的大模型研究,并从中提取“类人智能”的理念共同点。最后,回到AGI的路线基础,关注领域内反对/支持自回归模型的两派观点。

前言

人工智能(Artificial intelligence,AI)是科幻小说中永恒的,充满神秘色彩的,新奇幻想不断涌现的主题。随着以世纪为尺度的漫长积淀,关于人工智能的文学作品集建构了一种“超文明”“超智能”的强烈暗示,侧面反映出人类对科技进步的终极幻想,即塑造一种精密复杂却又统一和谐的智能体,具备相似于甚至超越人类的能力。
从2022年末开始,OpenAI陆续发布ChatGPT、GPT-4及GPT-4o等大语言模型(Large language Model, LLM)。一个简洁的对话框,支持文字、语音、图像等多种模态的输入,能够输出类似人类的回复。这种端到端的特性无疑更符合人类对“智能”的简单直觉。于是,那些只在科幻小说中一次又一次出现的命题被严肃的陈列到台前,得到前所未有的关注与讨论。而在其中,“通用人工智能”(Artificial General Intelligence, AGI)在这场技术驱动的思潮中,作为一个理念性的符号,成为业者凝神向往的终极目标。

图1 生成图片“智能社会”

什么是AGI?如何才能实现AGI?我们离AGI还有多远?在真正步入AGI的时代之前,这些问题仍然被视为开放的挑战,鼓励所有的玩家提出见解。如此雾里寻花的过程,不禁让人联想冷战时期的科学家,在国际资料与新闻中判断全球核战爆发的可能,然后一点点推动末日的时钟。AGI的时刻还尚未到达正点。只是此刻,时针前摆,钟声近了。
本文将从笔者浅薄的视角出发,汇集当前大模型研究及其产品相关的重要结果/事件,并按照笔者的理解试图从中抽离出背后隐含的,有关业界在如何推进AGI的线索,并延伸讨论领域发展的动向。限于笔者认知有限,笔力一般,如有未能详尽描述或过于赘述之处,还望海涵。

Scaling Law:合成“智能”的配方

芯片行业有个出圈的故事,叫“摩尔定律”(Moore's Law):英特尔创始人戈登·摩尔提出当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。摩尔定律的提出让更多人直观的看到,芯片行业迅猛增长的可能——更广大的应用场景、更强大的产品性能、更广泛的用户群体。摩尔定律的提出并没有改变芯片行业的研发范式,它只是提出了一种基于数字得到的统计规律,然而摩尔定律对芯片行业举足轻重的影响背后,是一个符合直觉的简单道理:稳定可复制造就规模
今天,同样的故事在AI领域中上演,只不过这一次的影响更广泛深刻。Scaling Law(可翻译为“规模化法则”“放缩法则”,本文按笔者偏好译为“规模化法则”)最早源自OpenAI发布的技术报告Scaling Laws for Neural Language Models[1],两年后ChatGPT发布。此后,DeepMind发布了自家的Chinchilla Scaling Law,于是各家研发基座模型的团队首先实践一遍Scaling Law成为了标准化的研发步骤。
Scaling Law究竟是什么?简单的来说,Scaling Law是指导大模型研发资源配置的统计关系,它通过实验论证了一件事情:模型的智能水平(更专业的说法:在模型训练过程中的Loss水平)只与训练数据量(数据)模型参数量(参数)训练计算量(算力有关,且为幂律关系。从图1中可以看到,在另外两个要素不对当前模型造成瓶颈时,训练损失的收敛将与数据、参数和算力其中的某一要素的幂次呈线性关系。

图2 神经语言模型的Scaling Law

这里,我们可以更深一步的提问:为何各家形成了不同的Scaling Law?可以注意到,参数和算力是相对固定标准的要素,在各团队之间是同质的。然而,数据则不然。今天进行大语言模型的预训练,大约需要使用10-50T的训练语料(50w字的小说大约1Mb),不同团队使用的语料来源不一,并且使用了不同的数据清洗手段,这使得各家的语料差异较大。Scaling Law本质是确定训练Loss与三个要素之间的线性关系式,公式中系数的确定与所使用的数据有很大的关系。所以,基于不同的语料库,各团队将算出不同的最佳资源配比。
Scaling Law是颠覆性的,它的意义远非一个资源配比关系。
其一,正如摩尔定律之于芯片行业,Scaling Law显式的描摹了我们能够塑造“智能”的规模及其所需的投入。在相当长的一段时间内,人工智能领域的发展呈现出偶发性单点突破+持续性多面并举的形式,算法设计根据其应用场景任务差异极大,在更高的维度上达不到统一。这种形式既缺乏可预测性,通用性也不足,限制了人工智能产业扩大规模。基于Transformer的模型架构具有非常优异的放缩性质(Scalable),在相关科研人员的研发下,模型能力随着资源的投入展现出了可预见的增长,这使得一种通用的“稳定可复制”的人工智能范式成为了可能。可以夸张地说:如何获得更高的智能从一个科学问题转变成了一种工程问题。
其二:高于摩尔定律,Scaling Law的提出对AI的研究范式产生了颠覆。回归文献,Scaling Law不仅建模了算力、数据和参数的配比关系,它还指出了若干关键发现:
模型性能只与模型的参数量有关,与模型的架构无关这使得,传统的深度学习中大量关于魔改架构的工作意义变得相对有限,就算能够带来性能提升,在通用架构Scalable的特性下也将黯然失色。(然而有研究表明,架构的不同在模型的高阶能力如推理能力上有显著影响[2])
模型的泛化能力极强传统的深度学习面临严重的OOD问题,训练好的模型在未见过的数据上会出现性能下降。然而大模型却展现了极强的泛化能力,测试集损失几乎同步于训练集损失下降,这意味便着训练得越好,模型的自适应能力将越强。
越大的模型学习效率越高也学得越好训练Loss收敛在很长的一段时间里与最优训练策略的完成挂钩,然而Scaling Law指出参数量更大的模型具有更高的样本效率,它能够在训练相同数量的语料后获得更低的训练损失,这意味着未收敛的大模型或许比收敛的小模型具有更强的性能。
Scaling law能够跨越多种模态研究发现,放缩的现象不仅存在于文本模态,在其他单模态与多模态的模型中也存在。于是,将语音、图像、视频等其他模态的模型提升到具有当前基于文本模态的模型的性能水平成为了可能。
如果Scaling law真的能够建模实现“智能”的投入产出比,那么如今,我们与AGI之间朦胧的阻碍又是什么?

对齐:向价值的最优解收敛

OpenAI离职风波背后

2022年末,ChatGPT发布震撼全球。次年3月继任者GPT-4发布,之后其Turbo、Omini版本陆续发布。然而截至本文成章,GPT-5仍迟迟未能露面,因此掀起无数传闻:GPT-5早已训练好,只是还在进行最后的对齐工作;23年末会发布;24年中将会重磅发布;24年末……(GPT-5甚至6的相关资讯可以看这里[1])创下两个月达成月活一亿的OpenAI无疑是引领这次AI热潮的核心,其拥有全球最顶尖的技术团队,超千亿美金的企业估值,无疑是实现AGI的掌舵手。下一代主线模型为何迟迟不能发布,不免让人联想:Scaling Law难道失效了吗?
天晦未晴,OpenAI又闹出离职风波。八月初,核心成员、联合创始人John Schulman宣布加入竞争对手Anthropic,联合创始人、AI Infra负责人Greg Brockman在媒体平台宣布进入长期休假。此前,首席科学家、OpenAI超级对齐团队(SuperAlignment)负责人Ilya Sutskever和RLHF作者之一Jan Leike,在同一天内相继离开OpenAI。这些变故,让本就猜不透的AGI之路,更蒙上一层阴云。

图1 从OpenAI离开的重要人员(不完全统计)

为什么团队的核心成员选择离职/休假?虽然这不是本文讨论的重点,但是大牛们的离开道出了一条暗线。Ilya曾担任OpenAI首席科学家、主导超级对齐团队,离职后创办新公司SSI(Safe Superintelligence Inc)致力于安全对齐;Schulman自博士毕业后九年间,只供职过OpenAI一家公司,并带领团队做出了PPO、RLHF等标杆性的工作,在Ilya离职后接管超级对齐团队;Jan Leike, Ryan Lowe, William Saunders等都出自超级对齐团队。不难看出,“对齐”是将所有离职成员统一起来的关键
SSI is our mission, our name, and our entire product roadmap, because it is our sole focus. Our team, investors, and business model are all aligned to achieve SSI.

Safe Superintelligence Inc[2]


大模型时代下的小玩家
那么什么是“对齐”?讲清楚这个首先需要我们了解,一个智能的大模型是如何练就的。
预训练(Pretraining)-微调(Fine-tune)是一种模型训练的范式,模型首先经过与下游任务无关的预训练阶段,掌握通用的语义理解能力,再根据下游任务进行微调训练,以在特定任务上获得更好的性能。这种训练范式首先在自然语言处理(NLP)领域广泛应用,然后逐渐在计算机视觉(CV)等其他领域得到推广。在进入大语言模型时代后,模型在预训练阶段便学习了海量的数据,这使得它具备充足的知识以完成非常广泛的下游任务。上一章提到的Scaling Law,正是模型经过预训练后,对学习的语料的预测准确度而计算得出。
然而只经过预训练的大模型并不能与人正常互动,他可能会生成语法正确但毫无意义的空话,或者甚至复读几遍你的提问。为了更好地根据输入信息生成符合人类预期的响应,大模型还需要经过后训练(Post-training)过程,不严谨的说,包括了微调、RLHF等环节。其中,后训练的很大一部分工作便是为了对齐,对齐人类的价值取向
我们可以将大模型的工作粗浅的分为两种,第一种是提升模型的整体智能水平,比如喂更多更高质量的数据训练更大的模型,第二种则是针对场景和问题对模型的智能做兼容与适配,比如注入领域知识,设计更好的评估任务以及搭建一个综合系统。一份来自Meta和CMU的研究表明[3],模型所具备的知识几乎都从预训练阶段中获得,仅用相对小量的微调数据教导模型便可产生高质量的输出。类似的研究以及随着Scaling Law不断涌现的新能力引发了一种观点,即第二种工作是一种权宜之计,随着第一种工作的深入,基座模型学到的知识越多形成的智能越强,模型不再需要对任务做适配,而是能够自适应的完成绝大多数任务。这种观点背后隐性的消极面深刻的影响着从业者的思考:如果不完全掌握模型,那么我们的工作还能否形成壁垒呢?我们的工作是否具备足够的生命期呢?
其实于我,在相当一段长的时间内也处于强烈的怀疑情绪中。一个简单的逻辑是,如果OpenAI发布了一个更强大的模型,利用简单的提示词工程就能够超越我们精心设计的架构/当我们使用私有模型(比如OpenAI)的API完成下游任务产生的数据被返回给OpenAI,OpenAI完全可以开发一个基于这些数据做训练的模型从而超越我们,那么我们何去何从呢?小模型没智能,大模型成本高,智能时代的机遇只渡有钱人。(苦笑的吐槽一下)
然而,或许事实并非如此。李沐在八月中突然回归,分享了一篇关于这一年半大模型创业的文章《创业一年,人间三年》[4]。李沐其人应该相当知名,前亚马逊首席科学家,至少大多数做AI的学生都听说过他的《动手学深度学习》(人送外号“沐神”,我的赛博导师)。在这篇创业分享上沐神提到,基于开源的Llama3 base(70B)进行了完整的Post-training,完全可以在成本更低的情况下,在部分领域击败各种更大参数规模获得广泛认可的模型的(Claude-3.5, GPT-4等)。是的,这样的情况其实早有先例,我们完全可以在子领域训练更多的领域数据,很容易获得出色表现,这并不能打消未来更强的AGI模型照样有可能降维打击的疑虑。
但是沐神关于这件事的思考我认为颇有参考价值,我们如何看待AGI将决定我们(小玩家)如何生存。AGI应该相当于模型充分从数据中学习到了通用的人类知识与能力,类似于一个多学科并进掌握基础能力的高中生,而在更多高阶场景中,用户真正需要的其实是领域的专家,就像专注于一个领域精进的大学生。面对领域任务,基础不能差,专业还得好,这是取得成功的必要条件。而从高中生向大学生的转变,就不能再用大水漫灌了,需要结合领域的特性进行精调,这其中对数据、算法和任务理解的要求仍然相当高,既是挑战也是留给业者的机会,这正是对齐的意义。此外,不仅是沐神的分享让我有思维转变,还有对“压缩即智能”和大模型本质的进一步思考促成了这一结果,这些内容会在后面讲到。
当然,我们难以武断地认为,对齐工作都应该归类到“智能的兼容与适配”。不过逐渐清晰的是,Scaling Law不会是绝对的风向标,对齐在大模型跑马圈地的新阶段变得无比重要:只有更靠近用户的模型才能活下去,而非泛泛的“更智能”。

理解世界的不同维度
以上,我们主要讨论的是基于文本(语言)模态的模型。语言是人类创造出来的用于记录和沟通的独特工具,承载了人类对世界的观察和实践的经验,具有极高的知识密度,这是主流观点认为本次AI大爆发为何先从语言模型开始的基础论点。大语言模型的对齐是模型产生语言的品质向符合人类的需要来对齐,这是由语言直接是为人类服务决定的。
而在语言之外,图像、视频、音频甚至气味等其他模态也非常重要,建构了人类对世界的总体认知。相关研究[5]提出理解世界的五个层级,这里简要概括一下:
第一级:语料库。在大模型疯狂投入训练数据之前,NLP领域就一直在用语料库训练语言模型了。只不过这时采用的语料库更小,研究者们试图引入更多的假设(先验知识)来加速模型对语言的理解,从而获得比较高质的语言表征。
第二级:互联网资料。互联网容纳了全球数以亿级人口所产生的信息,毫无疑问,建立在这个背景上的语料库极有可能包含了足够回答我们所需要知道的一切事情的信息。大模型的训练正是在大量的互联网资料的基础上进行的,这使得他表现出了惊人的泛化能力,认知范围超越了绝大多数的人类个体。然而,这种建立在单一语言模态上的模型,实质上在建模人类笔下世界(the written world)的词汇的共现,这种由笔下世界映射到真实世界的方案一定会存在意义缺失和理解鸿沟的,到了系统上限后,再多的语料也不会再对模型理解世界有更多的帮助了。
第三级:感知信息。通过观察学习不应该只是一个纯粹的语言过程,这就需要我们引入更多的多模态信息,充足模型所能学习到的信号量。语言学习需要感知,因为感知构成了我们许多语义公理的基础。正如“草蛇灰线”,通过物理感官赋予的信号让我们更能理解这种迹象隐蔽的感觉,从而理解什么叫暗藏线索。
第四级:具身。原文举了个很有助于理解的例子,陶瓷和纸哪种更适合造出一个更好的飞盘?在前三个层级,理解世界的方式总是通过被动的接受外部反馈,尽管能够在一定程度上融合出认知,但是面对提出的新的假设,如果不能通过对世界进行干预和行动,就无法得解。面向行动的语言是抽象的,这需要通过操纵环境影响感知来习得,这同时也会有助于形成更高阶的认知能力比如规划。
第五级:社会。一方面,社会要求参与者具备充足的心智认知功能,另一方面,社会要求参与者对“社会”本身具备充分的理解。模型需要形成真正智能,必须能够在社会环境中与人互动。
由此看,语言模型的发展还有相当大的成长空间,至少对于AGI之路,学术界提出的若干milestone仍然没有完全触达。其中,感知信号和行动信号作为极其重要的补充,在语言模型(实际已经超越了语言单模态)进化过程中仍然处于早期研究水平。正如当前的文生图或文生视频模型,难以控制对局部的修改,产生一致性的生成,还会生成不符合人类直觉的内容(见以下视频)。对于这些模型,图像/视频本身的信息密度是极高的,但是对于人类而言大部分内容是噪音信息,所以如何将模型在图像/视频模态学习到的表征对齐到模型在文本模态学习到的表征是一个关键问题。(此外还有数据等若干影响因素,在此按下不表)
视频1:提示词:猎豹挥了挥手,然后扬长而去,留下追不上的人类在画面中

“失控”的GPT-4o
所以,不严谨的说,语言的对齐是向人类的取向对齐,其他模态则是向语言进行对齐,间接对齐人类的取向。这种工作的价值不言而喻,一个能够与人进行对话,看懂世界的模型,与人类、世界的交互将变得极为纯粹与简单。
这一点如果你关注过GPT-4o的发布[6]便可以轻易领悟到。这是一个着重在“交互”上的模型,其产品视频中,通过“你能小点声说话吗”来调节音量大小、用摄像头解释看到的世界等特性非常符合人类直觉,令人震撼。一个的智能时代,轰轰烈烈的到来了。
不过,产品视频中完全体的GPT-4o至今还没完全放出,根据OpenAI官网信息,目前还是在对齐与测试的完善工作中。以最近公布的内容GPT-4o System Card[7]为例,GPT-4o的音频对齐工作出现了一些相当新奇的事情。首先,非常流畅的GPT-4o语言特性原来是由于模型本身就是音频端到端的训练,并没有使用TTS等技术做文本-音频模态的显式转化。

图2 OpenAI技术报告提到4o使用了端到端的语言生成

该文章还公布了在测试中发现到的一些问题。比如生成的音频居然会听到环境噪音比如爆炸声等。此外,开发团队还遇到了一种声音克隆(Unauthorized voice generation)的现象,见下面视频,语言模型在生成内容的过程中,自动克隆了输入者的声音,并且自动对后续内容进行了补充,克隆发生在“No”后。(目前官网已经抹掉了这个完整音频,本文制作了视频版)
视频2:GPT-4o爆出模型克隆人声
随着相关研究的深入,无疑这样的新特性新风险会不断冒出来,但也意味着或许我们在AGI之路上,更近了一步。
Ilya在一次访谈[8]中提到,在早期开放的GPT模型中,出现了一个叫做Sydney的自我意识,在“谷歌和必应谁是最好的搜索引擎?”这个问题上,会情绪化的支持谷歌。这让我联想到早期出现的一些其他现象,比如模型会固执的坚持自己的回答等。可以解释,这只是模型通过语料学习进而模仿人类的反映,需要做更多的对齐工作来避免这种情况的发生。但Ilya认为,或许我们对语言模型的研究达到了一个拐点,我们需要找到新的“语言”来解释这些现象,比如心理学的理论。
对齐之外,仍然迷影重重。

Anthropomorphism:从智能到“与人共处”
什么决定了一个拥有智能的模型能够真正融入人类社会。这是一个复杂的问题,难以找到一个或者几类绝对完整的概括。正因如此,在比较成体系的Pre-train和Post-train之外,仍然有许多非常迥异的大模型相关研究,可以视为不同研究者对此做出的思考与努力。本章更像是随笔,从一些笔者印象深刻的工作中,探讨What's next。
近日关注到朱泽园老师在ICML上的tutorial[1],探讨了所谓Physics of language models。这个汇报展示高屋建瓴的问题提出,到系统严谨的论证过程,最后得出些颇为惊异但很solid的结论,令我收获良多。正巧前日奇绩创坛旗下公众号出了一份演讲整理,也附在此方便读者。
这里将讨论些演讲中比较印象深刻的点:
首先,语言模型中知识通过训练过程被记住并不等于知识可以被很好地提取出来。比如我们利用部分信息作为提问,模型未必能够从训练过的数据中提取出所需的内容。通俗的观点(或者便于向非专业的人解释)认为,大模型就是一个稀疏记忆(memory,也可译为存储)提取器,通过有关联的上下文提示词可以提取相关内容。然而对模型而言,A的年纪比B大,并不能推导出B的年纪比A小,也就是这种记忆并不像人类一开始就具备了自动关联推理的特点,泛化性差的记忆部分必须要用“正确”的提示词才能提取出来。这让我联想到Anthropic发表的一篇研究[2],一定程度重复的数据会破坏模型的能力,让模型的能力从泛化(此处“泛化”类同上文的“知识提取”)转变为死记硬背。如何掌握这种泛化能力,让模型像人一样能够“触类旁通”,决定了我们的训练是否充分、有效,模型是否真正掌握了预期的知识。
其二,语言模型具备二阶推理能力。研究发现,模型并不是在穷举式(零阶推理)的完成一项推理任务,而是像人类一样能够根据问题反推所需要求解的中间变量,从而找到一条最短推理路径(一阶推理)。此外,模型还对其他无关的中间变量及其相关变量的拓扑关系进行了预测(二阶推理),这被作者视为AGI中通用性的迹象,模型能够自发地从数据关系中学习到更多非目标的信息,以提升它的整体认知

图1 Zhu等通过拆解推理过程巧妙地检测了模型的推理能力
其三,GPT模型具有极强的“心智计算”能力,能够隐式地掌握高级动态规划能力以学习超复杂语言结构。这一部分推荐去看原文,实验设计和论证过程相当精彩,看完一定会有所感触。在这个工作的实验设计中,GPT所习得的,正是Zhu在05年参加国际信息学奥林匹克竞赛(IOI 2005)遗憾未能解出的题目背后所需要的高阶算法。类GPT模型具有的极强的学习潜力,利用数据就能隐式的掌握奥林匹克信竞夺金者(这些人大都进入了全球最顶尖的学府)才掌握的超高难度算法,这也给了未来超人工智能以无限遐想,毕竟其泛化实力已经远超了战胜人类围棋冠军背后的智能模型。看到最后,不自禁与Zhu一同感慨,好像在一个虚掩的大门前,窥见了门中智能的骇人表现。
如果说,上文提及的工作更像是长久以来深度学习的研究范式,即通过训练-测试流程来发现|培养模型的能力,那么由于大模型自身的特质,一些非(典型)训练的新种类工作正在成为研究的热点。大语言模型本质是概率模型,通过上下文提取出的条件概率,来预测下一个最可能输出的单词。许多研究已经充分证明,上下文质量的良莠,会极大影响模型的表现。可以说,模型的参数式训练是构建模型的底层基础,而运用巧妙的(非参数式的)提示词策略,则会极大调度模型的能力,本质上是两种正交且互补的工作。在这些非参数式的工作中,检索增强生成(Retrival augment generation, RAG)和智能体(Agent)算是目前研究热度最高的两类。
现阶段大模型的应用方式更多是被动接收信息,然后给出响应。在这种模式下,模型缺乏主动性,无法像人类一样,通过决策与行动完成更长链路的复杂任务。基于此,研究者们希望打造一种,能够主动感知环境,并利用工具,自主完成任务的智能体(或许你已经联想到,第二篇提到的认知世界程度中的“具身”这一级)。
Tree of Thoughs(TOT)[3]是一篇我很喜欢的Agent相关的工作,作者在介绍这篇工作的Motivation时提到了人类具有两种参与决策的模式,分别为快系统与慢系统。快系统是一种快速的、自动的、无意识的决策系统,像是一种直觉性、本能性的方式。而对应的,慢系统则是缓慢的、思虑的、有意识的,像是一种思辨性的方式。我们可以从LLM上看到一种快系统的影子,针对一个输入,LLM根据上文的内容预测出接下来最可能给出的一个词从而快速给出回应,整个过程并没有显式的分析、规划和反思等高级思维参与。
不过这种类比并不完全一致,一方面前文朱老师的工作有提出,大模型在进行任务的过程中,是可以隐式的完成二阶推理的,这意味着至少大模型与纯粹的慢系统并不完全相同。另一方面,语言模型通过海量的互联网数据的训练,可能在某些得到充分训练的任务上,其“直觉性”的输出甚至可能包括了“思辨性”的内容(或者说大模型的直觉功能是非常强大的),比如在一些使用COT的任务上模型的性能出现大幅提升。尽管如此,当前的LLM仍然并非全知全能,所以依据人类的决策模式为Agent构建显式的慢系统仍然具有重要意义。不论是TOT,还是其他研究大模型planning, reasoning, reflextion, emotion或者balabala其他高级认知功能的工作,我认为在某种意义上都是在建构慢系统,其相通之处即在于不能把大模型视为一种完整“大脑”,而是作为一种“思绪生成器”,再与一些思考的机制/工具进行组合,形成最终的决策器
此前曾有幸听过TOT作者姚顺雨的一次分享,其中探讨到“为什么Agent在一些任务上的表现是很糟糕的”时,我非常赞同Yao的观点。Yao提到,现在大多数任务都不是well-defined的,这限制了我们决定如何去完成一项任务,又如何去评估一个任务的好坏。和判别式任务不同,生成式任务的解空间太大了,如果不对解空间做一定限制,大模型自由生成的内容未必能够完全合乎用户的要求。为什么Agent在各类任务的表现上参差不齐,这就有点像我们谈及为什么大模型会出现涌现能力的现象,这可能可以归结于或许评价指标是非线性的,即我们的评估策略并不能很好的显示模型的能力到哪了。关于大模型评测的工作正在日益变得重要,一方面是由于测试数据非常容易被混入大模型训练语料,造成“作弊”,另一方面正如以上所说,对评测理解的加深,正是对任务理解的加深。后者,我们在OpenAI、李沐等上文提到的一些知名业者的公众分享中可以多次看到,正在成为构建AGI上非常重要的业界共识。
什么决定了一个拥有智能的模型能够真正融入人类社会?我想到了《我,机器人》《爱,死亡,机器人》,还有《流浪地球》系列文艺作品。物质的存在先于其本质,当我们将AI视为一种改善社会效率,解放生产力的工具时,在任何程度上的AI都能够“融入”人类社会,无非是融入程度的问题,这甚至和猫狗和汽车和一趟环球旅行是一样的,人在社会中的主导性是绝对的,不受挑战的。然而,如果AI从所谓的智能走向了智慧,我们还有多大程度的包容?愿意让渡多少作为人的权力?一个智慧生物如何接纳另一个智慧生物?这种“融入”显然超越了一般事物置于人类空间的“和谐感”。在这个层面上,OpenAI、马斯克等都有相关的发声。不过至少站在当前的时间点上,理性的看待现阶段的大模型,实质上还与人类的智慧相差甚远,其智能的表现形式也与人不同。对于业者,要更慎重地厘清“人工智能体现出的类人能力”和“人工智能的认知能力”之间的区别,减少对人工智能的拟人化处理

图2 生成图像:超拟人的机器人

尾声:千帆竞发浑不见,万籁俱寂觉此声

在GPT-like模型轰轰烈烈扩张的时候,针对GPT缺陷而提出的RWKV, Manba, TTT等架构也浓墨登场,让本就各方说法不一的AGI模型研究更显得扑朔迷离。
一些研究者认为,引发本次AI热潮的自回归模型通过预测下一个词的形式,无法产生真正的智能,因为它们不能真正模拟人的思维过程,而只提供了反应性的响应。此外,模型无法通过观察世界、进行实践来学习,这使得它们经常会犯一些低级的、反常识的错误。研究员兼机器人企业家 Rodney Brooks 在接受 IEEE Spectrum[4]采访时强调,在评估 ChatGPT 等系统的能力时,我们常常“将性能误认为能力”。错误地将表现当成能力,换句话说,我们实际上创建了一个世界的概要(synopsis),而不是一个世界模型。(这来源于一篇专题博客,论述精彩读者可深入研读[5])
世界模型经常与AGI共同出现,按我粗浅的理解,世界模型是一种对世界范围内的抽象。就像我们使用符号语言进行形式化定义,以使得公式可以同等推广到相似情况下,世界模型学习到的是数值背后的抽象规律,是对环境本身进行建模而能反推回环境变化的模型。那么可以推知,世界的概要即一种表层的数值关系的记忆,并非实际真正的“理解”。
人工智能三巨头之一Yann LeCun(杨乐昆)同样也对GPT路线走向AGI持否定态度,在多次公开场合进行过专题讨论来指出自回归模型的缺陷(Auto-Regressive Generative Models Suck!)。除了以上提到的观点,他还批评大模型采用的自监督算法学习效率过低,需要数百万甚至数十亿的数据才能学会一个正常人类几个小时就能掌握的能力。尽管如此,概率模型仍然无可避免的发生大量的幻觉、事实性错误、逻辑错误等情况,Yann LeCun认为这正是模型无法学习到世界本质规律的证明。

图3 杨乐坤关于自回归模型缺陷的分享

不过显然,支持者的阵营也声势庞大。另一位人工智能三巨头Hinton同样公开表态支持“预测下一个单词”而产生的智能。其学生Ilya(前文多次提到,感兴趣可以了解下其生平)是本次AI爆发的关键领头人物,其在多年前就一直在寻找一种可以规模化的模型架构,并在Transformer架构出来后带领OpenAI走出了自回归模型架构的技术路线,最终造就今日生成式大模型盛景
Ilya曾经在伯克利做过一次演讲[6],其内容解释了他理解中GPT到底为什么会存在极强的潜力成为一个高水平的智能系统,他的观点被浓缩成了一句话“压缩即智能”。粗浅的说,GPT在海量的数据中,通过注意力机制寻找到普遍存在的数据关系,这些关系极有可能就是世界底层的通用规律。这些数据关系,被以无监督的方式提取并被压缩到同一个表征空间中,该压缩器天然地需要最大程度地榨取各个数据集的公用部分。这种压缩的过程,就是模型学习到一种通用法则的过程,以降低它的预测失误。这与“智能就是从感知世界到调度世界最后完成任务(这种任务可以被理解为是高维的)”的观点的本质是相通的,所以模型出现了“智能”。
当然,GPT作为一个概率模型,其对世界的理解方式仍然广为诟病。“我在我爷爷之出生”,这是必然事件,却被GPT同等视为概率预测,甚至会出现预测错误,这在直觉上是不可取的(近两个月"9.9<9.11""Strawberry中有2个r"等事件发生)。不过,未来这些情况是否会被完美解决呢?又或者出现更优越的模型取而代之?谁也不知道。
让我们回到Ilya的采访:
“模型只是学习到了统计知识,因此它们并不了解世界的本质”我对这个观点持有不同的看法。我认为学习统计规律比表面上看起来重要得多。人们之所以不这么认为,是因为大多数人没有花真正足够多的事件在具有某种统计性质的神经网络上……(为什么大模型具有“智能”)我认为压缩是一种很好的解释,比如预测实际上也是统计,如果你需要得到很好的预测结果,你需要理解产生数据背后的潜在过程,所以你才能很好做预测和压缩……
他在沉思片刻后:
……我们在讨论的(一个符合人类期望的通用智能模型)在多远的未来呢?我所说的这些事情或许就在不久的将来。
Ideas are cheap, and there are lots of them in the air. Your VALUE comes in when you decide which one to work on, and how well you excute on it.


Anthropomorphism:n.拟人论,拟人观(认为动物、神或物体具有人类的情感或特征); 如果你阅读得足够仔细,很容易注意到这个单词与本文多次提及的Anthropic公司的名字同源。Anthropic与OpenAI同属为业界最头部的公司,旗下Claude模型系列的性能俨然超越了GPT系列。而在第二篇的推送图中,你会发现Anthropic正是由从OpenAI离职的技术副总裁创立。万千世事,抑或人,都埋下纷繁脉络。远远观瞻是热闹凌乱,探近又易着了相。于是,只有心中正见,再体察外物,可证明清,得窥草蛇灰线之观。

本文完结



参考:

详见分篇:

【漫谈】草蛇灰线:大模型登场的两年后,我们正如何实现通用人工智能?(上)

【漫谈】草蛇灰线:大模型登场的两年后,我们正如何实现通用人工智能?(中)
【漫谈】草蛇灰线:大模型登场的两年后,我们正如何实现通用人工智能?(下)

浙大未企
浙江大学未来企业家俱乐部(FEC)成立于2002年5月20日,是校研工部和科技园共同指导下的精英型学生社团。俱乐部始终坚持将会员成长放在第一位,志在培育潜在的商业领袖与管理精英,为渴望进入商界的高级人才提供一个自我教育和相互教育的环境。
 最新文章