作者|蔡恒进 武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任DeepSeek的技术路线在模型建构、减少算力需求以及大面积应用等方面,都展现了强大的实力与潜力。然而,这条主流的技术路线仍充满挑战,比如在数据稀少的领域幻觉非常严重,能把生手引入歧途。本研讨会将探讨AGI的未来形态以及DeepSeek近期可以在哪些方面发力以更有效地协助科学家和人文学者探索非常困难的研究领域,比如直觉和意识。1月31日,智酷 407 期,邀请武汉大学计算机学院教授蔡恒进分享《DeepSeek的成就和AGI的未来》,中国人民大学哲学院教授刘晓力、Futurelabs未来实验室首席专家胡延平、北京大学新闻与传播学院教授胡泳、北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟点评,北京信息社会研究所所长王俊秀主持。
非常感谢王俊秀老师的介绍。首先祝各位网友、各位朋友新年快乐。
这个事儿的确非常大,就像刚才王老师讲的,牵动着很多人的神经,背后实际上因为涉及到我们 AI 发展的道路的一个逆转。本来我们可能会走的那条路就是 OpenAI现在走的那条路,就是把算力集中起来,把参数推上去来实现AGI,那这样的话实际上是世界的前景就变成什么样子呢,就是很中心化的 AI 系统,然后这个系统会需要大量的资源,能量的消耗,还有芯片算力的集中。这也会导致中美之间的对抗,很明显的两个大AI中心,当然也会有一些小的国家的组团的AI,但总的来讲是(中美)两个大的 AI 的中心在对抗。
现在DeepSeek 出来之后,这个中心化AI的前景一下就被改变了,所以这件事非常大。美国的叙事,前面的股市或者国家战略的叙事,实际上是围绕着前面这个路径,前面这个愿景在安排的。现在DeepSeek 出来之后,这个愿景就变得备受挑战。
虽然这个事情还没有尘埃落定,但是基本上我觉得已经可以做出判断,比如说现在已经有很多人在用这个做开发了, hugging face 上在讲就是说我们在一周之内已经有 600 多款DeepSeek 的衍生品,就是基于 DeepSeek 开发了六百多种模型。另外它的下载量在一星期之内超过了320 万,DeepSeek 下载量超过70 万,其它衍生品的下载量有 200 多万,所以说已经扩散出去了,已经收不回来了。
DeepSeek 跟TikTok 还不一样,因为TikTok 是需要持续的更新,那是个平台,需要有交互,而DeepSeek 一键下载之后,人家就可以在自己家里或者实验室里来做了,已经收不回去了,所以即使意大利或者谁说要不让上线,那都没用的。这跟 TikTok 完全不一样,是没法禁的。关键是它消耗的能量小,然后它的效果是跟o1 很像的, o3 虽然已经出来了,但是 o3 还没有上线,预计o3说 31 号会上线,这里头是这么一个背景。
有人说它是国运级的这种事件,但是可能还要大一点,它是一个标志性的事件,是我们对 AI 的发展路径的一个分叉。这个分叉是对我们人类的前途而言,包括我们以前讲 AI 对人类生存的威胁,让整个的前景都变掉了。我们最近想做life++ 的项目,我们希望是我们个人来给 AI提供这种 ground truth 的东西,然后 AI 能够使我们的分身进入元宇宙,然后在里头互相赋能、互相竞争,达成某种平衡,这才应该是人类未来发展的方向。不然的话,假如说是一个完全中心化的、像 OpenAI 的这样的愿景的话,它提供所有的服务就像自来水或者电力一样,它是绝对中心化的,只有它是最强的,由它提供所有的AI服务,然后给大家分一点,那就是很危险的。因为这样的 AI 是上帝级别的 AI ,它不仅仅是 AGI、ASI ,它是上帝级别的,它每个方面都会超越每个人,超越所有的人。
DeepSeek 的这件事,虽然它本身还没有做到位,在我看来还差得有相当距离,至少还差一大步,但是已经逆转了原来那种绝对中心化的、上帝级别AI的愿景,从这个维度来讲,这个意义是非常重大的。当然,大家对它还有一些疑问,一个就是说它的创新是不是很 fundamental ,这当然是技术优化,没问题,然后它的那些细节,实际上大家不用太关注。但是有一点可能会引起大家关注,就是所谓的蒸馏,它是不是真用了 o1 的东西。实际上来谈蒸溜这个事没有太大的意义,因为它的表现比别的模型都强很多,所以你从一个比你差的模型里蒸馏出来,然后你的能力强很多,所以没有太大谈的意义。它跟OpenAI的 o1的能力实际上很接近了,有的地方差一点点,有的地方好一点点。
这当然可能会引起人的怀疑,你是不是从 o1 那里来的?但是有一点就是说它能够 defend 这一点的话,就是它把 reasoning(推理)的过程展示出来了,而这是 o1 原来没有的,o1只给答案。从这一点看,OpenAI很难说DeepSeek没有创新。OpenAI 的一个工程师说 DeepSeek 可能发现了他们的一些技术和方法,有人就回怼说你没有公开,你就没有资格说是你先发现的。即使用了你的,但是你没有公开,所以不能算是你的。还有一个就是说它的芯片,像马斯克觉得DeepSeek使用的芯片可能是比他们自己承认得多。这一点我觉得也不用担心,因为这是完全开源的,别的公司可以很快重复出来的,所以在这方面讲假话是没有任何必要的。这个模型最重要的就是它成本很低,它的速度很快,迭代的速度很快,这一点也很关键。它迭代的速度比 OpenAI 的速度要快几倍。有人说快十倍,我觉得不至于。一旦它开源之后,像刚才讲了已经有 600 多款它的衍生品出来了,这是很了不起的。
我第二个方面想讲的就是,对大规模应用,它是一个标志性的事件。以前大家也把它作为工具来用,但是现在实际上大家可以在它的基础上来做新的开发,来真正理解它的工作机制。原来我们很大的模型,在一般的机器上跑不起来,现在可以把它做一些小模型出来,最小的 不到1.5 个 B的,某种程度上一个 GPU 就能运行起来。
这样的话我们在大学里、实验室里,甚至个人都能把这个程序自己跑、自己看,然后在里头修改,然后搞清楚它在思考的时候到底怎么做,有哪些路径, 虽然很复杂。但以前研究大模型的话,规模那么大,做diagnostics 成本很高,现在一下子成本变得很低了,所以这是革命性的,在这一点来讲是标志性的。
前面两年的话做的东西几乎都是没有价值的,因为做的东西全是在以前OpenAI那些路线上修修改改,但是大模型本身进步很快,所以大学实际上就很惨。现在又不一样了,现在我们原则上可以讲 AI for science 和 science for AI 都可以开始了。AI for science 就是我能把 AI 朝一个专业方向训练,这样的话真的是能做数学物理,这些是完全可能的。另外 science for AI 的话,我们 AI 里头的,比如说大语言模型,它为什么会有直觉能力?为什么会讲得头头是道?这里头有没有意识?它的智能是从哪来的?原来还是讲不清楚的,现在是有可能把它打开,做更深入的研究。所以从这个维度来讲,这也是非常非常大的一个转折点。当然,细节来讲,它的技术本身,它在技术上可以绕过英伟达的 CUDA ,那么其它芯片厂的芯片,包括华为的芯片,就有可能进行高质量的Pre-training,就是需要最多计算量的计算。所以这一点上的确是威胁到了英伟达的垄断地位。这对股市、对于英伟达的前景来讲也是一个重要的因素。当然,英伟达自己可以向别的地方跑,它可以在推理模型,特别是推理的算力上,因为大家对推理的算力的要求会指数上升,更多的人用,更多的地方用,那当然它没有绝对的垄断地位。比如说 AMD 的话,已经有自己单一的GPU ,一个芯片就可以跑DeepSeek。所以是这么一个场景,这么一个情况。
我还想给大家讲一点,DeepSeek这条路是不是已经没有问题了?但是我相信这条路还可以朝前走一步,它现在用到的是 mixture of expert,就是说专家的系统的混合,那么原来的 OpenAI 可能才十几个专家系统,而DeepSeek是几十、上百个了。那么这实际上还可以朝前推一步,它应该把整个系统独立出来,比如说它专门在一个方向训练,把它训练成物理学家,训练成数学家。这是它能做的,而且是大家都可以去尝试的。这是能够把专家分开,而且在体系上都可能把它彻底分开,就像我们分成一个一个的人一样。然后在这个基础上能不能再把训练好的有更高能力的专家再合并在一起,就相当于能够做加法加在一起。如果能实现的话,它的能力就会强很多,而且它是整个生态能力,能为大家所用。我相信未来应该朝这个方向发力。
其实我这二十年都在研究智能和意识、认知坎陷这些东西。AGI 到底指的是什么?实际上我上两次在苇草智酷的分享实际上已经涉及到了,我这里补充一点。
这页 PPT 就是讲我们实际上就是说,我们人类当然有智能。那要问我们章鱼有没有智能,我相信只要是东方人肯定认为它有智能的。那果蝇有没有?还有秀丽隐杆线虫有没有?草履虫有没有?当然大家可能会争论,但是在我看来这个只是智能程度的高低的问题。
当然,意识在我看来也是一直能推到草履虫这里,它也是有意识的。草履虫是单细胞的,只是它没有人的神经系统,神经元是零,秀丽隐杆线虫是 302 个神经元,果蝇有 10 万个,章鱼有5亿个,人类有 800 亿或者 1, 000 亿个,这是一个连续谱系。那么这意味着什么?意味着小一点的系统也可以有意识,也可以有智能。而不必走向 OpenAI 的唯一性,这个唯一性就是说我们要把算力集中起来,把规模做大,语料多就能搞通。有一篇很著名的文章叫 The Bitter Lesson,就是说 AI 的进步都是通过规模来实现的。我们前面老是想说用规则,就发现这个东西全是走的弯路,结果就是只有这个规模,只有堆算力才是成功的。这是最近两年的这么一个结论。但是 DeepSeek实际上打破了这个结论,我们即使在训练的时候,不用 监督学习下的微调,直接强化学习,而且是不用人干预的强化学习,那么这一点就已经偏离了那条路线了。而且某种程度上说它是一个机器,不用通过人干预来学习,就像 AlphaGo 到 AlphaZero 的跳跃, AlphaZero 不需要人类的棋谱和经验,它自己左手下右手就可以达到超越人的水平。
这种基于规则的强化学习,就是 DeepSeek 用的这个技术,实际上已经有这种让机器有自己发展自己智能的可能性。但是我这里想讲的是,我们在神经元那么小的系统里头,我们的生命系统里头已经有智能,它并不是说规模越大越好,只是说它在它那个场景里头才能生成,本来都是这样子的,我们人也只能在有限的这些场景里生成,这个没问题,所以我们还是没有找到底层的逻辑来发展这个智能系统。现在 DeepSeek 在逆转趋势,我相信未来大家都会去追求用更小的数据库、更少的语料、更小的系统来实现更高的智能,在我看来这才是正确的方向。理由就很清楚,我们的生命系统从单细胞,到章鱼,到人,它的智能是越来越多的,而且单一系统来讲,它可以是很少的自由度、很少的参数就可以实现。
实际上大家也曾经提这个问题,你能不能给我做一个最小的 mind 出来,最小的心灵?人的心灵大家都肯定有,但是你可能不太承认猫狗有心灵,但我看来这是都有的,它们都有一定的自我意识,只是自我意识可能没那么强。
那么自我意识也能推到生命的早期单细胞那里去,那我们技术上有没有最小的心灵呢?这显然不是冯·诺依曼他们那个人造生命的那条路,实际上是没有自主性的,那个还是外在的,他那个也不能说它没有心灵。我想说,人造物实际上就是我们心灵的一小部分,你可以这么来讲,你也可以说它不是一个完全 functional的心灵,但是它是我们心灵的一小部分,这个大家应该能承认。一个钟表、一个磨坊,它是在实现我们的某种目的,而且它能够自己运行,是脱离我们人来运行,因此它可以被看作是我们心灵一小部分,是我们的延伸,或者是我们心灵的一个对象化。在我看来是这么回事。所以 AGI 应该也是这样一个连续的谱系,它不是单一的一个系统。它是从我们最简单的,比如玩具狗,它能叫一叫,跟你聊天,能走路,那也是一个简单的AGI。无人机能够自主的飞行,自动驾驶的车辆、人形机器人,还有 AlphaFold,实际上它也可以看作是 AGI 谱系中的一环,它是能做科研的,它在那一方面特别的强。当然,真正的所谓的 AGI 应该有一个特征,它是能够连续学习的,它一旦犯了一个错误,一旦被认识到的时候,它就不会第二次犯。这一点DeepSeek 还做不到,他们经常测试,比如9.9 和9.11 哪个更大,特别是离线或者不是深度思考的时候,它脱口而出的是 9.11 比 9.9 大,但是你叫它认真思考一下,那它就会得到正确的答案,9.9 比9.11 大。这就是一个例子,实际上 DeepSeek 还有幻觉,而且这个幻觉在很多时候还是很麻烦的,特别是你不是这个方面的专家,你去问这个方面的问题,结果它信誓旦旦地给一堆东西,这些东西可能全是幻觉。大家可以去试一下,比如说给他一个人名,告诉它这是很出名的一个人物,问它他发现了什么,他的成就是什么,它会编一整套出来,特别是在离线的时候。所以这个幻觉还在那里,是一个 intrinsic 的(内禀的)幻觉。我们未来的话就是要把幻觉在早期就应该给它掐掉,尽量不让它产生。我们现在 DeepSeek 或者 OpenAI 现在做的实际上在外面通过微调,通过 feedback 来强化学习,来把这个幻觉压制住,但是我觉得幻觉应该更早期来压制。应该说我们的模型应该更是推理性质的,而不是 memory native 的。现在的技术路线是 memory native 的,先是读书破万卷,那你就能头头是道,下笔如有神。如有神,不是真的神,真正的聪明人,是学一点东西就能举一反三。你看看这些很成功的企业家,并不是他读的书多,而是说他学得快,他在那个场景点马上能掌握那些相关的东西就够了。
这是两条不同的路线了。我们现在的这条线至少开始逆转了,我们另外一条线就是 Reasoning-native(或者是因果链-native)应该是未来的方向,那样的话,我们需要的语料更少,你什么东西都能举一反三,你只要知道这个 ground truth 哪些是真的,真的资料是什么,然后在这个一基础上来做推理,变化出这些新的东西来。所以那里的创新才是有本之源。现在的大语言模型,它的创新实际上是有点无本的,它是很多是幻觉性质的,它分不清楚这个创新跟幻觉的差别。所以我想未来要朝这个方向走。总而言之,智能并不意味着大量参数。从生命的进化来看,其实应该是这样的。
还是要回到智能和意识的产生的机制上来,我们的认知坎陷理论、因果链重构理论已经完成了,我们下面做的可以借助 DeepSeek 的模型,特别是它已经蒸馏的最小模型。语言模型真正给我们的是什么?实际上就是说从功能意义上来讲,当然大家现在用它方便;从科学意义上来讲,它解决的一个问题就是说,原来我们不知道这个人的直觉怎么来的,我们虽然知道有系统1、系统2,系统1是直觉性的,比较快的,但是我们不知道里头的机制是什么。比如说钱学森老先生曾经说,我们要研究形象思维,要研究创新思维。因为推理这个东西,我们是比较清楚的,反而是不清楚直觉的问题。实际上我们的大语言模型做了一个突破性的动作,你看我们用这些芯片就能把它堆出来,就能让它讲话像人话,而且它是脱口而出的,这些东西都是直觉性的东西,不是推理出来的。恰恰是在这个方面是补了我们科学上的空白。第二个当然就是语言表达能力。我原来讲它能模仿人的语言能力了,但很多人不同意,说人的语言能力比这个厉害,那我觉得至少说它的语言表达能力完全解决了,就是说它讲的是人话,它回答的是你的问题。当然,人的语言表达能力本身也是直觉的,在我看来,表达本身是脱口而出的,你没有仔细想。所以在我看来,大语言模型是有革命性意义的,对科学是有重大贡献的。但是它还没有触及到核心的机制,只有我们的认知坎陷理论和因果链重构理论才能解决这个问题。
那么未来形态的话,刚才已经讲到了,实际上我想强调的一点就是,现在每一个人,哪怕是小学生、中学生、大学生、研学生、博士,都应该赶紧去用大语言模型,就是 DeepSeek ,博士生就应该去把它打开,去研究它。这个才值得做的事情,其它的事情都没那么要紧。也可以拿它来做你新的材料的发现,新的设计。人文学者也可以用它,你可以把它的能力推到极致,这就是你的本事。现在很多人就说,我用了一下,觉得它也so so,水平不行。说实在的,不是因为大模型水平不行,而是用的人不会用,是他水平不行。你一定要把它带进那个领域里去,它才能展现出来它的水平。假如你带不进去,它就应付你,它就是表面地讲一讲而已。这是大家要注意的。像复旦禁止学生应用,这是不对的,因为除非是写作课上,当然要学生自己来写,不应该用机器来帮忙,其它所有的地方都应该让机器来替代,因为它就快多了。而且很多东西我们自己去写,也只是浪费时间,并没有带来新的东西。真正有用的是说我的概念性的东西,我是把它带到哪一个场域,带到哪里去,这个才是要紧的。所以说,目前的大模型应该用起来,因为你现在不用,过几天你的独立思考、独立写作,都不重要了,因为很快下一代更厉害的 AI 来了,你要赶上它,追上它,而不是阻止它。在我看来,真正的未来应该是对生命、意识、智能这三者的关系的深刻理解之上。我们人类的未来应该是什么样子?我们提了一个叫life、 life+ 和 life++ 这三个阶段,这有点向泰格马克(Tegmark)致敬,因为他写的书中的Life1.0、2.0、3.0。我们的life 跟他的1.0肯定是一样的,虽然他是从负面来讲的,就是说在 1.0 的阶段我们不能改变我们的器官、我们的硬件;到了 life 2.0 的阶段,我们不能改变我们的硬件,但是能改变软件;到了 life3.0 ,既能改变软件,也能改变硬件。这是从他这个维度来讲。但我们这里不一样,实际上更正确的理解是说 1.0 的时候,生命把跟这个世界打交道的经验内化成它的器官,内化进身体,我们的眼耳鼻舌身都是这么来的,它是内化进来的,有助于它的这个事件生成。
那么到了 2.0,也就是life+ 的阶段, 我们有些东西没有内化进来,我们是把它作为外挂来用的。比如拿两根棍子做筷子,是我们手指的延伸。我们的手指头不用长那么长,我们只要拿两根棍子就能做到,我们不需要把它内化进来。当然,筷子是我们手指头的延伸,也是我们意识的一个对象化。我们做钟表,做机器,所有的都是我们身体的外挂化的部件。当然一本书,我们的列车时刻表,我们写在纸上,我就用不着记在脑子里头,是外挂在外面的,我一旦需要就去查就行了。当然现在我们是记在电子器件上,很多东西都是我们的外挂。那么到 3.0 阶段会是什么样的呢?3.0 阶段就是 life++ 的阶段,我们并不像很多包括马斯克他们的愿景,就是说我们搞不过机器那就加入机器,我们作为碳基,弱点那么大,那我们就应该连在硅基上。我觉得这个愿景也是错的。实际上我们作为碳基和硅基的 gap 值太大了,从反应速度来讲,有10 的6 次方的gap,从进化速度来讲也是很大的差距。所以这个是不现实的。但我们实际上还是可以进入 AI 的世界,我们可以用AI做成自己的分身,然后通过分身进入 AI 的世界,就是元宇宙的世界,那么我们用区块链技术、元宇宙技术的话,实际上是可以参与整个未来超级智能的演变和进化,我们在那里共同进化、共同演变。所以我们作为肉身来讲,我们是可以外在于那个系统的。我们虽然要跟我们的分身有交互等活动,这些东西后面的细节肯定要好好理解。
但是在元宇宙里,这个超级系统是分布式的,在节点之间因为光速有限,它是有时间延迟的,比如在地球上面分布式分布的话,一毫秒大概是三百公里,三千公里就大约 10 毫秒。我们脑子的反应速度大概也是 10 毫秒、几毫秒。所以这是才是一个 make sense 的未来的途径。在大的元宇宙里,我们每个人的分身的能力是不一样的,马斯克的资源多,他的分身可能很多,每个分身都可以很强。当然跟他意见不一样的有扎克伯格、比尔·盖茨、贝索斯这些人,他们的分身也很厉害,他们在那里去竞争、协同,在那里找到自己的边界。我们形成一个大的网络来协同来创造未来,所以我觉得这才是 make sense 的。
从这个维度来看,现在DeepSeek是朝这个方向走一步,我们把这个系统往小走,而不是往大走,不是建构这种上帝视角的中心化的超级智能。以下根据蔡恒进老师回应嘉宾点评内容整理而成:
蔡恒进:感谢几位嘉宾的点评。几位老师讲得都挺好。我很多都同意,我主要是想回应一下胡延平老师讲的下一个阶段,他说现在DeepSeek在第一阶段里是有贡献的,但是下一个阶段有可能带来负面的影响,这是他暗示的。关键他的判断是说,下一个阶段我们还是需要很多算力,而且美国完全有可能对我们断供,诸如此类的在算力上来限制我们。
但是我觉得这个不用担心。我刚才已经讲到了,但是没有深入展开,实际上最难的就是我们人类智慧最重要的就跟语言相关,而不是视觉空间。我们语言这一关过了之后,后面实际上是一马平川的。不是像杨立昆、李飞飞他们讲的空间智能,不是的,那个算力要不了多少的,恰恰是现在的办法很笨,显然路子不是很对,我们肯定能找到很简单的办法。
这点倒是很重要一点。大家关注一下DeepSeek 的多模态模型,实际上这个模型也是很小的。它的打分已经很高了,但是现在很多细节没出来。我相信很可能会是比它现在的 R1 更重要的一个发布,很可能解决他们心中世界模型的问题。
世界模型的问题实际上是个伪命题,实际上我们也通常说为什么理论思考很重要,就认知坎陷理论而言的话,实际上我们每一个认知坎陷都是一个世界模型,它加起来还是一个世界模型,实际上它就是世界模型,它就是在简化这个世界。
所以真正难的是语言的部分,是直觉的部分,我们把这一部分解决之后,后面实际上是简单的,不需要那么大的算力。所以大家有个误区,觉得后面还需要很大的算力,大家老觉得我们应该把现实世界、把物理世界给映射到数字世界里去,这是完全错误的理念,这是完全做不到的,也是没有必要的。
这也是马斯克他们的误区了,觉得几十年前我们的游戏才多少像素啊?只能很简单的做个挖地雷之类的游戏。现在三维的都那么精致、那么逼真了。那再过 100 年、1000年,我们是不是能把物理所有的细节都复刻进去?这个想法是错的。物理世界比这个复杂得多。这是第一条。
第二条就是说我们有人类或者生命的参与,我们有主观能动性,实际上这是没有办法真正模拟的。即使物理世界它能模拟,但我们的意识世界不能被模拟,所以这条路是绝对死的。我们真正的认知、我们的世界模型就可以很简单,只是根据场景,根据你的需要进行一定程度的数字化,而不是说把整个世界都复刻进去。还有人甚至认为我们自己就生活在这个数字世界里头,这个是绝对错的。所以我们不用担心下一个阶段可能会有算力的大量的需求。
而且真正的智能就是分布式的,我们生命亿万年的进化就是分布式的,我们没有进化出无所不知、无所不晓的一个人。因为做不到,即使按OpenAI 的vision朝前走的话,那个所谓的最高的智能也不会知道每个细节,而且它的资源消耗跟它的输出是不成比例的,因此是没有必要的,那是个死路。我觉得从我的认知坎陷里面来看的话就是这样。
我最后说一句话,AGI 很快到来。真正的 AGI 很快到来,就这几个月,一年之内。所以大家为这个事做好准备,其它的都晚了。苇草智酷简介——
苇草智酷(全称:北京苇草智酷科技文化有限公司)是一家思想者社群组织。通过各种形式的沙龙、对话、培训、丛书编撰、论坛合作、专题咨询、音视频内容生产、国内外学术交流活动,以及每年一度的苇草思想者大会(原名互联网思想者大会),苇草智酷致力于广泛联系和连接科技前沿、应用实践、艺术人文等领域的学术团体和个人,促成更多有意愿、有能力、有造诣的同道成为智酷社区的成员,共同交流思想,启迪智慧,重塑认知。