编者荐语:
人工智能(Artificial Intelligence,简称AI)已成为当下讨论最热烈的科技话题。大量讨论集中于人工智能的表现本身,情绪时而高涨,时而低落,而这一波三折往往源于缺乏认知。
罗汉堂秘书长陈龙教授在本文中,希望通过回溯本质,探讨三个问题:
什么是智能?
如何获取智能?
如何对比人的智能和机器智能?
部分要点:
智能的本质是学习。无论是人还是机器的学习,发现的有效路径,都是建设一个会学习的神经网络,并在此基础上不断迭代。
人类对如何通过学习获得智能的认知,经历了“如何把人类的逻辑体系赋予机器,让机器像人一样思考”到“如何构建一个神经网络,让机器自己学会思考,在学习的过程中获得逻辑”的路径变化过程。
在获取智能的方法论上的一致性和可比性,意味着人的智能和人工智能只是一个程度和阶段的差别。
现在人工智能显然在很多领域都还不如人类,但从本质看,这不是重点。重点是,人工智能不但在方法论上与人的智能一致,而且在学习和进化效率上让人类智能望尘莫及。
知“机器智能”者智,自知者明。如果人类能放弃自身智能的优越感,对照人工智能的原理,反观自身,就可以理解自己智能的发展速度,以及人与人之间智能差别的原因,从而找到让自己不断聪明的方法。
什么是通用人工智能?我可以用这一波人工智能革命的引爆者Open AI的使命来说明。“我们的使命是确保通用人工智能(AGI,Artificial General Intelligence)——比人类普遍更加聪明的人工智能系统——能够惠及全人类”,也就是说,通用人工智能是一种普遍性的,比人类更加聪明的智能[i]。
当今社会对通用人工智能的潜力以及影响的认知分歧很大。
通用人工智能在多大程度上实现?最可能的实现路径是什么?如果实现的话,和人类的关系是什么?由这些问题指向的未来,将对经济、商业和人类的命运,产生深远影响。
当下,关于这些问题的答案没有共识,相差甚远。
在经济和商业层面,华尔街知名基金经理“木头姐”在2024年初预测,未来7年,因为AI这样的颠覆式技术,全球GDP增速将从过去125年的平均3%,飙升到7%,同时,和AI等前沿科技相关的资本市场市值,会从当下的19万亿美元,飞升到2030年的220万亿美元[ii];OpenAI的首席执行官Altman和她看法一致,他表示每年7%看起来似乎很难,但随着人工智能这样的技术变革,这个数字并不遥远,他预测这将使得全球GDP在十年内翻一番[iii]。
与此相反,全球研究人工智能最著名的宏观经济学家阿杰姆奥卢(Kamer Daron Acemoğlu)教授则认为,人工智能对经济的影响不可忽略,但影响会非常温和。他估测AI在未来十年给全要素生产率带来的总增长不会超过7.1‰,加起来也不到1%[iv]。由此可见,主流宏观经济学家和前沿的AI实践者,关于AI可能对经济和商业造成的影响,结论截然不同。
图:ARK基金(木头姐团队)估算的技术对经济的影响(灰色底图) vs 实际GDP增长(红蓝线)
在影响人类命运的层面,因发明和推广反向传播算法和对比散度算法而获得图灵奖——又被誉为计算界的诺贝尔奖——的辛顿教授(Geoffrey Everest Hinton),其认知也经历了跳跃式改变。2018年,他认为人工智能对经济和商业活动的影响,是在一个个的环节里面逐渐发生的,并不会替代人类,这有点类似阿杰姆奥卢教授的观点。但到了2024年,他的态度发生了巨大转变,他认为人工智能本质上是一种比人类更先进的学习方式,也必将会在不远的将来超过人类。而历史上,更低智能控制更高智能的案例,他只想得到一种——婴儿对父母的控制。如果有一天人工智有了自我意识,意味着硅基文明替代碳基文明的拐点到来了[v]。与辛顿教授持相反观点的是斯坦福大学的李飞飞教授,她也被誉为“人工智能之母”。她认为大模型无论怎么发展,都不会具备人类的感觉和情感,而这是人的智能非常重要的部分[vi]。在这个问题上的判断异同也导致了两人对AI监管的分歧。2024年8月16日,美国加州对AI的监管法案《前沿AI模型安全创新方案》获得通过,其目的是为那些开发成本超过一亿美元或具备一定计算能力的开发者建立安全准则,例如部署前测试、模拟骇客、安装网路安全防护措施以及为吹哨者提供保护,以保障大规模AI模型的安全性。由于两人在人工智能未来可控性上意见不一,李飞飞发文强烈反对,辛顿则强烈支持。所以,对通用人工智能未来趋势的判断,攸关我们对AI和经济、商业应用以及人类命运的判断和行动。为了做出合理的判断,采取合适的行动,我们需要正确认识通用人工智能的一些重要问题。在本文中,我将阐述三个核心观点。第一,本次人工智能的关键突破,在于突破了原有的路径,转而遵循智能的本质,让智能成为学习的结果。这是在回答什么是智能的问题。第二,我们现在熟知的GPT,就是一个不断建设会学习的神经网络的过程。这是在回答如何获取智能的问题。第三,这条人工智能之路,意味着人的智能与机器智能在最本质原理上是一致的,我们应该在这个一致性的基础上,分析两者之间的差异,从而确定两者的未来关系。这是在对比不同智能的问题。本次人工智能突破的关键,在于突破了原有的路径,转而遵循智能的本质,让智能成为学习的结果。图:约翰·洛克
从一个出生的婴儿开始,人类是如何获得智慧的?英国哲学家约翰·洛克(John Locke)在他的著作《人类理解论》中这样回答:“那么,让我们假设心灵就像一张白纸,没有任何字符,没有任何观念:它如何获得丰富的内容?人类繁忙而无边界的幻想在上面描绘了几乎无穷无尽的变化,它所有理性和知识的材料从何而来?对此我的回答是,源于经验。” [vii]在洛克看来,获得智慧的关键是经验学习,智能是学习的结果。这和中国古人强调的“读万卷书,行万里路”(明·董其昌《画禅室随笔》)意思相近。值得强调的是,这意味着人与人之间的智能是不一样的,在先天基础上,取决于学习机会、学习效率和学习结果。后来我们知道,人类学习的先天基础,是人脑中上百万亿的神经元,神经网络就是通过神经元之间的连接和权重来实现学习和记忆的。实际上,早在1943年,美国神经学家沃伦·麦卡洛克(Warren McCulloch)和认知心理学家沃尔特·皮茨(Walter Pitts) 就提出了一种简化的神经元模型,为后来的人工神经网络模型奠定了基础。[viii]有意思的是,人类对如何通过学习获得智能的认知,经历了“如何把人类的逻辑体系赋予机器,让机器像人一样思考”到“如何构建一个神经网络,让机器自己学会思考,在学习的过程中获得逻辑”的路径变化过程。1956年,一些学者在在达特茅斯会议上首次提出了“人工智能”这一术语,同时确定“符号主义”为人工智能的主要发展方向,这个方向提出的假设是,智能是逻辑的产物,应该致力于把人类所知的逻辑体系转化成符号化的知识表达和推理方法,传递给机器。这看起来合情合理——计算机的主要发展路径,但实际进展非常有限,一直到八十年代初,计算机仍只能完成人类所定义的非常明确的任务,而没有自我学习的能力。在这个背景下,辛顿教授所代表的生物学派脱颖而出。在辛顿看来,逻辑和推理并不是产生智能的必须或最重要的一步。相反,模拟人脑中的神经元结构,建设一个有学习能力的神经网络,让逻辑和推理成为学习的结果,才是通往智能的正途。图:Geoffrey Hinton在1986年的论文《Learning Representations by Back-propagating Errors》中展示的图,该论文论证了一种名为反向传播的数学技术(即通过反复调整神经网络中连接的权重,达到减少误差的目的)可用于有效地训练和优化神经网络。这种算法后来促进了深度学习的发展。但这种方法当时在成本上也是无法承受的,就像一台收音机上有数十亿个旋钮,每个旋钮都需要数百万次小调整,可以想象,这种方法需要大量的计算能力。在生物进化中,神经网络由随机生成的连接强度进行基因突变(mutation)微调而来,这可以被视为被动、偶然的智能进化。辛顿在1986年提出神经网络的反向传播算法(back propagation),突破了这一生物特性[ix]。该算法的原理是,将结果(what you get)与预期(what you want)之间的差别,同时主动反馈给每一层神经网络,并基于此同时对各层之间的连接强度进行调整优化。相比生物的被动突变演化,这种方法以正比于连接数量的规模提升了计算效率。因此,当一个神经网络由千亿的连接构成,它的进化效率就相比生物突变的进化方式提升了千亿倍。这个石破天惊的发现,是大型神经网络(也就是大模型)成为通往人工智能的有效路径的逻辑基础。所以,本次人工智能能够取得突破,首先是源于不同路径的探索和证伪,实现了智能的理念突破。Artificial Intelligence准确的中文翻译应该是人造智能,一开始还是想把人的逻辑总结出来,传递给机器。但这个观念被改变了,现在的重点是构建与人的神经网络类似的物理设施,让这个网络学会学习,沉淀逻辑和记忆,这才是智能的真谛。我们现在熟知的GPT,就是一个不断建设会学习的神经网络的过程。图:人工智能是如何从神经网络发展到ChatGPT的现在大家熟知的GPT(Generative Pre-training Transformer),实际上就是人类通过不断试错找到的,一个建设能学习的神经网络的当下最有效的方法。这个方法分以下几个关键环节:第一,提供可以学习的数据。GPT中的“P”,即预训练(Pre-training),指的是在运用智能之前,需要预先通过学习数据集,也就是洛克说的“经验”,来获得智能。这也意味着,数据的质量、广度和深度,将决定智能的程度和方向。这是不同通用大模型、产业大模型、企业大模型之间差异化能力的一个重要原因,并且将持续构成不同人工智能的差异化能力。犹如人,不同人工智能的能力不同,因为它们的“经验”不同。只要数据的隐私保护持续存在,就不会有一个赢者通吃的通用大模型。第二,所谓学习,就是解构和压缩数据,注入神经网络。从数据到神经网络,GPT模型的训练过程,其实就是对训练数据的“无损压缩”过程。原始文本被解构成一个个特征、知识点和关系,进而形成各种知识回路,存储在机器神经元中。每层神经网络都对知识进行一次压缩,层数越多,知识理解越深入。当整个神经网络架构层数足够深时,能将原始文本间的相关关系,逐步降维为抽象,具有规律总结性质的知识。模型压缩能力越强,说明其对数据规律总结能力越强,而这进一步代表神经网络的智能程度越高。GPT中的“T”,即转换器(Transformer),就是专门做这个数据压缩和处理工作的。第三,通过并行计算,提高数据处理效率,也就是学习效率。Transformer是一种特别的数据处理架构。原来构建神经网络的方法,是按照序列的串联式计算方法。这样一方面运行效率低,大量的神经网络无法在同一个时点参与计算,另一方面也无法同时处理大量数据。辛顿在80年代就意识到,人脑在学习的时候,正像是很多并行的计算机在工作。2017年,八位谷歌科学家提出了Transformer的计算架构,通过并行处理的注意力机制,同时处理大量数据,显著提升了序列数据处理的速度[x]。这个方法的改变,被Transformer的作者比作是蒸汽机到内燃机的飞跃。第四,通过“生成式”(Generative)的方法,获得通用型的、不局限于现有数据的智能。什么是生成式?物理学家费曼(Richard Feynman)有一句名言:“我不能创造的东西,我也不能理解。”2018年图灵奖的另外一位获得者约书亚·本吉奥(Yoshua Bengio)教授在2000年提出生成式深度学习,即通过生成答案的方式,迫使神经网络形成通用的判断和智能能力[xi]。生成式的关键,不是注重大模型对现有知识的理解总结能力,而是注重培养大模型生成回答问题的能力。也就是费曼所说的,我能够创造,往往是因为我能理解。但能够理解,却不见得能够创造。能够合格地生成答案,说明大模型已经脱胎于对原有数据的学习,产生了一种通用能力,能够回答原有数据不能直接回答的问题,这是通用人工智能的关键特征。当下大模型还常常会出现幻觉,生成似是而非的答案。但实际上人类不依据事实狂言的现象非常普遍。所以幻觉是智能的一个伴生特征,只不过是程度的深浅不同而已。2018年,OpenAI优化了Transformer的encoder-decoder架构,提出了decoder-only的架构,本质上是专注于生成预测,而不是对过去数据的总结,从而通过生成式任务的训练来培养通用智能[xii]。第五,加速算力的突破,为通过GPT建设大型神经网络的路径,提供了硬件基础。在过去大半个世纪中,计算效率的提升一直遵循摩尔定律,即CPU的计算效率,大概每18个月会提升一倍。而英伟达研发的GPU并行计算芯片,突破了摩尔定律。用马斯克的话来说,现在的AI加速计算,似乎每10个月会提升10倍[xiii]。黄仁勋也表示,在今后十年中,计算效率会提高一百万倍[xiv]。GPU芯片效率的飞速进展,为神经网络并行计算提供了物理基础。至此,快速建设机器的“先天大脑”才有可能。所以,GPT意味着通过生成式的方法,不断对比和缩小所生成的预测和正确答案之间的差别,从而逐渐学习数据中的逻辑,并将之记忆到神经网络中,这就是当下构建会学习的神经网络的最有效方法。这个方法可以简单总结为:(1)提供可以学习的数据;(2)把从数据学到的知识注入神经网络,解构和压缩数据,注入神经网络;(3)通过并行计算,提高数据处理和学习效率;(4)通过“生成式”的方法,迫使神经网络按照获得通用智能的目标来迭代;(5)充分运用加速算力的突破,大力出奇迹,形成更多的数据、更高的算力、更深更广的神经网络的正循环。二战期间,为了破译德军的密码,盟军渴望找到一种比人脑更快的计算工具,计算机由此而生。所以计算机代表了初级的智能。但在那之后很多年中,计算机智能的发展完全依照人的指令,不会自己学习、思考和迭代。在过去几年中,人工智能获得了断代式的飞跃。人工智能的发展方向,从原来的人编程让计算机执行,变成让计算机学会自己编程。这篇文章尝试讨论本次人工智能是通过哪些关键环节产生突破的,以及这些突破和通用人工智能的关系。在我看来,这是理解与人工智能相关的一系列重大问题的绕不过去的起点。- 智能的本质是学习。无论是人还是机器的学习,发现的有效路径,都是建设一个会学习的神经网络,并在此基础上不断迭代。这是生物路线的成功,也意味着人的智能和人工智能,其本质和实现路径是一致的,具有相当的可比性。所谓通用智能,有两个核心特征,一个是具备会学习的神经网络,一个是具备能泛化数据中的通用规律、生成新判断的能力。
- 为了建设有学习能力的神经网络,人工智能需要丰富高质量的初始数据,需要把信息压缩和解构,变成知识点、连接关系和逻辑注入到神经网络中。而且还要通过生成式的方法,逼迫计算机学习超出现有数据的通用智能。
- 在获取智能的方法论上的一致性和可比性,意味着人的智能和人工智能只是一个程度和阶段的差别。一方面,人工智能并没有像人类那样经历数百万年进化而沉淀的“本能大模型”起点。另一方面,人工智能因为能够围绕目标迭代主动调动所有的神经元,其进化的速度将无数亿倍于人的智能的进化。现在人工智能显然在很多领域都还不如人类,但从本质看,这不是重点。重点是,人工智能不但在方法论上与人的智能一致,而且在学习和进化效率上,让人类智能望尘莫及。这是为什么辛顿会认为人工通用智能必将超过人类。
- 如果与人的智能进化的方向一致,那么如何判断人工智能在不同方面的进化速度?这关键依赖其决策判断和结果之间,是否能够形成一个清晰可衡量的进化闭环,从而帮助神经网络迭代。今天,在很多决策和结果能够形成闭环、机器能够学习迭代的领域,人工智能的表现已经明显超过了人类。
- 人工智能在被提出的时候,其本意是指人造(Artificial)而非原生智能。但到了今天,人工智能的进化方法,基本的方法论与人的智能方向一致、但又有很大差别。也就是说,人工智能越来越不依赖人的智能,而是通过机器学习实现机器智能。
- 人类获得的很多科技创新,是跨界碰撞的结果。辛顿教授是认知心理学教育和研究出身,从没有上过计算机课,但他却想出了如何模拟人的神经网络来学习的逻辑,从而对人工智能新的突破方向做出巨大的理论贡献。与他一同获奖的另外两位学者,计算机背景的约书亚·本吉奥和杨立昆(Yann LeCun)教授,则在如何建设多层的神经网络、注意力机制和生成式等方面提出了实践方法,从而让建设数字化的神经网络成为可能。
这些认知,对人类智能本身的发展也具备很大的启示意义。人的智力发展过程,其实就是在先天的“本能大模型”的基础上,通过后天的经历不断“微调”。所谓生活、读书、新知,也就是经历、总结、产生新洞见的过程。人与人之间智慧的差别,表面看是经历的差别,但本质上是学习机会和学习能力的差别。随着年龄的增长,我们会发现与小时候共同生活过的伙伴,共同语言占认知的比例越来越小,这正是因为人的“智能大模型”迭代的差别。而很多人到了一定的年龄就不再能进步,这一部分是生理年龄的限制,但更多情况下是学习经验和学习能力的放缓。同时,只有用生成式的方法,带着回答问题、寻找解决方案的冲动去学习,才能够举一反三,获取真正的智能。很多人勤于做知识的搬运工,却懒于消化和运用知识,也就无法产生真正的洞见。所以,知“机器智能”者智,自知者明。如果人类能放弃自身智能的优越感,对照人工智能的原理,反观自身,就可以理解自己智能的发展速度,以及人与人之间智能差别的原因,从而找到让自己不断聪明的方法。但如果人的智能和人工智能都是基于生物路线,它们最大的区别是什么?基于GPT的方式实现的人工智能是真的思考能力吗?人工智能真的能够产生自我意识和情感吗?这些问题的答案会决定人与人工智能的方方面面。如果人工智能不能产生深度思考的能力,也就不可能承担复杂的工作;如果人的智能和人工智能的能力是互补的,他们就有共同存在、长期协同的空间,而非直接替代;如果人工智能不能具备感知能力,也就难以产生具备人的品味和认知的洞见;如果人工智能始终依赖人类社会定义自我认知,就可能像婴儿和母亲的关系一样,即便人工智能的能力远远超出了人类,仍然需要人类“注入灵魂”,从而在很长时间成为有灵的人类忠实伴侣,而非颠覆人类的存在。
[i] OpenAI,“Planning for AGI and beyond”, 2023年2月24日[ii] ARK Annual Research Report, “BIG IDEAS 2024”, 2024年1月31日[iii] Aspen Ideas, “The Disruptors: Sam Altman and Brian Chesky in conversation with Lester Holt”, 2024年6月26日, [iv] Acemoglu, Daron. The Simple Macroeconomics of AI. No. w32487. National Bureau of Economic Research, 2024.[v] BNN Bloomberg Conversation, “AI will become smarter than humans: Geoffrey Hinton”, 2024年6月15日[vi] Fei-Fei Li, John Etchemendy. No, Today’s AI Isn’t Sentient. Here’s How We Know, 2024年5月22日[vii] Locke, John. An essay concerning human understanding, 1690/1975, p.104.[viii] McCulloch, Warren S., and Walter Pitts. "A logical calculus of the ideas immanent in nervous activity." The bulletin of mathematical biophysics 5 (1943): 115-133.[ix] Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Nature 323.6088 (1986): 533-536.[x] Vaswani, Ashish. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).[xi] Bengio, Yoshua, Réjean Ducharme, and Pascal Vincent. "A neural probabilistic language model." Advances in neural information processing systems 13 (2000).[xii] Radford, A. "Improving language understanding by generative pre-training." (2018).[xiii] Elon Musk on AGI Safety, Superintelligence, and Neuralink, 2024年3月26日,[xiv] Jensen Huang, How to Use First-Principles Thinking to Drive Decisions, 2024年3月6日
文章来源于为溪进化派,作者陈龙