传说中的扫地僧,在现实中极其罕见。
有些僧,只是在假装扫地;而绝大多数“扫地僧”,并非真正的高僧。
电影《心灵捕手》讲述了这样一个少年天才,清洁工“呆萌”在大学拖地板时,解出了麻省理工学院数学系教授给出的难题,他的天赋震惊了这位菲尔茨奖(数学界的“诺贝尔奖”)得主。
谁是电影中贫苦而不羁的天才主角的原型?
人们也许会想起沃尔特·皮茨,一位在计算神经科学领域工作的逻辑学家。
他提出了神经活动和生成过程的具有里程碑意义的理论表述,这些表述影响了认知科学和心理学、哲学、神经科学、计算机科学、人工神经网络和人工智能等不同领域,以及所谓的生成科学。
某种意义上,正是ChatGPT的源头所在。
上世纪三十年代,皮茨在芝加哥大学扫地时,大约是15岁。这是他人生当中重要的转折点,也几乎决定了当今最火热的神经网络的起点。
皮茨出身于一个穷苦家庭,和《心灵捕手》的主角一样,打架之余靠在公共图书馆里借书自学,他喜欢逻辑和数学,还掌握了希腊语、拉丁语等多门语言。
住在贫民区的他,12岁时花三天时间读了罗素的《数学原理》,并写信给作者指出其中的错误。惜才如命的罗素立即邀请皮茨去剑桥大学当研究生,未果。
15岁初中毕业时,父亲强行要他退学上班养家,皮茨离家出走了。
无处可去的皮茨得知罗素要到芝加哥大学任教,只身前往,果真撞见了旷世大师。
罗素爱才之心不减,将他推荐给哲学家卡尔纳普教授。
听闻皮茨是少年天才,卡尔纳普把自己的《语言的逻辑句法》一书给皮茨看。皮茨很快看完,并将写满笔记的原书还给作者。
这位著名的分析哲学家深感震撼,为初中毕业生皮茨安排了一份在芝加哥大学打扫卫生的工作。
电影里那令观众动容的一幕在现实世界出现了。扫地的工作不仅可以令皮茨不可不用流浪街头,还让他能跟随大师们自由地探索真知。
命运在此刻埋下的最大注脚,是让这个可怜而又幸运的孩子,在两年之后遇见此生对他而言最重要的一个人。
1940年,17岁的皮茨与42岁的麦卡洛克教授相逢,从此两人一起改变了世界。
与人生混乱不堪的皮茨截然不同,麦卡洛克先后就读于哈佛、耶鲁和哥伦比亚大学,拿了一串眼花缭乱的学士、硕士和博士学位。
麦卡洛克也不像《心理捕手》的那位落寞的心理学教授,他出生优越,家庭幸福,事业蒸蒸日上,过着主流而正统的生活,学术上已经受到广泛赞誉。
可是,两个仿佛来自不同时空的人,在思想的最深处走到了一起。
1943年,麦卡洛克和皮茨发表了题为《A Logical Calculus of the Ideas Immanent in Nervous Activity》的论文,首次提出神经元的M-P模型。
该模型借鉴了已知的神经细胞生物过程原理,是第一个神经元数学模型,是人类历史上第一次对大脑工作原理描述的尝试。
M-P神经元是一个理想化的简单模型,基于生物神经元的基础特性进行建模。其工作原理如下:
神经元接收一组二进制输入,每个输入都与一个权重相对应;
当加权输入之和超过某个阈值时,神经元被激活并输出1,否则输出0。
这种机制很好地模拟了生物神经元的"全部或无"的响应模式。
M-P模型的影响力在于它是一个很好的开始,为后来复杂的神经网络模型铺平了道路。
然而,M-P模型也有很大的局限性,比如它无法学习和调整自己的权重,以及只能处理二进制输入和输出。
这个模型是人工神经网络和深度学习发展的基石。
现代的神经网络模型比McCulloch-Pitts模型复杂得多,但是它们的基本原理——根据输入计算输出,并且有可能调整自身以优化这个过程——仍然是相同的。
麦卡洛克和皮茨的论文不仅是人工智能历史上的一个重要里程碑,为理解大脑工作机制和发展人工智能打下了基础,还启发了人们:
生物大脑“有可能”是通过物理的、全机械化的逻辑运算来完成信息处理的,而无需太多弗洛伊德式的神秘解释。
麦卡洛克后来在一篇哲学文章里自豪地宣告:
“我们知道了我们是怎么知道的,这是科学史上的第一次。”
麦卡洛克和皮茨发表那篇里程碑式论文的同一年,艾伦·图灵正在布莱切利公园破译德国恩尼格玛密码机。
他和团队用智慧拯救了数十万的生命,对盟军在二战中的胜利起到了关键作用。
他们的交集同样与罗素有关。
在20世纪初,数学家和逻辑学家都在试图找到一种能够将所有的数学真理减少到一套简单的公理和逻辑规则的系统。
这就是著名的希尔伯特计划,由德国数学家大卫·希尔伯特提出。
罗素及其合作者怀特海在《数学原理》一书中就做了这样的尝试,他们试图将数学基础建立在形式逻辑的基础之上。
然而,希尔伯特计划在1931年遭到了挫败,因为哥德尔证明了他的不完备性定理。这个定理表明:
任何足够强大的形式系统,都存在一些在该系统内部既不能被证明也不能被反驳的命题。
1936年,图灵在一篇论文里研究了希尔伯特的“计算性”和“判定性问题”。
为了解决这个问题,图灵首先定义了“计算”这个概念,并创建了图灵机,这是一种理论上的计算设备。
然后,他通过构造了一个图灵机无法解决的问题(即停机问题)来证明判定问题实际上是无法解决的。
这意味着没有一个通用的算法能对任何可能的问题都给出答案。
一个意外收获是,图灵创立了一个新的研究领域——计算理论(或可计算性)。
图灵机给出了一个对“计算”或“算法”进行形式化的方式,这不仅在他的原始问题中有用,而且对整个计算机科学的发展产生了深远影响。
实际上,现代所有的电子计算机都是基于图灵机模型的,这使得图灵机成为了计算理论的核心。
没有证据表明麦卡洛克和皮茨看过图灵的论文。他们两个人的共同兴趣是,应用莱布尼茨机械大脑的设想来建立一个大脑思维模型。
《数学原理》中仅使用了与、或、非三种基本逻辑运算,就将一个个简单命题连接成越来越复杂的关系网络,进而描述清楚了整个数学体系。(尽管并不完备)
麦卡洛克则构想:人类的思考,是否也是靠神经元来执行这些最基础的逻辑运算而实现的?
皮茨在数学和逻辑上天赋,帮助麦卡洛克完成了这一伟大构想。
麦卡洛克和皮茨(左)
麦卡洛克和皮茨在1943年提出的神经元模型,构成了今天我们称之为人工神经网络的基础。
他们的模型描绘了一种简化的神经元,当其接受到的输入超过一定阈值时,就会被激活并向其它神经元发送信号。
这个模型的一个关键思想就是,即使每个单独的神经元都很简单,但是通过将它们联接在一起,就能形成一个能处理非常复杂问题的网络。
虽然单一的麦卡洛克-皮茨神经元只能完成简单的逻辑任务,但是,当将这些神经元组成一个复杂的网络时,神经网络就能进行复杂的计算,从而表现出图灵完备性。
事实上,神经网络是实现人工智能(AI)的重要方法之一。
通过设计不同的网络结构,并使用大量的数据对网络进行训练,人工神经网络可以学习到完成各种任务的能力,包括图像识别、语音识别、自然语言处理等等。
首先是相对简单的处理元素,也就是松散的神经元模型。然后神经元会连接起来,每一个连接都有其权值,这种权值通过学习可以改变。 神经元要做的事就是将连接的活动量与权值相乘,然后累加,再决定是否发送结果。如果得到的数字足够大,就会发送一个结果。如果数字是负的,就不会发送任何信息。 你要做的事就是将无数的活动与无数的权重联系起来,然后搞清如何改变权重,那样就行了。问题的关键就是如何改变权重。
ChatGPT到底在做什么?为什么它能够成功?
也许你还记得上一代的老实人工智能--深蓝。庞大的机器,手工制作无尽的代码,多名参与其中的职业棋手,以及暴力算法,虽然打败了卡斯帕罗夫,却如流星般闪过。
《麻省理工科技评论》将深蓝形容为恐龙,而这一代的神经网络(尤其是深度学习)则是生存且改变地球的小哺乳动物。
上世纪50年代,香农曾经乐观地预测AI将很快出现,事实并非如此。失败的主要原因是:
人工智能的创造者们试图用纯粹的逻辑来处理日常生活中的混乱,他们会耐心地为人工智能需要做的每一个决定都制定一条规则。但是,由于现实世界过于模糊和微妙,无法以刻板的方式进行管理。
我们无法像是依照牛顿的原理造车般,用发条思维和专家系统来打造智能系统。那一类AI不仅狭窄,而且脆弱。
ChatGPT是经验主义的进化论的“胜利产物”。
ChatGPT不仅从时间的角度加速模拟了进化,还通过大模型从空间的角度拓展了可能性之广度,以至于令人们禁不住又惊又喜地探讨起涌现。
由于部分可观测性、非确定性和对抗者的存在,真实世界中的智能体需要处理不确定性(uncertainty)。智能体可能永远都无法确切地知道它现在所处的状态,也无法知道一系列动作之后结束的位置。
在诸多反对休谟的人当中,贝叶斯也许是最重要的一位。
OpenAI早期投资人里德·霍夫曼在尝试将 GPT-4 应用于工作中时,发现了以下三个关键原则。
原则 1:将 GPT-4 视为本科生水平的研究助手,而非无所不知的预言家。
原则 2 :把自己当作导演,而非木匠。
原则 3 :勇敢尝试!
多么有趣的建议啊,我们从中看见了《园丁与木匠》与《自下而上》的智慧:
在大部分工作中,我们习惯于提前计划,力求避免失误。这是因为执行计划在时间和其他资源上都耗费巨大,“三思而后行”的说法指的就是这种情况。
但如果实施计划比思考它更加省时省力呢?
霍夫曼认为这正是 GPT-4 及大语言模型令人费解的悖论所在。
既然如此,正确的做法是:
1、在比讨论制订计划更短的时间里,GPT-4 能为你生成一个完整的回应供你审阅。
2、如果你对回应不满意,可以直接丢弃并尝试生成另一个。
3、或者一次性生成多个版本,获得更多选择。
我们已经来到了一个“三行而后思”的“强化学习”时代。
在《人工通用智能的火花:GPT-4的早期实验》的报告里,微软实验室如此表述:
“我们过去几年,人工智能研究中最显著的突破是大型语言模型(LLMs)在自然语言处理方面取得的进展。
这些神经网络模型基于Transformer架构,并在大规模的网络文本数据体上进行训练,其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。”
ChatGPT,是位“语言游戏”的高手,用的是神经网络和深度学习。
这与传统的语言,以及逻辑语言,都不一样。
罗素曾经试图构建一套逻辑语言,想从少数的逻辑公理中,推演出数学。
他提出了自己逻辑原子主义,试图消除那些形而上语言的混乱,以逻辑语言和我们的现实世界一一对应。
在与罗素的相互影响下,维特根斯坦认为哲学的所有问题其实就是语言问题,从而推动了哲学的语言转向。
一种西方哲学史观点认为:古代哲学关注本体论,近代哲学关注认识论,20世纪哲学关注语言学问题。
和每个天才一样,维特根斯坦卓绝,但也疑惑。
再说回ChatGPT,它懂语言吗?如同《天才与算法》一书的设问:
机器可以在不理解语言或不接触周围物理世界的情况下,生成有意义的句子,甚至是美的句子吗?
老派的AI,试图采用罗素的方法。这类模型认为:
“理性和智能是深度的、多步骤的推理,由一个串行过程指挥,并由一个或几个线程组成,使用少量的信息,由少量的强相关变量来表达信息。”
对比而言,“现代的机器学习模式由浅(少步)推理组成,使用大量信息的大规模并行处理,并涉及大量弱相关变量。”
一个有趣的来描述二者对比的例子是,电影《模仿游戏》里的图灵,炒掉了自己的密码破解小组里的语言学专家。
《人工智能:现代方法》认为,纯粹的数据驱动的模型,对比基于“文法、句法分析和语义解释”的手工构建方法,更容易开发和维护,并且在标准的基准测试中得分更高。
该书作者还提及:
可能是Transformer及其相关模型学习到了潜在的表征,这些表征捕捉到与语法和语义信息相同的基本思想,也可能是在这些大规模模型中发生了完全不同的事情,但我们根本不知道。
未必那么精确的类比是:AI如孩子般学习语言。这正是当年图灵所所设想的:
有一个孩子般的大脑,然后去学习。而非一开始就设计一个成年人的大脑。
孩子不懂语法构建,也没有成熟的逻辑,也远没有成年人那样有主动的刻意练习。可是想想看,成年人学习语言的效率,与孩子对比,是不是烂到渣?
我不禁联想起一个对教育的嘲讽:天生就是语言学习天才的孩子,却要在一辈子都学不好一门语言的成年人的指导下学习语言。
让我们来看看,AI如何像一个孩子般,天才般地学习。
“我认为,我们必须探究智能和学习的基础原理,不管这些原理是以生物学的形式还是以电子的形式存在。正如空气动力学解释了飞机、鸟类、蝙蝠和昆虫的飞行原理,热力学解释了热机和生化过程中的能量转换一样,智能理论也必须考虑到各种形式的智能。”
它会遇到所有专家系统的问题,那就是你永远无法预测你想要给机器的所有常识。
“昆虫可以看到紫外线,而人类不能,所以在人类看来一模一样的两朵花,在昆虫眼中却可能截然不同。那么能不能说昆虫判断错误了呢?昆虫通过不同的紫外线信号识别出这是两朵不同的花,显然昆虫没有错,只是人类看不到紫外线,所以不知道有区别而已。”
从统计学的角度看,一个快速运动的热物体的原子更有可能撞上一个冷物体的原子,传递给它一部分能量;而相反过程发生的概率则很小。在碰撞的过程中能量是守恒的,但当发生大量偶然碰撞时,能量倾向于平均分布。
“如果你问我内心深处的信念,我们的世纪将被称为钢铁世纪还是蒸汽或电的世纪呢?我会毫不犹豫地回答:它将被称为机械自然观的世纪,达尔文的世纪。”
十二
人工智能的变迁,几乎对应着人类认知世界的变迁结构。
从确定性到不确定性,从物理定律到统计概率,物理和信息交汇于“熵”,并以类似的达尔文观念,进化出有生命的熵减系统。
在这个愈发茫然的世界里,AI在疫情后时代获得了世人额外的关切;
诸神已被人类背弃,算法用强大而未知的相关性替代了神秘主义和因果霸权,仿佛成为新神。
真实与信念,确定与随机,意识与虚无,再次于大众的狂欢之中,对峙在时代的断崖边缘。
从乐观的角度看,牛顿的信徒和达尔文的信徒也许可以携手,借助于尚不知进化边界何在的人工智能,去突破人类的智慧疆界。
哈耶克说:“一个秩序之所以可取,不是因为它让其中的要素各就其位,而是在这个秩序上能够生长出其他情况下不能生长出的新力量。”
迄今为止,我们尚不能定义什么是智能,什么是意识。
然而,却有一个黑乎乎的盒子,告诉我们可能会超越人类的智能,甚至涌现出人类的意识。
微软的报告中这样写道:
我们没有解决为什么以及如何实现如此卓越的智能的基本问题。它是如何推理、计划和创造的?
当它的核心只是简单的算法组件--梯度下降和大规模变换器与极其大量的数据的结合时,它为什么会表现出如此普遍和灵活的智能?
AI研究人员承认,智能是否可以在没有任何代理或内在动机的情况下实现,是一个重要的哲学问题。
在2023年的这个并不容易的春天,我对ChatGPT的态度坦然而期待:
我希望见到它所具备的可能性,为这个混乱的世界带来某些“熵减”。
在所有预测中,我期待Kurzweil的那个“2030 年技术将使人类享受永生”的预言。
我自己对永生没兴趣,但不想失去身边的人们。我对世俗的依赖大过对“超人类主义”的担忧。
我不太相信意识的上传,因为一旦上传,就可以复制,就不是唯一的,就失去了自由意志,又谈何“意识”呢?
人类会洞察大脑最深层次的秘密吗?汤姆·斯托帕警告过:
“当我们发现了所有的奥秘,并失去了所有的意义时,我们将会在空荡荡的海边孤身一人。”
哥德尔的“不完备性定理”告诉我们,不确定性是人类认识的形式逻辑思维本身所固有的。
“一个计算机可以修改自身的程序,但不能违背自身的指令——充其量只能通过服从自身的指令来改变自身的某些部分。”
哥德尔算是为AI,为人类划定了边界吗?否则,人类制造超级AI,然后拜其为神,何尝不是自我奴役?
哥德尔又告诉我们,人类永远可以在“实在主义”中通过“直观和直觉”引入构成高一级形式系统的新东西,建立新公理系统,如此推进以至无穷。
这就是彭罗斯所持的那种“人心超过计算机”的观念。
最后
恰恰相反,依照最优决策原理,我很容易通过期望值计算,得出最佳选项,获得所谓最大化的收益。
然而,我追溯到内心的源头,重新定义了自己的期望效用,然后据此做出了有点儿辛顿风格的“基于信仰的差异化”选择。
对任何一个人而言,不管是难是易,是聪明是愚蠢,是理性是任性,这种事儿在技术层面都只算小菜一碟。
可对AI来说,自己去定义期望效用,暂时难于登天。
所以,研究人员称,为“大型语言模型”配备代理权和内在动机是未来工作的一个迷人的重要方向。
而“代理权”与“内在动机”这两点,一个普通人类只需要一秒钟或者几个不眠之夜即可实现。
或许关键不在于得失,不在于效用函数,而在于“存在”。
如伊塔洛·卡尔维诺所言:
“随着时光流逝,我慢慢地明白了,只有存在的东西才会消失,不管是城市,爱情,还是父母。”