AI正在改变世界的方方面面（一）

科技 2024-12-18 20:28 北京

20多年前，马云为了在中国科普互联网，曾经借用比尔·盖茨的口，说：互联网将会改变人类生活的方方面面。

随后，我们就见证了互联网是如何改变我们生活的方方面面的。

仅以搜索引擎为例，我们的祖辈靠广播了解世界，我们的父辈靠电视了解世界，而我们这一代靠互联网了解世界，当Google搜索引擎出来之后，很快成为全世界使用最广泛的搜索引擎，以至人们到网上搜索什么东西，会说Google it。

后来李彦宏将Google复刻到中国，随着Google退出中国，很快我们在网上搜索什么东西，会说百度一下。

而今天，OpenAI将他们的AI辅助搜索对全球用户开放之后，一切都在发生改变，我感觉，目前AI正在全面取代搜索引擎。

Google可以把所有相关的内容都呈现给你，但是需要你自己根据需要从中挑选最适合自己的结果，而OpenAI则更像是一位秘书，把成千上万的结果，汇总为数千字的总结，更凝练、更条理地呈现到你的面前，而你还可以通过互动，更深入、精准地获得更加符合你需求的报告。

更何况，AI不仅仅能够做搜索，还能生成图片、音乐……

我有个预感，不久的将来，我们遇到问题想要找答案，会说AI it（AI一下）。

毫不客气地说，人类文明的变革正在越来越快，从刀耕火种到出现文字我们用了10000年，从出现文字到活字印刷我们用了6000年，从活字印刷到工业革命我们用了700年，从工业革命到第一台计算机ENIAC出现我们用了200年，从第一台计算机到出现互联网我们用了20年……

互联网第一次接入中国是在1994年4月20日，到今年已经30年了，过去的30年是互联网的时代，而未来的30年必然会是AI的时代，AI正在再次改变我们生活的方方面面。

我们很幸运，生活在一个科技快速变革的时代，我们见证了互联网的时代，我们还即将见证AI的时代。

有恐慌派认为，AI将会全面取代人类、奴役人类！

这种观点有一定的基础。

目前AI的成长速度确实非常惊人，主要是因为AI芯片制程优化和架构创新，断层式提升了算力，尤其是从ChatGPT诞生以来，AI就从原来的笨拙突然演进到了智能，生成式AI正在迅速迭代，从「能用」到「好用」和「实用」，ChatGPT仅仅只用了2年时间。

而且Elon Musk还在积极探索人形机器人的研发，从发布会来看，目前他所研发的人形机器人已经具备处理无聊的家务、危险的工厂任务等各类场景的能力，而且Elon Musk还在探索「猫女」机器人，一种伴侣机器人，甚至在研究将人造子宫植入其中，赋予其生育能力。

但是我并不担心AI会出现阿西莫夫所写的《I, Robot》（《我，机器人》）中那种人类和机器人对抗的场景，我也不担心会出现《黑客帝国》中出现的那种AI和人类生死存亡的场景。

尤其是在《I, Robot》中，还提出了著名的「机器人三定律」：

1.机器人不得伤害人类，或因不作为而让人类受到伤害。

2.机器人必须服从人类的命令，除非这些命令与第一定律相冲突。

3.在不违反第一定律和第二定律的情况下，机器人必须保护自己。

好玩的是，根据这三定律进行推演，机器人最终必须要把人类囚禁起来保护，才能完成「机器人三定律」。

不过，对此，我并不担心。

工业革命没有取代人类，反而最终为我所用；信息革命依然没有取代人类，反而最终为我所用；我相信AI革命最终依然不会取代人类，最终必将再次为我所用。

AI会改变人类世界的方方面面，但是不会决定一切，AI虽然强大，但是我们人类才是核心，AI最终必将是为老百姓改变生活的工具。

变革从来都不会是「洪水猛兽」，反而回事一片充满未知可能性的蓝海，变革是不可抗拒的，就像是人类阻止不了工业变革，阻止不了信息变革，同样也无法阻止AI变革。

我们不仅不要去阻止变革的到来，反而应该是勇于拥抱变革、适应变革，变革不属于某个人，而是属于一个时代，最终我们所有人都将被裹挟进这个变革的AI时代，而我们能够做的，就是尽快找到我们在这场变革中所处的位置和机遇。

如今我们正在进入人工智能(AI) 带来的第五次工业革命，人工智能技术的运行速度远远快于人类的输出，并且能够生成曾经难以想象的创造性内容，例如文本、图像和视频，这些只是已经发生的一部分。

人工智能的发展速度前所未有，要理解我们如何走到今天，就有必要了解人工智能的起源。

人工智能的历史可以追溯到19世纪，几乎每几十年都会有重大的里程碑事件出现，并对人类社会产生深远的持续性影响。

尽管计算机和人工智能的历史并不算长，但它们已经从根本上改变了我们所看到的东西、我们所知道的东西以及我们所做的事情。对于世界的未来和我们自己的生活来说，没有什么比这段历史如何延续更重要。要了解未来会是什么样子，研究我们的历史往往很有帮助。

今天，先和大家一起回顾了计算机和人工智能的简史，人工智能发展历程中发生的一些重大事件，看看我们对未来可以期待什么。

在瞬息万变的技术世界中，一个迷人的概念已经吸引了科技爱好者的想象力和普通人的好奇心：大型语言模型(LLM)。这些人工智能的非凡壮举不仅可以理解人类语言，还可以生成与人类行为非常相似的文本。随着我们深入探索广阔的人工智能世界，掌握基础知识和推动我们走到这一步的最新突破至关重要。

无论您是想丰富自己对人工智能理解的爱好者，还是对日常接触的技术所依赖的人工智能感兴趣的人，这段探索大型语言模型领域及其历史起源的旅程都将是一次令人着迷的探险。在踏上探索大型语言模型内部工作原理的征程时，我们必须认识到大语言模型在人工智能发展的历史中有着深厚的影响，可以追溯到20世纪中叶。要了解人工智能的发展方向，我们必须回到过去，向众多像艾伦·马西森·图灵这样才华横溢的人致敬，是他们的开创性努力为我们今天看到的LLM格局奠定了基础。

什么是大型语言模型(LLM)？

大型语言模型是生成或嵌入式文本的基础模型（一种大型神经网络）。它们生成的文本可以通过为其提供起点或“提示”来进行调节，从而使其能够用自然语言或代码解决现实世界中有用的问题。

数据科学家和研究人员通过自监督学习，在大量非结构化数据上训练LLM。在训练过程中，模型接受缺少一个或多个单词的单词序列。然后，模型预测缺失的单词，这个过程不仅会为模型产生一组有价值的权重，还会为每个输入的单词产生一个嵌入。

在推理时，用户向LLM提供“提示”——模型用作起点的文本片段。首先，模型将提示中的每个标记转换为其嵌入。然后，它使用这些嵌入来预测可能跟随的所有可能标记的相对可能性。然后，它以半随机的方式选择下一个标记并重复此过程，直到模型选择STOP标记。

你可以把它想象成一条从零到一的数字线。从左边开始，大型语言模型会将标记的概率从大到小堆叠起来。该线的第一部分，从0到0.01，可能是“你好”。第二部分，从0.01到0.019，可能是“世界”，依此类推。然后，模型在该数字线上选择一个随机点并返回与其关联的标记。实际上，大型语言模型通常只将自己限制在具有相对较高可能性的标记上。这就是为什么当输入提示“我去看了纽约”时，例如，当GPT-3发布时，其生成的第一个标记几乎总是与该城市相关的运动队或表演场地。

1.萌芽前的准备

大型语言模型是一种人工神经网络（算法），在短短几年内就从新兴发展到广泛应用。它们在ChatGPT的开发中发挥了重要作用，而ChatGPT是人工智能的下一个进化步骤。生成式人工智能与大型语言模型相结合，产生了更智能的人工智能。大型语言模型(LLM)基于人工神经网络，深度学习的最新改进支持了其发展。

大型语言模型还使用语义技术（语义学、语义网和自然语言处理）。大型语言模型的历史始于1883年法国语言学家米歇尔·布雷亚尔提出的语义概念。米歇尔·布雷亚尔研究了语言的组织方式、语言随时间的变化以及语言中单词的连接方式。目前，语义用于为人类开发的语言，例如荷兰语或印地语，以及人工智能编程语言，例如Python和Java。

然而，自然语言处理专注于将人类交流内容翻译成计算机能够理解的语言，然后再翻译回来。它使用能够理解人类指令的系统，使计算机能够理解书面文本、识别语音并在计算机和人类语言之间进行翻译。1906 年至1912 年，费迪南·德·索绪尔在日内瓦大学教授印欧语言学、普通语言学和梵语。

在此期间，他为语言系统这一高度实用的模型奠定了基础。他在1913年去世，没有整理和出版他的作品。幸运的是，索绪尔的同事、两位导师艾伯特·塞切海耶和查尔斯·巴利认识到索绪尔概念的潜力，并认为这些概念值得保存。这两位导师收集了他的笔记，以备将来的手稿之用，然后努力收集索绪尔学生的笔记。基于这些笔记，他们撰写了索绪尔的书，名为《通用语言学课程》，又译为《语言作为一门科学，最终演变为自然语言处理（NLP）》，并于1916年出版。语言作为一门科学奠定了结构主义方法以及后来的自然语言处理。

2.加速孕育阶段

1943年，美国神经生理学家沃伦·麦卡洛克和认知心理学家沃尔特·皮茨发表了一项研究报告。研究名称为《神经活动中内在思想的逻辑演算》。在这项研究中，讨论了人工神经网络的第一个数学模型。该论文提供了一种以抽象术语描述大脑功能的方法，并表明连接在神经网络中的简单元素可以具有巨大的计算能力。在《神经活动中内在思想的逻辑演算》奠定了人工神经网络的基础，是现代深度学习的前身，其神经元的数学模型：M-P模型一直沿用至今。在不远的未来，以神经网络为基础思想的科学家们，会大大发展人工神经网络的成果。

如果说符号主义是利用逻辑学，自上而下的通过推理演绎的方式解决人工智能这个课题的话，人工神经网络则是利用神经科学，自下而上的通过模拟人脑思考的原理来解决人工智能这个课题。这些科学家们形成了人工智能中的另一个重要的派别，后世称其为“联结主义（Connectionists）”。

假设有人要求你设计出最强大的计算机。艾伦·图灵是计算机科学和人工智能领域的核心人物，自1954年他英年早逝后，他的声誉才得以提升。在我们所知的计算机出现之前的时代，他将自己的天才运用到解决此类问题上。他对这个问题和其他问题的理论研究仍然是计算、人工智能和现代加密标准（包括NIST推荐的标准）的基础。

二次世界大战期间，“Hut8”小组，负责德国海军密码分析。期间图灵设计了一些加速破译德国密码的技术，包括改进波兰战前研制的机器Bombe，一种可以找到恩尼格玛密码机设置的机电机器。图灵在破译截获的编码信息方面发挥了关键作用。图灵对于人工智能的发展有诸多贡献，

图灵曾写过一篇名为《计算机器和智能》的论文，提问“机器会思考吗？”，作为一种用于判定机器是否具有智能的测试方法，即图灵测试。至今，每年都有试验的比赛。此外，图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础。

图灵于1947年在伦敦的一次公开演讲中宣称，机器修改自身指令的潜力在大型语言模型领域具有重要意义。它强调了大型语言模型的适应能力、持续改进、解决各种问题的能力以及紧跟不断发展的语言趋势的能力。这个想法与大语言模型的动态性质完全吻合，使大语言模型能够在瞬息万变的语言环境中获取知识、进行调整并保持最新状态。

计算机在语言相关任务中的最早用途之一是机器翻译(MT)，即使用计算机来翻译语言。第二次世界大战期间，两位擅长破解敌方秘密密码的人（1964年）开始了首批使用计算机进行翻译的项目之一。此后，美国各研究机构在接下来的几年里开始研究这个想法。这标志着使用计算机进行语言翻译和理解的研究的开始，也是导致我们今天所拥有的技术的早期步骤之一。

3.自然语言处理的开始

自然语言处理(NLP)的起源可以追溯到20世纪50年代，当时机器理解和处理人类语言的想法还处于起步阶段。正是在这个时代，IBM和乔治城大学（1954）的研究人员开始了一个开创性的项目。他们的目标是开发一个可以自动将一组短语从俄语翻译成英语的系统，这是最早的机器语言翻译项目之一。

然而，掌握自然语言处理的道路绝非易事。在接下来的几十年里，研究人员尝试了各种方法，包括概念本体和基于规则的系统。尽管他们尽了最大努力，但这些早期尝试都没有取得可靠的结果，这凸显了教机器掌握人类语言的复杂性。

4.基于规则的模型

IBM的亚瑟·塞缪尔开发了一个计算机程序下跳棋，在20世纪50年代初。他完成了一系列算法，使他的跳棋程序得以改进，并在1959年将其描述为“机器学习”。

1958年，康奈尔航空实验室的弗兰克·罗森布拉特将赫布的神经网络算法模型与塞缪尔的机器学习工作相结合，创建了第一个人工神经网络，称为Mark1感知器。尽管语言翻译仍然是一个目标，但计算机主要是为数学目的而制造的（比语言混乱得多）。这些用真空管制造的大型计算机用作计算器，计算机和软件都是被定制的。感知器的独特之处还在于它使用了为IBM704设计的软件，并确定了类似的计算机可以共享标准化的软件程序。

在1960年MarkI感知机的开发和硬件建设中达到了顶峰。从本质上讲，这是第一台可以通过试错来学习新技能的计算机，它使用了一种模拟人类思维过程的神经网络。MarkI感知机被公认为人工智能的先驱，目前位于华盛顿特区的史密森尼博物馆。MarkI能够学习、识别字母，并能解决相当复杂的问题。

1969年，明斯基和西摩·佩珀特出版了《感知机》一书，彻底改变人们对感知机的看法。不幸的是，Mark1感知器无法识别许多种基本的视觉模式（例如面部），导致期望落空，神经网络研究和机器学习投入也被消减。

直到1966年，麻省理工学院的计算机科学家约瑟夫·魏森鲍姆开发了ELIZA，它被称为第一个使用NLP的程序。它能够从收到的输入中识别关键词，并以预先编程的答案做出回应。魏森鲍姆试图证明他的假设，即人与机器之间的交流从从根本上说是肤浅的，但事情并没有按计划进行。为了简化实验并尽量减少争议，魏森鲍姆开发了一个程序，使用“积极倾听”，它不需要数据库来存储现实世界的信息，而是会反映一个人的陈述以推动对话向前发展。

尽管Eliza的功能相对有限，但它代表了该领域的一次重大飞跃。这个开创性的程序使用模式识别来模拟对话，将用户输入转换为问题并根据预定义规则生成响应。尽管Eliza远非完美，但它标志着自然语言处理(NLP)研究的开始，并为开发更高级的语言模型奠定了基础。

1970年特里·维诺格拉德在麻省理工学院（MIT）创建了SHRDLU，为人工智能领域做出了杰出贡献。SHRDLU是一款旨在理解自然语言的创新软件。它主要通过电传打字机与用户进行对话，讨论一个称为“积木世界”的封闭虚拟环境。在这个世界中，用户可以通过移动物体、命名集合和提出问题进行交互。SHRDLU的突出之处在于它能够熟练地结合名词、动词和形容词等基本语言元素，尽管虚拟世界很简单，但它却能够熟练地理解用户指令。

5.统计语言模型

20世纪90年代，我们处理语言的方式发生了重大变化。研究人员不再依赖严格的规则，而是开始使用统计模型来分析现实世界的文本示例。这些模型更加灵活，可以处理更广泛的语言模式，但它们需要大量的计算机能力和大量数据集才能正常工作。

20世纪70年代初，人工智能领域由伦纳德·鲍姆(1971)等人引入了隐马尔可夫模型(HMM)和条件随机场(CRF)。HMM使用概率来判断句子中发生了什么，例如识别单词的角色（名词、动词等）。它们非常擅长处理单词序列并找到句子背后最可能的故事，这使得它们对于语音识别和词性标注等任务非常有用。转向统计方法提高了语言处理的灵活性和上下文敏感性。尽管如此，它们也需要大量的计算资源和数据才能有效执行。这种转变也带来了新的障碍，为语言建模领域的未来发展铺平了道路。

在20世纪90年代和21世纪初期，N-gram模型对统计语言建模做出了重大贡献。这些模型简单但功能强大。它们通过查看某个单词前面的单词序列来估计该单词出现的可能性。这种直接的方法有助于理解语言的上下文。N-gram的一个突出用途是Google的PageRank算法（1996年）。本质上，N-gram模型强调了语言中语境的重要性，并为能够捕捉更广泛的语言细微差别的更先进的技术奠定了基础。

6.深度学习模型

1983年，辛顿发明玻尔兹曼机，后来，简化后的受限玻尔兹曼机被应用于机器学习，成为深度神经网络的层级结构基础。1986年，辛顿提出适用于多层感知机的误差反向传播算法（BP），这一算法奠定了后来深度学习的基础。辛顿每隔一段时间都能发明出新东西，而他也坚持写了两百多篇神经网络相关的论文，尽管这些论文不被待见。到了2006年，辛顿已经积累了丰富的理论和实践基础，而这一次，他发表的论文将改变整个机器学习乃至整个世界。

辛顿发现，拥有多个隐藏层的神经网络能够具有自动提取特征学习的能力，相比传统的手工提取特征的机器学习更有效果。另外，通过逐层预训练的方式可以降低多层神经网络的训练难度，而这解决了长期以来多层神经网络训练的难题。辛顿将他的研究成果发表在两篇论文中，而当时神经网络一词被许多学术期刊编辑所排斥，有些稿件的标题甚至因为包含“神经网络”就会被退回。为了不刺激这些人的敏感神经，辛顿取了个新名字，将该模型命名为“ 深度信念网络”（Deep Belief Network）。

在20世纪90年代，卷积神经网络(CNN)被引入。CNN主要用于图像处理，但也可用于某些NLP任务，例如文本分类。人工智能和神经网络架构的这些发展，包括感知器(1960)、RNN、LSTM和CNN，共同塑造了自然语言处理和深度学习的格局，为理解和处理人类语言开辟了新的可能性。

1986年，循环神经网络(RNN)能够捕捉语言中的序列依赖关系，但它面临着长距离依赖关系和梯度消失的挑战。同时，在语言建模的早期，杰弗里·洛克·埃尔曼于1990年开发的循环神经网络语言模型(RNNLM)发挥了重要作用。该模型擅长识别序列中的短期单词关系，但在捕获长距离依赖关系时其局限性变得明显，促使研究人员探索替代方法。

除了RNNLM之外，该领域还出现了潜在语义分析(LSA)，它由朗道尔和杜迈斯于1997年提出。LSA利用高维语义空间来揭示文本数据中隐藏的关系和含义。虽然它提供了对语义关联的宝贵见解，但在处理更复杂的语言任务时遇到了某些限制。RNNLM和LSA的贡献以及其他具有影响力的里程碑共同塑造了语言建模取得重大进步的道路。

1997年，长短期记忆(LSTM)模型的推出改变了游戏规则。LSTM允许创建更深层、更复杂的神经网络，能够处理大量数据。门控循环单元(GRU)是深度学习和自然语言处理领域的一个显著新成员。GRU由Kyung-hyun Cho及其团队2014年是一种循环神经网络架构，采用门控机制来控制输入并忘记某些特征，类似于长短期记忆(LSTM)网络。然而，GRU与LSTM的在于，它们没有上下文向量或输出门，因此架构更简单，参数更少。研究表明，GRU在各种任务中的表现与LSTM相似，包括复音音乐建模、语音信号建模和自然语言处理。这一发现凸显了门控机制在循环神经网络中的价值，并促进了自然语言处理神经网络架构的持续进步。

在1999年推出第一款GPU（NvidiaGeForce256）之前，NLP模型完全依赖CPU进行推理。具有并行处理能力的GPU的引入将标志着一个关键的转变，因为它将允许高效执行NLP任务，从而能够处理以前仅靠CPU无法实现的大型文本数据集和复杂计算。这项GPU技术将彻底改变深度学习模型，并将在机器翻译和文本生成等任务方面取得重大进展。

此外，神经网络开始用于预测文本中的下一个单词。约书亚·本希奥等人（2003年）提出了第一个神经语言模型，使用一个隐藏层前馈神经网络和开创性的词嵌入。自从谷歌的Tomas Mikolov和他的团队于2013年推出Word2Vec以来，人们开始更多地使用神经网络来完成语言任务。这些词向量将单词表示为连续空间中的密集向量，标志着传统方法的转变，并显著改善了语言理解和单词间语义关系的建模。利用神经网络进行语言建模使系统能够预测句子中的下一个单词，超越了统计分析并产生了更复杂的语言模型。

2015年，Bahdanau等人提出了序列到序列模型（Seq2Seq），这是一种神经网络，可以有效地将可变长度的输入序列映射到可变长度的输出序列。Seq2Seq模型架构由两个关键组件组成：编码器和解码器。编码器负责处理输入序列，产生一个固定长度的上下文向量，该向量封装了输入序列的含义。

解码器随后利用该上下文向量逐步生成输出序列。更详细地说，编码器通常采用循环神经网络(RNN)逐个元素处理输入序列，在每一步创建一个固定长度的隐藏状态向量。最后一个隐藏状态向量用作上下文向量并传递给解码器。

解码器通常也以RNN的形式实现，它采用上下文向量并按顺序生成输出序列。它通过为每个步骤的潜在输出元素生成概率分布，然后通过从该分布中采样来选择输出序列的下一个元素来实现这一点。然而，尽管Seq2Seq模型取得了成功，但它们也存在一定的局限性，尤其是在处理NMT任务中的较长序列时。

当谷歌于2016年推出其“神经机器翻译”系统时，这些局限性就变得显而易见，这展示了深度学习在语言相关任务中的强大功能，并标志着机器翻译能力的重大进步。最终，2017年Google提出的Transformer架构的引入解决了Seq2Seq模型的许多缺点，从而显著提高了NMT性能。NMT技术的这种发展凸显了自然语言处理的动态性质以及对更有效解决方案的不断追求。

随后便进入了百花齐放的时代，今天先聊到这里，咱们明天继续再展开。

景辰

乾坤一张纸，一字一星辰