人工智能 (AI) 长期以来一直是科幻小说中的内容,但近年来,它已经转变为一股改变我们职业和个人生活的有形力量。从捕获和复制特定人类知识的基本专家系统开始,AI 已经发生了巨大发展,催生了大型语言模型(LLMs),能够以惊人的熟练程度生成类似人类的文本。较新的 AI 模型拥有多模态功能,使它们能够通过各种形式的输入和输出(例如图像、音频甚至视频)进行交互,从而拓宽了其应用和交互的范围。本页旨在通过提供明确的定义并探索 AI 的进化历程来揭开 AI 的神秘面纱 - 从早期的基于规则的系统到当今复杂的神经网络。
本文分为以下几个部分:
专家系统
机器学习和神经网络
生成式人工智能和大型语言模型(LLMs)
图像生成
人工智能的定义
人工智能 (“AI”) 被广泛认为是由机器(通常是计算机系统)执行的人类智能模拟。AI 的核心目标是构建能够执行传统上需要人类认知功能的任务的机器。这些功能包括学习、推理和解决问题的能力,以及做出明智决策的能力。
然而,这个基本定义掩盖了 AI 作为一个领域的复杂性和多样性。它是一个多学科领域,利用了各种技术、算法和方法。这些范围从简单的基于规则的系统到复杂的神经网络和机器学习模型。AI 技术的范围和深度不断发展,使其成为一个充满活力且不断扩大的领域。
专家系统
专家系统处于这个范围的简单一端。专家系统旨在捕获和模拟人类专家的知识和推理。在这些系统中,人类专家的知识和专业技能被记录为计算机程序中的规则、事实和逻辑。这些规则通常以 if-then 类型的格式构造。例如,医学专家系统中的一条规则可能规定:“如果患者在腹部右下腹经历严重的腹痛,那么他们可能患有阑尾炎。
专家系统的一个局限性是它们依赖于制定明确的规则来定义专家传授的情报。例如,上述关于阑尾炎发作的规则可能是定义所有人类医学诊断的非常大、全面的相互依赖规则的一部分。要求检查患者白细胞计数的第二条规则可能由与腹痛有关的第一条规则触发。
知识工程是开发专家系统的一个关键方面,是人类专业知识和机器能力之间的桥梁。从本质上讲,知识工程涉及捕获专家(在本例中为专门诊断和治疗阑尾炎的医生)的专业知识,并将这些知识转换为计算机系统可以理解的格式。医生必须煞费苦心地解释指向阑尾炎发作的症状、诊断测试和背景因素的复杂网络。这通常涉及数小时的访谈、咨询和审查,以确保系统既准确又全面。另一方面,程序员将面临一项具有挑战性的任务,即将这些丰富的医学知识转化为专家系统可以使用的一系列规则和决策树。这也是耗时的,通常需要多次迭代和广泛的测试来确保可靠性。
专家和程序员的开发过程都是迭代和严格的。对于医生来说,这意味着要不断参与以澄清歧义,验证起草的规则,有时甚至随着医学科学的进步而更新知识库。对于程序员来说,这项工作不仅仅是制定规则;它涉及建立一个用户友好的界面,并将结果与现有规则和数据库集成。知识工程中医学专业知识和技术技能的交织既是劳动密集型的,也是错综复杂的,这凸显了创建熟练专家系统的协作性质。
专家系统的一个显著优势在于其决策过程的透明度和可验证性。与下面描述的 AI 模型的“黑盒”性质不同,专家系统基于规则的结构允许清晰、逐步地描述如何得出结论。这种透明度对于故障排除和问责制都非常宝贵。如果发生错误(例如,系统误诊了阑尾炎病例),开发人员可以通过决策树进行追溯,以确定故障点。问题是否给出了错误的答案?提示是否模棱两可或措辞不当?或者,系统的规则库缺乏必要的复杂性来解释异常值情况。
能够以如此详细的方式仔细检查和剖析系统的逻辑,从而能够及时准确地采取纠正措施。开发人员可以优化提示的措辞、修改现有规则或引入新规则,以更好地捕获领域专业知识的复杂性。这种验证和改进的迭代过程不仅增强了专家系统的可靠性,而且还为持续改进和适应性提供了一个框架。
虽然专家系统提供了许多优点,但它们并非没有缺点,其中最主要的是它们固有的不灵活性。专家系统被开发为在非常特定的知识领域内运行,这使得它们不适合其编程专业知识之外的任务。例如,专为医疗诊断而设计的专家系统在应用于法律问题时将完全无效。此外,它们基于规则的性质使它们对领域知识的变化很敏感。例如,如果围绕阑尾炎出现新的医学发现,专家系统不会自动适应这些新信息。它需要重新编程,通常是一个复杂且耗时的过程,才能将新知识整合到其现有的规则库中。
机器学习和神经网络
随着 AI 研究的进展,重点从为专家系统手动创建规则转移到自动化学习方法。这些新方法不需要专家为程序员提供编码规则,而是允许机器使用原始数据进行自我训练。这个概念导致了现代“机器学习”算法的发展,这些算法构成了当今使用的大多数人工智能算法的基础。
从本质上讲,机器学习是人工智能的一个子集,它使计算机系统能够从数据中学习并随着时间的推移提高其性能,而无需为每项任务进行明确编程。机器学习算法不是依赖于人类专家策划的一组固定规则,而是直接从大型数据集中派生规则和模式。虽然专家系统需要手动更新,即使是对领域知识的微小更改,但机器学习模型可以动态适应,以便在新的、看不见的情况下做出预测或决策。
机器学习领域存在多种技术,每种技术都有自己的优点、缺点和理想的用例。从决策树和支持向量机到随机森林和朴素贝叶斯分类器,数据科学家可以使用的算法范围很广。然而,其中,神经网络因其在处理复杂和高维数据方面无与伦比的能力而脱颖而出。它们自动学习复杂模式和表示的能力使它们非常通用和强大,特别是对于图像和语音识别、自然语言处理甚至玩游戏等任务。与其他可能难以应对此类问题的复杂性和规模的机器学习算法相比,神经网络擅长这些问题,通常提供卓越的性能。
神经网络是由相互连接的节点或“神经元”层构成的,其灵感来自人脑的神经结构。每个神经元接收输入,使用加权和激活函数对其进行处理,并将结果传递给下一层的神经元。在学习过程中,通过一种称为反向传播的技术调整这些权重,该技术可以最大限度地减少预测结果和实际结果之间的误差。神经网络的架构可能有很大差异,有些网络只有单层神经元,而另一些网络则有多层,称为深度神经网络。神经元之间的互连、相关的权重以及调整这些权重的方法都有助于网络学习和做出预测或决策的能力。
神经网络可以按层进行定义,深度学习中的术语“深度”是指在神经网络中实现的大量层。例如,旨在识别照片是否包含猫或狗图像的神经网络可以使用三个层:
图层 1,用于识别图像中的边缘(线条和弧线)。
图层 2,它根据识别的边缘(三角形和圆形)识别图像中的形状。
图层 3,它根据识别的形状(狗和猫)识别图像中的对象。
生成式人工智能和大型语言模型(LLMs)
生成式 AI 是一种 AI,旨在创建类似于训练它的示例内容的新内容。为了实现这一目标,它使用深度学习来学习所遇到的数据的底层模式和特征。实际上,生成式 AI 会学习它分析的数据的概率分布。有了这些知识,它就可以产生与以前看到的相似的新输出,同时保持完全原创。这些生成式 AI 模型可以生成各种类型的内容,如图像、文本和音频,所有这些都受到训练数据中发现的模式的启发。
大型语言模型(或LLMs)是一种生成式 AI,可以生成格式正确的句子和段落形式的文本。这些模型在大量文本数据上进行了训练,这使它们能够学习人类语言中存在的模式和关系。此文本数据可以从许多来源提取,但主要来自 Internet。在训练过程中,LLMs 使用深度学习分析数据,并了解在不同上下文中出现的单词和短语的统计概率。然后,在语言生成过程中使用这些知识。当给定提示时,模型会根据从训练数据中学到的对语言模式的 “理解” 来预测与该提示相关的最可能的下一个单词或单词序列。
ChatGPT 是一种对话式LLM,这意味着它允许用户使用聊天类型的人类对话与 AI 互动。对话式 LLM 模拟与用户的类似人类的对话,从而创造更加身临其境的体验。对话式 LLM 经过训练,可以分析用户查询、检索相关信息,并根据其神经网络的学习生成相关响应。ChatGPT 等现代系统可以掌握提问方式的细微差别,从而能够更有帮助地做出回应。此外,对话式 LLMs 可以根据个人用户的独特偏好和过去的互动来定制响应。这些类型的系统通常将交互分组到单独的对话中。LLM作为构建每个新响应的相关上下文。
ChatGPT 是一个特殊的应用程序,它使用高级对话LLM 模型。2022 年 11 月,ChatGPT 首次开始使用其 LLM,该模块被恰当地命名为 GPT-3.5。2023 年 3 月,ChatGPT 开始使用 GPT-4.0 模型。这两个模型以及 ChatGPT 本身都是由加利福尼亚州旧金山的 OpenAI 开发并分发的。Bard 是另一个 LLM,这个是由 Google 创建的。必应聊天是 Microsoft 的 LLM,一般需要使用 Microsoft Edge 浏览器。