生成式人工智能的存在归功于Transformer模型
本文是对Transformer模型的一个原理介绍,真的是非常清晰,小白也能够看懂。文中不少图片是动图,点开查看效果更好。
本文是翻译,版权属于原文。
在过去几年中,我们在构建智能机器的数十年追求中取得了巨大的进步:即大型语言模型(LLM)的诞生。
这一技术基于试图模拟人类大脑的研究,开创了一个名为生成式人工智能的新领域——这种软件能够以接近人类能力的水平,生成可信且复杂的文本、图像和计算机代码。
世界各地的企业开始试验这一新技术,认为它可能变革媒体、金融、法律和专业服务领域,以及教育等公共服务。LLM基于一种名为变压器模型的科学发展,它是由谷歌研究人员于2017年开发的。
“虽然我们一直理解变压器工作的突破性意义,但几年后,我们因其在医疗、机器人技术、安全性以及增强人类创造力等新领域中的持续潜力而备受鼓舞,”谷歌高级研究员斯拉夫·佩特罗夫(Slav Petrov)说。他从事包括LLM在内的AI模型的构建工作。
LLM被广泛认为具有提高生产力的潜力——通过编写和分析文本。然而,这也使其对人类构成威胁。据高盛公司(Goldman Sachs)估计,这可能导致约3亿全职工人在主要经济体中面临自动化风险,进而引发广泛失业。
随着该技术迅速融入我们的生活,理解LLM如何生成文本意味着理解这些模型为何是如此多功能的认知引擎——以及它们还能帮助创造什么。
生成文本的过程
要生成文本,LLM必须首先将单词翻译成它们能够理解的语言。首先,一段文字会被分解为标记(tokens)——可以编码的基本单元。标记通常代表单词的一部分,但我们将每个完整的单词转换为一个标记。
为了理解一个单词的含义,例如“工作”(work),LLM首先利用大量训练数据中的上下文观察它,注意附近的单词。这些数据集基于互联网发布的文本,新LLM通过数十亿个单词进行训练。
在模型处理这组词汇时,它会生成一个向量(或值的列表),并根据每个词在训练数据中与“工作”的接近程度调整该向量。这种向量被称为词嵌入(word embedding)。
例如,“海洋”(sea)和“海”(ocean)这对词可能不会在完全相同的上下文中使用(“all at ocean”无法直接替代“all at sea”),但它们的含义彼此接近,嵌入可以量化这种接近程度。
通过将每个嵌入表示的数百个值减少到两个值,我们可以更清晰地看到这些单词之间的距离。变压器模型的突破
然而,仅此不足以让LLM如此聪明。使它们能够解析和书写达到今天流利程度的关键工具是变压器模型,它彻底加速并增强了计算机理解语言的方式。
变压器能够同时处理一整个序列——无论是一个句子、段落还是整篇文章——分析其所有部分,而不仅仅是单个单词。
这种处理方式使得软件能够更好地捕捉上下文和模式,从而更准确地翻译或生成文本。这种同时处理的能力还使LLM的训练速度更快,从而提高了效率和扩展能力。
变压器模型的研究成果最初由谷歌八位AI研究人员于2017年6月发表。
自注意力机制的核心概念
变压器架构的一个关键概念是自注意力机制(self-attention)。这使得LLM能够理解单词之间的关系。自注意力机制会检查文本中的每个标记,并决定哪些标记对理解其含义最为重要。
而有了自注意力机制,变压器能够同时计算句子中的所有单词。捕捉这种上下文,使得LLM在解析语言时拥有更高级的能力。
例如,在分析句子时,变压器可以理解“interest”(兴趣)一词在讨论政治时是作为名词使用的。
当我们将两个句子结合时,模型仍然能够根据伴随文本的注意力分配正确识别每个词的含义。
对于第一个“interest”的使用,模型主要关注“no”和“in that”。对于第二个“interest”,则主要关注“rate”和“bank”。
自注意力机制的更广泛应用
这种功能对于高级文本生成至关重要。没有它,在某些上下文中可互换使用的单词可能会被错误使用。上下文的扩展与规模化
通过增加模型的规模,自注意力机制在语言处理中的优势会进一步提升。它能够从句子边界之外获取上下文,使得模型更深入地理解单词的使用方式和时机。其中一个全球最大且最先进的LLM是GPT-4,这是OpenAI最新的人工智能模型。该公司表示,GPT-4在多个学术和专业基准测试中(例如美国律师资格考试、AP测试和SAT考试)展现了“人类水平的表现”。
GPT-4能够生成并处理大量文本:用户可以输入多达25,000个英文单词,这意味着它可以处理详细的财务文档、文学作品或技术手册。
这一产品重塑了科技行业,全球最大的技术公司(包括谷歌、Meta和微软——这些公司都支持OpenAI)正竞相主导这一领域,同时也有较小的初创企业参与其中。
他们发布的LLM包括谷歌的PaLM模型(为其聊天机器人Bard提供支持)、Anthropic的Claude模型、Meta的LLaMA以及Cohere的Command模型等。
版权问题与模型训练
尽管这些模型已被众多企业采用,一些开发公司正面临有关使用从网络上抓取的受版权保护文本、图像和音频的法律诉讼。
这是因为当前的LLM是基于英语互联网中的大部分信息训练的——如此庞大的信息量使它们比以往任何一代模型都更加强大。
通过这一庞大的词汇和图像语料库,模型学习识别模式,并最终预测下一个最佳单词。
在对提示进行标记化和编码之后,我们得到一个数据块,它以机器能够理解的方式表示输入内容,包括单词的意义、位置及其相互关系。生成文本的概率预测
简单来说,模型的目标是预测序列中的下一个单词,并重复这一过程直到输出完成。然而,这种孤立预测下一个单词的方法(称为“贪婪搜索”)可能会引入问题。有时,即使每个单独的标记可能是下一个最佳选择,但完整短语的相关性可能较低。
这未必总是错误的,但可能并非符合预期。
改进输出质量的方法
变压器使用多种方法来解决这一问题并提高输出质量。例如,束搜索(beam search)就是一种方法。通过束搜索,模型能够考虑多条生成路径并找到最佳选项。
这会产生更好的结果,最终生成更连贯、更像人类的文本。模型的局限性与“幻觉”问题
尽管生成的文本看似可信连贯,但并不总是事实正确的。LLM并不是查找事实的搜索引擎,而是通过模式预测下一个最佳选择的引擎。
由于这种内在的预测性质,LLM可能会生成虚假的信息,这一现象被研究人员称为“幻觉”。它们可能生成虚假的数字、名字、日期、引用,甚至是网页链接或完整的文章。
在一个纽约备受关注的案例中,一名律师使用ChatGPT为案件制作了一份简报。当被告方对报告进行质询时,发现其中充满了虚构的司法意见和法律引用。这位律师在自己的庭审中告诉法官:“我没有意识到ChatGPT会捏造案例。”
尽管研究人员表示“幻觉”永远无法完全消除,但谷歌、OpenAI等公司正在通过称为“扎根”(grounding)的过程努力减少这一问题。这包括将LLM的输出与网络搜索结果交叉检查,并向用户提供引用以便核实。
人类反馈也被用来填补信息空白,这一过程称为人类反馈强化学习(RLHF),进一步提高输出质量。然而,理解哪些查询可能触发“幻觉”以及如何预测和减少这些问题仍是一个重大研究挑战。
变压器的广泛应用
尽管存在这些局限性,变压器模型已催生出众多尖端AI应用。除了支持像Bard和ChatGPT这样的聊天机器人外,它还驱动了我们手机键盘上的自动补全功能以及智能音箱中的语音识别技术。
版权属于原文:
https://ig.ft.com/generative-ai/
如果您想要让大模型写出优质的短篇小说,以及对其他内容感兴趣,也欢迎点击下面的链接,效果不错哦,很多朋友都说好。
点击这里:超强写作提示词
效果如下