专栏 | AI 研习社
微信公众号 | 远远远
作者 | 远远
智能的本质是什么?在图灵写下那篇划时代论文《计算机器与智能》之后科学家们就开始思考这个问题了,对于事物本质的思考非常重要,这种哲学思考为科学指明了前进的方向。最开始,人们认为智能的本质应该是逻辑,就是定义和推理,使用计算机数据结构定义什么是什么,然后用程序逻辑的方式进行推理,这是人们对智能最初的想象。最简单的例子,如果人们输入“你是谁?”,计算机就回应“我是xxx制造的个人工智能”,这是简单的一对一关系,后来人们使用一种一一对应的数据库来存储问题和答案。程序会查询问题,找到对应的答案,将答案输出。还有实现更复杂的逻辑结构,如果什么条件,就做什么事,通过复杂的程序逻辑结构组合,是、否、如果、循环、递归这些布尔(逻辑)结构来构建更加复杂的功能,并且在某些特定领域实现了不错的效果,但人们始终无法用逻辑构建一种真正的智能,只能用逻辑构建“功能”。再后来,出现了机器学习、神经网络、深度学习这些不再需要依赖人们手动编码逻辑程序的方式,让计算机可以处理更复杂的事,比如识别手写的字,识别图像,识别声音,让智能领域又进了一步。2017年,谷歌公司研究团队的论文 《Attention is all you need》 横空出世,这篇具有划时代意义的论文,提出了一种基于注意力机制的神经网络模型Transformer模型,该模型抛弃了旧的循环神经网络RNN和卷积神经网络CNN。不懂RNN和CNN没关系,这不会阻挡你了解新技术,更不会妨碍你了解人工智能之道,这篇论文在如何把注意力变成数学问题上下功夫,使用这种方式,成功地让机器展现出对文本的理解,展现出一种比传统技术更强的智能程度。仔细想想,好像人类的注意力确实在智能上扮演着这至关重要的作用,当我们看到一段话,我们潜意识会本能更关注那些重要的词,而这种注意本身好像少有被人意识到,就像牛顿发现了人们习以为常的万有引力。有很多人听过香农和他那篇创世论文《通讯的数学原理》,香农把信息进行量化和处理,开辟了一门学科,信息论。人工智能领域的论文有类似的感觉,都是把问题转化成数学问题,《Attention is all you need》 就是把注意力变成数学问题。是的,想理解当今最强智能技术Transformer模型,就一定要搞清楚注意力机制的整个数学过程。这个过程可以深入浅出地说,首先,如果你要数字化一个句子,让这个句子带有某一种说不清道不明的理解关系,那就把这个句子中的每个词都变成一种叫向量的数据,向量就是多维的数据,样子如下。
每一个逗号隔开的数据都是一个维度,有很多个维度,比如语义,可能就需要好多维的数据来表示,词嵌入模型word2vec通常使用100维,200维,甚至更高维,维度越高,模型对词的理解就越深。然而,这些词的维度数据,我们人类已经无法理解了,但我们知道,那些训练出来的维度数据会在理解中起作用。怎么让词变成一个向量呢?这个过程叫做词嵌入,使用词嵌入模型,比如Word2Vec、GloVe等。GPT使用的词嵌入模型更加复杂,GPT-3 XL (175B参数)的模型版本词向量维度竟然高达12288维。词嵌入就是文本模型智能的关键之一,这个过程比较复杂,所谓预训练模型的本质,就是这些训练好的词向量的总和加上注意力机制。
词嵌入好了之后,我们拥有了词向量集合,只有这个集合还是不能体现智能的,这时候要计算文本中词向量之间的相似度。那么问题来了,怎么计算词向量之间的相似度?数学上有种叫点积算法,这是一种向量之间的运算,计算结果就是向量之间的相似度。为什么要计算这种相似性?主要是为了识别词在上下文中的依赖关系和重要性。计算相似性后,模型会得到一个注意力权重矩阵,这是反映每个词和其他词关联程度的矩阵。注意力机制的主要作用是动态的分配“注意力”到不同的词向量上,这是模型灵活智能的关键,我们输入不同的语句,注意力机制就是注意到哪些词对当前任务最为重要。使用注意力机制的结果就是,模型好像有了一种能够灵活处理问题的能力,比如在处理用户输入的时候,模型会通过计算发现关键词(权重高的词向量)和关联关系(词向量权重矩阵),这样就可以更好地处理用户任务,展现出一种智能。如果说词嵌入是给模型的理解力打地基(预训练模型就是词向量集合+注意力机制),模型的词向量集合就是理解本身,而注意力机制能把理解力变成智能。
所以我们知道了现代AI模型的大概工作方式,我们再来总结一下,主要回顾几个关键理念。5、我们知道了注意力机制可以让模型有灵活处理问题的能力。这就是Transformer架构的大概理念,明白了这个过程,你就知道现代AI是怎么运作的,当然,如果想要深入了解技术细节,那会是个更精彩和复杂的世界。那么,关注我,未来我们可以使用更加简练的语言把更深的技术细节表达出来。可以获得《Attention is all you need》论文原文PDF