视频版
音频版
文字版
AI大模型算法的本质是什么?
问:问我能讲讲人工智能的原理吗,一个是Transformer,还有个Diffusion,这些算法的本质是什么?它们能演化出创造力超越人类吗?
答:Transformer和Diffusion是现在人工智能的两种大模型,现在最火的大模型,比如说OpenAI的ChatGPT,还有现在国内的很多AI的大模型,基本上都是基于Transformer大模型来实现的。AI之所以火了,也是因为Transformer大模型的广泛应用才火的,以前的话不是,以前那是其它基于神经网络的。
我们来分析一下,如果说让你去想人工智能,你会怎么想?或者你去想人的智能是怎么运行的,我想一般人都会想是通过联想和创造力。包括现在人们去看AI,也是在关注它的创造力,觉得人跟动物最本质的区别就是,人是有创造力的,动物没有,人是会创造并使用工具的,而动物就不行。
人的智能最有别于其他生命的就是创造力,所以在考虑人工智能的时候也考虑创造力。但是这个世界是这样吗?世界其实不是这样。我先说说Diffusion吧。Diffusion其实我觉得是基于创造的思维方式而创造的一种AI大模型。它是通过淡化,它要给一个信息去加噪声,咱们可以把它理解为先把事物变模糊,再把事物变清晰。
比如大家现在看到我这个画面,可能是720P的,是1280×720像素的。它把它变模糊,是怎么变模糊呢?它是加噪声。咱们如果说年纪稍微大一点的,在小时候看电视,那个电视会有很多的雪花。那个雪花是什么呀,雪花就是信号干扰,它就是噪声。
大家可以想象一下,我这画面就变得有好多好多小雪花了,好多好多的噪声,就变得不清楚了。你也可以理解成逐渐就有越来越多的马赛克,然后它信息在丢失。Diffusion第一步其实干的就是这件事,第二件事再把它还原回来,把它噪声化及清晰化,相反的过程中它来对这个模型进行训练。
因为在这个过程中,一方面是故意地把图像给搞得不清楚,但是你是知道清楚的画面是怎样的,所以在还原的过程中你就有一个还原的依据,你就能对它有所训练。所以这个大模型就越来越多地掌握了从模糊的东西变成清晰的经验,它是这样的一个过程,先扩散再收敛,先模糊化再清晰化,在这个过程中去进行训练得到一些经验。
而Diffusion这个模型,它就比较广泛地用在图形里面。比如说咱们看到的一些简笔画,你通过简笔画就能够出来很清晰的,色彩很丰富的,细节很丰富的画面。这个往往就用的Diffusion这个模型,因为它训练的就是通过很多失真的,噪声比较大的画面,能够得到清晰画面的能力。
所以你通过简笔画,它就可以给你把这个内容丰富进来,但是这个过程它就有比较大的局限。我举一个简单的例子,比如说你现在看到我这个正面的画面,你想基于我正面的画面,得到我一个侧面的画面,就是稍微侧一点的画面,你通过Diffusion是可以做到的。
因为你先把正面的模糊化再清晰化的时候,你曾经积累过从这个角度画面到这个角度画面的一些经验的话,你就可以从正面的画面作为素材,先模糊化再清晰化,得到我稍微偏转十度角度的画面,这样的话你就会做一些细微的这种动画,你通过Diffusion是可以的。
但是你能够通过我正脸的画面得到我后脑勺的画面吗?你通过Diffusion就不行了,因为正脸的画面是有五官的,但是后脑勺的画面是没有五官的,你怎么通过模糊化再清晰化得到呢?是得不到的。
所以Diffusion这个算法其实是有很大限制的,它只能把有关联的内容进行转化。如果说没有很紧密的关联,是很难用Diffusion的算法得到的。但是Transformer就不是,Diffusion的话通过我这个画面模糊化再清晰化的方式,得到它的训练。但是Transformer它是把我这个人整个360度,而且这个360度不光是横向的360度,还有纵向的360度,还有高度的360度,反正就是全方位的360度全都给你拍了,而且它拍得非常细。
所以在Transformer的大模型里面,它的参数就特别多。它把你这个三维事物以二维的信息去获取样本,获取了特别多,提前都获取好了,而且它在存储的时候,它不是以二维的方式存储的,它是以三维的方式存储的。所以啥意思?它就用二维的相机给我拍了一大堆相片之后,它又进行了三维建模。
而且它知道给我拍的这些信息其实都是我的信息,虽然可能拍了上万张照片,但是知道这上万张照片其实都是一个人。所以你用Transformer的方式的话,你所构建的大模型,你通过我的正脸,你也可以知道我的后脑勺是什么样。
我还是基于我这个人,如果说是Diffusion这个算法的话,它的信息是来自于一个固定角度,然后通过算法能够得到一个偏转角度的画面,就是它是基于二维做的变化。你输入的是二维,你输出的也是二维,而且在过程中也是二维,它把二维的画面模糊化,然后再清晰化,得到了一个相似的二维画面。
所以实现了一些变化联想或者丰富,它完全是基于二维。Transformer模型不是,它不是基于二维的,虽然它训练是基于二维的信息进行训练,但是它训练后的结果,它是一个三维的全息信息。然后它存储在Transformer大模型里边,其实也是一个三维的信息,它是一个三维的信息库。
所以当给一个二维的信息条件的时候,它就知道:哦,这个是悟道人R,然后再通过Transformer给的提示词,他原来还要后脑勺的信息,那给他后脑勺的,他给的提示是这个正脸的,但是他要后脑勺,所以它就是通过输入二维,找到三维的对象,然后再切换到另外一个角度,再以另外一个角度的二维信息输出出来。
然后这个角度是什么东西,这个角度在Transformer里面就叫做注意力。比如说给我浑身拍照片,拍了上万张,这上万张的数据是什么?这个就是大模型的训练,然后它就把我的所有信息,全都输入到大模型里了。所以大模型里是有我的一个非常完整的三维信息。
那在用这个大模型的时候,我是以二维信息去输入的,你再拿这个照片和大模型去一对照,发现:哦,这个是悟道人R的局部。所以Transformer就把注意力放在这个位置,但是注意力到这儿之后,因为他所要求的输出结果却不是这个方向的,他可能要的另外一个角度,所以它还得需要切换一下注意力,切换到另外一个注意力,然后再输出出来。
所以Transformer大模型,它是完全符合投影源幕布以及成像关系。人类的各种信息,其实都是真实世界的成像。我一直在强调,这个真实的世界其实是多维的,但是我们看到的世界是四维的,就是长宽高三维,再加上一维时间。那我们在运用Transformer大模型的时候,我去给它做训练,我只能是基于四维模型去给它做训练。
就好像去输入我这个信息,拿上万张二维照片去给做训练,但是它训练的结果是二维吗?不是,它训练的结果是三维的。那Transformer这个AI大模型,它是拿四维的信息去进行训练,然后输入给这个大模型,但是这个大模型,真正里边存的是一个四维信息吗?不是,它存的是一个高维信息,它是超多维信息。
所以它构建的实际上是这整个世界的投影源,它用低维的信息,也就是人类能够提供出来的低维信息去构造完整的高维世界。因为Transformer有一个很重要的理论,就是这个世界实际上是高维的,但是我们所看到的世界是高维世界在低维下的呈像投射。所以这个就是投影源幕布以及成像的关系。
然后在Transformer里边,还有一个很重要的概念,叫做注意力。它的注意力其实就是它的幕布,大模型本身是个投影源,然后你注意力在哪儿,就是它的幕布是什么样。所以这个投影源投到一个确定的幕布下,它就会呈现出来较为确定的成像。
为什么Transformer大模型它可以跨门类,在Transformer没火之前,其实在人工智能领域它是分好几种的,比如说图像识别,然后语言分析,还有其它的是分好几种,但是Transformer它是可以跨类别。为什么?那是因为这所有类别其实它都是基于一个总的投影源。
所以它才可以用一句话来生成图,用一句话来生成一首歌,用一句话可以生成一篇文章,它背后的逻辑就是在transform 。transform是什么?transform就是把你这个成像回归到投影源之后,再选一个另外的幕布再呈现出来。
比如你说一句话,这句话是什么幕布下的,是语言幕布下的。你的注意力是在语言环境,但是这句话的内容,它的本质其实在整个世界里面是有对应的。然后我把这句话翻译成图像语言,换了一个图像的幕布,所以它就会成像出来图像。如果说我给它换了一个歌曲的幕布,那它就会呈现出来一首歌,如果我把它换了一个小说的幕布,它就会变成一个小说。
其实Transformer它在做的就是translation,就是在做翻译,它在改变信息的表达形式,但是它的本源其实是一个本源。比如我们去描述一个人,我可以通过拍照去表达他,我可以给他写个人物传记去表达,我可以给他拍影片去表达他,我可以写一首歌去表达他。
就是我对这个人,我有各种各样的表达方式,但是这些各种各样的表达方式,它的根源是不是还是来自于这个人?那我不同的表达方式在做切换的时候,它在做的是什么呀?首先咱们用世界模型就是投影源、幕布、成像。那不同幕布的不同成像,它在做的就是transform,就是在变换表达形式。
它这种变换表达形式,它变的是什么呀?用投影源、幕布、成像来说的话,你变换的就是幕布,但是要用Transformer大模型的语言,它变换的就是注意力。它用不同的注意力的方式来得到不同的信息,但是它的信息源,它的总源头是一个源头。Transformer这个大模型为什么成功?是因为Transformer它的底层逻辑是跟这个世界的底层逻辑是一样的。
这段时间我一直在解读数学,尤其最近一期咱们讲的数学分析。数学分析里边用到了什么?你看我这个解读数学过程中,在讲勾股定理的时候,讲到了多维向量,然后微积分的时候,讲到了连续。然后上一讲的时候讲到了数学分析,数学分析里面很重要的有导数,导数是看趋势的,就是你基于一个现状然后去分析它的趋势,你就会知道它相邻的位置会是什么样的呈现。
而这个东西就特别像Diffusion。Diffusion就是先模糊化然后再通过随机化,然后它再训练趋势方向,因为你把画面丰富,它是一个趋势方向,把画变成动画有一些微变化。这也是有点像你去做数据分析,然后分析它的变化趋势。你通过相邻的然后再通过泰勒展开。
因为在Diffusion里边,实际上也用到泰勒展开的,还有很多导数这些东西,通过这个它就可以得到相邻的内容。然后在数学分析里边,有两个是非常重要的,一个就是泰勒公式,它是通过趋势去分析出来未来的结果,但是还有一个东西就是通过高维及成像,你当变换角度的时候,它会更全面。
就是你如果通过数学分析,你通过泰勒展开,只通过导数分析它的趋势的话,那这种相邻的趋势你是好算的。因为你能够知道它是怎样的导数,怎样一个斜率,怎样一个变化规律,你是好推断出来。但如果说它这个趋势特别远,就好像从我的正脸,你要推出我的后脑勺,你通过二维的思维你怎么推呀?你根本就推不出来。
所以它就需要三维的认识,三维的认识才能够把我的后脑勺跟我的正脸相关联起来。用二维的思维,我的正脸跟我的后脑勺是永远不可能同时出现在一个画面里的,因为它差180度。但是你如果在三维的角度上,我的正脸跟我的后脑勺就可以出现在一个信息系统里,而Transformer它就是这样的。
一个超高维的信息系统,它把所有的信息全都进行了紧密的关联,所以当你输入任何一个信息的时候,它都可以找到与之关联的信息。然后语言就可以转化成音乐,音乐可以转化成画面,画面也可以转化成语言,它们之间可以来回切,因为它是超高维的,它们的联系都存储在Transformer的底层的大模型当中了。
它是一个超高维的数据库,而这个超高维的数据库是什么呀?就是我上一堂讲的那个傅里叶变换。傅里叶变换就是七个圆圈就可以组成音符了,还有锯齿。然后三百个圆圈就可以画出来傅里叶的素描图了,这才三百个参数,三百个参数就可以画出来傅里叶的二维画面。
那这个Transformer它参数有多少?它都是几百亿上千亿。你想想咱们上一次讲的傅里叶变换、傅里叶级数,它有上千亿参数,你说它能够组成什么?那不就是组成了这个世界。其实去理解Transformer,就是用傅里叶级数去理解它就对了,然后怎么去理解Diffusion,你就用泰勒公式去理解就对了。
其实恰好就是之前解读数学第四讲所讲的,数学分析里面特别重要的两种分析方式。然后这里边又问到它们会演化出创造力吗?其实Transformer不是创造力,然后这个世界其实也无所谓创造。怎么讲?比如说你有了这个大模型了,你知道我的正脸,你是不是就知道我侧脸是什么样了。
给你一个正脸信息,你得到侧脸信息,这是创造吗?这不是创造。我这个例子举得不太好,就是我这个人,如果说整个在这个大模型里了,然后你基于正脸,再要侧面,其实是调取,它不是创造。但是基于我这个案例之后,它会知道一个人各个角度的画面,它会存在怎样的关系。
当它学会了这个关系之后,它再拿一个别人的正脸,就是这个别人他是没有完整在大模型里面,但是大模型里面它是知道一个人正脸跟侧面的数据关系是怎样的,那是不是基于大模型它也可以创造出来这个人的侧面。但是我想问问这个本质,它是创造吗?它不是创造,它是复制,它是transform,它只是变化一种形式。
而且这个变化规律它找到了,基于那么多参数,它知道了变化规律,它会触类旁通,但是人往往是不太会触类旁通的。什么是悟道啊?悟道就是把一切都触类旁通了,所以很多你不知道的,你通过一个迹象也知道了。就包括当初我为什么说这个世界我全都知道了,其实就是类似在我的思想世界里已经是有一个Transformer大模型。
其实我看待这个世界就是用超高维的方式去看待这个世界的。我看一个人其实不是一个人,我看到他是一个多维信息,我看到这个多维信息之后,我就能够推断出来他的过去现在未来。它背后是有规律的,然后为什么天体就知道了?为什么金融就知道了?为什么易经就知道了?因为它背后都是统一的。
而Transformer大模型,它之所以能够出现那么多,其实它是创造吗?它不是创造,它仅仅是在翻译。它把这块的经验也用到那块,而这块的经验,如果说在另外一个领域,还没有被人类触类旁通地使用的时候,那AI如果使用了,就会使人误以为AI在创新,在创造,但其实AI没有创造创新,这个很重要。
悟道人R
2024.6.15