【直播答疑集】83-3 AI大模型算法的本质是什么？

文摘 2024-09-26 11:34 北京

视频版

音频版

文字版

AI大模型算法的本质是什么？

问：问我能讲讲人工智能的原理吗，一个是Transformer，还有个Diffusion，这些算法的本质是什么？它们能演化出创造力超越人类吗？

答：Transformer和Diffusion是现在人工智能的两种大模型，现在最火的大模型，比如说OpenAI的ChatGPT，还有现在国内的很多AI的大模型，基本上都是基于Transformer大模型来实现的。AI之所以火了，也是因为Transformer大模型的广泛应用才火的，以前的话不是，以前那是其它基于神经网络的。

我们来分析一下，如果说让你去想人工智能，你会怎么想？或者你去想人的智能是怎么运行的，我想一般人都会想是通过联想和创造力。包括现在人们去看AI，也是在关注它的创造力，觉得人跟动物最本质的区别就是，人是有创造力的，动物没有，人是会创造并使用工具的，而动物就不行。

人的智能最有别于其他生命的就是创造力，所以在考虑人工智能的时候也考虑创造力。但是这个世界是这样吗？世界其实不是这样。我先说说Diffusion吧。Diffusion其实我觉得是基于创造的思维方式而创造的一种AI大模型。它是通过淡化，它要给一个信息去加噪声，咱们可以把它理解为先把事物变模糊，再把事物变清晰。

比如大家现在看到我这个画面，可能是720P的，是1280×720像素的。它把它变模糊，是怎么变模糊呢？它是加噪声。咱们如果说年纪稍微大一点的，在小时候看电视，那个电视会有很多的雪花。那个雪花是什么呀，雪花就是信号干扰，它就是噪声。

大家可以想象一下，我这画面就变得有好多好多小雪花了，好多好多的噪声，就变得不清楚了。你也可以理解成逐渐就有越来越多的马赛克，然后它信息在丢失。Diffusion第一步其实干的就是这件事，第二件事再把它还原回来，把它噪声化及清晰化，相反的过程中它来对这个模型进行训练。

因为在这个过程中，一方面是故意地把图像给搞得不清楚，但是你是知道清楚的画面是怎样的，所以在还原的过程中你就有一个还原的依据，你就能对它有所训练。所以这个大模型就越来越多地掌握了从模糊的东西变成清晰的经验，它是这样的一个过程，先扩散再收敛，先模糊化再清晰化，在这个过程中去进行训练得到一些经验。

而Diffusion这个模型，它就比较广泛地用在图形里面。比如说咱们看到的一些简笔画，你通过简笔画就能够出来很清晰的，色彩很丰富的，细节很丰富的画面。这个往往就用的Diffusion这个模型，因为它训练的就是通过很多失真的，噪声比较大的画面，能够得到清晰画面的能力。

所以你通过简笔画，它就可以给你把这个内容丰富进来，但是这个过程它就有比较大的局限。我举一个简单的例子，比如说你现在看到我这个正面的画面，你想基于我正面的画面，得到我一个侧面的画面，就是稍微侧一点的画面，你通过Diffusion是可以做到的。

因为你先把正面的模糊化再清晰化的时候，你曾经积累过从这个角度画面到这个角度画面的一些经验的话，你就可以从正面的画面作为素材，先模糊化再清晰化，得到我稍微偏转十度角度的画面，这样的话你就会做一些细微的这种动画，你通过Diffusion是可以的。

但是你能够通过我正脸的画面得到我后脑勺的画面吗？你通过Diffusion就不行了，因为正脸的画面是有五官的，但是后脑勺的画面是没有五官的，你怎么通过模糊化再清晰化得到呢？是得不到的。

所以Diffusion这个算法其实是有很大限制的，它只能把有关联的内容进行转化。如果说没有很紧密的关联，是很难用Diffusion的算法得到的。但是Transformer就不是，Diffusion的话通过我这个画面模糊化再清晰化的方式，得到它的训练。但是Transformer它是把我这个人整个360度，而且这个360度不光是横向的360度，还有纵向的360度，还有高度的360度，反正就是全方位的360度全都给你拍了，而且它拍得非常细。

所以在Transformer的大模型里面，它的参数就特别多。它把你这个三维事物以二维的信息去获取样本，获取了特别多，提前都获取好了，而且它在存储的时候，它不是以二维的方式存储的，它是以三维的方式存储的。所以啥意思？它就用二维的相机给我拍了一大堆相片之后，它又进行了三维建模。

而且它知道给我拍的这些信息其实都是我的信息，虽然可能拍了上万张照片，但是知道这上万张照片其实都是一个人。所以你用Transformer的方式的话，你所构建的大模型，你通过我的正脸，你也可以知道我的后脑勺是什么样。

我还是基于我这个人，如果说是Diffusion这个算法的话，它的信息是来自于一个固定角度，然后通过算法能够得到一个偏转角度的画面，就是它是基于二维做的变化。你输入的是二维，你输出的也是二维，而且在过程中也是二维，它把二维的画面模糊化，然后再清晰化，得到了一个相似的二维画面。

所以实现了一些变化联想或者丰富，它完全是基于二维。Transformer模型不是，它不是基于二维的，虽然它训练是基于二维的信息进行训练，但是它训练后的结果，它是一个三维的全息信息。然后它存储在Transformer大模型里边，其实也是一个三维的信息，它是一个三维的信息库。

所以当给一个二维的信息条件的时候，它就知道：哦，这个是悟道人R，然后再通过Transformer给的提示词，他原来还要后脑勺的信息，那给他后脑勺的，他给的提示是这个正脸的，但是他要后脑勺，所以它就是通过输入二维，找到三维的对象，然后再切换到另外一个角度，再以另外一个角度的二维信息输出出来。

然后这个角度是什么东西，这个角度在Transformer里面就叫做注意力。比如说给我浑身拍照片，拍了上万张，这上万张的数据是什么？这个就是大模型的训练，然后它就把我的所有信息，全都输入到大模型里了。所以大模型里是有我的一个非常完整的三维信息。

那在用这个大模型的时候，我是以二维信息去输入的，你再拿这个照片和大模型去一对照，发现：哦，这个是悟道人R的局部。所以Transformer就把注意力放在这个位置，但是注意力到这儿之后，因为他所要求的输出结果却不是这个方向的，他可能要的另外一个角度，所以它还得需要切换一下注意力，切换到另外一个注意力，然后再输出出来。

所以Transformer大模型，它是完全符合投影源幕布以及成像关系。人类的各种信息，其实都是真实世界的成像。我一直在强调，这个真实的世界其实是多维的，但是我们看到的世界是四维的，就是长宽高三维，再加上一维时间。那我们在运用Transformer大模型的时候，我去给它做训练，我只能是基于四维模型去给它做训练。

就好像去输入我这个信息，拿上万张二维照片去给做训练，但是它训练的结果是二维吗？不是，它训练的结果是三维的。那Transformer这个AI大模型，它是拿四维的信息去进行训练，然后输入给这个大模型，但是这个大模型，真正里边存的是一个四维信息吗？不是，它存的是一个高维信息，它是超多维信息。

所以它构建的实际上是这整个世界的投影源，它用低维的信息，也就是人类能够提供出来的低维信息去构造完整的高维世界。因为Transformer有一个很重要的理论，就是这个世界实际上是高维的，但是我们所看到的世界是高维世界在低维下的呈像投射。所以这个就是投影源幕布以及成像的关系。

然后在Transformer里边，还有一个很重要的概念，叫做注意力。它的注意力其实就是它的幕布，大模型本身是个投影源，然后你注意力在哪儿，就是它的幕布是什么样。所以这个投影源投到一个确定的幕布下，它就会呈现出来较为确定的成像。

为什么Transformer大模型它可以跨门类，在Transformer没火之前，其实在人工智能领域它是分好几种的，比如说图像识别，然后语言分析，还有其它的是分好几种，但是Transformer它是可以跨类别。为什么？那是因为这所有类别其实它都是基于一个总的投影源。

所以它才可以用一句话来生成图，用一句话来生成一首歌，用一句话可以生成一篇文章，它背后的逻辑就是在transform 。transform是什么？transform就是把你这个成像回归到投影源之后，再选一个另外的幕布再呈现出来。

比如你说一句话，这句话是什么幕布下的，是语言幕布下的。你的注意力是在语言环境，但是这句话的内容，它的本质其实在整个世界里面是有对应的。然后我把这句话翻译成图像语言，换了一个图像的幕布，所以它就会成像出来图像。如果说我给它换了一个歌曲的幕布，那它就会呈现出来一首歌，如果我把它换了一个小说的幕布，它就会变成一个小说。

其实Transformer它在做的就是translation，就是在做翻译，它在改变信息的表达形式，但是它的本源其实是一个本源。比如我们去描述一个人，我可以通过拍照去表达他，我可以给他写个人物传记去表达，我可以给他拍影片去表达他，我可以写一首歌去表达他。

就是我对这个人，我有各种各样的表达方式，但是这些各种各样的表达方式，它的根源是不是还是来自于这个人？那我不同的表达方式在做切换的时候，它在做的是什么呀？首先咱们用世界模型就是投影源、幕布、成像。那不同幕布的不同成像，它在做的就是transform，就是在变换表达形式。

它这种变换表达形式，它变的是什么呀？用投影源、幕布、成像来说的话，你变换的就是幕布，但是要用Transformer大模型的语言，它变换的就是注意力。它用不同的注意力的方式来得到不同的信息，但是它的信息源，它的总源头是一个源头。Transformer这个大模型为什么成功？是因为Transformer它的底层逻辑是跟这个世界的底层逻辑是一样的。

这段时间我一直在解读数学，尤其最近一期咱们讲的数学分析。数学分析里边用到了什么？你看我这个解读数学过程中，在讲勾股定理的时候，讲到了多维向量，然后微积分的时候，讲到了连续。然后上一讲的时候讲到了数学分析，数学分析里面很重要的有导数，导数是看趋势的，就是你基于一个现状然后去分析它的趋势，你就会知道它相邻的位置会是什么样的呈现。

而这个东西就特别像Diffusion。Diffusion就是先模糊化然后再通过随机化，然后它再训练趋势方向，因为你把画面丰富，它是一个趋势方向，把画变成动画有一些微变化。这也是有点像你去做数据分析，然后分析它的变化趋势。你通过相邻的然后再通过泰勒展开。

因为在Diffusion里边，实际上也用到泰勒展开的，还有很多导数这些东西，通过这个它就可以得到相邻的内容。然后在数学分析里边，有两个是非常重要的，一个就是泰勒公式，它是通过趋势去分析出来未来的结果，但是还有一个东西就是通过高维及成像，你当变换角度的时候，它会更全面。

就是你如果通过数学分析，你通过泰勒展开，只通过导数分析它的趋势的话，那这种相邻的趋势你是好算的。因为你能够知道它是怎样的导数，怎样一个斜率，怎样一个变化规律，你是好推断出来。但如果说它这个趋势特别远，就好像从我的正脸，你要推出我的后脑勺，你通过二维的思维你怎么推呀？你根本就推不出来。

所以它就需要三维的认识，三维的认识才能够把我的后脑勺跟我的正脸相关联起来。用二维的思维，我的正脸跟我的后脑勺是永远不可能同时出现在一个画面里的，因为它差180度。但是你如果在三维的角度上，我的正脸跟我的后脑勺就可以出现在一个信息系统里，而Transformer它就是这样的。

一个超高维的信息系统，它把所有的信息全都进行了紧密的关联，所以当你输入任何一个信息的时候，它都可以找到与之关联的信息。然后语言就可以转化成音乐，音乐可以转化成画面，画面也可以转化成语言，它们之间可以来回切，因为它是超高维的，它们的联系都存储在Transformer的底层的大模型当中了。

它是一个超高维的数据库，而这个超高维的数据库是什么呀？就是我上一堂讲的那个傅里叶变换。傅里叶变换就是七个圆圈就可以组成音符了，还有锯齿。然后三百个圆圈就可以画出来傅里叶的素描图了，这才三百个参数，三百个参数就可以画出来傅里叶的二维画面。

那这个Transformer它参数有多少？它都是几百亿上千亿。你想想咱们上一次讲的傅里叶变换、傅里叶级数，它有上千亿参数，你说它能够组成什么？那不就是组成了这个世界。其实去理解Transformer，就是用傅里叶级数去理解它就对了，然后怎么去理解Diffusion，你就用泰勒公式去理解就对了。

其实恰好就是之前解读数学第四讲所讲的，数学分析里面特别重要的两种分析方式。然后这里边又问到它们会演化出创造力吗？其实Transformer不是创造力，然后这个世界其实也无所谓创造。怎么讲？比如说你有了这个大模型了，你知道我的正脸，你是不是就知道我侧脸是什么样了。

给你一个正脸信息，你得到侧脸信息，这是创造吗？这不是创造。我这个例子举得不太好，就是我这个人，如果说整个在这个大模型里了，然后你基于正脸，再要侧面，其实是调取，它不是创造。但是基于我这个案例之后，它会知道一个人各个角度的画面，它会存在怎样的关系。

当它学会了这个关系之后，它再拿一个别人的正脸，就是这个别人他是没有完整在大模型里面，但是大模型里面它是知道一个人正脸跟侧面的数据关系是怎样的，那是不是基于大模型它也可以创造出来这个人的侧面。但是我想问问这个本质，它是创造吗？它不是创造，它是复制，它是transform，它只是变化一种形式。

而且这个变化规律它找到了，基于那么多参数，它知道了变化规律，它会触类旁通，但是人往往是不太会触类旁通的。什么是悟道啊？悟道就是把一切都触类旁通了，所以很多你不知道的，你通过一个迹象也知道了。就包括当初我为什么说这个世界我全都知道了，其实就是类似在我的思想世界里已经是有一个Transformer大模型。

其实我看待这个世界就是用超高维的方式去看待这个世界的。我看一个人其实不是一个人，我看到他是一个多维信息，我看到这个多维信息之后，我就能够推断出来他的过去现在未来。它背后是有规律的，然后为什么天体就知道了？为什么金融就知道了？为什么易经就知道了？因为它背后都是统一的。

而Transformer大模型，它之所以能够出现那么多，其实它是创造吗？它不是创造，它仅仅是在翻译。它把这块的经验也用到那块，而这块的经验，如果说在另外一个领域，还没有被人类触类旁通地使用的时候，那AI如果使用了，就会使人误以为AI在创新，在创造，但其实AI没有创造创新，这个很重要。

悟道人R

2024.6.15

悟道人R | 详解开悟

悟道人R | 见到世间法，源于一个大胆的猜想！

悟道人R | 见到出世间法，源于宏觉法师的开示

悟道人R | 《心经》到底在说什么？

悟道人R | 《道德经》第一章隐藏着最高秘法

悟道人R | 《清静经》第二段的实证体会

悟道人R | 《地藏经》背后的秘密

悟道人R | 《圆觉经》用y=f(x)解释佛经

悟道人R | 解读《相对论》

悟道人R | 解读《量子力学》

http://mp.weixin.qq.com/s?__biz=MzU4OTc5MDE1Ng==&mid=2247512680&idx=1&sn=714b75ea4055153de2b4b8387b694be1

悟道人R

这里是一座通往智慧的大门~

最新文章

第99期「智慧类」直播答疑（附问题列表，2024.11.23）

【直播答疑集】85-14 做事的时候应该旁观还是投入？

【直播答疑集】85-13 如何停下持续不断的念头？

第98期「养生类」直播答疑（附问题列表，2024.11.17）

【直播答疑集】85-11 家人偏激是否说明自己也有问题？

【直播答疑集】85-8 地球的灾难和人心有关系吗？

【直播答疑集】85-6 我是谁？从哪里来？到哪里去？

第97期「智慧类」直播答疑（附问题列表，2024.11.9）

【直播答疑集】85-3 被抱养的孩子是和父母缘分浅吗？

【直播答疑集】84-12 如何改变反复确定才能安心的情况？

【直播答疑集】84-11 母亲控制欲很强怎么办？

专题直播：解读《数学》（六）

首期“七日静坐训练营”开营在即

【直播答疑集】84-10 如何理解Transformer？

【直播答疑集】84-6 如何管理好时间和精力？

明师联线：手把手教你如何赢得人心，听R师联线师扬老师《讲透鬼谷子》

【直播答疑集】84-5 如何应对就业困难？

第96期「养生类」直播答疑（附问题列表，2024.10.19）

「智慧大门」全新改版，开启智慧传播新征途

【直播答疑集】84-4 如何平衡接纳和拒绝？

第95期「智慧类」直播答疑（附问题列表，2024.10.12）

【直播答疑集】84-3 缘分是注定的吗？

【直播答疑集】83-13 头脑运作时能量是如何流转的？

【直播答疑集】83-12 为什么说一世为官九世为牛？