从高低维度出发,重新理解AI

文摘   2024-12-05 06:18   河北  
我们看到的世界是真实的吗?
高维世界在低维世界中如何投影?
虽然升维困难重重,降维又会带来诸多灾难,但人工智能为何能在更高维度上实现人类智慧?
引言
先问你一个问题,我们看到的是真实的世界吗?这么问你,你肯定会回答不是?为什么不是呢?至少我们常见的有两种理解方式。
第一种理解是我们无法完全确定所感知的世界是否真实或完整,这就是柏拉图在《理想国》中提出的著名"洞穴寓言"。
寓言描述一群囚徒从小被锁在地下洞穴中,脖子和腿被锁链固定,只能面向洞壁,无法转身。他们身后有一堆火,将物体的影子投射到墙上。囚徒们只能看到这些影子,却把它们当作现实,为影子命名,并基于这些影子构建了自己的世界观。
一天,一名囚徒获得解放,第一次看到了火光和真实的事物。起初,真实世界的光线刺痛了他的眼睛,让他困惑不安。随着时间推移,他逐渐适应并理解了真实世界。当他返回洞穴,试图告诉其他囚徒他们所见只是影子而非真实时,其他囚徒却嘲笑他,认为他疯了。
这个寓言深刻阐述了人类认知的局限性以及知识与真理的相对性。你以为你真的了解这个世界吗?柏拉图通过这个寓言也展现了哲学家的角色:他们如同那个被解放的囚徒,通过理性和智慧洞见真理之光,并努力将真理传递给仍生活在无知中的人们。"洞穴寓言"告诉我们,追求知识和真理是一条艰难的道路,需要勇气和智慧去超越感官经验,达到对理念世界的理解。同时,它也揭示了启蒙教育的重要性,以及改变人们根深蒂固观念的困难。
第二种理解是笛卡尔的"我思故我在"哲学思想,这是一种侧重主观世界描述的哲学思维。"我思故我在"(Cogito, ergo sum)首次出现在他的著作《第一哲学沉思录》(Meditations on First Philosophy)中。
笛卡尔通过怀疑一切可被怀疑的事物来寻找不可动摇的真理基础。他开始怀疑外部世界的存在,甚至怀疑自己身体的存在,认为这些都可能是恶魔制造的错觉。在这个怀疑过程中,他发现唯一不能被怀疑的是"怀疑"本身——即使怀疑一切,他仍在思考,而思考的行为证明了思考者的存在。由此,他得出了"我思故我在"的结论。笛卡尔强调自我意识的存在和主体性的重要性,认为个体的自我意识和思考是认识世界的基础。他还试图证明上帝的存在以及人类灵魂与身体的区别,建立了身心二元论。作为心灵和身体的结合体,"我思故我在"不仅成为了笛卡尔哲学的核心,也成为了现代哲学中自我意识和认识论讨论的起点。后来的哲学家休谟也持类似观点:"人类心灵中的一切素材,不论简单或复杂,具体或抽象,都无一例外地来自人的感觉经验。"
本文将探讨第三种理解方式:如何从高维和低维的角度来理解世界,以及理解计算机和人工智能在其中扮演的角色。
什么是维度?
首先,让我们了解什么是维度。维度最经典的应用体现在物理学和数学中。
经典物理理论描述,一维空间是一条线,线上的点只能沿着一个方向移动,即从前到后。二维空间是一个平面,点可以沿两个方向移动:从前到后,从左到右。三维空间则是一个立方体,点在其中可以自由移动。我们生活的物理世界就是三维的。在物理空间中,我们可以向上下、左右和前后移动,任何其他方向的运动都可以用这三个基本方向来表达。简单来说,维度就是指物体上一点的自由度数——即定义物体上某一点的位置所需的独立参数或坐标数量。我们生活在立体空间中,是三维空间中的生物。如果在物理空间中加入时间维度,就构成了四维。不过,时间与前述三个空间维度不同:它是单向的,我们只能朝一个方向移动,无法自由穿梭。这些维度共同组成了时空体系,四维时空已经成为普遍接受的理论框架。我们可以构建更多维度,比如超立方体(Tesseract)就是四维空间的体现。电影《星际穿越》结尾展示的就是这样一个"Tesseract"(超立方体),导演诺兰巧妙地将这个四维空间可视化呈现给观众。
在维度概念的运用上,刘慈欣的《三体》系列小说堪称典范,其中多次巧妙展现了维度相关的情节。
第一个例子是"智子"的创造:三体人将质子从11维展开至2维,获得一个巨大的平面,在其上刻蚀电路,随后重新折叠回11维。这样,普通的质子就被改造成了微型超级人工智能"智子"。通过将智子派往地球,三体人得以在微观高维层面监视人类,并限制人类基础科学的发展,展现了维度折叠的强大威力。
第二个例子出现在《死神永生》中,"蓝色空间号"的人类进入四维宇宙的情节。刘慈欣描绘了高维宇宙的独特视角:"在三维世界里,人类的视觉面对的是有限细节,一个环境或事物不管多么复杂,呈现的细节都是有限的。只要用足够的时间依次观看,总能把绝大部分细节尽收眼底。但从四维看三维时,由于三维事物在各个层次上都暴露在四维视野中,原来封闭和被遮挡的一切都平行并列出来。比如一个封闭容器,不仅能看到它内部的物体,这些内部物体的内部也都是可见的,在这无穷层次的暴露并列中,便显露出无限的细节。"
第三个例子是最为人熟知的"二向箔"降维打击。在这场黑暗森林打击中,整个太阳系被二向箔压缩成一幅二维平面画,所有物质——包括地球和人类在内——都被展开成二维平面中的原子级结构。这便是降维打击的终极体现。
后来,"降维打击"一词在商业领域广泛传播,用来形容创新的商业思维和方法对传统模式的颠覆性影响。拥有先进思维方法或高端技术的群体,直接进入低端技术领域,对后者形成碾压式打击。降维打击并非简单的恃强凌弱,而是思维、认知、技术层次的全面超越。当这些高层次思维初现时,很多人往往认识不到,也不了解其背后原理——这就是我们常说的从“看不起”、“看不懂”,到“追不上”的过程。待你意识到这种高维思维时,市场可能已经饱和,生存空间所剩无几。技术的差距是显而易见的,而思维的差距却往往难以察觉。
"降维"打击对手意味着自身要先"升维"。这需要提高前瞻性,从更高维度、更多维度空间来看问题——这就是升维思考。当你具备了竞争对手所不具备的优势,才能自降维度重返市场,在竞争中获得压倒性胜利。
当然,商业中的降维打击与小说中外星人的毁灭性攻击不同,新技术的应用并不意味着必然替代旧技术,一个行业也不会完全取代另一个行业。例如,网上商城并未完全取代线下超市;在数码摄影领域,手机拍照也未能完全替代单反相机这样的专业器材。
在现实世界中,思维升维真的有那么容易吗?能做到的人又有几个?即便有人做到了,这是否仅仅源于时代红利或个人运气,而不是他们所标榜的升维成果?作为低维生物,我们确实很难理解高维世界。为了更好地理解这个问题,我们需要掌握两个重要概念:降维展示和维度灾难。
降维展示:高维世界的存在是可能的,但我们所能观察到的往往是它在低维世界的呈现。就像我们在纸上绘制三维图形时,需要通过投影方式将其展示在二维平面上。同样,当我们试图理解四维物体时,也只能通过其在三维世界的投影来认知。降维展示就是这样一个过程:将高维空间的信息转换到低维空间,同时尽可能保留原始信息的本质。
维度灾难:当我们尝试用低维方式理解高维事物时,由于低维指标和描述的局限性,总会产生偏差。换句话说,高维世界在我们低维世界中的投影往往显得支离破碎、缺乏连贯性。虽然我们能够间接感知它的存在,但要完整还原却几乎不可能——这就是维度灾难的本质。
用维度理解世界
通过这些维度的解释,我们对开篇的问题"我们看到的是真实的世界吗?"有了第三种解释:由于高维世界只能通过低维展示呈现,加上降维方法的局限和维度灾难的影响,导致我们所认识的世界并非真实的全貌。
维度代表了事物的复杂度。我们生活的世界极其复杂,包含文化、经济、种族、国家,以及每个人的不同思维和行为,这构成了一个高维度的世界。然而,我们每个个体却仿佛生活在低维世界中。当我们试图理解这个世界时,只能通过低维度的特征来认知,也就是说,我们看到的只是高维世界在低维世界的投影。让我们通过几个例子来理解:
第一个例子是世界地图。当你看到世界地图时,俄罗斯似乎比中国大很多。这令人诧异,因为俄罗斯的国土面积(1709.82万平方公里,2015年)还不到中国面积(963.4057万平方公里)的2倍。这是因为地球是球形的,用赤道中间线的锥形投影法呈现地图时,越接近南北极,面积放大得越大。事实上,球体表面是无法完整展开成平面的曲面。就像剥橘子时,橘子皮永远无法展开成一个完整的平面。地图投影试图解决这个矛盾:为了绘制完整的平面图,必须通过数学手段对经纬线进行拉伸或压缩,这就产生了投影变形。变形主要体现在形状和面积上,绘制面积越大、离地图中心位置越远,变形越明显。这种投影变形是绘制地图过程中无法避免的矛盾,因此任何投影方式绘制的世界地图都存在一定程度的变形。
第二个例子是经济指标。在经济学中,经济运行是高维的,而我们通过经济数据、图表和走势图来理解经济规律,这些经济指标和股市涨跌就是一种从高维到低维的转换。当我们试图通过宏观经济指标理解整体经济运行的复杂性时,就是在用低维视角观察高维现象。经济模型试图用相对较少的变量来解释和预测复杂的经济现象。这就解释了为什么股市大涨时实体经济可能仍然低迷,以及为什么经济学家的预测往往不准确。
第三个例子是语言。在语言和知识领域,人类的思想和知识是高维的,而文字和语言则是低维的。作家用有限的文字和语言表达深层的思想和知识,读者通过阅读来理解作者的观点,试图重构原始思想和知识,这个过程可以视为一种从低维到高维的映射。正如维特根斯坦所说:"语言是思想的边界。"语言确实是边界,因为低维投影不能超出高维物体本身,但语言无法完全代表思想本身。但语言仍是我们学习知识和了解世界的主要方式,但这种方式效率不高。语法、语义、语境这三层理解构成了文字背后的更高维度。这就解释了为什么我们读了专家的著作,却常常难以真正领会其思想精髓。
第四个例子是多媒体。在娱乐传播领域,现实世界的喜怒哀乐、爱恨情仇是高维的,而图像和视频是低维的。我们试图通过影视剧理解人类生活的意义,但看过再多爱情剧也不一定懂得如何谈恋爱。更重要的是,我们如今被困在个人偏好的算法中,只能接收来自自身维度的信息,因此难以理解那些对立的思想。精英阶层不了解劳苦大众的疾苦,大众则沉浸在自我认知的局限中;各种主义相互对立,任何观点都可能招致批评。美国大选的分裂就是明证:支持哈里斯和特朗普的选民之间难以互相理解,无法相容。每个人都被囿于自己的维度中理解这个世界。
处于低维世界的我们,如何理解高维世界?
为了更好地了解世界,我们需要通过高维在低维世界的投影来认识这个世界。经济指标的高低虽然不能直接反映市场走势,但通过前后指标对比,我们能了解经济的变化趋势,识别拐点和发展方向。股市涨跌虽不能直接反映上市公司的优劣,但能反映市场对行业、领域及公司未来前景的整体判断。同样,自媒体的言论是一种低维投影,体现了博主的核心观点,而评论区的互动则反映了网民群体的舆论导向,这些都是高维思想在低维世界的投影。我们要做的是叠加这些低维度的投影,努力拼凑出高维世界的全貌。
如果仅仅停留在低维世界,我们看到的永远只是投影,如同皮影戏背后的剪影,而非世界的全部。人们描述世界是从高维到低维的过程,而认知世界则是从低维到高维的过程,这种认知是逐步形成的。
以物理学为例,人类最早理解的是牛顿经典力学和万有引力定律,随后发现了固体力学、流体力学和电磁学。直到爱因斯坦提出相对论,我们才发现牛顿力学不过是低速世界和弱引力条件下的低维描述。量子力学进一步揭示了微观世界中经典力学无法解释的现象,如粒子的波动性和不确定性。从普朗克、波尔、海森堡到薛定谔,经过几代物理学家的努力,目前已知的四种基本力——爱因斯坦的引力、麦克斯韦的电磁力、量子色动力学中的强核力、电弱统一理论中的弱核力——最新的M理论希望能将它们统一为一种高维力,这种高维力在低维度中的不同表现就是这四种基本力。换言之,我们之前的理解仍然只是高维世界的某个投影面。
因此,科学家们一直在努力提升维度思考,希望学术理论能够站在更高维度来观察世界。同时,我们也在探索如何在低维世界中更好地还原高维世界的本质。
从维度视角看计算机
计算机科学同样遵循这个原理,计算机领域一直在帮助人类完成降维描述,同时努力确保描述的真实性。
计算机的基础功能实际上是非常低维的,仅能理解0和1这样的二元状态。那么,它是如何完成如此多复杂的任务呢?计算机硬件的核心是电路,只有通电(高电压)和断电(低电压)两种状态。这两种状态用"0"和"1"表示非常直观。
通过组合这些"0"和"1",可以表示任意复杂的数据和指令。有了这个基础,就可以构建逻辑门电路(如与门、或门、非门等),使计算机能够执行基本的逻辑运算。这些简单的逻辑门电路组合后,就形成了更复杂的组合逻辑电路,能够完成加法器、存储器等功能。通过布尔代数规则与(&)、或(|)、非(~)等,又可以实现更复杂的逻辑运算,如if else、大于、小于等判断。
通过二进制编码规则,计算机可以表示各种类型的数据,包括文字(如ASCII、Unicode)、数字(整数、浮点数)等。图片、声音、视频等信号经过数字化后也能转为二进制表示。这样就形成了更高层的抽象表示,包括结构化数据、程序代码等,都可以归结为二进制序列。
基于此,我们开发了程序——人类编写的一系列指令,指导计算机逐步执行操作。每条指令都能转换成机器理解的二进制指令,最终构建出现今各类数字化应用程序。
为了承载人类的进步和文明,计算机科学家们像搭建金字塔一样,层层构筑信息科技这座大厦。从0和1开始,不断提升维度,使其更贴近我们高维度的真实世界。
计算机中的数据本质上是低维表示,是对高维数据进行降维处理的结果。降维就是将高维数据转换为有意义的低维表示。这种低维表示力求保留原始高维数据中尽可能多的信息。在降维程度和信息保留量之间,往往需要权衡取舍。
在真实世界中,语音信号、数码照片或功能磁共振成像等数据通常具有高维度特性。为了有效处理这些数据,计算机需要降低其维度。理想的简化表示应与数据的内在维度相对应。数据的内在维度指的是解释数据观察特性所需的最小参数数量。降维之所以重要,是因为它能够缓解维数灾难和高维空间的其他问题,有助于数据的分类、可视化和压缩。
进入计算机时代其中一个重要原因是计算机的维度已经足够高,能够较好地贴近真实世界,这是以前的技术所不能及的。传统书籍的文字表达过于线性,如同一条缓慢爬行的虫子,理解和吸收主要依赖读者个人,导致不同读者对同一本书的理解差异巨大。而声音和影像的信息密度较低,难以有效记录和修改。这就是我们选择数字化存储的原因。书籍变成电子书,照片变成数码图片,录像带转为数字视频。这种全面的数字化转型,体现了我们希望用更贴近高维世界的方式来保存低维投影的愿望。
如今,计算机发展面临着一个最具挑战性的任务:如何将人类的思维和智慧进行低维度的镜像处理,这促使了人工智能的诞生。
从维度视角看人工智能
从维度的角度来看,人类智慧是高维的,而人工智能技术相对较低维;在人工智能系统中,模型和算法又比底层技术更低维。神经网络通过多层的分隔和传导,实现了维度的提升,这使它能够实现人工智能功能。在数据层面,AI领域采用了向量化存储结构而非传统的二维表结构,进一步提升了数据的维度。从硬件到计算方式,也体现了维度的扩展——从CPU到GPU的演进,从串行到并行计算的转变。
低维表示在机器学习和深度学习领域有广泛应用,其中维度指的是特征空间的大小。每个输入的数据点(无论是图像、文本还是其他形式)都在高维空间中表示,可用于噪声去除和特征提取。通过选择合适的低维度,既可以保留数据的主要信息,又能简化学习任务,在保持模型性能的同时提高效率。与传统机器学习需要人工定义特征不同,深度学习通过多层神经网络自动学习,从低级信息(如像素、声音波形)逐步提取出高层次特征(如物体、语义)。这种自动化过程大大减少了特征工程的复杂性。深度学习通过对低维信息的分层处理和组合,逐步构建起对数据的全面理解,这个过程就像爬山、解谜、搭建乐高或作画,从简单到复杂、从具体到抽象,最终形成对世界的多层次认知。
在处理人类语言时,大语言模型Transformer架构也采用了类似的方法。最新的人工智能技术摒弃了传统的词法分析和语法分析等低维模式,转而采用Token向量存储和关联度搜寻等高维方式,从而在自然语言处理领域取得了突破性进展。
让我们通过一个简单例子来说明大模型和Transformer的工作原理。
假设我们用Transformer模型来完成一个常见任务:将一句简单的英文翻译成中文。句子是:"I love cats"。
第一步,输入准备:将句子转化为向量。Transformer模型需要将输入的文字转化为向量(数字形式),这个过程称为词嵌入(Word Embedding)。每个词都会被转换成一个高维向量,比如使用768维向量表示。这些向量不是随机数字,而是包含了词的语义信息。例如,"love"和"like"在语义上相近,它们的向量表示也会相似。因此,句子"I love cats."会被转换为以下向量序列:I → [0.5, 0.2, ... , 0.8](768维向量);love → [0.3, 0.9, ... , 0.1](768维向量);cats → [0.7, 0.4, ... , 0.2](768维向量)通过这种高维向量转换,模型能更好地表达每个词的复杂含义及词间关系。这种从低维文字到高维空间的映射,使模型能够捕捉复杂的语义和语境信息。
第二步,Transformer的自注意力机制。Transformer模型使用其核心机制——多头自注意力机制来处理这些向量序列。自注意力机制帮助模型理解词与词之间的关系,并为每个词分配不同的重要性权重。例如,通过关系计算,模型可以理解"I"和"love"之间的主谓关系,以及"love"和"cats"之间的动宾关系。在多头自注意力机制中,不同的注意力头关注句子中的不同关系。一个注意力头可能关注"love"和"cats"的关系,另一个则可能关注整体句子结构。这种多角度的理解帮助模型生成更全面的表示。
第三步,基于概率的输出生成。翻译过程中,模型会计算每个可能翻译的概率分布,选择概率最高的词作为输出。例如,翻译"love"时,模型会生成如下概率分布:"爱" → 85%的概率;"喜欢" → 10%的概率;其他翻译 → 5%的概率
最终,模型选择概率最高的翻译,输出"我爱猫"。
总的来说,大模型之所以能在多个任务上表现出色,是因为它们通过海量数据学习到了丰富的高维表示,能够有效捕捉数据中的模式和复杂关系。与传统模型相比,大模型的高维表示具有更强的泛化能力,可以在不同任务间实现迁移学习。这种泛化能力体现在模型处理未知数据时的表现上,即将从训练数据中学到的知识应用到新数据的能力。这不仅是评估模型质量的关键指标,也显示了模型是否真正学习到了可推广的规律,而不是简单记忆训练数据。具有强泛化能力的模型能在训练数据、测试数据和实际应用中都保持优秀表现。大语言模型的核心在于寻找和发现事物间的共同结构,从而以更有效的方式对事物进行编码。举个例子,如果你问GPT-4"为什么堆肥堆和原子弹类似",大多数人会认为这是两个完全不同的事物而无法回答。但GPT-4能够指出,尽管它们的能量和时间尺度不同,但都涉及链式反应:堆肥堆越热就会发热越快,原子弹产生的中子越多,产生的速度就越快,本质上都是链式反应的形式。有人认为大模型只是在拼凑人类已有的知识,但辛顿认为这种看法是错误的。他指出大模型能够理解知识的本质(至少是从人类角度定义的"本质"),并将这种理解压缩在其权重参数中。
多模态大模型则更进一步,它能整合图像、视频、声音甚至机器人操作等不同感官的信息源,使模型不再仅仅依赖语言来学习世界。这使得机器能够像人类一样,在更复杂的"维度"中运作。当模型能通过视觉观察物体,并通过模拟或物理操作与之互动时,它就能更直观地理解物体间的空间关系和物理规律。这种转变实质上是将AI从符号处理的世界提升到了接触现实的高维世界,使其能更好地理解那些难以用语言描述的物理世界复杂概念。
就像从二进制转换到软件程序一样,人工智能构建了一套从低维向高维探索的基础框架,其所有内容都比原有的计算机体系更高维:从CPU到GPU实现了维度扩展,从二维结构化表到多维向量存储提升了数据维度,从简单算法结构到多层神经网络提高了模型维度。通过这些升维处理,我们正在逐步接近人类智能,也在探索"何为智能"的本质问题。从莱布尼兹的普遍计算设想,到当今的大模型和多模态技术,我们似乎正在逼近一个神秘的边界——对世界的全面认知。这种认知不仅来自算法,更可能源于人类与机器在复杂维度中的共同演化与创造。
如果从维度视角,如何能够让更加人工智能更加贴近真实的人类智能呢?本文将谈到两种方式:降维和升维。
降维存储
第一种方式是降维(Dimensionality Reduction)存储,我们通常将真实的高维世界降维后形成更精确的数据来训练大模型。降维是将高维数据转换为低维数据的过程,需要尽可能保留原始数据的重要信息。高维数据往往包含大量冗余信息,这不仅增加了计算复杂度,还可能导致模型过拟合。通过降维,我们可以减少数据噪声,提高模型的泛化能力。
最传统的方式是数据压缩,可以说大语言模型就是某种对知识的压缩存储,就像人们使用JPEG来存储图像一样。数据压缩技术本身就是一种降维处理方式。作家特德·姜在《ChatGPT是网上所有文本的模糊图像》(ChatGPT Is a Blurry JPEG of the Web)中提出了一个精妙的比喻:ChatGPT就像是对人类语言的JPEG压缩。JPEG采用有损压缩算法,其中常用的是插值技术——通过已知的离散数据点,在范围内推求新数据点。这种方法通过查看间隙两侧的内容来估计缺失部分。当图像程序显示照片时,需要重建压缩过程中丢失的像素,它会通过查看周围像素并计算平均值来实现这一点。
大模型通过对互联网上的知识和信息进行训练,用压缩和打包的方式实现降维存储,然后通过预测下一个token来补齐用户需要的内容,从而还原出高维信息。在这个过程中出现的错误,就是我们常说的大模型幻觉(Hallucinations)——模型在试图编造内容。
正如我们所说,降维会带来灾难。这种降维灾难存在于数值分析、采样、组合学、机器学习、数据挖掘和数据库等多个领域。所有领域都面临一个共同问题:随着维度增加,空间体积快速增长,导致可用数据变得稀疏。为了在低维度获得可靠结果,所需的数据量往往需要随维数呈指数增长。人工智能领域也面临着这个挑战。训练大模型的知识数据相比低维数据集更不可靠,因为它们依赖于更大范围的外推法(extrapolations)——一种在原始观察范围之外,根据变量间关系来估计变量值的方法。简而言之,训练集的维度越高,过拟合的风险就越大。所以,从理论上讲,解决维度灾难的方法是扩大数据训练集的规模,直到达到足够的训练数据量。
升维运行
另一种方式是给大模型进行升维处理,利用已知的低维度技术去实现更高的维度。在实现真正的人工智能这一进程中,维度的突破可能是关键所在。
我们无法像《三体》小说中那样真实地体验和感受高维度空间,只能通过数学计算去理解它。1884年,英国作家埃德温·阿博特·阿博特(Edwin Abbott Abbott)出版了一部讽刺中篇小说《平面国:多维浪漫》。故事描述了一个由几何图形居住的二维世界,主角是一位名叫"正方形"(Square)的居民,生活在一个只有长度和宽度的二维世界"Flatland"中。这个世界里的居民都是几何形状:女性是单一的线段,处于社会最底层;男性是多边形,边数越多地位越高,而圆形(多边形的极限形态)则象征着最高阶层的神职人员。一天,"正方形"遇到了来自三维世界"Spaceland"的一个球体。球体向他展示了第三维度(高度)的概念,并带他体验了三维空间。这让"正方形"意识到他的世界并非全部,还有其他维度存在。然而,当他试图将这些新知识分享给其他Flatland居民时,却被视为异端,最终被投入监狱。这个故事颇似布鲁诺传播日心说的经历。正如二维生物无法感知三维世界一样,我们这些三维生物也很难感受到高维空间。如果今天的大模型对于人类智能而言仍处于低维度,那么它自然也无法感知人类真正的智能。

虽然我们很难理解和体验高维世界,但我们可以通过观察高维度在低维度中留下的痕迹来理解它最经典的方式是观察高维物体与低维空间的"交集"所呈现的截面。例如,当三维球体穿过二维平面时,平面上的观察者会看到一个点逐渐变成圆,圆先变大后缩小,最后又变回点。同理,当四维球穿过三维空间时,我们会观察到一个点扩展成球体,然后球体收缩为点。但要注意,这个过程必须包含时间维度,否则低维空间无法观察到高维世界的变化。
从理论上讲,低维数据是可以还原到高维世界的,但这个过程面临诸多挑战和局限。这种还原取决于数据特性、还原方法的复杂度,以及我们对高维世界的理解程度。不同领域中,这一过程的可行性和方法也各不相同。在人工智能领域,这种从低维到高维的转换本质上是特征学习和模式识别的问题。深度学习模型,特别是生成对抗网络(GANs)和变分自编码器(VAEs),就是为了解决如何从低维潜在空间生成高维数据分布而设计的。
如果将这种思维应用到大模型领域,我们是否可以在大模型与人类智能的交互中引入时间维度,使模型的底层参数能够随时间展现出不同的智能投影?这意味着根据时间和交互反馈来形成动态参数。具体而言,模型可以在推理时通过调整超参数来动态改变行为,无需重新训练就能改变运行时表现,并在运行过程中持续学习。传统的LLMs训练后基本是静态的,缺乏实时学习和适应能力。而OpenAI的o1模型证明了在推理过程中可以实现主动学习,通过持续交互提升响应能力。该模型在数学、编码和现实世界任务中表现出色,具有很强的实时适应性。
与传统方法将推理视为模型生命周期中的静态环节不同,o1模型将其视为动态发展的过程。在使用阶段,模型能够主动学习和自我完善。这表明它不仅存在于训练前后,还在使用过程中不断成长,展现出更强的响应能力和适应性,更贴近现实世界的复杂性。
未来,研究重点应该放在如何在保持模型效率和稳定性的同时实现实时学习,让用户能通过简单的接口上传数据并定制模型行为。我认为,这些方法都有助于大模型观察和理解高维度的人类智能世界,从而提升自身能力。
总结
综上所述,传统计算机采用了一种最低维度的技术:硅和0、1,也就是最普通的沙子以及真和假这种最简单的认知形式。通过逐步组合和演化,不断升维,最终描述出高维数据,打造出计算机和互联网世界。尽管这个世界已经足够复杂,但对于真实世界和人类智慧而言,仍然是低维的。
而人工智能技术采用了更高维的方式:并行计算的GPU、数据向量存储、多层神经网络,打造出一种更高维度的表述形式来理解和形成人类智能。要让大模型更贴近高维度智能,一种方式是优化低维压缩表示,避免降维灾难;另一种方式是充分构建高维智慧在低维模型中的切面投影,通过动态方式提升AI的智能水平。
在《三体》小说中,三体人的交流方式与人类有很大不同,这被称为思想透明。三体人之间没有隐私的概念,他们不是通过语言文字交流,而是直接传递思想、意图和逻辑。每个三体人都能"看到"其他三体人的全部思维,包括推理过程、情感和想法,无法隐藏任何信息。换言之,他们的交流不像人类需要通过语言文字进行降维,而是一种无损的信息传输。虽然人类无法实现这种思想传播方式,但如果未来AI大模型能够实现这样的交流方式,我们就可以通过大模型达成思维共享,提高知识传播效率,这才是真正实现AGI或超级人工智能的标志。因为在我看来,超级人工智能的价值不仅在于其自身能力有多强,更在于它能够与人类进行充分的知识和智慧共享,推动人类进步,而不是仅仅追求自身发展。

AIGC开放社区
专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
 最新文章