WXRedian | AI科普小站 | AI不接触物理世界，它是怎么理解这个世界的？

AI不接触物理世界，它是怎么理解这个世界的？

文摘 2024-08-29 17:59 湖南

GPT是怎么理解世界的，与人类理的世界的方式相同吗？

GPT基于神经网络的学习和婴儿学语言很像，但却不相同！

爸爸妈妈不会教婴儿语法，他自然就学会了。而成人拿着语法书学外语，怎么学都是半吊子。

但是有一个关键区别:GPT不直接接触物理世界！

人类婴儿的语言学习是通过多感官体验完成的。当妈妈说“苹果”时，婴儿不仅听到“苹果”这个词，还会看到、摸到、闻到，甚至品尝到苹果。这些体验会在婴儿的大脑中建立起多模态的神经连接，这种立体的关联建立使得婴儿真正理解了“苹果”的概念。

而GPT的学习过程完全依赖于符号（文字、图片、音频等）的输入，它只能通过语言模式去预测和生成下一个词。这意味着GPT并没有对“苹果”的感官体验，它只是“知道”在各种上下文中如何使用“苹果”这个词。因此，GPT的理解是基于符号模式的统计，而不是基于感知和经验的多模态联觉。

GPT通过大量的数据训练形成的语言模型，能够在不同的上下文中生成与“苹果”相关的句子，比如“苹果是一种水果，可以吃，通常是红色或绿色”。但它并不“理解”这些描述背后的真实感官体验，就像一个天生眼盲的人对颜色的理解。眼盲者可以通过他人的描述和比喻来“知道”红色代表热烈、蓝色代表冷静，但他缺乏直接的视觉体验，所以这种理解本质上是符号性的和间接的。

GPT的语言理解可以看作是一种高级的符号操作。它能够根据输入的文字信息来做出推理、总结和生成，但这种推理是没有物理世界体验基础的。这就好比一个从未见过大海的人，仅仅通过书本描述对大海形成的认知：他可以说出海浪、沙滩、海鸥等元素，但他并不能真正“感受到”海风拂面的那种体验。

OpenAI的前首席科学家伊利亚在辞职之前接受一个播客的访谈1时，对GPT怎么理解世界发表了他的理解。

伊利亚说，从表面上看，语言模型只是从文本上了解世界，所以现在Open AI给GPT增加了多模态能力，让它能通过画面、声音和视频了解世界。但是，多模态并不是必须的。他举了个颜色的例子。在不用多模态功能的情况下，按理说，语言模型就好像是个盲人，它只是听说过一些关于各种颜色的描述，它并不能的理解颜色。可是什么叫理解？

语言模型仅仅通过语言训练就已经知道“紫色更接近蓝色而不是红色”“橙色比紫色更接近红色”这些事实。

伊利亚并没有明确说，但我从上下文理解出，模型不是在背诵哪个文本教给它的知识，它是从众多文本中自己摸索出了这些颜色的关系。那这叫不叫理解？

伊利亚还说，如果能直接看见颜色，你肯定能瞬间理解不同颜色是怎么回事--但那只是学习速度更快而已。从文本中学习会比较慢，但并不见得是本质的缺陷。

再者，到底什么是语言？并不是说只有用人类文字写出的东西才是语言。画面中的像素难道就不是语言吗？我们完全可以把任何图片、声音、视频变成一串串的数字符号，这不就是语言吗？现在的生成式画图AI，比如OpenAI自家的DALL·E,是使用跟语言模型同样的Transformer技术来预测画面中的内容的。画面跟语言有啥区别？

要是这么理解的话，也许天生眼盲的人对世界的理解一点都不差，他们只是有点障碍，理解得慢一些而已。

关注AI科普小站，我们会持续为您带来更多的AI干货。

-------------THE END--------------