GPT是怎么理解世界的,与人类理的世界的方式相同吗?
GPT基于神经网络的学习和婴儿学语言很像,但却不相同!
爸爸妈妈不会教婴儿语法,他自然就学会了。而成人拿着语法书学外语,怎么学都是半吊子。
但是有一个关键区别:GPT不直接接触物理世界!
人类婴儿的语言学习是通过多感官体验完成的。当妈妈说“苹果”时,婴儿不仅听到“苹果”这个词,还会看到、摸到、闻到,甚至品尝到苹果。这些体验会在婴儿的大脑中建立起多模态的神经连接,这种立体的关联建立使得婴儿真正理解了“苹果”的概念。
而GPT的学习过程完全依赖于符号(文字、图片、音频等)的输入,它只能通过语言模式去预测和生成下一个词。这意味着GPT并没有对“苹果”的感官体验,它只是“知道”在各种上下文中如何使用“苹果”这个词。因此,GPT的理解是基于符号模式的统计,而不是基于感知和经验的多模态联觉。
GPT通过大量的数据训练形成的语言模型,能够在不同的上下文中生成与“苹果”相关的句子,比如“苹果是一种水果,可以吃,通常是红色或绿色”。但它并不“理解”这些描述背后的真实感官体验,就像一个天生眼盲的人对颜色的理解。眼盲者可以通过他人的描述和比喻来“知道”红色代表热烈、蓝色代表冷静,但他缺乏直接的视觉体验,所以这种理解本质上是符号性的和间接的。
GPT的语言理解可以看作是一种高级的符号操作。它能够根据输入的文字信息来做出推理、总结和生成,但这种推理是没有物理世界体验基础的。这就好比一个从未见过大海的人,仅仅通过书本描述对大海形成的认知:他可以说出海浪、沙滩、海鸥等元素,但他并不能真正“感受到”海风拂面的那种体验。
OpenAI的前首席科学家伊利亚在辞职之前接受一个播客的访谈1时,对GPT怎么理解世界发表了他的理解。
伊利亚说,从表面上看,语言模型只是从文本上了解世界, 所以现在Open AI给GPT增加了多模态能力,让它能通过画面、声音和视频了解世界。但是,多模态并不是必须的。他举了个颜色的例子。在不用多模态功能的情况下,按理说, 语言模型就好像是个盲人,它只是听说过一些关于各种颜色的描述,它并不能的理解颜色。可是什么叫理解?
语言模型仅仅通过语言训练就已经知道“紫色更接近蓝色而不是红色”“橙色比紫色更接近红色”这些事实。
伊利亚并没有明确说,但我从上下文理解出,模型不是在背诵哪个文本教给它的知识,它是从众多文本中自己摸索出了这些颜色的关系。那这叫不叫理解?
伊利亚还说,如果能直接看见颜色,你肯定能瞬间理解不同颜色是怎么回事--但那只是学习速度更快而已。从文本中学习会比较慢,但并不见得是本质的缺陷。
再者,到底什么是语言?并不是说只有用人类文字写出的东西才是语言。画面中的像素难道就不是语言吗?我们完全可以把任何图片、声音、视频变成一串串的数字符号,这不就是语言吗?现在的生成式画图AI,比如OpenAI自家的DALL·E,是使用跟语言模型同样的Transformer技术来预测画面中的内容的。画面跟语言有啥区别?
要是这么理解的话,也许天生眼盲的人对世界的理解一点都不差,他们只是有点障碍,理解得慢一些而已。
关注AI科普小站,我们会持续为您带来更多的AI干货。
-------------THE END--------------