Karpathy:LLM 应更名为自回归模型

旅行   科技   2024-09-16 00:01   北京  

Karpathy又语出惊人了!

这次他吐槽的对象是....LLM的名字?

没错,就是那个被我们天天挂在嘴边的 "大语言模型"(Large Language Model) 。

Karpathy说:这名字不仅让人困惑,还有点可悲。

卧槽,这是要改名的节奏?

来看看大佬到底想说什么。

LLM:不只是"语言"的专属

Karpathy直言不讳:LLM与语言的关系,其实没那么密切。

"语言"这个词,只是历史遗留问题。

那LLM到底是什么?

Karpathy给出了一个更准确的定义:它们是用于对token流进行统计建模的高度通用技术。

啥是token流?简单说,就是一串串离散的符号。

这些符号可以是:

  • 文本片段
  • 图像块
  • 音频片段
  • 动作选择
  • 分子结构
  • ......

只要你能把问题转化为对这种token流的建模,你就能"扔个LLM"过去解决。

所以,LLM根本不在乎这些token是不是真的代表了语言!

Karpathy建议,也许我们该叫它 "自回归Transformer" 之类的名字。

LLM:通吃各行各业的"怪物"

既然LLM不局限于语言,那它还能干啥?

Karpathy给出了惊人的预测:随着LLM技术栈越来越成熟,大量问题可能会收敛到这种建模范式。

这是什么意思?

简单说,就是未来80%的问题,都可能用LLM来解决!

不管你是做图像处理、语音识别,还是分子设计,只要能把问题转化为"预测下一个token",就能用LLM搞定。

这不是要让各行各业的专业模型都失业吗?

深度学习框架:要凉凉?

甚至,Karpathy还质疑了现有深度学习框架的未来。

他说:如果80%的问题都只想用LLM,那PyTorch这些框架是不是太"重"了?

想想看:

  • 上千种操作
  • 各种可以随意配置的层
  • ......

但其实大多数人可能只想用个LLM而已。

虽然Karpathy说这只是一种可能,但已经足够让人深思了。

难道未来AI开发,真的会变成"人人都在玩LLM"?

LLM:万物皆可"语言"?

面对Karpathy的惊人言论,Clive Chan 认为:其实一切都可以表达成自回归的形式,所以一切都是语言!

Karpathy回应说:确实,你可以说是在"说"纹理、"说"分子。但"语言"这个词还是容易让人误以为LLM只能用于文本应用。

还有人指出:LLM安排token的方式,其实并不是真正意义上的任意符号系统。

Leo Dirac 则提醒:对于视觉或化学这样的领域,如何定义token的顺序并不是显而易见的,这可能会影响模型的归纳偏置。

Yann LeCun也对这个话题发表了看法,他认为自回归预测有时是个"纯粹的恶行"!
LeCun 还是这么尖锐!
1. 问题的根源在于自回归预测而不是具体使用的架构(无论是Transformer还是其他)。
2. 对于非时序数据来说使用自回归预测简直是"纯粹的恶行"。
3. 即便是对时序数据在输入空间进行自回归预测也不如在表示空间进行自回归预测。
4. 动态系统并不总是能通过过去输入序列来高效表示。
这直指自回归预测的本质暗示我们可能需要探索更先进的预测方法特别是对于非时序数据

马斯克也看不下去了,跳出来吐槽到:“绝对需要一个新名字!多模态语言模型,这显然就是个矛盾的名字!”

重新认识LLM

Karpathy的这番言论,算是给我们打开了一扇新的认知之窗,点了一条思考之路。

LLM不仅仅是"语言"模型,而是一种强大的通用建模技术。

未来,我们可能会看到:

  • 更多领域被LLM统一
  • 深度学习框架的变革
  • AI应用方式的根本改变

你认为LLM会成为未来AI的"统一理论"吗?

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

👇👇👇快人一步,掌控AI👇👇👇

AGI Hunt
关注AGI 的沿途风景!
 最新文章