自定义参考Token或将LLM推理速度提高200倍

旅行   科技   2024-09-17 09:00   北京  

这次LLM 可能要"起飞"了!

Anton Osika 提出了一个惊天动地的创新:自定义参考Token

这个看似简单的技巧,竟然有可能将LLM的推理速度提高200倍

你没看错,是200倍

这意味着什么?

意味着我们可能即将进入一个全新的AI时代

让我们一起来看看这个"黑科技"到底有多厉害!

什么是自定义参考Token?

简单来说,自定义参考Token是一种压缩LLM输入输出的技巧

它的核心思想是:用一对特殊的token来表示输入序列中的一段子序列

具体怎么做呢?

  1. 为输入序列中的每个位置分配一个特殊token。

  2. 用两个这样的token [x_i x_j] 来表示"从位置i到位置j的所有内容"。

听起来很简单,对吧?但就是这么简单的技巧,却能带来惊人的效果

为什么自定义参考Token这么强?

想象一下,当LLM需要重写一大段文本,但只需要修改其中几个小地方时会发生什么?

用传统方法,LLM需要重新生成整个文本。但有了自定义参考Token,它只需要:

  1. 用一对token引用未修改的部分

  2. 生成修改的内容

这能节省多少时间和计算资源?简直是天文数字!

研究者给出了一个惊人的例子:

如果要重写8000个token的代码,但只有5处函数签名需要修改,使用自定义参考Token可以获得约200倍的加速!

自定义参考Token还能干什么?

别以为它只是个加速器,它的潜力远不止于此!

  1. 压缩训练数据:通过替换重复出现的子序列,可以大大减少训练数据的大小。

  2. 提高训练效率:更小的数据集意味着更快的训练速度和更低的成本。

  3. 优化模型性能:通过学习使用这些特殊token,模型可能会变得更加高效和智能。

简直是一石三鸟啊!

怎么训练这个"神器"?

研究者给出了一个简单的训练方法:

  1. 对训练数据进行预处理,将重复出现的n-gram(n>2)替换为自定义参考Token。

  2. 用处理后的数据训练(或微调)LLM。

听起来很简单,对吧?

为什么这么好的技术还没普及?

Anton Osika 表示,他已经和一些顶级实验室的人交流过,但似乎还没有人实现这个技术。

这就让人不禁要问了:为什么这么强大的压缩技术还没有成为标准呢?

也许是因为:

  1. 技术实现上还有一些挑战

  2. 大家都在忙着堆更大的模型,忽视了这种优化方法

  3. 可能会影响模型的某些能力,需要进一步研究

无论如何,这项技术的潜力是巨大的。它可能会彻底改变我们训练和使用LLM的方式

你怎么看?它会成为下一个AI领域的革命性突破吗?

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

👇👇👇快人一步,掌控AI👇👇👇

AGI Hunt
关注AGI 的沿途风景!
 最新文章