Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

科技 2024-12-18 13:32 北京

©作者 | 小舟、陈陈

来源 | 机器之心

最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了，在 Hacker News 上受到广泛讨论。

有人表示，非常期待这项研究取得成功，这样就可以和 tokenizer 拜拜了！

还有人担心的表示，「现在 tokenization 是大多数模型的基础，这项研究被采用的可能性究竟有多大？」

总结而言，该研究提出了一种新的 LLM 思想。传统的语言模型依赖于 tokenizer 来预处理数据，但 tokenization 有其固有的局限性，包括固定的词汇表、处理多语言或噪声数据的效率低下，以及由压缩启发式方法引入的偏见。

该研究提出字节潜在 Transformer（Byte Latent Transformer，简称 BLT）挑战了这种常规做法。BLT 通过直接建模原始字节流，将它们根据熵动态分组为 patch 以实现高效计算。

具体而言，BLT 不需要 tokenizer 架构，可以直接从原始字节数据中学习，避免了静态词汇表的限制，并能更好地处理多样化和带噪声的输入。

基于熵的 Patch：根据信息复杂度动态地将字节分组为 Patch，对高熵区域（复杂输入）分配更多的计算资源，在低熵区域节省资源。

高效扩展：通过优化 patch 大小并利用轻量级局部模型，BLT 实现了与基于 token 模型（如 LLaMA）相当或更好的性能，并在推理过程中节省高达 50% 的计算资源。

鲁棒性与灵活性：BLT 在需要字符级理解、噪声输入或长尾泛化的任务中表现出色，在许多基准测试中超越了基于 token 的架构。

▲ 图源：https://x.com/theraggedflesh/status/1867911485428482131

此外，该研究首次提出了对字节级模型进行 flop 控制的扩展研究，参数规模高达 8B，训练字节高达 4T，从而展示了在没有固定词汇表 tokenization 的情况下，从字节级别端到端地大规模训练模型。

总体而言，BLT 在训练时的 flop 控制性能与 Llama 3 相当，同时在推理时使用的 flop 减少了高达 50%。该研究还进行了 inference-flop 控制的扩展实验（图 1），并观察到与基于 tokenization 架构相比，BLT 扩展趋势明显更好。

这篇论文贡献如下：

提出了 BLT，这是一种字节潜在 LLM 架构，动态分配计算资源以提高 flop 效率；
展示了在 8B（即 80 亿）参数规模下，能够实现与 Llama 3 模型相当的训练 flop 控制，同时可以通过牺牲一小部分评估指标来换取高达 50% 的 flop 效率提升；
BLT 模型为扩展大型语言模型开启了一个新的维度，现在可以在保持固定推理预算的同时扩展模型大小。

论文标题：

Byte Latent Transformer: Patches Scale Better Than Tokens

论文链接：

https://arxiv.org/pdf/2412.09871

代码链接：

https://github.com/facebookresearch/blt

这种无需 tokenizer 的方法代表了语言建模的重大转变，为更高效、可扩展和鲁棒的人工智能系统铺平了道路。

对此，有研究者表示：「Meta 刚刚杀死了 TOKENIZATION，他们发布的 BLT 是一种无 tokenizer 的架构，可以动态地将字节编码为 patch，并实现更好的推理效率和稳健性！」

「2025 年可能是我们告别 tokenization 的一年。」

BLT架构

BLT 由一个对 patch 表征进行操作的大型全局自回归语言模型以及两个较小的局部模型组成，两个较小的局部模型将字节序列编码为 patch 并将 patch 表征解码回字节（图 2）。

潜在全局Transformer模型

潜在全局 Transformer 是一个具有 l_G 层的自回归 transformer 模型 G，它将一系列潜在输入 patch 表征 p_j 映射到一系列输出 patch 表征 o_j。

论文使用下标 j 表示 patch，使用下标 i 表示字节。全局模型使用块因果注意力掩码（Dubey et al., 2024）。

局部编码器

局部编码器模型（用 ε 表示）是一种基于 transformer 的轻量级模型，具有层，其主要作用是有效地将输入字节序列 b_i 映射为表达性 patch 表征 p_j。与 Transformer 架构的主要区别是在每个 Transformer 层之后添加了一个交叉注意力层，其功能是将字节表征池化为 patch 表征（图 5）。

首先，使用矩阵嵌入输入字节序列 b_i ，表示为 x_i 。然后，这些嵌入可以选择以散列嵌入的形式添加附加信息。然后，一系列交替的 transformer 和交叉注意力层将这些表征转换为由全局 transformer G 处理的 patch 表征 p_i。transformer 层使用局部块因果注意力掩码；每个字节都关注前面字节的固定窗口，该窗口通常可以跨越动态 patch 边界，但不能跨越文档边界。

局部解码器

与局部编码器类似，局部解码器 D 是一个基于 transformer 的轻量级模型，具有层，它将全局 patch 表征序列 o_j 解码为原始字节 y_i 。局部解码器根据先前解码的字节来预测原始字节序列，因此将局部编码器为字节序列生成的隐藏表征作为输入。

它应用了一系列交叉注意力层和 transformer 层的 lD 交替层。解码器中的交叉注意力层在 transformer 层之前应用，以首先从 patch 表征创建字节表征，并且局部解码器 transformer 层对生成的字节序列进行操作。

扩展趋势

该研究展示了字节级模型扩展趋势的整体图景，可以为 BLT 模型的进一步扩展提供信息，旨在通过以下方式解决先前字节级模型研究的局限性：

比较计算最优训练方案的趋势；
在大量训练上训练匹配的 8B 模型数据并评估下游任务；
测量推理成本控制设置中的扩展趋势。

参数匹配计算最优扩展趋势

使用 Llama 2 数据集，该研究训练了四种不同大小（参数范围从 1B 到 8B）的各种计算最优 bpe 和 BLT 模型。然后在训练数据混合物的代表性子集上根据语言建模性能绘制训练 flops 图。

BPE 模型使用 Llama 3 确定的模型参数与训练数据的最佳比率进行训练（Dubey et al., 2024）。这种计算最优设置理论上旨在在给定的训练预算内实现训练数据集的最佳性能（Hoffmann et al., 2022），为模型提供鲁棒的基线。

对于每个 bpe 模型，该研究还使用与相应 bpe Transformer 的大小和架构相匹配的潜在 Transformer 在相同数据上训练相应的 BLT 模型。

如图 6（右）所示，BLT 模型要么相当，要么优于 BPE 模型，并且随着扩展模型大小和 flops，这种趋势仍然存在。

为了进一步评估扩展特性，该研究在更大的高质量数据集 BLT-1T 上训练了一个 8B 参数规模的 BLT 模型。表 1 比较了在 BLT-1T 数据集上训练的三个模型，基于 tokenizer 的 BPE Llama 3 模型和 BLT 模型的两个变体（一个采用空间 - patch 方案 (BLT-Space)，另一个采用基于熵的 patch 方案 (BLT-Entropy)）。

结果显示，BLT-Entropy 模型在 7 项任务中的 4 项上的表现优于 Llama 3 模型。这种改进是由于 (1) 通过动态 patch 更好地利用了训练计算，以及 (2) 直接对字节级信息进行建模，而不是对 token 进行建模。

此外，论文还介绍了 Patch 比 Token 更容易扩展。

总结来说，对 patch 长度扩展研究表明，BLT 这种基于 patch 的架构可以通过同时增加 patch 和模型的大小来实现更好的扩展趋势。这样的趋势似乎在更大规模的模型中持续存在，甚至有所改善。

字节建模提高鲁棒性

字符级任务

在对带噪声的 HellaSwag 测试结果发现，BLT 确实在鲁棒性方面全面超越了基于 tokenizer 的模型，平均优势达到 8 个百分点，甚至超过了在更大数据集上训练的 Llama 3.1 模型。

图 7 展示了 Llama 3 tokenizer 模型表现不佳，但 BLT 模型表现良好的几个场景。

表 4 表明，BLT 的表现超过了使用 Llama 3 tokenizer 训练的模型。在流行的语言对中，BLT 的表现与 Llama 3 相当或略好。然而，在资源较少的语言对上，BLT 的表现超过了 Llama 3，这强调了字节建模在泛化到长尾字节序列上的有效性。

从 Llama 3 到 BLT

最后，作者还探讨了一种工作流，其中 BLT 模型可以利用经过预训练的基于 tokenizer 的模型，通过使用经过预训练的 Llama 3.1 初始化 BLT 的全局 tokenizer 参数来实现更好更快的训练收敛。表 5 为结果。

很明显，经过 Llama 3.1 初始化的 BLT 显著优于 Llama 3 和 BLT 基线，这些基线是用相同数量的 flop 训练的。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉