提出了 BLT,这是一种字节潜在 LLM 架构,动态分配计算资源以提高 flop 效率; 展示了在 8B(即 80 亿)参数规模下,能够实现与 Llama 3 模型相当的训练 flop 控制,同时可以通过牺牲一小部分评估指标来换取高达 50% 的 flop 效率提升; BLT 模型为扩展大型语言模型开启了一个新的维度,现在可以在保持固定推理预算的同时扩展模型大小。
论文标题:Byte Latent Transformer: Patches Scale Better Than Tokens 论文地址:https://arxiv.org/pdf/2412.09871 项目地址:https://github.com/facebookresearch/blt
比较计算最优训练方案的趋势; 在大量训练上训练匹配的 8B 模型数据并评估下游任务; 测量推理成本控制设置中的扩展趋势。