Big Model Weekly | 第36期

文摘   2024-09-07 08:21   新加坡  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

REInstruct: Building Instruction Data from Unlabeled Corpus

手动为大语言模型标注指令数据既困难又昂贵,而且难以扩展。同时,当前的自动标注方法通常依赖于从专有LLMs提炼合成数据,这不仅限制了指令数据质量的上限,还可能引发潜在的版权问题。本文提出了REInstruct,这是一种简单且可扩展的方法,用于从未标注语料中自动构建指令数据,而无需过度依赖专有LLMs和人工标注。具体而言,REInstruct首先选择一部分未标注文本,这些文本可能包含结构良好、有帮助且有见解的内容,然后为这些文本生成指令。为了生成准确且相关的响应以进行有效和稳健的训练,REInstruct进一步提出了一种基于重写的方法,以提高生成的指令数据的质量。通过将Llama-7b在3k种子数据和32k来自REInstruct的合成数据上进行训练,微调后的模型在AlpacaEval排行榜上对抗text-davinci003时达到了65.41%的胜率,优于其他开源、非蒸馏的指令数据构建方法。



文章链接:

https://arxiv.org/pdf/2408.10663

02

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

长上下文处理能力对于多模态基础模型,特别是长视频理解至关重要。本文介绍了LongVILA,这是一种为长上下文视觉语言模型提供的全栈解决方案,通过共同设计算法和系统实现。在模型训练方面,LongVILA通过引入两个额外的阶段,即长上下文扩展和长监督微调,将现有的视觉语言模型(VLMs)升级,以支持长视频理解。然而,长视频的训练在计算和内存上都非常密集。为此,作者提出了长上下文多模态序列并行(MM-SP)系统,该系统高效地并行化了长视频的训练和推理,支持在256个GPU上进行2M上下文长度的训练,无需任何梯度检查点。LongVILA有效地将VILA的视频帧数从8扩展到1024,将长视频字幕评分从2.00提高到3.26(满分为5),并在1400帧(274k上下文长度)的视频“针找稻堆”任务中实现了99.5%的准确率。LongVILA-8B在VideoMME基准测试中,随着视频帧数的增加,在长视频上的准确率也持续提升。此外,MM-SP比环序列并行快2.1倍至5.7倍,比Megatron的上下文并行+张量并行快1.1倍至1.4倍。而且,它可以无缝集成到Hugging Face Transformers中。


文章链接:

https://arxiv.org/pdf/2408.10188

03

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

大型语言模型(LLMs)在长上下文应用中,如交互式聊天机器人、文档分析和代理工作流中变得越来越普遍,但在低延迟和高吞吐量下处理长上下文请求仍然具有挑战性。推测解码(SD)是一种广泛使用的技术,可以在不牺牲性能的情况下减少延迟,但传统观点认为其效果仅限于小批量处理。MagicDec展示了一个令人惊讶的发现:即使在高吞吐量推理中,SD在处理中等到长序列时也能实现加速。更有趣的是,通过严格分析,智能起草策略可以随着批量大小的增加获得更好的加速效果。MagicDec首先识别出随着批量大小和序列长度的增加而出现的瓶颈转移,并利用这些见解更有效地部署推测解码以实现高吞吐量推理。然后,它利用具有稀疏KV缓存的草稿模型来解决随着序列长度和批量大小增加而扩展的KV瓶颈。此发现强调了推测解码在长上下文服务中的广泛适用性,因为它能够在不牺牲准确性的前提下提高吞吐量并减少延迟。在中等到长序列的处理上,研究表明在8个NVIDIA A100 GPU上为批量大小从32到256提供服务时,LLaMA-2-7B-32K模型的速度提升了多达2倍,LLaMA-3.1-8B模型的速度提升了1.84倍。


文章链接:

https://arxiv.org/pdf/2408.11049

04

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

本文介绍了xGen-VideoSyn-1,这是一种文本生成视频(T2V)模型,能够从文本描述中生成逼真的场景。基于最近的技术进展,如OpenAI的Sora,xGen-VideoSyn-1探索了潜在扩散模型(LDM)架构,并引入了视频变分自编码器(VidVAE)。VidVAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及生成长序列视频的计算需求。为进一步降低计算成本,提出了一种分割与合并策略,以保持视频片段之间的时间一致性。模型采用了扩散Transformer(DiT),该模型结合了空间和时间自注意层,从而能够在不同时间段和长宽比下实现稳健的泛化能力。团队从头设计了数据处理流程,并收集了超过1300万对高质量的视频-文本对。该流程包括剪辑、文本检测、运动估计、美学评分和基于内部视频-LLM模型的密集标注等多个步骤。训练VidVAE和DiT模型分别耗时约40和642个H100天。xGen-VideoSyn-1模型支持超过14秒的720p视频生成,并在端到端的视频生成中展示了与当前最先进的T2V模型相媲美的性能。


文章链接:

https://arxiv.org/pdf/2408.12590

05

OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction

准确的交通预测对于有效的城市规划和交通管理至关重要,有助于实现资源的高效分配和提升出行体验。然而,现有模型在泛化能力上往往存在局限性,尤其在对未见过的区域和城市进行零样本预测时表现不佳,并且长期预测的准确性也有所下降。这主要是由于交通数据的空间和时间异质性以及时间和空间上的显著分布转移所带来的固有挑战。为了解决这些问题,本研究旨在探索构建多功能、具有弹性和适应性的时空基础模型的新可能性,以用于交通预测。为实现这一目标,本文引入了一种新的基础模型,名为OpenCity,该模型能够有效捕捉和规范来自多样化数据特征的底层时空模式,从而促进在不同城市环境中的零样本泛化能力。OpenCity将Transformer架构与图神经网络结合起来,以建模交通数据中的复杂时空依赖关系。通过在大规模、异质的交通数据集上对OpenCity进行预训练,使得该模型能够学习丰富的、具有广泛适用性的表示,进而可以无缝应用于多种交通预测场景中。实验结果表明,OpenCity在零样本预测中表现出卓越的性能。此外,OpenCity展示了有前景的缩放法则,表明开发一种真正适用于所有交通预测场景的解决方案的潜力,该方案能够以最小的开销适应新的城市环境。


文章链接:

https://arxiv.org/pdf/2408.10269

06

MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing

大型语言模型(LLMs)通常以英语为中心,这是由于其预训练数据中语言分布不均衡的结果。通过后续预训练增强非英语语言能力通常会导致对原有语言能力的灾难性遗忘。以往的方法要么在扩展语言能力方面表现良好但遗忘严重,要么在防止遗忘方面表现良好但语言扩展不佳,这表明在语言扩展和防止遗忘之间保持平衡是一项挑战。为了解决这一问题,本文提出了一种称为MoE-LPR(基于语言先验路由的专家混合模型)的方法。MoE-LPR采用了两阶段训练方法以增强多语言能力。首先,模型通过升级进入专家混合(MoE)架构进行后续预训练,此时所有原始参数都被冻结,并且新增了专家。在这一阶段,重点是提升扩展语言的能力,而不使用任何原始语言数据。然后,模型通过回放数据复习原始语言的知识,这些回放数据的量不到后续预训练数据的1%。在这一阶段,融入了语言先验路由,以更好地恢复原始语言的能力。多项基准评估表明,MoE-LPR在表现上优于其他后续预训练方法。冻结原始参数保留了原始语言知识,而添加新专家则保留了学习新语言的能力。通过LPR复习有效利用了参数中的多语言知识。此外,MoE架构在增加模型参数总量的同时保持了相同的推理开销。大量实验表明,MoE-LPR在改善扩展语言能力和保持原始语言熟练度方面具有出色的可扩展性。



文章链接:

https://arxiv.org/pdf/2408.11396

07

Mixed Sparsity Training: Achieving 4\times FLOP Reduction for Transformer Pretraining

大型语言模型(LLMs)在处理复杂任务方面取得了显著进展,但其广泛应用受到巨大计算需求的阻碍。具有数千亿参数的基于Transformer的LLMs需要在高端GPU集群上进行数月的预训练。然而,本文揭示了一个引人注目的发现:Transformer在预训练计算中存在相当大的冗余,这促使提出了一种高效的预训练方法——混合稀疏训练(MST)。MST能够在保持性能的同时减少大约75%的浮点运算(FLOPs)。MST在预训练过程中集成了动态稀疏训练(DST)与稀疏性变化(SV)和混合稀疏注意力机制(HSA),并涉及三个不同的阶段:预热阶段、超稀疏化阶段和恢复阶段。预热阶段将密集模型转变为稀疏模型,恢复阶段则重新建立连接。在这些阶段中,模型在动态演变的稀疏拓扑结构和HSA机制下进行训练,以同时维持性能并最小化训练FLOPs。实验结果表明,在GPT-2模型上的应用中,MST在不影响性能的情况下实现了4倍的FLOPs减少。



文章链接:

https://arxiv.org/pdf/2408.11746

本期文章由陈研整理

往期精彩文章推荐




 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 查看更多!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章