【论文日报合集】英伟达开源MaskLLM剪枝技术,显著降低LLM推理成本

文摘   2024-10-09 08:25   上海  

1. MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

大规模语言模型(LLMs)以其庞大的参数量为特点,通常导致显著的冗余。本文介绍了MaskLLM,这是一种可学习的剪枝方法,旨在为LLMs建立半结构化(或“N:M”)稀疏性,以减少推理过程中的计算开销。MaskLLM没有开发新的重要性标准,而是通过Gumbel Softmax抽样显式地将N:M模式建模为可学习的分布。这种方法使得在大规模数据集上端到端训练成为可能,并提供了两个显著的优势:1)高质量的mask——我们的方法有效地扩展到大型数据集并学习准确的mask;2)可转移性——mask分布的概率建模使得稀疏性能够在不同领域或任务之间进行转移学习。我们使用2:4稀疏性评估了MaskLLM,包括LLaMA-2、Nemotron-4和GPT-3等不同的LLMs,参数量从843M到15B不等,我们的实验结果表明,MaskLLM在最先进的方法上取得了显著的改进。例如,领先的方法在Wikitext上的困惑度(PPL)为10或以上,而密集模型的PPL为5.12,但MaskLLM仅通过学习固定权重的mask就能实现显著更低的6.72 PPL。此外,MaskLLM的可学习性质允许为下游任务或领域定制mask,实现无损应用2:4稀疏性,以满足下游任务的需求。代码可在https://github.com/NVlabs/MaskLLM获取。

论文: https://arxiv.org/pdf/2409.17481

2. LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

近年来,大型多模态模型(LMMs)的最新进展极大地增强了其在二维视觉理解任务中的能力,使其能够有效地处理和理解图像和视频。然而,由于缺乏大规模的3D视觉-语言数据集和强大的3D模型,开发具有3D意识的LMMs以进行3D场景理解受到了阻碍。在本文中,我们介绍了一个简洁而有效的框架,称为LLaVA-3D。利用LLaVA在二维理解方面的强大先验知识,我们的LLaVA-3D有效地将LLaVA适应于3D场景理解,而不牺牲其二维理解能力。为此,我们采用了一种简单而有效的表示方法,即3D Patch,它将2D CLIP补贴特征与其在3D空间中的相应位置连接起来。通过将3D Patches整合到2D LMMs中,并采用联合2D和3D视觉-语言指令进行调优,我们建立了一个统一的架构,用于二维图像理解和三维场景理解。实验结果表明,当在3D视觉-语言数据集上进行训练时,LLaVA-3D比现有3D LMMs快3.5倍。此外,LLaVA-3D不仅在各种3D任务中取得了最先进的性能,而且在二维图像理解和视觉-语言对话方面也保持了与LLaVA相当的能力。

论文: https://arxiv.org/pdf/2409.18125

3. EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

GPT-4o 是一种全模态模型,能够进行具有多种情感和语调的语音对话,标志着全模态基础模型的重要里程碑。然而,在开源社区中,让大型语言模型实现端到端的图像、文本和语音感知和生成仍然面临挑战。现有的视觉-语言模型依赖外部工具处理语音,而语音-语言模型仍然缺乏甚至不具备视觉理解能力。为了填补这一差距,我们提出了 EMOVA(情感全现语音助手),以使大型语言模型具备端到端的语音处理能力,同时保持领先的视觉-语言表现。借助语义-声学分离的语音分词技术,我们注意到全模态对齐进一步增强了视觉-语言和语音能力,相比对应的双模态对齐版本表现更好。此外,我们还提出了一种轻量级风格模块,用于灵活的语音风格控制(如情感和音调)。首次,EMOVA 在视觉-语言和语音基准测试中均取得了最先进的性能,并且同时支持具有生动情感的全模态语音对话。

论文: https://arxiv.org/pdf/2409.18042

4. Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

大型语言模型(LLMs)在处理长上下文输入方面展现了卓越的能力,但这也需要更多的计算资源和延迟。我们的研究引入了一种新颖的方法来解决长上下文瓶颈,以加速LLM推理并减少GPU内存消耗。我们的研究证明,LLMs可以在生成查询答案之前,在早期层中识别出相关的令牌。利用这一洞察,我们提出了一种算法,该算法利用LLM的早期层作为筛选器来选择和压缩输入令牌,大幅缩短了后续处理的上下文长度。我们的方法GemFilter在速度和内存效率方面相比现有技术(如标准注意力和SnapKV/H2O)显示出显著的提升。值得注意的是,它相比最先进的方法,速度提升了2.4倍,并且减少了30%的GPU内存使用率。在Needle in a Haystack任务上的评估显示,GemFilter显著优于标准注意力和SnapKV,并且在LongBench挑战中表现出相当的性能。GemFilter简单、无需训练,并且适用于不同的LLM。最重要的是,它提供了可解释性,允许人类检查选定的输入序列。这些发现不仅为LLM部署提供了实际益处,还加深了我们对LLM内部机制的理解,铺平了道路,为优化LLM设计和推理提供了可能。我们的代码可在https://github.com/SalesforceAIResearch/GemFilter获取。

论文: https://arxiv.org/pdf/2409.17422

5. Pixel-Space Post-Training of Latent Diffusion Models

扩散模型(LDMs)在近年来的图像生成领域取得了显著进展。LDMs的一个主要优势在于它们能够在压缩的潜藏空间中运行,从而实现更高效的训练和部署。然而,尽管存在这些优势,LDMs仍然面临一些挑战。例如,观察到LDMs经常不完美地生成高频细节和复杂的组合。我们假设这些缺陷的原因之一是,LDMs的所有预训练和后训练都在潜藏空间中进行,而潜藏空间的分辨率通常只有输出图像的八分之一。为了解决这一问题,我们建议在后训练过程中添加像素空间监督,以更好地保留高频细节。实验表明,在最先进的DiTtransformer和U-Net扩散模型中,添加像素空间目标可以显著提高监督质量微调和基于偏好的后训练的视觉质量和视觉缺陷指标,同时保持相同的文字对齐质量。

论文: https://arxiv.org/pdf/2409.17565

6. Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

利用预训练文本到图像扩散模型的视觉先验,为增强密集预测任务中的零样本泛化提供了有希望的解决方案。然而,现有方法往往未经批判性地使用原始的扩散公式,这可能由于密集预测和图像生成之间的根本差异而不理想。在本文中,我们对扩散公式在密集预测中的应用进行了系统分析,重点关注质量和效率。我们发现,用于图像生成的原始参数化类型,学习预测噪声,对密集预测有害;多步噪化/去噪扩散过程也是不必要的,并且难以优化。基于这些见解,我们引入了Lotus,一种基于扩散的视觉基础模型,具有简单的有效适应协议,适用于密集预测。具体而言,Lotus 被训练直接预测标注而不是噪声,从而避免有害的方差。我们还将扩散过程重新构造成单步过程,简化优化并显著提高推理速度。此外,我们引入了一种新的调优策略,称为细节保持者,该策略实现了更准确和更精细的预测。无需增加训练数据或模型容量,Lotus 在零样本深度和法线估计方面实现了最先进的性能,覆盖了各种数据集。它还显著提高了效率,比大多数现有的基于扩散的方法快数百倍。

论文: https://arxiv.org/pdf/2409.18124

自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章