10.29-4|稠密模型转MOE模型;免训练扩散视频模型推理加速;强化学习标注路由,混合人类和LM,提高标注质量

文摘   2024-10-29 10:23   西藏  

大语言模型优化与推理:稠密模型转MOE模型;免训练扩散视频模型推理加速;强化学习标注路由,混合人类和LM,提高标注质量

Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

2024-10-24|UT Austin, Qualcomm|🔺12

http://arxiv.org/abs/2410.19123v1
https://huggingface.co/papers/2410.19123
https://github.com/VITA-Group/READ-ME

研究背景与意义

随着大规模语言模型(LLMs)的快速发展,Mixture-of-Experts(MoE)架构因其能够动态利用专门的子网络而受到广泛关注。这种架构在提高模型效率和性能方面具有显著优势。然而,MoE模型在推理阶段面临着许多挑战,包括内存管理效率低下和批处理不理想,这主要源于模型架构与系统策略之间的不匹配。此外,从头训练MoE的传统方法成本高昂,因此本研究提出了一种名为Read-ME的新框架,旨在通过将预训练的密集LLM转化为更小的MoE模型,降低训练成本,同时提高推理效率。

本研究的核心问题在于如何在保持推理效率的同时,降低训练成本。当前的文献中,虽然存在一些尝试将预训练模型转化为MoE的方法,但大多数仍然采用层级路由设计,这在推理时效率较低。因此,Read-ME通过引入预门控路由器,优化了系统设计,填补了算法和系统之间的关键空白,为资源受限的环境中提供了一种可扩展的高效推理替代方案。

研究方法与创新

Read-ME框架的创新之处在于其采用了激活稀疏性来提取专家,并通过分析现有MoE架构中的层级路由器的冗余性,提出了一种新的预门控路由器。这种设计将路由器与MoE主干分离,使得系统能够在推理前预先计算路由,从而优化批处理和缓存策略。

具体来说,研究者首先通过对密集模型进行结构化剪枝,构建出多个小型专家网络。然后,使用共享的门控网络进行联合训练,以提高专家选择的有效性。此外,Read-ME还引入了一种专家感知批处理算法,能够在推理时根据专家需求动态调整批处理策略,从而显著提高推理效率。

与现有的MoE模型相比,Read-ME在多个下游任务上表现优异,尤其在MMLU基准测试中,显示出高达10.1%的性能提升,同时在平均端到端延迟上减少了6.1%。这些结果表明,Read-ME不仅在性能上优于其他开源密集模型,而且在推理效率和资源使用方面表现出色。

实验设计与结果分析

在实验设计中,研究者使用了Chatbot Arena会话数据集生成推理请求,并通过单个A100 GPU评估Read-ME的推理性能。实验结果显示,Read-ME在多种任务中均优于其他模型,尤其在处理复杂推理请求时,能够有效减少延迟并提高响应速度。

通过对比分析,Read-ME在处理具有较高时间局部性的请求时表现尤为突出,能够有效利用先前请求的信息来优化后续请求的处理。这一特性使得Read-ME在实际应用中具有更强的适应性和效率。

结论与展望

本研究提出的Read-ME框架为如何在资源受限的环境中高效利用预训练模型提供了新的思路。通过对现有MoE架构的深入分析,研究者不仅优化了模型的推理效率,还在训练成本上实现了显著降低。

未来的研究可以进一步探索Read-ME在分布式系统中的应用,以及如何将其扩展到更大规模的模型和更复杂的任务中。此外,研究者还计划在实际应用场景中验证Read-ME的效果,以推动其在工业界的应用。

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

2024-10-25|HKU, NTU, Shanghai AI Lab|🔺12

http://arxiv.org/abs/2410.19355v1
https://huggingface.co/papers/2410.19355
https://github.com/Vchitect/FasterCache

研究背景与意义

在视频生成领域,扩散模型(Diffusion Models)已经展现出其在高质量图像生成中的潜力。然而,现有的扩散模型在推理时需要消耗大量的计算资源和时间,尤其是在生成视频时,通常需要数分钟来合成短短几秒的视频。这一现象限制了其在实际应用中的广泛使用。因此,研发新的技术以降低扩散模型的计算成本显得尤为重要。

本研究提出了FasterCache,一个免训练的加速策略,旨在提高视频扩散模型的推理速度,同时保持高质量的生成结果。通过对现有基于缓存的方法进行分析,发现直接重用相邻步骤的特征会导致视频质量的下降,因此本文旨在解决这一问题,推动视频扩散模型的实际应用。

研究方法与创新

FasterCache的核心创新在于其动态特征重用策略和分类器无关引导(CFG)缓存。动态特征重用策略通过动态调整相邻时间步的特征重用,确保特征之间的细微差别和时间连续性得以保持。这种方法不仅提高了推理速度,还最大限度地减少了生成视频时的细节损失。

此外,CFG缓存技术通过存储条件输出和无条件输出之间的残差,优化了特征的重用过程,从而进一步提升推理速度,而不损失视频的质量。通过对多种视频扩散模型进行实证评估,FasterCache在推理速度和视频生成质量上均表现出显著的优势。

实验设计与结果分析

本研究在多个视频扩散模型上进行了广泛的实验,包括Open-Sora 1.2、Open-Sora-Plan、Latte、CogVideoX和Vchitect-2.0。实验结果表明,FasterCache在推理速度上可实现1.67倍的加速,同时保持与基线模型相当的生成质量。例如,在Vchitect-2.0上,FasterCache的推理延迟从260.32秒降低至156.13秒,且在VBench指标上表现优异。

此外,通过与现有方法(如∆-DiT和PAB)进行比较,FasterCache在推理速度和视频质量方面均优于其他方法,显示出其在实际应用中的有效性和效率。

结论与展望

FasterCache作为一种无训练的加速策略,为视频生成领域的扩散模型提供了有效的解决方案。通过对特征重用过程的深度分析,本文揭示了相邻时间步特征之间的冗余信息,并提出了动态特征重用和CFG缓存的创新方法。尽管本研究取得了显著成果,但在复杂场景下的表现仍有待提高,未来的工作将集中在自适应缓存策略的研究上,以进一步提升性能。

总之,FasterCache的提出为视频扩散模型的高效推理提供了新的思路,推动了这一领域的进一步发展。

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

2024-10-24|Allen Institute for AI, U Washington, The Ohio State U|🔺7

http://arxiv.org/abs/2410.19133v1
https://huggingface.co/papers/2410.19133
https://github.com/allenai/hybrid-preferences

研究背景与意义

在现代语言模型(LM)训练中,利用人类反馈进行强化学习(RLHF)已成为对齐模型与人类偏好的关键方法。然而,直接收集人类偏好不仅成本高昂且耗时,且可能存在较大的变异性。

为了解决这一问题,研究人员提出了一种新颖的路由框架,该框架结合了人类与LM的输入,以提高注释质量,同时降低人类注释的总成本。本文的目标在于识别那些最能从人类注释中受益的偏好实例,并通过优化问题的形式进行建模,进而提升注释的整体质量。

研究方法与创新

本研究提出的路由框架由性能预测模型(PPM)和基于该模型的路由策略组成。PPM的核心在于预测给定偏好数据集的性能,进而指导如何分配人类与LM的注释任务。

具体而言,研究者首先构建了一个名为MULTIPREF的新偏好数据集,其中包含1万个实例,配有来自人类和LM的标签。通过训练PPM,研究者能够在多种数据集上验证所提出方法的有效性,结果表明,使用路由框架生成的混合注释在奖励模型性能上优于单独使用人类或LM的注释。

实验设计与结果分析

在实验中,研究者对MULTIPREF数据集进行了多场景的表现评估,发现所提出的路由框架在不同的注释预算下,均能显著提升奖励模型的性能。具体而言,混合注释的奖励模型在多个基准测试中表现出色,相较于完全依赖人类或LM的注释,混合方案的有效性得到了充分验证。

此外,研究者还分析了影响偏好实例受益于人类反馈的特征,发现具有适度安全担忧或意图复杂性的提示,往往更能从人类反馈中获益。

结论与展望

本研究展示了一种有效的偏好学习路由框架,能够在降低成本的同时提升注释质量。通过对MULTIPREF及其他数据集的实验,研究者证实了混合注释的优势,并为未来的偏好数据收集提供了新的思路。

尽管当前方法已显示出良好的性能,未来的研究可进一步探索如何在更大规模的数据集上应用该框架,并优化人类与LM的注释分配策略,以实现更高效的学习与应用。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章