Big Model weekly | 第40期

文摘   2024-10-13 18:35   意大利  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

Reward-Robust RLHF in LLMs

随着大型语言模型(LLMs)不断向更高级的智能形式发展,基于人类反馈的强化学习(RLHF)越来越被视为实现人工通用智能(AGI)的关键途径。然而,对基于奖励模型(RM-based)的对齐方法的依赖带来了显著挑战,因为奖励模型的不稳定性和不完美性可能导致关键问题,如奖励黑客攻击和与人类意图的错位。在本文中,作者介绍了一个旨在解决这些基本挑战的奖励稳健的RLHF框架,为LLMs中更可靠和更有韧性的学习铺平了道路。本研究的方法引入了一个新颖的优化目标,通过纳入贝叶斯奖励模型集成(BRME)来模拟奖励函数的不确定性集合,从而仔细平衡性能和稳健性。这使得框架能够整合名义性能和最低奖励信号,即使在奖励模型不完美的情况下也确保更稳定的学习。实证结果表明,本研究的框架在多个基准测试中一致性地超越了传统的RLHF,显示出提高的准确性和长期稳定性。作者还提供了理论分析,证明奖励稳健的RLHF在随机情况分析中接近恒定奖励设置的稳定性,这被证明是有效的。总之,这些贡献突出了该框架在提高LLM与RLHF对齐的性能和稳定性方面的潜力。




文章链接:

https://arxiv.org/pdf/2409.15360

02

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

机器人操纵策略如何推广到涉及未见过的物体类型和新动作的新任务?在本研究中,作者提供了一种解决方案,即通过人类视频生成从网络数据中预测运动信息,并将机器人策略条件化在生成的视频中。本研究没有尝试扩大昂贵的机器人数据收集规模,而是展示了如何利用在容易获得的网络数据上训练的视频生成模型,以实现泛化。本研究的方法Gen2Act将语言条件操纵视为零样本人类视频生成,然后执行单一策略,该策略条件化在生成的视频中。为了训练策略,作者使用的机器人交互数据量比视频预测模型训练时使用的数据量少一个数量级。Gen2Act根本不需要微调视频模型,而是直接使用预训练模型生成人类视频。本研究在多样化的真实世界场景中的结果显示了Gen2Act如何实现操纵未见过的物体类型,并为机器人数据中不存在的任务执行新动作。





文章链接:

https://arxiv.org/pdf/2409.16283

03

MaskBit: Embedding-free Image Generation via Bit Tokens

用于类条件图像生成的掩蔽变换器模型已经成为扩散模型的一个引人注目的替代品。这些框架通常包括两个阶段——一个初始的VQGAN模型用于在潜在空间和图像空间之间转换,以及随后的变换器模型用于在潜在空间内进行图像生成——为图像合成提供了有希望的途径。在本研究中,作者提出了两个主要贡献:首先,对VQGANs进行实证和系统的检查,从而形成了一个现代化的VQGAN。其次,提出了一种新颖的无需嵌入的生成网络,直接在位标记上操作——这是一种具有丰富语义的二进制量化标记表示。第一项贡献提供了一个透明、可复制且高性能的VQGAN模型,提高了可访问性,并与当前最先进方法的性能相匹配,同时揭示了以前未公开的细节。第二项贡献展示了使用位标记进行无需嵌入的图像生成,在ImageNet 256×256基准测试上达到了新的最先进的FID 1.52,并且生成器模型非常紧凑,仅有305M个参数。




文章链接:

https://arxiv.org/pdf/2409.16211

04

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

大型语言模型预训练传统上依赖于人类专家制定启发式规则以提高语料库的质量,迄今为止已经开发出众多规则。然而,这些规则缺乏灵活性,无法有效解决个别示例的独特特性。同时,对每个示例应用定制规则对人类专家来说是不切实际的。在本研究中,作者展示了即使是小型语言模型,只要拥有大约30亿参数,也能展现出与人类专家相当的数据处理能力。本文介绍了“编程每一个示例”(PROX),这是一个新颖的框架,将数据优化视为编程任务,使模型能够通过生成和执行细粒度操作(如字符串规范化)来优化语料库,这些操作针对每个单独的示例进行规模化处理。实验结果表明,使用PROX筛选过的数据进行预训练的模型在各种下游基准测试中的表现比原始数据或其他选择方法筛选过的数据高出2%以上。其有效性涵盖了各种模型大小和预训练语料库,包括C4、RedPajama-V2和FineWeb。此外,PROX在特定领域的持续预训练中展现出显著潜力:无需特定领域设计,使用PROX优化的OpenWebMath训练的模型就超越了基于人类制定规则的方法,平均准确率比MISTRAL-7B提高了7.6%,对于LLAMA-2-7B提高了14.6%,对于CODELLAMA-7B提高了20.3%,所有这些都在与像LLEMMA-7B这样在200B个标记上训练的模型相当的10B个标记内实现。进一步分析表明,PROX显著节省了训练FLOPs,为高效的LLM预训练提供了一条有希望的路径。作者正在开源PROX,包括≥100B的语料库、模型,并分享所有训练和实施细节,以便可重复研究和未来创新。








文章链接:

https://arxiv.org/pdf/2409.17115

05

Boosting Healthcare LLMs Through Retrieved Context

大型语言模型(LLMs)在自然语言处理方面展现出了显著的能力,然而,它们在事实不准确和幻觉方面的局限性限制了它们在医疗保健等关键领域的应用。通过将相关信息作为输入引入,上下文检索方法已成为增强LLM事实性和可靠性的关键途径。本研究探索了上下文检索方法在医疗保健领域的边界,优化了它们的组成部分,并将其性能与开放和封闭的替代方案进行了基准测试。研究结果揭示了开放LLMs在配备优化的检索系统后,能够在已建立的医疗保健基准测试(多项选择问答)上实现与最大的私有解决方案相当的性能。认识到在问题中包含可能的答案(仅在医学考试中出现的设置)缺乏现实性,并且在没有这些选项的情况下评估了强大的LLM性能下降后,作者扩展了上下文检索系统。特别是,本文提出了OpenMedPrompt,这是一个改进生成更可靠开放式答案的流程,将这项技术更接近实际应用。


文章链接:

https://arxiv.org/pdf/2409.15127

06

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

大型语言模型(LLMs)因其庞大的参数数量而著称,这通常导致显著的冗余。本研究介绍了MaskLLM,这是一种可学习的剪枝方法,它在LLMs中建立了半结构化(或称为“N:M”)稀疏性,旨在减少推理过程中的计算开销。MaskLLM并没有开发新的重要性标准,而是通过Gumbel Softmax采样将N:M模式显式建模为可学习分布。这种方法便于在大规模数据集上进行端到端训练,并提供了两个显著优势:1)高质量的掩码 - 本方法有效地扩展到大型数据集并学习准确的掩码;2)可转移性 - 掩码分布的概率建模使得稀疏性能够在不同领域或任务之间进行迁移学习。作者使用2:4稀疏度对各种LLMs进行了评估,包括LLaMA-2、Nemotron-4和GPT-3,参数数量从843M到15B不等,实证结果表明,与现有最先进方法相比有显著改进。例如,在Wikitext上,领先方法的困惑度(PPL)达到10或更高,而密集模型的PPL为5.12,但MaskLLM仅通过学习掩码并在冻结权重的情况下实现了显著更低的6.72 PPL。此外,MaskLLM的可学习特性允许为下游任务或领域的无损应用定制2:4稀疏性的掩码。






文章链接:

https://arxiv.org/pdf/2409.17481

07

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

近期在大型多模态模型(LMMs)方面的进展极大地提高了它们在二维视觉理解任务上的熟练度,使它们能够有效地处理和理解图像和视频。然而,由于缺乏大规模的三维视觉-语言数据集和强大的三维编码器,具有三维意识的LMMs在三维场景理解方面的发展受到了阻碍。在本研究中,作者介绍了一个简单而有效的框架,称为LLaVA-3D。利用LLaVA强大的二维理解先验,LLaVA-3D有效地适应了LLaVA,用于三维场景理解,而不损害二维理解能力。为了实现这一点,作者采用了一个简单而有效的表示,3D Patch,它将二维CLIP patch特征与其在三维空间中的相应位置联系起来。通过将3D Patches整合到二维LMMs中,并采用联合二维和三维视觉-语言指令调整,建立了一个统一的架构,用于二维图像理解和三维场景理解。实验结果表明,LLaVA-3D在三维视觉-语言数据集上的训练速度比现有的三维LMMs快3.5倍。此外,LLaVA-3D不仅在各种三维任务上实现了最先进的性能,而且还保持了与LLaVA相当的二维图像理解和视觉-语言对话能力。







文章链接:

https://arxiv.org/pdf/2409.18125

本期文章由陈研整理


往期精彩文章推荐




 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 查看更多!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章