Big Model weekly | 第40期

文摘 2024-10-13 18:35 意大利

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

Reward-Robust RLHF in LLMs

随着大型语言模型（LLMs）不断向更高级的智能形式发展，基于人类反馈的强化学习（RLHF）越来越被视为实现人工通用智能（AGI）的关键途径。然而，对基于奖励模型（RM-based）的对齐方法的依赖带来了显著挑战，因为奖励模型的不稳定性和不完美性可能导致关键问题，如奖励黑客攻击和与人类意图的错位。在本文中，作者介绍了一个旨在解决这些基本挑战的奖励稳健的RLHF框架，为LLMs中更可靠和更有韧性的学习铺平了道路。本研究的方法引入了一个新颖的优化目标，通过纳入贝叶斯奖励模型集成（BRME）来模拟奖励函数的不确定性集合，从而仔细平衡性能和稳健性。这使得框架能够整合名义性能和最低奖励信号，即使在奖励模型不完美的情况下也确保更稳定的学习。实证结果表明，本研究的框架在多个基准测试中一致性地超越了传统的RLHF，显示出提高的准确性和长期稳定性。作者还提供了理论分析，证明奖励稳健的RLHF在随机情况分析中接近恒定奖励设置的稳定性，这被证明是有效的。总之，这些贡献突出了该框架在提高LLM与RLHF对齐的性能和稳定性方面的潜力。

文章链接：

https://arxiv.org/pdf/2409.15360

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

机器人操纵策略如何推广到涉及未见过的物体类型和新动作的新任务？在本研究中，作者提供了一种解决方案，即通过人类视频生成从网络数据中预测运动信息，并将机器人策略条件化在生成的视频中。本研究没有尝试扩大昂贵的机器人数据收集规模，而是展示了如何利用在容易获得的网络数据上训练的视频生成模型，以实现泛化。本研究的方法Gen2Act将语言条件操纵视为零样本人类视频生成，然后执行单一策略，该策略条件化在生成的视频中。为了训练策略，作者使用的机器人交互数据量比视频预测模型训练时使用的数据量少一个数量级。Gen2Act根本不需要微调视频模型，而是直接使用预训练模型生成人类视频。本研究在多样化的真实世界场景中的结果显示了Gen2Act如何实现操纵未见过的物体类型，并为机器人数据中不存在的任务执行新动作。

文章链接：

https://arxiv.org/pdf/2409.16283

MaskBit: Embedding-free Image Generation via Bit Tokens

用于类条件图像生成的掩蔽变换器模型已经成为扩散模型的一个引人注目的替代品。这些框架通常包括两个阶段——一个初始的VQGAN模型用于在潜在空间和图像空间之间转换，以及随后的变换器模型用于在潜在空间内进行图像生成——为图像合成提供了有希望的途径。在本研究中，作者提出了两个主要贡献：首先，对VQGANs进行实证和系统的检查，从而形成了一个现代化的VQGAN。其次，提出了一种新颖的无需嵌入的生成网络，直接在位标记上操作——这是一种具有丰富语义的二进制量化标记表示。第一项贡献提供了一个透明、可复制且高性能的VQGAN模型，提高了可访问性，并与当前最先进方法的性能相匹配，同时揭示了以前未公开的细节。第二项贡献展示了使用位标记进行无需嵌入的图像生成，在ImageNet 256×256基准测试上达到了新的最先进的FID 1.52，并且生成器模型非常紧凑，仅有305M个参数。

文章链接：

https://arxiv.org/pdf/2409.16211

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

大型语言模型预训练传统上依赖于人类专家制定启发式规则以提高语料库的质量，迄今为止已经开发出众多规则。然而，这些规则缺乏灵活性，无法有效解决个别示例的独特特性。同时，对每个示例应用定制规则对人类专家来说是不切实际的。在本研究中，作者展示了即使是小型语言模型，只要拥有大约30亿参数，也能展现出与人类专家相当的数据处理能力。本文介绍了“编程每一个示例”（PROX），这是一个新颖的框架，将数据优化视为编程任务，使模型能够通过生成和执行细粒度操作（如字符串规范化）来优化语料库，这些操作针对每个单独的示例进行规模化处理。实验结果表明，使用PROX筛选过的数据进行预训练的模型在各种下游基准测试中的表现比原始数据或其他选择方法筛选过的数据高出2%以上。其有效性涵盖了各种模型大小和预训练语料库，包括C4、RedPajama-V2和FineWeb。此外，PROX在特定领域的持续预训练中展现出显著潜力：无需特定领域设计，使用PROX优化的OpenWebMath训练的模型就超越了基于人类制定规则的方法，平均准确率比MISTRAL-7B提高了7.6%，对于LLAMA-2-7B提高了14.6%，对于CODELLAMA-7B提高了20.3%，所有这些都在与像LLEMMA-7B这样在200B个标记上训练的模型相当的10B个标记内实现。进一步分析表明，PROX显著节省了训练FLOPs，为高效的LLM预训练提供了一条有希望的路径。作者正在开源PROX，包括≥100B的语料库、模型，并分享所有训练和实施细节，以便可重复研究和未来创新。

文章链接：

https://arxiv.org/pdf/2409.17115

Boosting Healthcare LLMs Through Retrieved Context

大型语言模型（LLMs）在自然语言处理方面展现出了显著的能力，然而，它们在事实不准确和幻觉方面的局限性限制了它们在医疗保健等关键领域的应用。通过将相关信息作为输入引入，上下文检索方法已成为增强LLM事实性和可靠性的关键途径。本研究探索了上下文检索方法在医疗保健领域的边界，优化了它们的组成部分，并将其性能与开放和封闭的替代方案进行了基准测试。研究结果揭示了开放LLMs在配备优化的检索系统后，能够在已建立的医疗保健基准测试（多项选择问答）上实现与最大的私有解决方案相当的性能。认识到在问题中包含可能的答案（仅在医学考试中出现的设置）缺乏现实性，并且在没有这些选项的情况下评估了强大的LLM性能下降后，作者扩展了上下文检索系统。特别是，本文提出了OpenMedPrompt，这是一个改进生成更可靠开放式答案的流程，将这项技术更接近实际应用。

文章链接：

https://arxiv.org/pdf/2409.15127

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

大型语言模型（LLMs）因其庞大的参数数量而著称，这通常导致显著的冗余。本研究介绍了MaskLLM，这是一种可学习的剪枝方法，它在LLMs中建立了半结构化（或称为“N:M”）稀疏性，旨在减少推理过程中的计算开销。MaskLLM并没有开发新的重要性标准，而是通过Gumbel Softmax采样将N:M模式显式建模为可学习分布。这种方法便于在大规模数据集上进行端到端训练，并提供了两个显著优势：1）高质量的掩码 - 本方法有效地扩展到大型数据集并学习准确的掩码；2）可转移性 - 掩码分布的概率建模使得稀疏性能够在不同领域或任务之间进行迁移学习。作者使用2:4稀疏度对各种LLMs进行了评估，包括LLaMA-2、Nemotron-4和GPT-3，参数数量从843M到15B不等，实证结果表明，与现有最先进方法相比有显著改进。例如，在Wikitext上，领先方法的困惑度（PPL）达到10或更高，而密集模型的PPL为5.12，但MaskLLM仅通过学习掩码并在冻结权重的情况下实现了显著更低的6.72 PPL。此外，MaskLLM的可学习特性允许为下游任务或领域的无损应用定制2:4稀疏性的掩码。

文章链接：

https://arxiv.org/pdf/2409.17481

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

近期在大型多模态模型（LMMs）方面的进展极大地提高了它们在二维视觉理解任务上的熟练度，使它们能够有效地处理和理解图像和视频。然而，由于缺乏大规模的三维视觉-语言数据集和强大的三维编码器，具有三维意识的LMMs在三维场景理解方面的发展受到了阻碍。在本研究中，作者介绍了一个简单而有效的框架，称为LLaVA-3D。利用LLaVA强大的二维理解先验，LLaVA-3D有效地适应了LLaVA，用于三维场景理解，而不损害二维理解能力。为了实现这一点，作者采用了一个简单而有效的表示，3D Patch，它将二维CLIP patch特征与其在三维空间中的相应位置联系起来。通过将3D Patches整合到二维LMMs中，并采用联合二维和三维视觉-语言指令调整，建立了一个统一的架构，用于二维图像理解和三维场景理解。实验结果表明，LLaVA-3D在三维视觉-语言数据集上的训练速度比现有的三维LMMs快3.5倍。此外，LLaVA-3D不仅在各种三维任务上实现了最先进的性能，而且还保持了与LLaVA相当的二维图像理解和视觉-语言对话能力。

文章链接：

https://arxiv.org/pdf/2409.18125

本期文章由陈研整理

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 查看更多！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247528355&idx=1&sn=47308b49476c3d501e90b883616d7882

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉