OpenAI开源最新评测SimpleQA：你的模型是否“知道自己知道什么”？预训练代理和世界模型的扩展定律研究....

文摘 2024-11-08 19:43 中国

前言：看论文就像是一次美食之旅，每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐，有些论文会让你欲罢不能，而有些论文则会让你咬牙切齿。但是别忘了，只有尝试了各种不同的菜肴，才能成为一个真正的“吃货”哦！

1. 测量大模型的简短事实性

标题：Measuring short-form factuality in large language models

相关领域：模型评估

作者：Jason Wei, Nguyen Karina, Hyung Won Chung

分析：本文介绍了SimpleQA，一个用于评估语言模型回答简短、求实问题能力的基准。设计此评估侧重了两个关键属性：一是其挑战性，因为它针对性地与GPT-4回答进行了对抗收集。二是评分的简便性，因为问题被设计成仅存在一个不可争议的答案，因此每条答案会被评为正确、错误或未尝试。一个行为理想的模型会尽可能多地回答问题，同时不试图回答它不确定正确答案的问题。SimpleQA是一个简单且有针对性的评估，旨在确定模型是否“知道自己知道什么”，该论文希望这个基准在未来几代前沿模型中仍然保持相关性。

地址：https://arxiv.org/pdf/2411.04368

代码：https://github.com/openai/simple-evals

2. 预训练代理和世界模型的扩展定律研究

标题：Scaling Laws for Pre-training Agents and World Models

机构：微软研究院

相关领域：预训练、模型结构改进

作者：Tim Pearce, Tabish Rashid, Dave Bignell

分析：这篇论文不仅深入探讨了如何通过扩大模型参数、数据集大小和计算量来提升实体代理的性能，而且更精确地描述了规模在这些任务中的作用。研究发现在机器人技术到视频游戏等领域，通过在离线数据集上采用生成学习目标进行预训练来模拟代理行为或环境建模，可以提高代理的性能。论文提出了语言建模中发现的幂律同样适用于世界建模和模仿学习，但系数受到分词器、任务和架构的强烈影响，这对模型和数据的最优规模选择具有重要影响。

地址：https://arxiv.org/pdf/2411.04434

3. 精度调整的缩放法则

标题：Scaling Laws for Precision

机构：哈佛大学、斯坦福大学、麻省理工学院

相关领域：训练

作者：Tanishq Kumar, Zachary Ankner, Benjamin F. Spector

分析：低精度训练和推理会降低语言模型的质量和成本，但现有的缩放法则并未考虑这一点。在本文中，该论文为训练和推理制定了“精度敏感”的缩放法则。该论文提出，训练低精度将降低模型的“有效参数数量”，使该论文能够预测低精度训练带来的额外损失并进行量化后微调。对于推理，该论文发现后量化微调引入的降级会随着在更多数据上训练模型的增加而增加，最终使额外的预训练数据变得有害。对于训练，该论文的缩放法则允许该论文预测模型在不同精度下不同部分的损失，并建议在较低精度下训练更大模型可能是计算最优的。该论文将后量化微调和预量化微调的缩放法则统一为一个预测训练和推理在各种精度下降级的单一函数形式。该论文在包括465次预训练的多个预训练运行中拟合，并将预测结果与在最大1.7B参数、最多260亿字符的模型上训练的大型模型进行验证。

地址：https://arxiv.org/pdf/2411.04330

4. OpenCoder：顶尖代码大模型的开放手册

标题：OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

相关领域：数据集构建、模型评估

作者：Siming Huang, Tianhao Cheng, Jason Klein Liu

分析：这篇论文介绍了一种顶尖的代码大语言模型OpenCoder，它不仅实现了与领先模型相当的性能，还作为研究社区的“开放手册”。论文解决了高质量代码大语言模型稀缺的问题，通过提供开放的训练数据、数据处理流程、实验消融结果和详细的训练协议，促进了可复现的科学研究。论文的关键成分包括数据清洗的优化启发式规则、去重方法、文本语料库的回忆以及高温退火和监督微调阶段的高质量合成数据。

地址：https://arxiv.org/pdf/2411.04905

5. M3DocRAG：多模态检索是你在多页多文档理解中所需要的

标题：M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

相关领域：模型结构改进、预训练、多模态

作者：Jaemin Cho, Debanjan Mahata, Ozan Irsoy

分析：这篇论文提出了一种新的多模态RAG框架M3DocRAG，用于处理多页文档理解问题。该框架能够灵活地适应不同的文档上下文、问题跳转和证据模式，通过多模态检索器和大型语言模型来找到相关文档并回答问题。论文还介绍了新的多域DocVQA基准测试M3DocVQA，用于评估开放域DocVQA的性能。论文解决了多页文档理解的问题，通过多模态信息融合提高了问答系统的性能。

地址：https://arxiv.org/pdf/2411.04952

6. LSHBloom：内存高效的极端规模文档去重方法

标题：LSHBloom: Memory-efficient, Extreme-scale Document Deduplication

相关领域：数据集构建

作者：Arham Khan, Robert Underwood, Carlo Siebenschuh

分析：论文提出了一种基于MinhashLSH的改进方法LSHBloom，用于大规模语言模型训练数据集的去重。该方法用轻量级的Bloom过滤器替换昂贵的LSHIndex，在保持与MinhashLSH相同的去重性能的同时，降低了运行时间和磁盘空间的使用，特别是在处理数十亿文档时表现优异。

地址：https://arxiv.org/pdf/2411.04257

7. 极端标记分类中的标签：极端多标签分类器有多校准？

标题：Labels in Extremes: How Well Calibrated are Extreme Multi-label Classifiers?

机构：阿尔托大学

相关领域：模型评估

作者：Nasib Ullah, Erik Schultheis, Jinbin Zhang

分析：论文主要探讨了在相关产品推荐、大规模文档标注或广告预测等场景中面临的极端多标签分类问题。在这种类问题中，分类器需要对每个潜在标签的预期价值进行评估，并从中选择最佳候选者。由于实际应用中需要准确估计标签的相关概率，如决定是否付费展示相应广告，因此校准这些概率至关重要。论文通过系统评价九种不同模型家族中的七个基准数据集，发现不同模型在可靠性 plot上表现不一，并通过易实现的方法对模型进行校准，提高了准确性。

地址：https://arxiv.org/pdf/2411.04276

8. SEE-DPO：自熵增强直接偏好优化

标题：SEE-DPO: Self Entropy Enhanced Direct Preference Optimization

机构：伊利诺伊大学、印度理工学院

相关领域：奖励模型、RLHF、模型评估

作者：Shivanshu Shekhar, Shreyas Singh, Tong Zhang

分析：这篇论文介绍了一种改进的直接偏好优化（DPO）方法，用于训练大语言模型，特别是文本到图像的扩散模型。它引入了自我熵正则化机制，以减少过拟合和奖励黑客行为，从而稳定扩散模型的训练过程，同时提高图像质量和多样性。

地址：https://arxiv.org/pdf/2411.04712

9. 梯度定位改善语言模型的终身预训练

标题：Gradient Localization Improves Lifelong Pretraining of Language Models

机构：卡耐基梅隆大学

相关领域：预训练、模型结构改进

作者：Jared Fernandez, Yonatan Bisk, Emma Strubell

分析：这篇论文研究大型语言模型（LLMs）如何存储不同类型的知识，特别是针对具有时间敏感性的实体。论文发现不同类型的知识在LLMs的参数中有所定位，而现有的持续学习方法未充分考虑知识的局部性，导致无法吸收新信息和遗忘已学信息的问题。研究通过定位参数更新来改善持续预训练的性能，以提高模型对包含时间漂移的语言的适应能力。

地址：https://arxiv.org/pdf/2411.04448

10. 语言模型是潜在的推理者：通过自我奖励解锁潜在推理能力

标题：Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

机构：Salesforce AI

相关领域：模型结构改进、预训练、奖励模型

作者：Haolin Chen, Yihao Feng, Zuxin Liu

分析：这篇论文提出了一种有原则的方法，即通过潜优化（Latent Reasoning Optimization，简称LaTRO）来解锁和提升大型语言模型（LLM）的潜在推理能力。论文指出，虽然大型语言模型已经展现出了令人印象深刻的性能，但在需要多步复杂推理的任务上仍然面临挑战。LaTRO通过将推理视为从潜在分布中采样，并利用变分方法对其进行优化，使得LLM能够在训练过程中改进其推理过程和评估推理质量的能力，而无需外部反馈或奖励模型。实验结果表明，该优化方法能够在GSM8K和ARC-Challenge数据集上提高模型的零样本准确率。

地址：https://arxiv.org/pdf/2411.04282

代码：https://github.com/SalesforceAIResearch/LaTRO

11. 重捕获: 使用掩码式视频微调的生成式视频摄像机控制技术，用于用户提供的视频

标题：ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

机构：Google、新加坡国立大学

相关领域：模型结构改进、预训练

作者：David Junhao Zhang, Roni Paiss, Shiran Zada

分析：本文提出了一种方法，可以从单一用户提供的视频中生成新的视频，这些视频具有全新的摄像机轨迹。该方法可以让该论文从截然不同的角度重新生成原始视频，并且具有电影式的摄像机动作。此外，该技术还可以合理地推测在原始视频中不可见的场景部分。该方法的工作流程包括两个步骤:(1)使用多视图扩散模型或深度基点云渲染生成具有新摄像机轨迹的噪点锚视频;(2)使用提出的掩码视频微调技术将锚视频清洁并保持时间一致性，以便从不同的角度生成视频。

地址：https://arxiv.org/pdf/2411.05003

12. Magentic-One：一种解决复杂任务的通用多智能体系统

标题：Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks

机构：微软研究院

相关领域：模型结构改进、多模态

作者：Adam Fourney, Gagan Bansal, Hussein Mozannar

分析：这篇论文介绍了一种名为Magentic-One的高性能开源智能体系统，用于解决复杂的跨场景任务。该系统采用多智能体架构，包含一个主导的智能体（Orchestrator），它负责规划、跟踪进度、从错误中恢复并指挥其他专门智能体执行任务。该系统在GAIA、AssistantBench和WebArena等多个基准测试中实现了有竞争力的表现。Magentic-One的设计允许模块化添加或删除智能体，无需额外的调整或训练。同时，论文还提供了一种名为AutoGenBench的独立工具用于智能体评估。

地址：https://arxiv.org/pdf/2411.04468

代码：https://aka.ms/magentic-one

13. BitNet a4.8：1位LLM中的4位激活

标题：BitNet a4.8: 4-bit Activations for 1-bit LLMs

机构：微软研究院、中国科学院大学

相关领域：模型结构改进

作者：Hongyu Wang, Shuming Ma, Furu Wei

分析：这篇论文介绍了BitNet a4.8，一种在一位大型语言模型（LLM）中使用4位激活的技术。它通过混合量化和稀疏化策略来减轻异常通道引起的量化错误，并优化了推理过程中的计算效率。实验表明，BitNet a4.8在保持性能的同时降低了推理成本，并提高了推理速度。

地址：https://arxiv.org/pdf/2411.04965

14. Mixture-of-Transformers：一种稀疏和可扩展的多模态基础模型架构

标题：Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

机构：FAIR、斯坦福大学

相关领域：模型结构改进, 预训练

作者：Weixin Liang, Lili Yu, Liang Luo

分析：这篇论文提出了一种名为Mixture-of-Transformers（MoT）的稀疏多模态Transform架构，该架构能够显著减少预训练的计算成本。MoT通过模块化处理来减少非嵌入参数，允许跨多种模态进行更高效的计算，并减少了训练大规模多模态模型的资源消耗。

地址：https://arxiv.org/pdf/2411.04996

15. 番茄，Tomahto，Tomate：测量跨语言模型中子词共享语义的作用

标题：Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models

机构：Google DeepMind

相关领域：模型评估、多模态

作者：Xinyu Zhang, Jing Lu, Vinh Q. Tran

分析：这篇论文研究测量编码器只有型的多语言语言模型中子词之间共享语义的角色。通过合并语义上相似的子词和它们的嵌入来形成“语义令牌”，并在五个不同的多语言下游任务上评估更新后的模型。研究发现，共享语义信息可以帮助模型在不同令牌化和模型大小的情况下进行预测。此外，还发现某些分类任务上的零样本结果与原始模型相当甚至更好，这表明共享的子词级语义可以作为跨语言迁移的锚点。

地址：https://arxiv.org/pdf/2411.04530

16. 视觉语言模型是上下文价值学习者

标题：Vision Language Models are In-Context Value Learners

机构：宾夕法尼亚大学、Google DeepMind

作者：Yecheng Jason Ma, Joey Hejna, Ayzaan Wahid

分析：本文提出了一种通用的价值函数估计器——生成式价值学习(Generative Value Learning,GVL),它利用嵌入在视觉语言模型中的世界知识来预测任务的进行。通过将价值估计视为视频帧的乱序排序问题，GVL鼓励视觉语言模型充分利用其底层的时间和语义基础能力，以区分基于其感知的任务进展的帧。这种看似更具挑战性的任务使VLM能够更充分地利用其能力，从而产生出显著的更好的价值预测结果。无需任何机器人或特定任务的训练，GVL可以在没有上下文的情况下对300多个不同的真实世界的机器人任务进行零样本和少数样本的有效值预测，包括复杂的双人操作任务。此外，该论文证明了GVL可以通过来自异构任务和实施的不同示例，例如人类视频，实现灵活的多模态上下文学习。GVL的通用性使其适用于各种与视觉运动策略学习相关的下游应用，包括数据集过滤、成功检测和加权回归等，所有这些应用都不需要模型训练或微调。

地址：https://arxiv.org/pdf/2411.04549

17. 大模型中的去学习

标题：Unlearning in- vs. out-of-distribution data in LLMs under gradient-based method

机构：Google、乔治亚理工学院、Google DeepMind

相关领域：预训练、模型结构改进

作者：Teodora Baluta, Pascal Lamblin, Daniel Tarlow

分析：这篇论文主要探讨了在大型语言模型(LLMs)中进行去学习的问题。去学习的目标是消除被选择训练样本对学习到的模型的影响。尽管这个问题越来越受到重视，但如何评估大型语言模型中的去学习，以及需要去除的数据的哪些关键属性会影响去学习的质量和效率，仍然是一个开放的研究问题。本文正式提出了一种度量标准来评估生成模型中的去学习质量，并使用它来评估去学习和性能之间的权衡。该论文证明，去学习离群数据需要更多的去学习步骤，但总体上提供了更好的权衡。然而，对于同分布的例子，该论文观察到随着去学习的进行，性能会迅速下降。该论文进一步研究了例子的记忆力和难度如何影响基于梯度上升方法的去学习过程。

地址：https://arxiv.org/pdf/2411.04388

18. DINO-WM：基于预训练视觉特征的世界模型实现zero-shot规划

标题：DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

机构：纽约大学、FAIR

相关领域：模型结构改进、预训练、多模态

作者：Gaoyue Zhou, Hengkai Pan, Yann LeCun

分析：这篇论文提出了一种名为DINO-WM的新方法，用于建立视觉动态模型，无需重建视觉世界。它利用预训练的视觉特征，通过预测未来补丁特征来学习从离线行为轨迹。DINO-WM实现了通过动作序列优化达到观察目标的任务，并能在测试时生成zero-shot行为解决方案，无需依赖专家演示、奖励建模或预先学习的逆向模型。此外，DINO-WM具有很强的泛化能力，能够适应各种任务家族。

地址：https://arxiv.org/pdf/2411.04983

19. 机器学习中的虚假性问题多维度研究

标题：The Multiple Dimensions of Spuriousness in Machine Learning

机构：FAIR、麦吉尔大学

相关领域：模型评估、模型结构改进

作者：Samuel J. Bell, Skyler Wang

分析：本文探讨了机器学习中的虚假性问题，指出机器学习模型容易受到非因果或偶然因素等无关关联的影响。提出了机器学习中虚假性的四个维度：相关性、可泛化性、人类认知相似性和危害性。强调在模型设计中应考虑这些因素，以提高模型的性能和鲁棒性。

地址：https://arxiv.org/pdf/2411.04696

20. LLM2CLIP：强大的语言模型解锁更丰富的视觉表示

标题：LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation

机构：微软

相关领域：多模态、模型结构改进（结合LLM）

作者：Weiquan Huang, Aoqi Wu, Yifan Yang

分析：这篇论文主要探讨了如何将大型语言模型（LLM）的能力融入CLIP模型，以解锁更丰富的视觉表示。通过微调LLM并设计有效的训练过程，论文提出了一种名为LLM2CLIP的新型方法，显著提高了CLIP模型处理图像标题的能力，并扩大了其处理长而复杂的文本的能力。此外，论文还展示了该方法在跨模态任务中的显著改进。

地址：https://arxiv.org/pdf/2411.04997

21. FrontierMath：评估人工智能高级数学推理能力的基准测试

标题：FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

机构：康奈尔大学、麻省理工学院、伦敦国王学院

相关领域：模型评估

作者：Elliot Glazer, Ege Erdil, Tamay Besiroglu

分析：论文介绍了一个名为FrontierMath的基准测试，该测试包含数百个由数学家精心设计和审核的原创数学难题。这些题目涵盖了现代数学的主要分支，包括计算密集型的数论和实分析，以及代数几何和范畴论的抽象问题。该基准测试使用新的未发表问题和自动化验证来可靠地评估模型，同时最小化数据污染的风险。当前最先进的AI模型只能解决不到2%的问题，这揭示了人工智能与数学社区之间的差距。随着人工智能系统在数学能力方面朝着专家水平发展，FrontierMath提供了一个严格的测试平台，可以量化他们的进步。

地址：https://arxiv.org/pdf/2411.04872

22. DexH2R：从人类到机器人的定向灵巧操作任务

标题：DexH2R: Task-oriented Dexterous Manipulation from Human to Robots

机构：UC伯克利分校

相关领域：模型结构改进、RLHF

作者：Shuqi Zhao, Xinghao Zhu, Yuxin Chen

分析：这篇论文提出了一种框架DexH2R，该框架结合了人类手部动作重定向和任务导向的残余行动策略，提高了机器人在面对新场景时的任务性能。它解决了传统方法需要复杂的数据收集和高昂的人力成本的问题，同时通过直接从重定向的基本动作和任务导向的奖励中学习残余策略，消除了对劳动密集型的遥控系统的需求。此外，它还通过引入测试时的指导，使灵巧手能够在新的场景下获得高度可泛化的技能。

地址：https://arxiv.org/pdf/2411.04428

23. SVDQunat：利用低秩分量吸收异常值用于4位扩散模型的量化加速

标题：SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

机构：英伟达、麻省理工学院、UC伯克利分校

相关领域：模型蒸馏、模型评估

作者：Muyang Li, Yujun Lin, Zhekai Zhang

分析：本文提出了一种名为SVDQuant的量化方法，旨在通过低秩分支吸收异常值，从而加速扩散模型的运行。具体来说，将激活中的异常值转移到权重上，并使用奇异值分解（SVD）对权重异常值进行精确处理。为提高性能，设计了一种融合低秩分支内核的推理引擎Nunchaku，该引擎可在不重新量化的前提下支持现成的低秩适配器（LoRAs）。实验表明，SVDQuant可有效保持图像质量的同时减少内存使用并提高运行速度。

地址：https://arxiv.org/pdf/2411.05007

24. noisy zero-shot 协调：打破零-shot协调游戏的共同知识假设

标题：Noisy Zero-Shot Coordination: Breaking The Common Knowledge Assumption In Zero-Shot Coordination Games

机构：剑桥大学、牛津大学、麻省理工学院

作者：Usman Anwar, Ashish Pandian, Jia Wan

分析：零-shot协调（ZSC）是一种研究强化学习（RL）agent是否能与新伙伴协调的热门设定。ZSC前的假设是‘问题设定’是共同知识：每个agent都知道Dec-POMDP的底层问题设定，都知道其他人也知道这个知识，等等没有穷尽。然而，在复杂现实世界设定中，这个假设很少成立，因为这些问题往往难以完整且正确地指定。因此，在问题设定不是共同知识时，使用ZSC方法训练的agent可能无法很好地协调。为了解决这个问题，该论文提出了‘噪音零-shot协调’（NZSC）问题。在NZSC中，agent观察到Dec-POMDP基础问题的不同噪音版本，假设这些噪音版本按照固定噪声模型分布。只有基础问题设定的分布和噪声模型是共同知识的。该论文证明了NZSC问题可以通过设计具有增强状态空间（所有基础Dec-POMDP）的元Dec-POMDP来解决ZSC问题。为了解决NZSC问题，该论文提出了一种简单而灵活的元学习方法，称为NZSC训练，该方法中agent在分布的协调问题上进行训练，他们只观察到不同噪音版本的ground-truth Dec-POMDP。通过NZSC训练，RL agent可以即使（exact）问题设定的协调不是共同知识的情况下，也能够与新伙伴良好协调。

地址：https://arxiv.org/pdf/2411.04976

25. 自动检测AI生成的源代码：我们做到了什么程度？

标题：An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We?

机构：UC尔湾分校、UC伯克利分校

作者：Hyunjae Suh, Mahan Tafreshipour, Jiawei Li

分析：这篇论文主要研究了如何检测由人工智能技术(特别是大型语言模型)生成的源代码。作者首先对现有的AI检测工具进行了实证分析，结果表明它们在检测AI生成的代码方面效果不佳，且缺乏通用性，无法实际应用。因此，作者提出了一系列改进方法，包括微调大型语言模型，使用静态代码度量或从抽象语法树(AST)生成的代码嵌入进行基于机器学习的分类。这些方法的效果优于当前最先进的AI生成代码检测器(GPTSniffer),并达到了82.55的F1分数。此外，作者还通过消融研究对最佳模型进行了评估，以探究不同源代码特征对其性能的影响。

地址：https://arxiv.org/pdf/2411.04299

26. 基于diffusion模型的多模态数据生成与密集视觉感知统一框架

标题：Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

机构：清华大学、伊利诺伊大学、卡内基梅隆大学

相关领域：深度学习模型、多模态数据生成

作者：Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao

分析：这篇论文主要研究了将diffusion模型应用于密集视觉感知任务的方法。主要内容包括：建立一个统一的，可处理的图像生成与密集视觉感知任务的diffusion-based框架Diff-2-in-1；利用diffusion-denoising过程同时处理多模态数据生成和密集视觉感知任务；通过函数网络生成多模态数据，有实现多模态数据与原始训练分布一致；利用新型的自我学习机制优化数据利用率。在各个基于判别的视觉感知器的实验中，Diff-2-in-1框架显示出持续的性能提升。这篇论文与大模型相关，category值为1。论文的主要研究内容是通过diffusion模型实现多模态数据的生成，重新利用深度学习模型，并改进了其性能。根据我的打分，这篇论文的价值性为95。其理由是，该方法提高了深度学习模型的性能，而且能够生成高质量的多模态数据，具有很高的应用价值，并且其可复现程度高。最后论文的核心关键词包括diffusion模型、多模态数据生成、密集视觉感知、框架、性能提升等。

地址：https://arxiv.org/pdf/2411.05005

27. Stem-OB: 在除雾算法通过扩散逆解实现的通用视觉模仿学习

标题：Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

机构：清华大学、斯坦福大学、上海AI实验室

相关领域：模型结构改进、预训练

作者：Kaizhe Hu, Zihang Rui, Yao He

分析：本论文提出了一种名为Stem-OB的新方法，旨在通过利用预先训练的图像扩散模型来抑制视觉输入中的低级视觉差异，同时保持场景的高级结构。这种方法类似于将观察转换为共享表示，从其中引申出其他观察，其中多余的细节被删除。与基于数据增强的方法相比，Stem-OB能够在不同的不特定外观变化情况下保持鲁棒性，无需额外训练。本方法为一个简单但高度有效的即插即用解决方案。实验结果证实了该方法在模拟任务中的实效性，并在实际应用中显示了显著的改进，相较于最好的基线方法，成功率平均提高了22.2%。

地址：https://arxiv.org/pdf/2411.04919

代码：https://hukz18.github.io/Stem-Ob/

28. MVSplat360：从稀疏视图生成360°场景的 feed-forward 方法

标题：MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

机构：牛津大学、莫纳什大学、南洋理工大学

相关领域：模型评估、数据集构建、新手研究

作者：Yuedong Chen, Chuanxia Zheng, Haofei Xu

分析：本文提出了MVSplat360，这是一种利用稀疏观测数据生成360°全景图的feed-forward方法。由于输入视图之间重叠最少且视觉信息不足，传统方法难以达到高质量结果。MVSplat360通过结合几何感知3D重建和视频生成，将3D高斯喷溅模型重构以直接在预训练的稳定视频扩散（SVD）模型的潜在空间中渲染特征。该模型支持使用最少5个稀疏输入视图进行渲染。实验表明，MVSplat360在具有挑战性的DL3DV-10K数据集上优于现有方法，且在RealEstate10K基准测试中也表现出有效性。

地址：https://arxiv.org/pdf/2411.04924

代码：https://donydchen.github.io/mvsplat360

29. DELIFT：数据高效的语言模型指令微调

标题：DELIFT: Data Efficient Language model Instruction Fine Tuning

机构：伊利诺伊大学、IBM研究院

相关领域：指令微调

作者：Ishika Agarwal, Krishna Killamsetty, Lucian Popa

分析：这篇论文提出了一种新的数据高效的语言模型指令微调方法DELIFT，旨在解决大型语言模型微调过程中的资源消耗问题。DELIFT通过优化数据选择在三个关键阶段进行微调，提高模型的效率，同时保证性能。实验表明，DELIFT可以减少微调数据规模达70%，具有显著的计算节省和出色的效率。

地址：https://arxiv.org/pdf/2411.04425

30. Crystal: 揭示LLM在语言和代码方面的能力

标题：Crystal: Illuminating LLM Abilities on Language and Code

机构：伊利诺伊大学、卡内基梅隆大学、MBZUAI大学

相关领域：预训练

作者：Tianhua Tao, Junbo Li, Bowen Tan

分析：这篇论文探讨了专用于代码生成的LLM（例如StarCoder和Code Llama）在软件开发中的作用，以及结合代码和自然语言能力的代码LLM的重要性。论文提出了一种混合代码和自然语言的预训练策略，以增强单一LLM在两个领域的综合能力。实现这一目标的模型称为Crystal，它在语言和代码方面的性能与Llama 2和Code Llama相当，但数据效率更高。论文验证了这一策略，并且强调了数据准备策略的重要性。论文还将详细信息，包括训练数据、代码、日志和训练过程中的136个检查点，全部开源。

地址：https://arxiv.org/pdf/2411.04156

31. VideoGLaMM: 大型视频级 multimodal 模型用于视频像素级视觉grounding

标题：VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

机构：天津大学、卡内基梅隆大学、澳大利亚国立大学

相关领域：模型结构改进、预训练、视觉grounding、多模态

地址：https://arxiv.org/pdf/2411.04923

32. 一文，两文，但并非全貌：对齐减少语言模型的概念多样性

标题：One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity

机构：哈佛大学

相关领域：模型评估、指令微调、RLHF

地址：https://arxiv.org/pdf/2411.04427

33. TAP-VL：面向丰富视觉语言模型的文本布局感知预训练

标题：TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models

机构：AWS AI Labs

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2411.04642

34. DanceFusion：时空骨架扩散Transform用于音频驱动的舞蹈动作重建

标题：DanceFusion: A Spatio-Temporal Skeleton Diffusion Transformer for Audio-Driven Dance Motion Reconstruction

机构：清华大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.04646

代码：https://th-mlab.github.io/DanceFusion/

35. 基于视线追踪的视觉内容生成系统GazeGen研究

标题：GazeGen: Gaze-Driven User Interaction for Visual Content Generation

机构：哈佛大学、纽约大学

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2411.04335

36. CodeTree：基于代理引导搜索树的代码生成大模型研究

标题：CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models

机构：德克萨斯州奥斯汀大学、Salesforce研究院

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2411.04329

37. OpenFLAME：构建大规模联邦定位与地图服务

标题：OpenFLAME: Building a large scale federated localization and mapping service

机构：卡内基梅隆大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2411.04271

38. 驯服整流流以进行反转和编辑

标题：Taming Rectified Flow for Inversion and Editing

机构：清华大学、香港科技大学、Tencent PCG实验室

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.04746

代码：https://github.com/wangjiangshan0725/RF-Solver-Edit

39. 图像理解作为图像生成中良好标记器的构建

标题：Image Understanding Makes for A Good Tokenizer for Image Generation

机构：字节跳动

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2411.04406

代码：https://github.com/magic-research/vector_quantization

40. 梯度增强树与大模型在表格数据少样本学习中的应用

标题：Gradient Boosting Trees and Large Language Models for Tabular Data Few-Shot Learning

机构：Amazon

相关领域：模型结构改进、预训练、多模态、模型评估

地址：https://arxiv.org/pdf/2411.04324

41. 在偏好奖励模型中重新考虑伯德-特里模型：理论、基础和替代方法

标题：Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives

机构：剑桥大学、字节跳动、麻省理工学院

相关领域：模型结构改进, 预训练, 指令微调, 奖励模型, 递归遗传算法, 模型评估, 数据集构建, 评估指标, 模型蒸馏, 多模态

地址：https://arxiv.org/pdf/2411.04991

42. wav2sleep: 一种统一的多模态方法，用于从生理信号中进行睡眠阶段分类

标题：wav2sleep: A Unified Multi-Modal Approach to Sleep Stage Classification from Physiological Signals

机构：牛津大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.04644

43. DimensionX：从单张图像创建可控视频扩散的任意3D和4D场景

标题：DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

机构：清华大学、香港科技大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.04928

44. Kwai-STaR：将大模型转变为状态转换推理器

标题：Kwai-STaR: Transform LLMs into State-Transition Reasoners

机构：清华大学、鹏城实验室、中国科学院自动化研究所

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2411.04799

45. 对比学习区分LLM生成的代码和人类撰写的代码

标题：Distinguishing LLM-generated from Human-written Code by Contrastive Learning

机构：浙江大学

相关领域：模型评估、数据集构建、评估指标

地址：https://arxiv.org/pdf/2411.04704

46. 基于指令的图像编辑中的多奖励条件研究

标题：Multi-Reward as Condition for Instruction-based Image Editing

机构：字节跳动、中国科学院大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.04713

47. 基于元推理提升大模型工具使用能力的探究

标题：Meta-Reasoning Improves Tool Use in Large Language Models

机构：帝国理工学院

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2411.04535

48. 一小时视频-视频语言理解

标题：HourVideo: 1-Hour Video-Language Understanding

相关领域：数据集构建、模型评估、多模态

地址：https://arxiv.org/pdf/2411.04998

代码：https://hourvideo.stanford.edu

49. GPTKB：从语言模型构建大规模知识库

标题：GPTKB: Building Very Large Knowledge Bases from Language Models

机构：马克斯·普朗克计算机科学研究所

相关领域：数据集构建、模型结构改进

地址：https://arxiv.org/pdf/2411.04920

代码：https://gptkb.org

50. TIP-I2V：用于视频生成的文本与图像提示百万级数据集

标题：TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

机构：悉尼科技大学

相关领域：数据集构建、多模态

地址：https://arxiv.org/pdf/2411.04709

代码：https://tip-i2v.github.io

51. DomainGallery：基于属性中心的少样本域驱动图像生成

标题：DomainGallery: Few-shot Domain-driven Image Generation by Attribute-centric Finetuning

机构：上海交通大学

相关领域：模型结构改进、预训练、指令微调

地址：https://arxiv.org/pdf/2411.04571

代码：https://github.com/Ldhlwh/DomainGallery

52. DiMSUM: Diffusion Mamba -- diffusion模型的空间统一高速方法

标题：DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation

机构：纽约大学、罗格斯大学、康奈尔大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2411.04168

代码：https://github.com/VinAIResearch/DiMSUM.git

53. OneProt：迈向多模态蛋白质基础模型

标题：OneProt: Towards Multi-Modal Protein Foundation Models

机构：慕尼黑工业大学、慕尼黑机器学习中心

相关领域：多模态

地址：https://arxiv.org/pdf/2411.04863

54. 将大模型的XR应用转化为开源包：增强XR的沉浸感与交互性

标题：CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR

机构：慕尼黑工业大学

相关领域：模型结构改进、预训练、指令微调、XR应用

地址：https://arxiv.org/pdf/2411.04671

代码：https://gitlab.lrz.de/hctl/cuify

55. HandCraft：在扩散生成图像中修复畸形手的解剖正确性

标题：HandCraft: Anatomically Correct Restoration of Malformed Hands in Diffusion Generated Images

机构：澳大利亚国立大学

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2411.04332

56. DynaMem：用于开放世界机械臂移动操作的新方法

标题：DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

相关领域：多模态

地址：https://arxiv.org/pdf/2411.04999

代码：https://dynamem.github.io/

57. 基于合作计划优化的高效实体多智能体合作研究

标题：CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation

机构：阿姆斯特丹大学、新加坡管理大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2411.04679

58. Thanos：通过融入心智技能增强对话代理的大模型

标题：Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

机构：韩国科学技术院

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2411.04496

59. RetrieveGPT: 合并提示和数学模型以增强增强混和语言信息检索

标题：RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

相关领域：预训练、指令微调、模型评估、数据集构建

地址：https://arxiv.org/pdf/2411.04752

60. 闪电IR:用于信息检索的Transformer基语言模型的简单微调和推理

标题：Lightning IR: Straightforward Fine-tuning and Inference of Transformer-based Language Models for Information Retrieval

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2411.04677

代码：https://github.com/webis-de/lightning-ir

61. EarCapAuth:使用电容式传感耳塞的可穿戴设备生物识别方法

标题：EarCapAuth: Biometric Method for Earables Using Capacitive Sensing Eartips

机构：卡尔斯鲁厄理工学院

地址：https://arxiv.org/pdf/2411.04657

62. GUI智能交互系统与预训练大模型的结合：一个综合研究

标题：GUI Agents with Foundation Models: A Comprehensive Survey

相关领域：多模态、预训练

地址：https://arxiv.org/pdf/2411.04890

63. 大模型蒸馏技术实践：在Web搜索排名中的应用

标题：Best Practices for Distilling Large Language Models into BERT for Web Search Ranking

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2411.04539

64. VTechAGP:学术-通用文本改写数据集和基准模型

标题：VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models

机构：曼彻斯特大学、弗吉尼亚理工学院

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2411.04825

65. 大模型的人工标注与人机协作

标题：Hands-On Tutorial: Labeling with LLM and Human-in-the-Loop

机构：斯图加特大学、阿姆斯特丹大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2411.04637

66. 大模型生成的合成数据的去偏问题

标题：Debiasing Synthetic Data Generated by Deep Generative Models

机构：根特大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2411.04216

67. 统一病理语音分析与提示调优

标题：Unified Pathological Speech Analysis with Prompt Tuning

机构：上海交通大学

地址：https://arxiv.org/pdf/2411.04142

68. SuffixDecoding：无模型方法加速大模型推理

标题：SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2411.04975

69. LuxBank：首个卢森堡语通用依存关系树库

标题：LuxBank: The First Universal Dependency Treebank for Luxembourgish

相关领域：数据集构建

地址：https://arxiv.org/pdf/2411.04813

70. 利用提示引导的内部状态来检测大模型的虚幻生成

标题：Prompt-Guided Internal States for Hallucination Detection of Large Language Models

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2411.04847

71. 基于强化学习的自动视频编辑方法使用预训练视觉语言模型

标题：A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model

相关领域：自动视频编辑

地址：https://arxiv.org/pdf/2411.04942

你觉得今天分享的论文哪篇at到了你？欢迎留言分享哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486531&idx=1&sn=7411149afbbfc239ae6da1c08113831a

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI