智源发布最新视频世界模型Emu3：仅预测下一个令牌，探索多模态智能的未来！如何选择最具影响力的训练子集：挑战、超越....

文摘 2024-09-30 23:09 广东

前言：看论文就像是一次美食之旅，每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐，有些论文会让你欲罢不能，而有些论文则会让你咬牙切齿。但是别忘了，只有尝试了各种不同的菜肴，才能成为一个真正的“吃货”哦！

1. Emu3：以预测下一个令牌为核心，探索多模态智能的未来

标题：Emu3: Next-Token Prediction is All You Need

相关领域：多模态

作者：Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo

分析：这篇论文介绍了一种全新的多模态模型——Emu3。它通过仅使用下一个令牌预测的方法，成功在多模态任务中取得了卓越的性能。论文通过将图像、文本和视频令牌化，训练了一个单一的多模态transformer模型。与传统的扩散模型和组合方法相比，Emu3在生成和感知任务中的表现更为出色，并且具有生成高保真视频的能力。更重要的是，它通过简化复杂的多模态模型设计，以预测下一个令牌为核心，展示了在训练和推理过程中实现规模化潜力的巨大潜力。论文的结果表明，下一个令牌预测是实现超越语言的一般多模态智能的一种有前途的途径。

地址：https://arxiv.org/pdf/2409.18869

2. SciDFM：具有专家混合的大模型

标题：SciDFM: A Large Language Model with Mixture-of-Experts for Science

相关领域：模型结构改进

作者：Liangtai Sun, Danyu Luo, Da Ma

分析：本文介绍了一种从零开始训练的基于混合专家的大型语言模型SciDFM，该模型能够进行高级科学推理，理解分子和氨基酸序列。通过收集大量来自不同学科的科学文献和专业数据库数据，对模型进行了训练和微调，并在多个科学基准测试中表现出色。论文还分析了专家层的性能，并提供了解决方案，并为科学社区开放了SciDFM源代码。

地址：https://arxiv.org/pdf/2409.18412

代码：https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0

3. 最具影响力子集选择：挑战、承诺和超越

标题：Most Influential Subset Selection: Challenges, Promises, and Beyond

相关领域：模型评估

作者：Yuzheng Hu, Pingbang Hu, Han Zhao

分析：论文主要研究了如何将机器学习模型的行为归因于其训练数据，并提出了最具影响力子集选择（MISS）问题，旨在识别对训练有最大集体影响的样本子集。研究发现了基于影响函数的贪婪启发式算法在某些情况下可能会失效，并提出了迭代改进的方法来应对这些问题。实验验证了理论结果，并扩展到了分类任务和非线性神经网络。论文强调了性能与计算效率之间的权衡，并对使用加法度量提出质疑。

地址：https://arxiv.org/pdf/2409.18153

4. OpenAI o1的评估：人工智能通用化的发展机遇与挑战

标题：Evaluation of OpenAI o1: Opportunities and Challenges of AGI

相关领域：模型评估、多模态、预训练

作者：Tianyang Zhong, Zhengliang Liu, Yi Pan

分析：本文主要评估了OpenAI的o1预览大型语言模型在多个领域的复杂推理任务上的性能，包括计算机科学、数学、自然科学、医学、语言学和社会科学。该模型在编程挑战、科学推理、语言处理、创造性解决问题等方面展现出卓越的能力，并在多个任务上超越了人类专家的表现。同时，也指出了模型存在的局限性。

地址：https://arxiv.org/pdf/2409.18486

5. 预判与分析在大模型微调过程中出现的记忆化

标题：Predicting and analyzing memorization within fine-tuned Large Language Models

相关领域：模型评估

作者：Jérémie Dentan, Davide Buscaldi, Aymen Shabou

分析：这篇论文主要研究大语言模型在训练过程中出现记忆化现象的问题。该现象可能导致模型泄露训练数据，对模型安全性和隐私性构成威胁。论文提出一种基于切片互信息的方法，可以提前检测出可能被记忆化的样本，具有高效性和便于实际应用的特点。该方法基于新的理论结果，且计算资源消耗低，能够帮助系统性地检查和保护这些易受影响的样本。

地址：https://arxiv.org/pdf/2409.18858

6. 实证分析：模型合并来提升结构性泛化的能力

标题：Realistic Evaluation of Model Merging for Compositional Generalization

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Derek Tam, Yash Kant, Brian Lester

分析：本文旨在研究将多个模型通过合并方式进行融合的一些方法。实验显示，实现成功的融合是网络级的而非单个模型级的，这就为该论文开展更深入和更具挑战性的求解提供了新的视角。合并可以快速节省成本，让模型拥有更好的能力并取得更好的表现。但不同的合并方法的有效性和额外的网络层数量随输入数据集的增加而可能呈突增，不同的假设对于模型架构、数据的可用性和计算预算都存在显著差异。本文共考虑了文本分类、图像生成和自然语言处理三种任务的竞赛机制，收集并评估了18种不同的模型合并方法，并据此明确地衡量了这些方法的实现情况。结果清晰地认识到了丰富的研究成果对于模型合并的主要贡献。并且提供了一种相对完备的实验框架，来测试这些新的方法，从而解释了模型合并领域的主流趋势及可能的改进方向。

地址：https://arxiv.org/pdf/2409.18314

7. MMMT-IF：一项具有挑战性的多模态多轮指令遵循基准测试

标题：MMMT-IF: A Challenging Multimodal Multi-Turn Instruction Following Benchmark

机构：斯坦福大学、Google

相关领域：模型评估、多模态

作者：Elliot L. Epstein, Kaisheng Yao, Jing Li

分析：论文提出了一种多模态多轮指令遵循评估集MMMT-IF，包含图像基于的多轮问答和全局指令。论文介绍了如何构建评估集和新的指令遵循评估指标PIF及其变体PIF-N-K，旨在衡量模型在不同场景下的指令执行能力。论文比较了几种大模型在该评估集上的表现，并提出了改善任务挑战性的方向。

地址：https://arxiv.org/pdf/2409.18216

8. Beyond Single-Audio：推进音频大模型的多音频处理

标题：Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

相关领域：模型评估、数据集构建、评估指标、多模态

作者：Yiming Chen, Xianghu Yue, Xiaoxue Gao

分析：该论文探讨了使用单一模型同时处理多种音频任务的音频大语言模型（ALLM）。尽管现有评估主要集中在单一音频任务上，但实际应用往往涉及多个音频流的同时处理。为了解决这个问题，论文提出了第一个多音频评估（MAE）基准，包括来自11个多音频任务（涵盖语音和声音场景）的20个数据集。实验结果表明，现有的ALLM在处理单个音频输入的主要音频要素方面表现出色，但难以处理多音频场景。为此，论文提出了一种新的多音频-LLM（MALLM），通过在合成数据上采用判别性学习方法来捕捉多个相似音频之间的音频上下文。实验表明，所提出的MALLM优于所有基线，并且在使用合成数据时无需人工标注即实现了高数据效率。这项工作为ALLM向多音频处理时代迈进打开了大门，并使得机器复制人类听觉能力更进一步。

地址：https://arxiv.org/pdf/2409.18680

9. PhysGen: 物理建模图像到视频生成

标题：PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

机构：伊利诺伊大学

作者：Shaowei Liu, Zhongzheng Ren, Saurabh Gupta

分析：PhysGen是一种将单个图像和输入条件(例如，图像中的物体受到的力和扭矩)转化为逼真、物理上合理且时间一致的视频的方法。其关键在于将基于模型的物理模拟与数据驱动的视频生成过程相结合，从而实现图像空间的动态模拟。系统的核心组件包括：(i)一个能有效捕获图像几何、材料和物理参数的图像理解模块；(ii)一个利用刚体物理和推断出的参数模拟现实行为的图像空间动态模拟模型；以及(iii)一个利用生成视频扩散制作逼真视频片段的图像渲染和细化模块。PhysGen的结果视频在物理学和外观上都是真实的，甚至可以精确控制，通过与现有的数据驱动图像到视频生成作品的定量比较和全面的用户研究，展示了超越这些作品的优势。PhysGen的结果视频可用于各种下游应用，如将图像转换为逼真的动画，或让用户与图像互动并创建各种动态。

地址：https://arxiv.org/pdf/2409.18964

代码：https://stevenlsw.github.io/physgen/

10. MinerU：一个开源解决方案，用于精确文档内容提取

标题：MinerU: An Open-Source Solution for Precise Document Content Extraction

机构：上海AI实验室

相关领域：模型结构改进、预处理、数据集构建、评估指标

作者：Bin Wang, Chao Xu, Xiaomeng Zhao

分析：这篇论文提出了"矿业U"，一个用于高效精确提取各种文档内容的开源解决方案。即便目前在光学字符识别（OCR）、版面检测和公式识别方法上已取得显著进步，现有开源解决方案在一致提供高质量内容抽取方面仍存在挑战，主要是由于各种文档类型和内容的多样性。"矿业U"通过利用先进的PDF-Extract-Kit模型并结合精调的预处理和后处理规则，针对不同类型的文档进行有效内容提取，确保最终结果的准确性。实验结果显示，"矿业U"在多种文档类型上持续表现出高度性能，显著提高了内容提取的质量和一致性。

地址：https://arxiv.org/pdf/2409.18839

代码：https://github.com/opendatalab/MinerU

11. GenesisTex2：稳定、一致、高质量文本到纹理生成

标题：GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

机构：腾讯、伦敦大学

相关领域：模型结构改进、预训练

作者：Jiawei Lu, Yingpeng Zhang, Zengjun Zhao

分析：这篇论文提出了一种新的文本到纹理生成框架，解决了在3D几何体上合成纹理时面临的挑战。该框架利用预训练的扩散模型，通过局部注意力再加权机制和潜在空间合并管道，提高了纹理的一致性和视觉质量，同时保证了生成速度。

地址：https://arxiv.org/pdf/2409.18401

12. Ruler：大模型中生成长度的控制方法研究

标题：Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

机构：中国科学院大学、中国科学院-深圳

相关领域：模型结构改进、指令微调

作者：Jiaming Li, Lei Zhang, Yunshui Li

分析：针对大语言模型在生成特定长度响应时的挑战，本文提出了一种模型通用方法Ruler，通过引入Meta Length Tokens（MLTs）增强模型对长度约束指令的遵循能力。Ruler能够使LLMs根据指令中的长度约束生成指定长度的响应，并在没有显式提供长度约束的情况下自动生成适当的MLT。实验表明，Ruler在不同LLMs上的目标长度生成任务中表现出有效性。

地址：https://arxiv.org/pdf/2409.18943

代码：https://github.com/Geaming2002/Ruler

13. LangSAMP：语言脚本感知的多语言预训练

标题：LangSAMP: Language-Script Aware Multilingual Pretraining

机构：慕尼黑大学、博世AI中心、慕尼黑机器学习中心

相关领域：模型结构改进、预训练

作者：Yihong Liu, Haotian Ye, Chunlan Ma

分析：这篇论文提出了一种新的多语言预训练模型LangSAMP，该模型结合了语言和脚本嵌入，以增强表示学习，同时保持简单的架构。它解决了现有模型在编码所有特定语言信息时过度依赖标记嵌入的问题，通过引入语言和脚本嵌入来提高模型的跨语言传输性能。

地址：https://arxiv.org/pdf/2409.18199

代码：https://github.com/cisnlp/LangSAMP

14. Search3D：层次开放 vocabularies 3D 分割

标题：Search3D: Hierarchical Open-Vocabulary 3D Segmentation

机构：Google、苏黎世联邦理工学院

作者：Ayca Takmaz, Alexandros Delitzas, Robert W. Sumner

分析：开放语义分割 3D 使得使用自由形式的文本描述探索 3D 空间成为可能。现有基于开放语义 3D 实例分割的方法主要关注场景中的对象级实例。然而，当需要理解更细微的场景实体，如对象部分或由通用属性描述的区域时，它们面临挑战。在这项研究中，该论文提出了 Search3D 方法，它构建了一个层次结构的开放语义 3D 场景表示，可以根据不同粒度的实体进行搜索：细粒度的对象部分、整个对象或由属性（如材质）描述的区域。该论文的方法旨在通过采用更灵活的开放语义 3D 搜索设置来扩展开放词汇实例级 3D 分割能力的限制，与先前的方法相比，构造开放语义 3D 搜索设置较少依赖于明确的对象中心查询。该论文验证了 Search3D 在多个任务上的有效性，在场景级开放语义 3D 部件分割任务上，该论文的方法优于基线，同时保持对 3D 物体和材质的强绩效。

地址：https://arxiv.org/pdf/2409.18431

15. ASAG2024：结合短答案评分基准

标题：ASAG2024: A Combined Benchmark for Short Answer Grading

机构：清华大学、香港大学、伦敦大学

相关领域：模型评估、数据集构建、评估指标

作者：Gérôme Meyer, Philip Breuer, Jonathan Fürst

分析：本文介绍了ASAG2024结合基准，旨在提供一个综合验证不同科目、评分标准和分布的短答案评分系统的平台。该方法结合了七个常用的短答案评分数据集，并评估了最新短答案评分方法，发现尽管基于大型语言模型的评分方法达到了新的高分，但仍然远未达到人类水平。这为未来人机协同的短答案评分系统研究提供了新方向。

地址：https://arxiv.org/pdf/2409.18596

16. AI Policy Projector：基于迭代地图制作的大模型政策设计

标题：AI Policy Projector: Grounding LLM Policy Design in Iterative Mapmaking

机构：斯坦福大学、Apple、卡内基梅隆大学

相关领域：模型评估、奖励模型

作者：Michelle S. Lam, Fred Hohman, Dominik Moritz

分析：论文介绍了一种基于地图制作策略的AI策略设计过程。针对大型语言模型（LLM）的政策设计，提出了可视化并迭代完善策略的方法，即便无法全面覆盖也能应对现实世界的各种情况。通过策略投影器，政策设计者可以调查模型输入输出的地形地貌，定义自定义区域并应用规则进行导航。论文评估了策略投影器在解决大型语言模型面临的有害行为问题上的有效性。

地址：https://arxiv.org/pdf/2409.18203

17. Embodied-RAG：通用非参数化体现记忆用于检索与生成

标题：Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation

机构：卡内基梅隆大学

相关领域：模型结构改进、多模态

作者：Quanting Xie, So Yeon Min, Tianyi Zhang

分析：论文介绍了Embodied-RAG框架，它将机器人主体的基础模型与非参数化记忆系统相结合，使机器人能够在导航和语言生成方面自主构建分层知识。该框架解决了现有技术无法直接应用于体现领域的问题，实现了跨不同机器人平台的上下文敏感输出。

地址：https://arxiv.org/pdf/2409.18313

18. 探索视觉状态空间模型中的Token剪枝

标题：Exploring Token Pruning in Vision State Space Models

机构：东北大学、哈佛大学、佐治亚大学

相关领域：模型结构改进、预训练、指令微调

作者：Zheng Zhan, Zhenglun Kong, Yifan Gong

分析：这篇论文探讨了在视觉状态空间模型（SSMs）中应用token剪枝以提升效率的方法。由于视觉Transformer（ViT）在预测时仅依赖于部分最具信息量的token，论文提出了专门针对SSM视觉模型的token剪枝方法。通过引入剪枝感知隐藏状态对齐方法和针对SSM模型的token重要性评估方法，实现了在保证性能的情况下显著降低计算量，对ImageNet的测试达到了41.6%的FLOPs减少。

地址：https://arxiv.org/pdf/2409.18962

19. 大模型的选择偏差问题及其缓解方法

标题：Mitigating Selection Bias with Node Pruning and Auxiliary Options

机构：Amazon、弗吉尼亚理工学院

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Hyeong Kyu Choi, Weijie Xu, Chi Xue

分析：这篇论文主要探讨了大型语言模型在处理多选题时出现的不公平偏好问题，并提出了两种解决方法：Bias Node Pruning(BNP)和Auxiliary Option Injection(AOI)。BNP通过移除对选择偏差贡献的线性层参数来减轻偏差，而AOI则通过修改输入来减少偏差。此外，作者还提出了一种新的评估选择偏差的指标Choice Kullback-Leibler Divergence(CKLD),以解决现有指标对标签不平衡的不敏感性。实验结果表明，这些方法在各种数据集上都表现出良好的鲁棒性和适应性。

地址：https://arxiv.org/pdf/2409.18857

20. Speech to Reality：基于自然语言的按需生产

标题：Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly

机构：麻省理工学院

作者：Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith

分析：本研究提出了一种将语音转化为实体物品的技术，该技术结合了3D生成人工智能和离散机器人装配。该系统利用自然语言输入，使得设计和制造更加普及，使那些在3D建模或机器人编程方面没有专业知识的人也能创建实体物品。该论文提出利用基于格子的体素组件进行离散机器人装配，以解决使用生成AI输出进行物理生产时面临的挑战，如设计变异性、制造速度、结构完整性和材料浪费等问题。该系统通过语音生成3D物体，将其离散化为体素组件，计算优化的装配序列，并生成机器人工具路径。通过各种物品(从椅子到货架)的组装演示了该技术的效果，这些物品都是通过语音指令实现的，并且在5分钟内由一个6轴机器人手臂完成组装。

地址：https://arxiv.org/pdf/2409.18390

21. ProMerge：基于提示和合并的无监督实例分割方法

标题：ProMerge: Prompt and Merge for Unsupervised Instance Segmentation

机构：牛津大学

相关领域：模型结构改进、预训练、模型评估

作者：Dylan Li, Gyungin Shin

分析：这篇论文提出了一种基于提示和合并（ProMerge）的无监督实例分割方法。该方法利用自监督视觉特征获得初始的补丁分组，并通过策略性合并这些片段，同时借助基于背景的掩膜修剪技术。该方法不仅取得了有竞争力的结果，而且与基于归一化切割的当前先进方法相比，推理时间大大减少。此外，当使用其掩膜预测作为伪标签训练对象检测器时，该检测器在各种具有挑战性的实例分割基准测试中超过了当前的领先无监督模型。

地址：https://arxiv.org/pdf/2409.18961

22. LW2G：基于任务差异的学习是否增长的提示驱动持续学习研究

标题：LW2G: Learning Whether to Grow for Prompt-based Continual Learning

机构：浙江大学、南京大学

相关领域：预训练、模型蒸馏、指令微调

作者：Qian Feng, Dawei Zhou, Hanbin Zhao

分析：这篇论文主要研究了持续学习中的提示驱动学习问题。它提出了一个LW2G模块，该模块根据任务之间的差异来决定是否增加提示集，旨在促进跨任务知识促进并构建有效的提示集池。论文还提出了一个度量标准来衡量新任务对学习的阻碍程度，从而自适应地学习是否需要增加新的提示集。同时，设计了一种基于梯度的约束来确保提示更新与预训练知识的一致性。

地址：https://arxiv.org/pdf/2409.18860

代码：https://github.com/RAIAN08/LW2G

23. 基于鉴别诱导提示生成的大模型评估框架IDGen

标题：IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation

机构：腾讯、东南大学

相关领域：模型评估、数据集构建

作者：Fan Lin, Shuyi Xie, Yong Dai

分析：论文提出了一种基于鉴别诱导提示生成的大模型评估框架IDGen。该框架旨在确保大模型的评估集能够随着模型能力的提高而不断更新和优化。它借鉴了鉴别理论，能够生成具有挑战性和鉴别性的提示，以全面评估大语言模型的能力，并揭示不同模型之间的性能差异。该框架包括一个数据合成框架和两个预测模型，用于预测提示的鉴别性和难度。论文还应用了生成的提示数据评估了五个先进的大模型，并展示了其有效性。

地址：https://arxiv.org/pdf/2409.18892

24. 从模式补全中学习：自监督可控生成

标题：Learning from Pattern Completion: Self-supervised Controllable Generation

机构：北京大学、西安交通大学、北京AI研究院

相关领域：模型结构改进、自监督学习

作者：Zhiqiang Chen, Guofan Fan, Jinying Gao

分析：这篇论文提出了一种自监督可控生成（SCG）框架，该框架灵感来源于人类大脑中的神经机制，特别是皮层模块化和海马体模式补全。论文引入等价约束来促进模块化自编码网络中的模块间独立性和模块内相关性，从而实现功能专业化。在此基础上，采用自监督模式补全方法进行可控生成训练。实验结果表明，所提出的模块化自编码器有效地实现了功能专业化，包括颜色、亮度和边缘检测的模块化处理，并展现出类似人类大脑的特征。通过自监督训练，SCG框架自发地产生了关联生成能力，在各种任务中表现出良好的泛化能力，如绘画、草图和古代涂鸦的关联生成。与之前的代表性方法ControlNet相比，该论文提出的方法不仅在高噪声场景中表现出更强的稳健性，而且由于其自监督方式而具有更大的可扩展性潜力。

地址：https://arxiv.org/pdf/2409.18694

25. 基于预训练语言模型的医院紧急心理病房自杀现象分型

标题：Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models

机构：德克萨斯大学

相关领域：预训练、模型评估、数据集构建

作者：Zehan Li, Yan Hu, Scott Lane

分析：这篇论文研究如何利用预训练的语言模型从非结构化的临床日志中识别自杀事件。通过在标注的心理评估记录中检测并分类自杀想法、自杀尝试、暴露于自杀和非自杀性自伤等自杀相关事件，提高了在高度急性心理环境中的自杀预防措施。论文评估了四种基于BERT的模型在多种微调策略下的性能，如二进制相关和单多标签分类。研究结果表明，预训练在域相关数据上以及单多标签分类策略能够提升效率和性能。

地址：https://arxiv.org/pdf/2409.18878

26. UniEmoX：跨模态语义引导的大规模预训练场景情绪感知模型研究

标题：UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception

相关领域：预训练、多模态、数据集构建

作者：Chuang Chen, Xiao Sun, Zhi Liu

分析：针对视觉情感分析中存在的情感感知模糊性和数据场景多样性问题，提出了一种跨模态语义引导的大规模预训练框架UniEmoX。该框架结合了场景中心和人物中心的低层次图像空间结构信息，通过利用配对和非配对图像文本的相似性，从CLIP模型中提炼丰富的语义知识，增强情感嵌入表示的有效性。此外，该研究还构建了名为Emo8的视觉情感数据集，涵盖了多种风格的数据样本。

地址：https://arxiv.org/pdf/2409.18877

代码：https://github.com/chincharles/u-emo

27. SOAR：基于无人机的自我监督优化无人机动作识别

标题：SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining

机构：马里兰大学、波士顿大学

相关领域：预训练、无人机动作识别

作者：Ruiqi Xian, Xiyang Wu, Tianrui Guan

分析：这篇论文提出了一种新颖的基于无人机的自我监督算法SOAR，用于优化无人机捕获的视频中的动作识别。与之前的工作相比，SOAR在预训练阶段而不是在微调阶段就整合了对象信息。论文中的新技术包括：1) 对象感知遮罩策略，允许在预训练过程中保持与对象相关的某些区域的可视性；2) 对象感知损失函数，通过调整重建损失来防止对背景不相关的信息有偏见。SOAR在NEC-Drone和UAV-Human数据集上表现出色，同时在视频 inference速度方面具有很高的效率。

地址：https://arxiv.org/pdf/2409.18300

28. DisGeM: 基于跨掩码的 multiple choice questions 排除项生成框架

标题：DisGeM: Distractor Generation for Multiple Choice Questions with Span Masking

相关领域：预训练

作者：Devrim Cavusoglu, Secil Sen, Ulas Sert

分析：论文提出了一个使用预训练语言模型生成多个选择问题排除项的简单框架。该框架无需特定数据集的训练或微调，通过比较先前方法的性能得到了人类评估的支持。该框架的创意在于提供一个两阶段过程来生成示例并选择最佳对应项。

地址：https://arxiv.org/pdf/2409.18263

代码：https://github.com/obss/disgem

29. Easy2Hard-Bench：困难标签标准化用于分屏语言模型性能和泛化

标题：Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

相关领域：数学、编程、国际象棋、推理

作者：Mucong Ding, Chenghao Deng, Jocelyn Choo

分析：本文提出了Easy2Hard-Bench，这是一系列的6个基准数据集，涵盖了各种领域，如数学和编程问题，国际象棋谜题和推理问题。每个问题在这些数据集中都被注明了数字难度分数。本文通过收集大量真实世界中人类尝试每个问题的性能数据，以及语言模型在著名排行榜上的尝试性能数据，系统性地估算了问题的难度。此外，本文分配给问题的难度分数采取了如项目反应理论（IRT）和Glicko-2模型等成熟的难度排名系统，并统一了问题难度。本文也关注了本题集相较于先前集合中的更高比例的挑战性问题。通过与六个最新语言模型的实验，本文提供了它们在不同难度等级上的性能和泛化能力的全面分析，以激发未来语言模型泛化领域的进一步研究。数据集链接为https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench。

地址：https://arxiv.org/pdf/2409.18433

代码：https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench

30. 跨视频身份关联用于人物再识别预训练

标题：Cross-video Identity Correlating for Person Re-identification Pre-training

机构：华中科技大学

相关领域：模型结构改进、预训练

作者：Jialong Zuo, Ying Nie, Hanyu Zhou

分析：这篇论文主要研究了如何在大规模的互联网视频人物图像中进行预训练，以提高人物再识别的性能。然而，现有的研究大多局限于实例级别的预训练或单视频轨迹级别的预训练，忽视了同一人在不同视频中的图像身份一致性问题。为了解决这个问题，作者提出了一个跨视频身份关联预训练(CION)框架，通过定义一个综合考虑内部身份一致性和外部身份区分性的噪声概念，来从跨视频图像中寻找身份关联性，将其建模为一个逐步多级去噪问题。此外，还提出了一种基于身份引导的自蒸馏损失，通过挖掘人物图像中的内在身份一致性来实现更好的大规模预训练。实验结果表明，CION在效率和性能上都表现出优越性，即使使用较少的训练样本，也能获得领先的性能。

地址：https://arxiv.org/pdf/2409.18569

代码：https://github.com/Zplusdragon/CION_ReIDZoo

31. LML：用于数据增强预测的数据集构建

标题：LML: Language Model Learning a Dataset for Data-Augmented Prediction

相关领域：数据集构建、预训练

地址：https://arxiv.org/pdf/2409.18957

代码：https://github.com/Pro-GenAI/LML-DAP

32. Open-Nav：探索连续环境中开源大模型零样本视觉与语言导航的研究

标题：Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.18794

33. EmoPro: 基于情感表达的提示选择策略在基于大模型语音合成中的应用

标题：EmoPro: A Prompt Selection Strategy for Emotional Expression in LM-based Speech Synthesis

机构：天津大学

相关领域：自然语言处理(NLP)

地址：https://arxiv.org/pdf/2409.18512

代码：https://whyrrrrun.github.io/EmoPro/

34. MultiClimate：气候变化视频的多模态立场检测

标题：MultiClimate: Multimodal Stance Detection on Climate Change Videos

相关领域：数据集构建、多模态

地址：https://arxiv.org/pdf/2409.18346

代码：https://github.com/werywjw/MultiClimate

35. Flat'n'Fold:服装操纵数据集的新方法

标题：Flat'n'Fold: A Diverse Multi-Modal Dataset for Garment Perception and Manipulation

地址：https://arxiv.org/pdf/2409.18297

代码：https://cvas-ug.github.io/flat-n-fold

36. SEART Data Hub：优化大规模源代码挖掘和预处理

标题：SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing

相关领域：数据集构建、软件工程

地址：https://arxiv.org/pdf/2409.18658

代码：https://youtu.be/lCgQaA7CYWA

37. HM3:分层多目标模型融合预训练模型的方法研究

标题：HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2409.18893

38. Align^2LLaVA：基于级联的人与大模型偏好对齐的多模态指令集整理研究

标题：Align^2LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.18541

代码：https://github.com/DCDmllm/Align2LLaVA

39. 半监督学习中确认偏差的缓解：去偏训练视角

标题：Towards the Mitigation of Confirmation Bias in Semi-supervised Learning: a Debiased Training Perspective

机构：加利福尼亚大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2409.18316

40. 基于语料库的澄清问题检索增强生成研究

标题：Corpus-informed Retrieval Augmented Generation of Clarifying Questions

机构：阿姆斯特丹大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2409.18575

41. LLMs4Synthesis框架：利用大模型进行科研综述

标题：LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2409.18812

42. MiniVLN：渐进式知识蒸馏在视觉和语言导航中的应用

标题：MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation

相关领域：模型蒸馏、多模态

地址：https://arxiv.org/pdf/2409.18800

43. KALE-LM：借助知识与逻辑增强的大模型释放人工智能助力科学的潜力

标题：KALE-LM: Unleash The Power Of AI For Science Via Knowledge And Logic Enhanced Large Model

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.18695

44. From Seconds to Hours：全面解析多模态大模型在长视频理解中的应用

标题：From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

机构：南洋理工大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.18938

45. Balanced Splitting：一个框架实现多服务器-任务模型中的零等待时间

标题：Balanced Splitting: A Framework for Achieving Zero-wait in the Multiserver-job Model

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.18557

46. 数据准备工具包Data-Prep-Kit：助力大模型应用开发的数据准备

标题：Data-Prep-Kit: getting your data ready for LLM application development

相关领域：数据集构建、预训练

地址：https://arxiv.org/pdf/2409.18164

47. 文本到图像合成中稳定扩散模型的微调数据集滥用检测

标题：Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis

相关领域：自然语言处理、图像识别

地址：https://arxiv.org/pdf/2409.18897

48. TensorSocket: 深度学习训练中共享数据加载的研究

标题：TensorSocket: Shared Data Loading for Deep Learning Training

相关领域：共享数据加载

地址：https://arxiv.org/pdf/2409.18749

49. 扩散Transformer加速中的令牌缓存

标题：Token Caching for Diffusion Transformer Acceleration

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.18523

50. VickreyFeedback: 从人类反馈中构建有限效果要求的强化学习

标题：VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback

相关领域：模型结构改进、指令微调、奖励模型

地址：https://arxiv.org/pdf/2409.18417

51. 探索低资源语料库中的大模型泛化问题

标题：Exploring Language Model Generalization in Low-Resource Extractive QA

地址：https://arxiv.org/pdf/2409.18446

看论文是一天，不看论文也是一天，为什么不每天充实下自己呢^_^^_^

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486446&idx=1&sn=45e1d33df5e21cb17d36c7c5675b9220

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI