Pixstral 12B多模态大模型论文上线！大模型内部词典的奥秘探索 | 大模型量化缩放规律...

文摘 2024-10-10 22:29 广东

前言：平淡无奇的一天又来了，今天要分享的内容主要是关于大模型、大语言模型、模型评估的，喜欢的小伙伴赶紧去阅读相关论文吧。

1. Pixstral 12B：一个拥有12亿参数的多模态语言模型

标题：Pixtral 12B

相关领域：多模态

作者：Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna

分析：这篇论文介绍了一个拥有12亿参数的多模态语言模型——Pixstral 12B。该模型经过训练能够理解自然图像和文档，在各种多模态基准测试中表现出卓越的性能，并且超越了更大的一些模型。Pixstral 12B使用一个全新的视觉编码器，可以摄取自然分辨率和长宽比的图像，为用户提供了处理图像时使用的令牌数量灵活性。此外，该模型还能在长上下文窗口（最多包含128K令牌）中处理任意数量的图像。总体而言，该论文展示了一个强大的多模态语言模型，它可以在保持自然语言性能的同时解决多模态任务。

地址：https://arxiv.org/pdf/2410.07073

2. CursorCore：通过与任何内容对齐协助编程

标题：CursorCore: Assist Programming through Aligning Anything

相关领域：模型结构改进、数据集构建、模型蒸馏

作者：Hao Jiang, Qi Liu, Rui Li

分析：论文提出了一个全新的对话框架，旨在全面整合编程过程中的多种信息源，包括代码历史、当前代码和用户指令。该框架还引入了名为APEval（Assist Programming Eval）的新基准，用于全面评估模型在编程辅助任务中的表现。论文还开发了一个名为Programming-Instruct的数据生成管道，可以从多种来源（如GitHub和在线评判平台）合成训练数据。通过这个管道，生成了219K个样例，并成功地进行了模型微调，开发了CursorCore系列。论文展示，相比其他相同大小的模型，CursorCore系列表现更优。该框架统一了诸如实时聊天和自动编辑等多种应用，推动了代码助手的发展。

地址：https://arxiv.org/pdf/2410.07002

代码：https://github.com/TechxGenus/CursorCore

3. DecorateLM：通过语料库评级、标签化和编辑优化语言模型的数据工程

标题：DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models

相关领域：数据集构建、模型预训练

作者：Ranchi Zhao, Zhen Leng Thai, Yifan Zhang

分析：论文提出了一种数据工程方法DecorateLM，用于通过语料库评级、标签化和编辑来提升预训练语言模型的数据质量。针对大规模语料库质量难以保障的问题，通过分级标注文本和构建高质量的语料子集来提升模型性能。

地址：https://arxiv.org/pdf/2410.05639

4. 数据选择通过优化控制语言模型

标题：Data Selection via Optimal Control for Language Models

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Yuxian Gu, Li Dong, Hongning Wang

分析：这篇工作研究了从大规模语料库中选择高质量的预训练数据以增强语言模型在下游应用中的功能。该论文将数据选择形式化为广义最优控制问题，并可以通过庞特里亚金最大原理(PMP)在理论上求解，得到一组描述最优数据选择和LM训练动态之间关系的条件。基于这些理论结果，该论文引入了基于PMP的数据选择(PDS),通过求解PMP条件近似最优数据选择的框架。在该论文的实验中，该论文采用PDS从CommonCrawl中选择数据，并证明了PDS选择的语料库加速了LM的学习，并不断提高了它们在各种下游任务上的性能。此外，PDS的好处扩展到了训练在约10T标记上的400B模型，这由根据Scaling Laws推导出的测试损失曲线得以证实。当预训练数据有限时，PDS通过降低数据需求1.8倍来提高数据利用率，从而缓解了可用网络爬取语料库的快速耗尽问题。

地址：https://arxiv.org/pdf/2410.07064

代码：https://github.com/microsoft/LMOps/tree/main/data_selection

5. 预训练编程语言对逻辑推理性能的影响

标题：Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?

机构：东京大学

相关领域：模型结构改进、预训练

作者：Fumiya Uchiyama, Takeshi Kojima, Andrew Gambardella

分析：该研究旨在验证预训练编程语言和阶段对逻辑推理性能的影响。通过在十个编程语言(如Python、C、Java)和三个自然语言数据集(Wikipedia、Fineweb、C4)上进行从零开始的解码式语言模型的预训练，并在几个少样本上下文学习任务中评估这些模型，结果表明，使用编程语言预训练的模型在逻辑推理任务上的表现普遍优于使用自然语言预训练的模型。此外，使用编程语言训练的模型在遵循指令方面表现得更好。进一步的分析还表明，代表程序解析结果的抽象语法树的深度也影响逻辑推理性能。这些发现将为LLM的基础能力预训练提供洞察。

地址：https://arxiv.org/pdf/2410.06735

6. 检索、反思与修订：验证链改进检索增强生成

标题：Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation

机构：百度、中国科学技术大学

相关领域：大模型

作者：Bolei He, Nuo Chen, Xinran He

分析：这篇论文主要探讨了在大型语言模型中引入外部知识的检索增强生成方法(RAG)。然而，这种方法遇到了一些挑战。首先，原始查询可能不适合精确检索，导致上下文知识不准确；其次，由于语言模型的知识边界限制，很容易生成与外部引用不一致的答案。为解决这些问题，作者提出了验证链增强检索增强生成(CoV-RAG)的方法。具体来说，作者将验证模块集成到RAG中，进行评分、判断和改写。为了纠正外部检索错误，CoV-RAG使用修订后的查询检索新知识。为了纠正内部生成错误，作者在训练过程中将质量评估和验证任务与思维链推理(CoT)统一起来。实验结果表明，CoV-RAG在各种大型语言模型上的有效性和适应性都超过了其他强大的基线。特别是在使用不同语言模型骨干网络的情况下，CoV-RAG可以显著超越最先进的基线。

地址：https://arxiv.org/pdf/2410.05801

7. 重复无序上下文释放大模型的跨步推理潜力

标题：Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context

机构：首尔国立大学

相关领域：模型评估

作者：Sangwon Yu, Ik-hwan Kim, Jongyoon Song

分析：这篇论文关注大型语言模型（LLMs）在处理跨步推理时的挑战。LLMs在过滤无关文档和应对支持文档位置变化时表现不佳。论文提出了一种名为上下文重复（CoRe）的方法，通过重复呈现上下文，确保支持文档以最佳顺序呈现给模型，从而提高多步问答任务的F1分数和合成任务的准确性，并缓解了LLMs中的“迷失在中间”问题。

地址：https://arxiv.org/pdf/2410.07103

8. 首个大模型无注意力机制的竞品语言模型Falcon Mamba问世

标题：Falcon Mamba: The First Competitive Attention-free 7B Language Model

机构：阿布扎比科技创新研究所

相关领域：模型结构改进、大模型

作者：Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem

分析：论文介绍了一种新型大语言模型Falcon Mamba 7B，它基于纯Mamba架构。相较于基于Transformer的领先模型，Falcon Mamba 7B表现优异，尤其在进行长序列生成时，它的推理速度更快且占用内存更少。公开可用的模型权重展示了纯Mamba架构在性能上可接近或超越Transformer及混合模型。

地址：https://arxiv.org/pdf/2410.05355

代码：https://huggingface.co/tiiuae/falcon-mamba-7b,

9. FltLM: 集成长上下文大模型用于有效上下文筛选和理解

标题：FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding

机构：北京航空航天大学

相关领域：模型结构改进、预训练、上下文筛选

作者：Jingyang Deng, Zhengyang Shen, Boyang Wang

分析：这篇论文提出了一种名为Context Filtering Language Model（FltLM）的集成长上下文大型语言模型。这种模型通过引入一个上下文筛选器，结合软遮罩机制，能够识别并动态排除不相关的信息，专注于重要的内容，提高理解和推理的准确性。FltLM不仅解决了长上下文大型语言模型面临的失焦现象和过度延展上下文所带来的干扰问题，而且能够在单次前向传播中方便地使用。实验结果表明，FltLM在复杂的多文档问答任务上显著 outperformed supervised fine-tuning和retrieval-based methods，展示了在更准确、可靠的长上下文自然语言理解应用方面的潜力。

地址：https://arxiv.org/pdf/2410.06886

10. Rodimus*：以高效注意力打破精度效率权衡

标题：Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions

机构：上海交通大学

相关领域：模型结构改进、模型评估

作者：Zhihao He, Hang Yu, Zi Gong

分析：本文介绍了一种新型的基于Transformer的大型语言模型（LLM），名为Rodimus。该模型通过引入数据依赖的温和选择机制（DDTS）和线性注意力，在保持性能的同时降低了计算复杂度。此外，还介绍了Rodimus+模型，它结合了Rodimus和滑动窗口共享键注意力（SW-SKA）的混合方法，实现了语义、令牌和头压缩技术的互补。实验表明，Rodimus+模型在下游任务上表现出卓越的性能，具有潜在的精度和效率平衡能力。

地址：https://arxiv.org/pdf/2410.06577

11. Transformers中的核心令牌集

标题：Core Tokensets for Data-efficient Sequential Training of Transformers

机构：德国AI研究中心、达姆斯塔特工业大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Subarnaduti Paul, Manuel Brack, Patrick Schramowski

分析：这篇论文主要探讨了如何更有效地在Transformer模型中进行顺序训练，解决数据整合和信息保留的问题。传统的核心集合通常包含整个样本，如图像或句子。然而，由于Transformer模型基于令牌操作，这引发了一个问题：并非所有令牌都具有同等的信息量或记忆性。因此，作者提出了在令牌级别构建更深层次的数据摘要的方法。他们的两个核心令牌集既选择最具信息量的令牌，又利用特征属性仅存储其最相关的特性。实验证明，核心令牌集在增量图像分类、开放式视觉问答和持续图像标注等任务中都能显著提高性能，同时大大减少了内存使用。

地址：https://arxiv.org/pdf/2410.05800

12. From Tokens to Words：大模型内部词典的探索

标题：From Tokens to Words: on the inner lexicon of LLMs

机构：希伯莱大学

相关领域：模型结构改进、预训练、模型评估

作者：Guy Kaplan, Matanel Oren, Yuval Reif

分析：本文探讨了语言模型处理语言时的一些核心问题，特别是它如何理解文本中的单词。它提出并证实了大语言模型本身进行内编码的假说，将字词序列解码为一致的词表示。此过程主要发生在模型的早期和中期层级。此外，研究还发现，即便是非形态学分裂、拼写错误，甚至是从未见过的词汇，模型也能够理解内部表示，表明大语言模型维持了一个超出了分词器范围的隐式词汇库。这一发现对预训练模型的词汇扩展具有实际应用价值，可以减少输入长度，减少推理迭代，降低空间需求和模型延迟，同时几乎不影响模型精度。

地址：https://arxiv.org/pdf/2410.05864

13. InAttention:线性上下文缩放的Transformer

标题：InAttention: Linear Context Scaling for Transformers

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Joseph Eisner

分析：这篇论文主要探讨了如何解决Transformer模型在推理过程中，由于自注意力机制导致的显存需求与序列长度成正比的问题。通过将自注意力替换为线性上下文缩放的InAttention,使得模型在推理时仅对初始状态进行注意力计算，从而实现了线性的上下文缩放。实验结果表明，InAttention显著降低了推理过程中的显存需求，使得长序列能够在消费级GPU上进行处理。此外，作者还通过微调的方法证明了上下文缩放可以有效地扩展序列长度，同时不会显著增加训练成本。这项工作为Transformer模型中长距离依赖问题的解决提供了一个可扩展的解决方案，为进一步优化提供了可能。

地址：https://arxiv.org/pdf/2410.07063

14. 基于合成偏好数据的大模型自我提升研究

标题：Self-Boosting Large Language Models with Synthetic Preference Data

相关领域：模型结构改进、奖励模型

作者：Qingxiu Dong, Li Dong, Xingxing Zhang

分析：这篇论文提出了一种基于合成偏好数据的大语言模型自我提升范式（SynPO）。它通过自我提示生成器和响应改进器两个组件，利用迭代机制自主生成奖励模型，不再需要大规模标注提示和人类偏好。这显著提高了大语言模型的指令遵循能力，并在多个任务上取得了显著成效。

地址：https://arxiv.org/pdf/2410.06961

15. 大模型量化缩放规律

标题：Scaling Laws for Mixed quantization in Large Language Models

相关领域：大模型、量化、性能

作者：Zeyu Cao, Cheng Zhang, Pedro Gimenes

分析：这篇论文主要研究了在大模型上进行低精度量化时，随着模型规模的增大，所需的高精度计算量如何变化。通过大量的实验，发现模型规模越大，其性能在低精度量化下表现得越好，而且精细的量化粒度可以提高模型的这种性能。这些观察结果对于未来的AI硬件设计和高效AI算法的开发具有重要价值。

地址：https://arxiv.org/pdf/2410.06722

16. Root Defence Strategies：确保大模型解码级别的安全性

标题：Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level

相关领域：模型评估

作者：Xinyi Zeng, Yuying Shang, Yutao Zhu

分析：该论文探讨了大型语言模型（LLM）在解码过程中出现有害输出的风险，并提出了一种针对解码级别的防御机制。文章指出当前防御方法的不足，并介绍了新型的防御架构，该架构通过纠正有害查询而不是直接拒绝它们来提高模型的安全性，同时保持模型的有用性。该方法在提升模型安全性的同时，也不损害推理速度。

地址：https://arxiv.org/pdf/2410.06809

17. Representation Alignment for Generation：扩散Transformer的训练比你想象的更简单

标题：Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

相关领域：模型结构改进、预训练

作者：Sihyun Yu, Sangkyung Kwak, Huiwon Jang

分析：本文主要研究扩散模型中的去噪过程如何在模型内部产生有意义的表示。尽管这些表示的质量仍然落后于通过最近自监督学习方法学到的表示，但作者认为训练大型扩散模型进行生成的主要瓶颈在于有效地学习这些表示。通过引入高质量的外部视觉表示，可以提高训练效率。本文提出了一种简单的方法，通过引入名为REPA（表示对齐）的正则化技术，将噪声输入隐藏状态的投影与来自外部预训练视觉编码器的干净图像表示进行对齐。这种方法在流行的扩散和基于流的Transformer（如DiTs和SiTs）上取得了显著成果，提高了训练效率和生成质量。

地址：https://arxiv.org/pdf/2410.06940

18. SWIFT：即时自我推测解码以加速大模型推理

标题：SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

相关领域：模型结构改进、模型评估

作者：Heming Xia, Yongqi Li, Jun Zhang

分析：这篇论文提出了一种新型即插即用式的推测解码方法来解决大语言模型（LLM）推理加速的问题。它通过跳过目标LLM的中间层作为紧凑的草案模型，实现了自我加速。论文引入了一种新的自适应选择中间层跳过策略，无需辅助模型或额外训练，就能加速LLM推理，同时保持生成文本的原始分布。

地址：https://arxiv.org/pdf/2410.06916

19. ParallelSpec：高效推测性解码的并行起草者

标题：ParallelSpec: Parallel Drafter for Efficient Speculative Decoding

相关领域：模型结构改进

作者：Zilin Xiao, Hongming Zhang, Tao Ge

分析：本论文提出的平行规划（ParallelSpec）旨在解决大型语言模型（LLM）推测性解码中推测性阶段的计算负担。推测性解码通过低代价的「小起草者」预测未来令牌，并利用目标模型并行验证，已被证明是一种高效的求解方式。传统的自动回归起草策略在推测性解码中维持语言模型的顺序依赖，这被认为是巨大的计算负担。平行规划使用单一模型并行预测多个未来令牌，同时不需要在对阵输出分布进行对齐时进行大量训练。实验表明，相对于基线方法，平行规划在不同领域的文本生成基准上将延迟加速最高达62%，在使用第三方评估标准时，Llama-2-13B模型总体上实现2.84倍的加速。

地址：https://arxiv.org/pdf/2410.05589

20. Adaptation Odyssey in LLMs：为何额外预训练有时无法提高？

标题：Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve?

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Fırat Öncel, Matthias Bethge, Beyza Ermis

分析：这篇论文主要探讨了在过去十年中，深度学习模型的泛化和适应能力通常是在固定的训练和测试分布上进行评估的。然而，与传统的深度学习相比，大型语言模型(LLMs)具有更多的超参数，它们是从互联网上人工干预最少的原始文本语料库中整理而成的，并且是在线训练的。这些对比使得研究人员难以将他们在深度学习上下文中学到的知识迁移到LLMs上。本文通过实证观察揭示了进一步训练已经预训练的语言模型的问题。具体来说，该论文证明了在一个文本领域对模型进行训练可能会降低其在该领域测试部分的困惑度。该论文的后续分析表明，这种性能下降与LLMs原始预训练数据集和附加预训练数据集之间的相似性正相关。该论文的进一步词汇困惑度观察表明，这种困惑度降低是由于一些关于域的信息不足的词汇。该论文希望这些发现能引导该论文在何时调整模型与何时依赖其基本能力之间做出决定。

地址：https://arxiv.org/pdf/2410.05581

21. OpenEarable ExG：基于耳朵的生物电势感应应用的开源硬件

标题：OpenEarable ExG: Open-Source Hardware for Ear-Based Biopotential Sensing Applications

机构：弗莱堡大学、卡尔斯鲁厄理工学院

作者：Philipp Lepold, Tobias Röddiger, Tobias King

分析：这篇论文介绍了一个名为OpenEarable ExG的开源硬件平台，该平台旨在测量耳朵内部和周围的生物电势。该平台可自由配置，具有多达7个感应通道，并能成功检测到平滑追踪眼动、大脑阿尔法波活动和咬牙切齿肌活动。这是OpenEarable倡议的一部分，并完全以MIT许可证的形式开源。

地址：https://arxiv.org/pdf/2410.06533

22. PDF-WuKong：高效阅读长PDF文件的端到端稀疏采样大型多模态模型

标题：PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling

机构：华中科技大学

相关领域：多模态、数据集构建

作者：Xudong Xie, Liang Yin, Hao Yan

分析：这篇论文提出了一种大型多模态模型PDF-WuKong，该模型旨在高效处理包含文本和图像的长PDF文档，如学术论文。它通过端到端的稀疏采样技术，提高了对长PDF文档的多模态问答能力。模型结合文本和图像表示，仅对用户查询最相关的段落或图表进行采样处理，从而提高了效率和性能。为了训练和评估模型，论文还构建了一个包含大量学术论文的数据集PaperPDF，并自动生成了100万组问答对及其对应的证据来源。实验结果表明，该模型在长多模态PDF理解任务上的表现优于其他模型，平均提高了8.6%的F1分数。

地址：https://arxiv.org/pdf/2410.05970

代码：https://github.com/yh-hust/PDF-Wukong

23. Scaling Laws Across Model Architectures：密集型和专家模型之间的比较分析

标题：Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models

机构：香港大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Siqi Wang, Zhengyu Chen, Bei Li

分析：这项研究主要探讨了大型语言模型(LLMs)在规模扩展方面的可移植性和差异性。通过理论分析和大量实验，包括一致的损失缩放、最优批量大小和学习率缩放以及资源分配策略缩放，该论文的发现揭示了专家模型(MoE Model)也适用幂律规模扩展框架，这表明这些模型的基本原则在架构上虽然有所不同，但规模扩展的行为保持一致。此外，专家模型在测试损失相同的情况下，相比于密集型模型，具有更好的泛化能力，能够以更少的训练计算资源实现。这些发现表明专家模型在规模扩展的可移植性和泛化能力方面具有优势，为优化专家模型的训练和部署策略提供了新的见解。

地址：https://arxiv.org/pdf/2410.05661

24. 基于脑激活机制的预训练模型的持续学习研究

标题：Brain-inspired continual pre-trained learner via silent synaptic consolidation

机构：华盛顿大学、新加坡国立大学

相关领域：模型结构改进、预训练

作者：Xuming Ran, Juntao Yao, Yusong Wang

分析：这篇论文借鉴了大脑中静默突触的激活机制，解决了预训练模型在连续学习新任务时容易遗忘的问题。通过模拟静默突触的巩固过程，论文提出了一个新型的预训练模型架构，该架构能够在保持先前知识稳定的同时，促进对新任务的适应性学习。实验证明，该模型在类增量学习任务上的表现显著优于传统方法，并为基于架构的方法提供了增强的生物学解释性。

地址：https://arxiv.org/pdf/2410.05899

25. WAPITI：微调开源大模型的水印技术

标题：WAPITI: A Watermark for Finetuned Open-Source LLMs

机构：复旦大学、伊利诺伊大学

相关领域：模型评估

作者：Lingjie Chen, Ruizhong Qiu, Siyu Yuan

分析：论文提出一种新方法WAPITI，可将水印技术从基础模型转移到经过微调的大型语言模型上，解决水印技术在开源大型语言模型上的两大难题：与微调模型的兼容性问题以及对微调攻击的脆弱性。新方法通过参数集成实现水印的转移，为微调模型提供追踪和检测机制，有助于减少模型产生的潜在危害和偏见。论文还深入探讨了参数编辑对水印强度和模型整体能力的影响。

地址：https://arxiv.org/pdf/2410.06467

26. 大模型的位置感知

标题：PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

机构：香港科技大学、北京航空航天大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Zekun Wang, Feiyu Duan, Yibo Zhang

分析：这篇论文主要探讨了大型语言模型在长度控制和复制粘贴操作中的问题。由于模型的token级操作以及对具有严格长度限制的数据训练不足，大型语言模型在这些任务上的表现并不理想。作者提出了两种新的方法：位置ID提示和位置ID微调，以增强模型在生成过程中对文本长度的监控和管理能力。此外，还引入了位置ID CP提示，使大型语言模型能够更准确地执行复制粘贴操作。通过实施这些方法，模型在长度控制和复制粘贴任务上的表现得到了显著提高，而响应质量并未受到影响。

地址：https://arxiv.org/pdf/2410.07035

27. Gradual Learning：优化具有部分掌握知识的语言大模型的微调

标题：Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models

机构：腾讯、北京大学、上海AI实验室

相关领域：模型评估、微调策略

作者：Bozhou Li, Hao Liang, Yang Li

分析：这篇论文关注大型语言模型（LLM）在预训练阶段后遇到的知识问题。模型在微调或推理时可能遇到未在初始训练中涵盖的知识，导致性能下降和幻觉。论文提出一种渐进式学习的方法，通过优化微调过程，让模型在部分掌握知识的同时，减少幻觉并保留已掌握的知识。实验证明，该方法能提高模型测试准确率，增加知识获取量。

地址：https://arxiv.org/pdf/2410.05802

28. 深度解析大模型中微调对模型的解训练研究

标题：Dissecting Fine-Tuning Unlearning in Large Language Models

机构：IDEA、华南理工大学、哥伦比亚大学

相关领域：模型结构改进

作者：Yihuai Hong, Yuelin Zou, Lijie Hu

分析：这篇论文主要探讨了大型语言模型中微调解训练的问题和局限性。研究发现，现有的微调解训练方法并不能真正消除模型中的特定有害或敏感信息，而是通过改变模型的检索过程达到解训练的目的。此外，解训练机制对模型的整体行为产生了影响。因此，论文呼吁开发更为稳健的解训练技术。

地址：https://arxiv.org/pdf/2410.06606

代码：https://github.com/yihuaihong/Dissecting-FT-Unlearning

29. MOOSE-Chem：大模型在发现未知化学科学假设中的作用

标题：MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

机构：武汉大学、南洋理工大学、上海AI实验室

相关领域：大语言模型

作者：Zonglin Yang, Wanhao Liu, Ben Gao

分析：这篇论文探讨了大型语言模型在化学科学假设发现中的作用。研究旨在解决是否可以通过大型语言模型自动发现新颖并有效的化学研究假设的问题，这些假设仅基于化学研究背景和几个灵感，无需限制研究问题的领域。研究通过构建一个包含51篇2024年发表的化学论文的基准测试集，验证了基于大型语言模型的多智能体框架能够重新发现许多具有高度相似性的假设。

地址：https://arxiv.org/pdf/2410.07076

30. LightRAG：简洁高效的检索增强生成模型

标题：LightRAG: Simple and Fast Retrieval-Augmented Generation

机构：香港大学、北京邮电大学

相关领域：模型结构改进、检索增强生成模型

作者：Zirui Guo, Lianghao Xia, Yanhua Yu

分析：该论文提出了一种新型的基于图结构的检索增强生成模型LightRAG，旨在解决现有检索增强生成模型在知识获取和上下文理解方面的不足。该模型通过结合文本索引和检索过程中的图结构，使用双级检索系统，既提升了信息的全面检索能力，又提升了从低级到高级的知识发现水平。同时，通过图形结构与向量表示的融合，优化了相关实体及其关系的检索效率，提高了响应速度并保持了上下文相关性。此外，LightRAG还通过增量更新算法确保新数据的及时整合，以适应快速变化的数据环境。

地址：https://arxiv.org/pdf/2410.05779

代码：https://github.com/HKUDS/LightRAG

31. BroadWay：无训练提升文本到视频生成模型的方法

标题：BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

机构：上海交通大学、香港中文大学、上海AI实验室

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06241

32. MimicTalk：快速生成个性化表达3D谈话人脸

标题：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

机构：浙江大学、字节跳动

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.06734

33. Decouple-Then-Merge：更好地训练扩散模型

标题：Decouple-Then-Merge: Towards Better Training for Diffusion Models

机构：清华大学、上海交通大学、上海AI实验室

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.06664

34. 任务多样性缩短ICL平台期的研究

标题：Task Diversity Shortens the ICL Plateau

机构：哈佛大学、加州大学、首尔国立大学

相关领域：模型训练策略

地址：https://arxiv.org/pdf/2410.05448

35. LLMs是上下文强化学习者

标题：LLMs Are In-Context Reinforcement Learners

机构：哈佛大学、康奈尔大学、瑞士洛桑联邦理工学院

相关领域：模型结构改进、奖励模型、RLHF、模型评估

地址：https://arxiv.org/pdf/2410.05362

36. 扩大推理计算和改进验证来提高大模型的推理能力

标题：Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification

机构：圣母大学、Salesforce AI

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.05318

37. LaMP：语言-动作预训练在动作生成、检索和描述中的应用

标题：LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

机构：南京大学、华中科技大学、阿里巴巴集团

相关领域：模型结构改进、预训练、文本定义模型

地址：https://arxiv.org/pdf/2410.07093

38. From Sparse Dependence to Sparse Attention：揭示链式思维如何提升Transformer样本效率

标题：From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency

机构：清华大学、斯坦福大学、Amazon

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05459

39. 大模型在序贯决策建模能力上的研究

标题：On the Modeling Capabilities of Large Language Models for Sequential Decision Making

机构：麦吉尔大学、Apple

相关领域：模型结构改进、奖励模型

地址：https://arxiv.org/pdf/2410.05656

40. 生成过程中的计划去噪：离散扩散模型的新框架

标题：Think While You Generate: Discrete Diffusion with Planned Denoising

机构：英伟达、牛津大学、麻省理工学院

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06264

代码：https://github.com/liusulin/DDPD

41. 深度学习模型在大模型领域的最新进展：综合调研

标题：Recent Advances of Multimodal Continual Learning: A Comprehensive Survey

机构：清华大学、香港中文大学、伊利诺伊大学

相关领域：深度学习、多模态、连续学习

地址：https://arxiv.org/pdf/2410.05352

代码：https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning

42. LLM Self-Correction with DeCRIM：分解、批判和改进以增强遵守带有多个约束的指令的能力

标题：LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints

机构：Amazon、UC洛杉矶分校

相关领域：模型微调和指令遵循

地址：https://arxiv.org/pdf/2410.06458

43. T2V-Turbo-v2: 通过数据、奖励和条件指引设计增强视频生成模型post-training

标题：T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

机构：滑铁卢大学、Amazon、UC圣塔芭芭拉分校

相关领域：模型结构改进、视频生成、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.05677

44. Simplicity Prevails：重新思考负偏好优化以优化大模型的去训练过程

标题：Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

机构：IBM研究院、密歇根州立大学、UC伯克利分校

相关领域：模型结构改进、预训练、指令微调、模型评估

地址：https://arxiv.org/pdf/2410.07163

代码：https://github.com/OPTML-Group/Unlearn-Simple

45. 长文本LLMs与RAG相遇：解决长输入的RAG挑战

标题：Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

机构：Google、伊利诺伊大学

相关领域：模型结构改进、模型评估、RAG

地址：https://arxiv.org/pdf/2410.05983

46. 利用预训练模型中的自由能进行模型选择，以提升微调效果

标题：Leveraging free energy in pretraining model selection for improved fine-tuning

机构：谷歌研究院、莫纳什大学

相关领域：预训练、模型评估

地址：https://arxiv.org/pdf/2410.05612

47. Everything Everywhere All at Once：大模型同时执行多任务的能力研究

标题：Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

机构：密歇根大学、微软研究院、威斯康星大学

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.05603

48. MedImageInsight：一个用于通用领域医学影像的开源嵌入模型

标题：MedImageInsight: An Open-Source Embedding Model for General Domain Medical Imaging

机构：微软、微软研究院、华盛顿大学

相关领域：模型结构改进、预训练、多模态

地址：https://arxiv.org/pdf/2410.06542

49. 旋转位置编码研究：Rotary Positional Encodings 的作用是什么？

标题：Round and Round We Go! What makes Rotary Positional Encodings useful?

机构：牛津大学、Google DeepMind

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06205

50. 强化学习中的行为控制：不要做任何我不愿做的事

标题：RL, but don't do anything I wouldn't do

机构：蒙特利尔大学、UC伯克利分校、Google DeepMind

相关领域：模型结构改进、强化学习

地址：https://arxiv.org/pdf/2410.06213

51. Retrieval-Augmented Decision Transformer：为即时强化学习增设外部记忆

标题：Retrieval-Augmented Decision Transformer: External Memory for In-context RL

机构：Google DeepMind

相关领域：模型结构改进、RLHF、数据集构建

地址：https://arxiv.org/pdf/2410.07071

52. 在没有策略梯度的情况下，复杂动作空间的学习

标题：Learning in complex action spaces without policy gradients

机构：Google DeepMind

相关领域：强化学习

地址：https://arxiv.org/pdf/2410.06317

53. 深度神经网络参数密码分析提取研究：硬标签设置下的多项式时间方法

标题：Polynomial Time Cryptanalytic Extraction of Deep Neural Networks in the Hard-Label Setting

机构：阿布扎比科技创新研究所、Google DeepMind

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.05750

54. 目标导向决策的幻觉识别与解决

标题：Identifying and Addressing Delusions for Target-Directed Decision-Making

机构：麦吉尔大学、蒙特利尔大学、Google DeepMind

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.07096

55. 无训练扩散模型对齐与采样演示

标题：Training-free Diffusion Model Alignment with Sampling Demons

机构：Google DeepMind

相关领域：模型结构改进、奖励模型

地址：https://arxiv.org/pdf/2410.05760

56. MentalArena：自我博弈训练语言模型在诊断和治疗心理健康障碍方面的应用

标题：MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

机构：斯坦福大学、伊利诺伊大学、微软亚洲研究院

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.06845

代码：https://github.com/Scarelette/MentalArena/tree/main

57. 网格化Transformer神经网络过程用于大规模非结构化时空数据

标题：Gridded Transformer Neural Processes for Large Unstructured Spatio-Temporal Data

机构：剑桥大学、微软研究院

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06731

58. 基于联合分布信息的沙普利值在细化反事实解释中的应用

标题：Refining Counterfactual Explanations With Joint-Distribution-Informed Shapley Towards Actionable Minimality

机构：微软、丹麦技术大学

地址：https://arxiv.org/pdf/2410.05419

59. 构建与掩码偏好准则的大模型以过滤令人不适的推荐

标题：Constructing and Masking Preference Profile with LLMs for Filtering Discomforting Recommendation

机构：复旦大学、上海交通大学、微软亚洲研究院

相关领域：大模型

地址：https://arxiv.org/pdf/2410.05411

60. 零样本学习因果模型

标题：Zero-Shot Learning of Causal Models

机构：微软研究院

地址：https://arxiv.org/pdf/2410.06128

61. Model-GLUE: 大模型的集成和扩展

标题：Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild

机构：德克萨斯大学、香港科技大学、Google

相关领域：预训练、模型集成、大模型

地址：https://arxiv.org/pdf/2410.05357

代码：https://github.com/Model-GLUE/Model-GLUE

62. SCOREQ：基于对比回归的语音质量评估

标题：SCOREQ: Speech Quality Assessment with Contrastive Regression

机构：都柏林大学、Google

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2410.06675

63. Thing2Reality：将二维内容转换为条件多视图和三维高斯对象用于XR通信

标题：Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication

机构：东北大学、谷歌研究院

地址：https://arxiv.org/pdf/2410.07119

64. 差分隐私SGD的最后一步优势：实证审查和原则性启发式分析

标题：The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD

机构：Google、麻省理工学院、Deepmind

地址：https://arxiv.org/pdf/2410.06186

65. 扩散模型预测控制

标题：Diffusion Model Predictive Control

机构：Google、Deepmind

相关领域：模型预测控制

地址：https://arxiv.org/pdf/2410.05364

66. 多标准激励的评分设计

标题：Score Design for Multi-Criteria Incentivization

机构：康奈尔大学、Google、UC伯克利分校

地址：https://arxiv.org/pdf/2410.06290

67. 改进的负采样学习项目的排名估计方法

标题：Improved Estimation of Ranks for Learning ItemRecommenders with Negative Sampling

机构：谷歌研究院

地址：https://arxiv.org/pdf/2410.06371

68. 多模态情境安全

标题：Multimodal Situational Safety

机构：UC伯克利分校

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.06172

69. 大模型的理性元推理研究

标题：Rational Metareasoning for Large Language Models

机构：Anthropic、瑞士洛桑联邦理工学院

相关领域：模型结构改进、奖励模型

地址：https://arxiv.org/pdf/2410.05563

70. Trans4D: 真实感几何感知过渡，用于合成文本到4D输出

标题：Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

机构：北京大学、斯坦福大学、香港中文大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.07155

代码：https://github.com/YangLing0818/Trans4D

71. EvolveDirector：利用公开资源实现高级文本到图像生成的可扩展框架

标题：EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

机构：阿里巴巴集团、新加坡国立大学

相关领域：模型结构改进、预训练、数据集构建

地址：https://arxiv.org/pdf/2410.07133

代码：https://github.com/showlab/EvolveDirector

72. 视觉语言模型的全面评估框架VHELM介绍

标题：VHELM: A Holistic Evaluation of Vision Language Models

机构：斯坦福大学

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.07112

代码：https://crfm.stanford.edu/helm/vhelm/v2.0.1)

73. TaeBench：提高毒性摘要的高质量

标题：TaeBench: Improving Quality of Toxic Adversarial Examples

机构：Amazon

地址：https://arxiv.org/pdf/2410.05573

74. FlowBotHD: 历史感知扩散器处理可动物体操作中的模糊性

标题：FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation

机构：卡内基梅隆大学

地址：https://arxiv.org/pdf/2410.07078

代码：https://flowbothd.github.io/

75. KOR-Bench: 语言模型在知识反对角推理任务上的评测

标题：KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks

机构：字节跳动、伊利诺伊大学、曼彻斯特大学

相关领域：模型评估、评估指标

地址：https://arxiv.org/pdf/2410.06526

76. From Generalist to Specialist：通过特定任务的视觉指令调整适应视觉语言模型

标题：From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

机构：斯坦福大学、新加坡国立大学

相关领域：多模态、指令微调

地址：https://arxiv.org/pdf/2410.06456

代码：https://github.com/baiyang4/VITask

77. 硬Swish激活函数调整的模型性能评估

标题：Evaluating Model Performance with Hard-Swish Activation Function Adjustments

机构：德克萨斯大学、麻省理工学院

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06879

78. 结合规划与扩散解决动态未知下的移动操控问题

标题：Combining Planning and Diffusion for Mobility with Unknown Dynamics

机构：麻省理工学院

地址：https://arxiv.org/pdf/2410.06911

代码：https://yravan.github.io/plannerorderedpolicy/

79. ING-VP：大模型尚不能轻松应对基于视觉的游戏

标题：ING-VP: MLLMs cannot Play Easy Vision-based Games Yet

机构：字节跳动、MBZUAI大学

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.06555

代码：https://github.com/Thisisus7/ING-VP.git

80. Auto-Evolve：通过自我推理框架提升大模型的性能

标题：Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework

机构：Amazon

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2410.06328

81. LeanAgent：形式化定理证明中的终身学习

标题：LeanAgent: Lifelong Learning for Formal Theorem Proving

机构：斯坦福大学、加州理工学院

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.06209

82. 引导大模型作为视觉语言模型的隐式优化器

标题：GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

机构：IBM研究院、麻省理工学院、阿姆斯特丹大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.06154

83. Less is More：对于多步KGQA，小型语言模型能够 competent 的 subgraph 检索器

标题：Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA

机构：爱丁堡大学、香港中文大学

相关领域：模型结构改进、预训练、条件生成任务、 subgraph 检索

地址：https://arxiv.org/pdf/2410.06121

代码：https://github.com/hwy9855/GSR

84. 基于因果事件建模的视频时间定位大模型的研究

标题：TRACE: Temporal Grounding Video LLM via Causal Event Modeling

机构：腾讯、香港中文大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.05643

代码：https://github.com/gyxxyg/TRACE

85. Happy：面向持续广义类别发现的去偏学习框架

标题：Happy: A Debiased Learning Framework for Continual Generalized Category Discovery

机构：合肥工业大学、中国科学院大学、中国科学院自动化研究所

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2410.06535

代码：https://github.com/mashijie1028/Happy-CGCD

86. Unlocking the Boundaries of Thought：一种评估和优化思维链推理粒度框架

标题：Unlocking the Boundaries of Thought: A Reasoning Granularity Framework to Quantify and Optimize Chain-of-Thought

机构：香港中文大学

相关领域：模型评估、模型结构改进

地址：https://arxiv.org/pdf/2410.05695

代码：https://github.com/LightChen233/reasoning-granularity

87. ActionAtlas: 一个专门领域动作识别的视频问答基准

标题：ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition

机构：华盛顿大学、艾伦AI研究所

相关领域：模型评估、数据集构建、评估指标、多模态

地址：https://arxiv.org/pdf/2410.05774

88. 发现生物医学数据集的独特元素以实现高性能探索

标题：Discovering distinctive elements of biomedical datasets for high-performance exploration

机构：斯坦福大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05436

89. Seeker：基于LLM多智能体方法增强代码异常处理

标题：Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach

机构：字节跳动、北京航空航天大学

相关领域：模型结构改进、异常处理

地址：https://arxiv.org/pdf/2410.06949

90. 大模型概率校准

标题：Calibrating Verbalized Probabilities for Large Language Models

机构：Amazon

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.06707

91. ST-WebAgentBench:安全可信度评估基准

标题：ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

机构：IBM研究院

地址：https://arxiv.org/pdf/2410.06703

92. 大模型作为代码执行器：一项探索性研究

标题：Large Language Models as Code Executors: An Exploratory Study

机构：清华大学、墨尔本大学、上海交通大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.06667

93. WeatherODE解决天气预报中的时间离散化挑战

标题：Mitigating Time Discretization Challenges with WeatherODE: A Sandwich Physics-Driven Neural ODE for Weather Forecasting

机构：清华大学、阿里巴巴集团

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2410.06560

代码：https://github.com/DAMO-DI-ML/WeatherODE

94. TopoTune框架：用于广义组合复杂神经网络

标题：TopoTune : A Framework for Generalized Combinatorial Complex Neural Networks

机构：哈佛大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06530

95. QuadBEV：高效的四面八方感知框架及其鸟瞰视图表示

标题：QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird's-Eye-View Representation

机构：南洋理工大学

地址：https://arxiv.org/pdf/2410.06516

96. MC-MoE: 分子压缩器对于混合专家大模型的优势

标题：MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More

机构：香港大学、香港中文大学、北京航空航天大学

相关领域：模型结构改进、压缩技术与量化

地址：https://arxiv.org/pdf/2410.06270

97. Don't Cut Corners：生物启发表示的模块化精确条件

标题：Don't Cut Corners: Exact Conditions for Modularity in Biologically Inspired Representations

机构：伦敦大学、斯坦福大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06232

98. 属性控制精细调优大模型：以解毒为例

标题：Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification

机构：Amazon、UC洛杉矶分校

相关领域：大模型

地址：https://arxiv.org/pdf/2410.05559

99. Towards World Simulator：基于物理常识的视频生成基准测试研制

标题：Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

机构：香港大学、上海交通大学、香港中文大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2410.05363

代码：https://github.com/OpenGVLab/PhyGenBench

100. 渐进式蒸馏引导隐性课程的研究

标题：Progressive distillation induces an implicit curriculum

机构：普林斯顿大学、卡内基梅隆大学、宾夕法尼亚大学

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2410.05464

101. Towards xAI：利用领域知识配置RNN权重以进行MIMO接收处理

标题：Towards xAI: Configuring RNN Weights using Domain Knowledge for MIMO Receive Processing

机构：麻省理工学院、弗吉尼亚理工学院

相关领域：模型结构改进、模型蒸馏

地址：https://arxiv.org/pdf/2410.07072

102. Robots in the Middle：评估大模型在争议解决中的作用

标题：Robots in the Middle: Evaluating LLMs in Dispute Resolution

机构：卡内基梅隆大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2410.07053

103. 语言模型置信度分数的β校准用于生成问答

标题：\beta-calibration of Language Model Confidence Scores for Generative QA

机构：Amazon、阿姆斯特丹大学、卡内基梅隆大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.06615

104. 基于扩散的无监督图异常检测器（DiffGAD）

标题：DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector

机构：阿里巴巴集团、中国科学技术大学

相关领域：模型结构改进、图神经网络

地址：https://arxiv.org/pdf/2410.06549

105. 基于知识的逐步式微调提升大模型自行改进彰显了MCTS的逐步知识与课程偏好学习

标题：Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

机构：马里兰大学、腾讯AI实验室（WA）

相关领域：自然语言处理

地址：https://arxiv.org/pdf/2410.06508

106. Transformer实现飞船轨迹优化的稳健方法

标题：Towards Robust Spacecraft Trajectory Optimization via Transformers

机构：斯坦福大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.05585

107. ReFIR: 通过检索增强框架基于地面恢复大型模型的实地面貌

标题：ReFIR: Grounding Large Restoration Models with Retrieval Augmentation

机构：清华大学、鹏城实验室

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05601

108. 层次化流动匹配用于高效的Video Generative Modeling

标题：Pyramidal Flow Matching for Efficient Video Generative Modeling

机构：北京大学、北京邮电大学

相关领域：模型结构改进、高效视频生成

地址：https://arxiv.org/pdf/2410.05954

代码：https://pyramid-flow.github.io

109. AvatarGO：基于扩散模型的零镜头4D人机交互生成与动画技术

标题：AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

机构：香港大学、南洋理工大学、上海AI实验室

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2410.07164

110. InstructG2I：从多模态属性图生成图像

标题：InstructG2I: Synthesizing Images from Multimodal Attributed Graphs

机构：伊利诺伊大学

相关领域：多模态、模型结构改进（可能的，具体根据内容判断是否属于深度涉及）

地址：https://arxiv.org/pdf/2410.07157

代码：https://github.com/PeterGriffinJin/InstructG2I

111. SC-Bench: 一个针对智能合约审计的大型数据集

标题：SC-Bench: A Large-Scale Dataset for Smart Contract Auditing

机构：加利福尼亚大学、宾夕法尼亚州立大学

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2410.06176

112. RespLLM：通过多模态大模型统一音频和文本进行广义呼吸健康预测

标题：RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction

机构：剑桥大学、埃因霍温科技大学

相关领域：多模态、模型结构改进、预训练

地址：https://arxiv.org/pdf/2410.05361

113. 知识蒸馏与隐私保护下的合成文本生成研究

标题：KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server

机构：浙江大学、上海AI实验室

相关领域：模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.05725

代码：https://github.com/wwh0411/KnowledgeSG

114. STNet：用于鲁棒说话人跟踪的深度音视频融合网络

标题：STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking

机构：西湖大学、北京大学

相关领域：多模态

地址：https://arxiv.org/pdf/2410.05964

115. 质量多样性模仿学习

标题：Quality Diversity Imitation Learning

机构：香港中文大学

相关领域：模型结构改进、预训练、指令微调、质量多样性

地址：https://arxiv.org/pdf/2410.06151

116. 联邦学习到大模型引导：学习本地训练的联邦方法

标题：FedL2G: Learning to Guide Local Training in Heterogeneous Federated Learning

机构：清华大学、上海交通大学、英国女王大学

相关领域：大模型

地址：https://arxiv.org/pdf/2410.06490

117. Coevolving with the Other You：基于序列合作多智能体强化学习对大模型进行微调

标题：Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning

机构：澳门科技大学、中国科学院大学、中国科学院自动化研究所

相关领域：指令微调、强化学习

地址：https://arxiv.org/pdf/2410.06101

118. HyperDet：通过生成和合并多个超 LoRa 模型高效检测合成图像

标题：HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs

机构：浙江大学、南京大学、帝国理工学院

相关领域：图像检测

地址：https://arxiv.org/pdf/2410.06044

119. AP-LDM: 集专注与渐进于一体的潜在扩散模型，用于无需训练的高分辨率图像生成

标题：AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation

机构：复旦大学

相关领域：模型结构改进、大模型评估

地址：https://arxiv.org/pdf/2410.06055

代码：https://github.com/kmittle/AP-LDM

120. 解密大型视觉语言模型跨模态对齐的模态集成率

标题：Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

机构：上海AI实验室

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.07167

代码：https://github.com/shikiw/Modality-Integration-Rate

121. Utilize the Flow before Stepping into the Same River Twice：基于确定性表示的知识流在拒绝意识指令调整中的应用

标题：Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

机构：北京大学、上海AI实验室、中国科学院大学

相关领域：指令微调、模型评估

地址：https://arxiv.org/pdf/2410.06913

122. From Pixels to Tokens：再探大型视觉语言模型的对象幻视问题

标题：From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models

机构：清华大学、中国人民大学、华东师范大学

相关领域：多模态

地址：https://arxiv.org/pdf/2410.06795

123. Suppress Content Shift：利用现成的生成技术改进扩散特征

标题：Suppress Content Shift: Better Diffusion Features via Off-the-Shelf Generation Techniques

机构：中山大学、中国科学院大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.06719

代码：https://github.com/Darkbblue/diffusion-content-shift

124. 错误注入自我编辑学习偏好：细微错误的重要性

标题：Subtle Errors Matter: Preference Learning via Error-injected Self-editing

机构：香港理工大学、诺亚方舟实验室

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.06638

125. 学习演化的工具以提升大模型

标题：Learning Evolving Tools for Large Language Models

机构：清华大学、中国人民大学

相关领域：模型评估、外部调用接口、动态环境适应

地址：https://arxiv.org/pdf/2410.06617

126. 强化学习与人类反馈的准确度悖论：更好的奖励模型是否会生成更好的语言模型

标题：The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models

机构：香港理工大学

相关领域：RLHF、奖励模型

地址：https://arxiv.org/pdf/2410.06554

代码：https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF)

127. Narrative-of-Thought：通过再叙述的大模型 via 重建叙事

标题：Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives

机构：东北大学、密歇根大学

相关领域：模型结构改进、预训练、指令微调、评估指标

地址：https://arxiv.org/pdf/2410.05558

代码：https://github.com/launchnlp/NoT

128. Break the Visual Perception：针对大型视觉-语言模型编码视觉令牌的 adversarial 攻击

标题：Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models

机构：腾讯、中国科学技术大学

相关领域：模型鲁棒性

地址：https://arxiv.org/pdf/2410.06699

129. AnyAttack: 针对大规模视觉语言模型的自监督对抗生成

标题：AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models

机构：复旦大学、香港科技大学、北京交通大学

相关领域：视觉语言模型，自监督对抗生成

地址：https://arxiv.org/pdf/2410.05346

130. 语言模型能否从间接证据中归纳出语法知识？

标题：Can Language Models Induce Grammatical Knowledge from Indirect Evidence?

机构：东京大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2410.06022

131. 电子商务中的信息发现

标题：Information Discovery in e-Commerce

机构：百度、阿姆斯特丹大学、中国科学技术大学

相关领域：模型评估、数据集构建、评估指标、电子商务推荐系统

地址：https://arxiv.org/pdf/2410.05763

132. DreamMesh4D：基于稀疏控制的高斯网格混合表示的视频到4D生成技术

标题：DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation

机构：浙江大学、西湖大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06756

133. MatMamba：一种结合Matryoshka风格学习与Mamba2的状态空间模型

标题：MatMamba: A Matryoshka State Space Model

机构：华盛顿大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06718

代码：https://github.com/ScaledFoundations/MatMamba

134. SEGMENT+：短语境语言模型的长文本处理

标题：SEGMENT+: Long Text Processing with Short-Context Language Models

机构：复旦大学、哥伦比亚大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06519

135. MotionRL:利用多奖励强化学习优化文本到动画生成并与人类偏好对齐

标题：MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning

机构：中国科学技术大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2410.06513

136. 自监督多模态大模型：结构与层次对齐赋能

标题：EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment

机构：中山大学、鹏城实验室、中国科学院大学

相关领域：大模型

地址：https://arxiv.org/pdf/2410.05938

137. SWE-Bench+：增强型大模型编码基准

标题：SWE-Bench+: Enhanced Coding Benchmark for LLMs

相关领域：模型评估、数据集构建、评估指标

地址：https://arxiv.org/pdf/2410.06992

138. 扩展高质量合成查询候选对增强法律案例检索

标题：Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs

机构：东北大学

相关领域：数据集构建

地址：https://arxiv.org/pdf/2410.06581

代码：https://github.com/thunlp/LEAD

139. Swift Sampler：通过10个参数有效学习采样器

标题：Swift Sampler: Efficient Learning of Sampler by 10 Parameters

机构：悉尼大学、华盛顿大学

相关领域：数据集构建、评估指标

地址：https://arxiv.org/pdf/2410.05578

代码：https://github.com/Alexander-Yao/Swift-Sampler

140. Towards Universality：探索语言模型架构之间的机制相似性

标题：Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures

机构：复旦大学

相关领域：模型结构改进、语言模型

地址：https://arxiv.org/pdf/2410.06672

141. Rethinking Reward Model Evaluation：我们是否在错误的树上吠叫？

标题：Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?

机构：中国科学院大学

相关领域：奖励模型、模型评估

地址：https://arxiv.org/pdf/2410.05584

142. AutoFeedback：基于LLM的高效准确API请求生成框架

标题：AutoFeedback: An LLM-based Framework for Efficient and Accurate API Request Generation

相关领域：大模型、API请求生成

地址：https://arxiv.org/pdf/2410.06943

143. QuadMamba:学习基于四叉树的选择性扫描视觉状态空间模型

标题：QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model

机构：上海交通大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2410.06806

代码：https://github.com/VISIONSJTU/QuadMamba

144. MEXA: 多语言评估英语中心大模型

标题：MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment

机构：伊利诺伊大学、慕尼黑工业大学、慕尼黑机器学习中心

地址：https://arxiv.org/pdf/2410.05873

代码：https://huggingface.co/spaces/cis-lmu/Mexa,; https://huggingface.co/spaces/cis-lmu/Mexa

145. 基于偏好绑定关系的奖励学习

标题：Reward Learning From Preference With Ties

机构：康奈尔大学、上海财经大学、上海交通大学

相关领域：奖励模型、RLHF

地址：https://arxiv.org/pdf/2410.05328

146. Vector-ICL：基于连续向量表示的上下文学习

标题：Vector-ICL: In-context Learning with Continuous Vector Representations

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05629

147. F5-TTS: 一个基于流匹配的童话讲述者，通过差异化Transform伪造流畅和忠实的语音生成

标题：F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06885

代码：https://SWivid.github.io/F5-TTS

148. TorchTitan：面向生产就绪的大模型预训练的一站式PyTorch原生解决方案

标题：TorchTitan: One-stop PyTorch native solution for production ready LLM pre-training

相关领域：预训练、模型评估

地址：https://arxiv.org/pdf/2410.06511

149. Multimodal Large Language Models and Tunings：视觉、语言、传感器、音频以及更远

标题：Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond

机构：墨尔本大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2410.05608

150. CoBa：用于多任务微调大模型的收敛平衡器

标题：CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models

地址：https://arxiv.org/pdf/2410.06741

代码：https://github.com/codefuse-ai/MFTCoder

151. SpaLLM：大模型的统一压缩适应方法与草图技术

标题：SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching

机构：莱斯大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.06364

152. BUMBLE：统一推理与视觉语言模型在大规模建筑中的操作与执行

标题：BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation

相关领域：模型结构改进、指令微调、评估指标、多模态

地址：https://arxiv.org/pdf/2410.06237

代码：https://robin-lab.cs.utexas.edu/BUMBLE/

153. 探查大模型在其知识源上的表现

标题：Probing Language Models on Their Knowledge Source

机构：索邦大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.05817

154. AgentSquare：模块化设计空间中的大模型智能体搜索

标题：AgentSquare: Automatic LLM Agent Search in Modular Design Space

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.06153

代码：https://github.com/tsinghua-fib-lab/AgentSquare

155. QT-DoG：领域泛化中的量化感知训练

标题：QT-DoG: Quantization-aware Training for Domain Generalization

机构：瑞士洛桑联邦理工学院

地址：https://arxiv.org/pdf/2410.06020

156. DimOL：维数感知作为算子学习的新“维度”

标题：DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning

机构：上海交通大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05894

157. 强制可解释性在时间系列Transformer上的应用：概念瓶颈框架

标题：Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework

机构：阿姆斯特丹大学

相关领域：模型结构改进、预训练、概念可解释性

地址：https://arxiv.org/pdf/2410.06070

158. Tree of Problems：改善结构性问题解决能力 with compositionality

标题：Tree of Problems: Improving structured problem solving with compositionality

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2410.06634

代码：https://github.com/ArmelRandy/tree-of-problems

159. ACPBench：动作、变化与规划推理研究

标题：ACPBench: Reasoning about Action, Change, and Planning

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.05669

代码：https://ibm.github.io/ACPBench

160. Taylor Unswift：通过泰勒展开确保大模型权重安全发布

标题：Taylor Unswift: Secured Weight Release for Large Language Models via Taylor Expansion

机构：莱斯大学、罗格斯大学、德克萨斯农工大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05331

161. 多样性奖励的CFG提炼

标题：Diversity-Rewarded CFG Distillation

相关领域：模型结构改进、RLHF

地址：https://arxiv.org/pdf/2410.06084

代码：https://google-research.github.io/seanet/musiclm/diverse_music/

162. 中科大-中国电信联合实验室的CHIME-8多模态语音识别挑战系统

标题：The USTC-NERCSLIP Systems for the CHiME-8 MMCSG Challenge

机构：中国科学技术大学

地址：https://arxiv.org/pdf/2410.05986

163. RoBERTa在持续学习中的表现是否优于BERT：从注意力池的视角分析

标题：Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2410.05648

164. 情境谜题评估和改进大模型的横向思维能力

标题：Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.06733

代码：https://github.com/chenqi008/LateralThinking

165. 精细粒度幻觉检测与缓解在语言模型数学推理中的应用

标题：Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning

相关领域：模型评估、奖励模型

地址：https://arxiv.org/pdf/2410.06304

166. 基于图生成常识推理中的组合泛化之谜

标题：The Mystery of Compositional Generalization in Graph-based Generative Commonsense Reasoning

机构：海德堡大学

相关领域：模型评估、多模态（涉及图结构相关的推理）

地址：https://arxiv.org/pdf/2410.06272

167. 时间门控增强视频大模型的时间建模

标题：Enhancing Temporal Modeling of Video LLMs via Time Gating

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.05714

代码：https://github.com/LaVi-Lab/TG-Vid

168. 揭示Transformer的感知机制：探索输入流形的方法

标题：Unveiling Transformer Perception by Exploring Input Manifolds

机构：都灵理工大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06019

169. 视频字幕增强大模型

标题：Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2410.06682

代码：https://video-salmonn-2.github.io

170. MM-Ego：构建以自我为中心的跨模态大模型的探索

标题：MM-Ego: Towards Building Egocentric Multimodal LLMs

相关领域：数据集构建、模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.07177

171. ReIFE：指令遵循评估的重新评估

标题：ReIFE: Re-evaluating Instruction-Following Evaluation

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.07069

172. Diamond of Thought：基于设计思维的LLM在可穿戴设计中的应用

标题：Diamond of Thought: A Design Thinking-Based Framework for LLMs in Wearable Design

相关领域：

地址：https://arxiv.org/pdf/2410.06972

173. PII-Scope：用于训练数据PII泄露评估的大模型基准测试

标题：PII-Scope: A Benchmark for Training Data PII Leakage Assessment in LLMs

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.06704

174. M^3Bench: 3D场景中的移动操纵全身运动生成基准

标题：M{}^{3}Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes

机构：香港城市大学

地址：https://arxiv.org/pdf/2410.06678

175. InstantIR：使用即时生成参考的盲图像修复

标题：InstantIR: Blind Image Restoration with Instant Generative Reference

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2410.06551

176. TuringQ：评估大模型在计算理论中的理解能力

标题：TuringQ: Benchmarking AI Comprehension in Theory of Computation

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2410.06547

177. Addax：利用零阶梯度提高语言模型微调中的内存效率和性能

标题：Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.06441

178. Aria：一个开放的多模态原生混合专家模型

标题：Aria: An Open Multimodal Native Mixture-of-Experts Model

相关领域：多模态、模型结构改进、预训练

地址：https://arxiv.org/pdf/2410.05993

179. LevAttention：高效处理大量注意力的时间、空间及流式算法

标题：LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05462

180. Embodied Agent Interface：评估大模型在体感决策中的应用

标题：Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making

地址：https://arxiv.org/pdf/2410.07166

181. 从一对一到N个一对一：文本-视频检索的关系分解

标题：Decomposing Relationship from 1-to-N into N 1-to-1 for Text-Video Retrieval

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.06618

182. TeaserGen：长纪录片摘要生成器

标题：TeaserGen: Generating Teasers for Long Documentaries

相关领域：数据集构建、多模态

地址：https://arxiv.org/pdf/2410.05586

183. Noise Crystallization and Liquid Noise：利用图像扩散模型进行zero-shot向视频生成

标题：Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.05322

184. EgoQR：基于自我视角的高效QR码识别技术

标题：EgoQR: Efficient QR Code Reading in Egocentric Settings

地址：https://arxiv.org/pdf/2410.05497

185. 语言模型是否对视觉有更加清晰的把握？

标题：Do better language models have crisper vision?

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2410.07173

186. Continual Learning：通过自适应对比回放减少遗忘，增加OOD泛化能力

标题：Continual Learning: Less Forgetting, More OOD Generalization via Adaptive Contrastive Replay

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.07110

187. 联合微调与预训练语音和语言模型向线性复杂度的转换

标题：Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

相关领域：模型蒸馏、多模态（语音处理）

地址：https://arxiv.org/pdf/2410.06846

188. 基于定位编辑范式改进的多跳事实回忆知识编辑研究

标题：Locate-then-edit for Multi-hop Factual Recall under Knowledge Editing

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.06331

189. 加速偏好优化用于大模型的对齐

标题：Accelerated Preference Optimization for Large Language Model Alignment

相关领域：RLHF

地址：https://arxiv.org/pdf/2410.06293

190. Better than Your Teacher：从特权人工智能反馈中学习的大模型代理

标题：Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback

相关领域：模型结构改进、多模态（特权反馈涉及不同形式的指导，可能是文本、图像等）

地址：https://arxiv.org/pdf/2410.05434

191. Time Transfer：无限数据量下最优学习率与批次大小的研究

标题：Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.05838

192. Beyond Captioning：面向数学推理任务特定提示提高VLM性能的研究

标题：Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.05928

193. Pap2Pat：Pap2Pat: 基于大模型实现论文到专利草拟的自动化

标题：Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation

相关领域：自然语言处理

地址：https://arxiv.org/pdf/2410.07009

你觉得今天分享的论文哪篇at到了你？欢迎留言分享哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486450&idx=1&sn=41e6c8ea1b60d78488a881f4534f382b

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI