大规模数据选择再思考：随机选择几乎是你所需要的全部 | CoMAT：链条数学注释思维改进数学推理...

文摘 2024-10-15 20:01 广东

前言：平淡无奇的一天又来了，今天要分享的内容主要是关于大模型、模型结构改进、预训练的，喜欢的小伙伴赶紧去阅读相关论文吧。

1. 大规模数据选择再思考：随机选择几乎是你所需要的全部

标题：Rethinking Data Selection at Scale: Random Selection is Almost All You Need

机构：吉林大学、阿里巴巴集团

关键词：大规模数据、监督微调、数据选择、令牌长度过滤

作者：Tingyu Xia, Bowen Yu, Kai Dang

分析：本文主要研究大规模数据下监督微调（SFT）中的数据选择问题。针对大型语言模型（LLMs），文章发现随机选择数据是一种有效的策略，并且在处理大规模数据时，大多数现有的数据选择方法都难以显著优于随机选择。文章强调在SFT中，数据选择的多样性比单纯追求高质量更为重要。此外，通过令牌长度过滤数据是一种稳定且有效的方法，尤其是对于较弱的基准模型。本文的分析为大规模语言模型的数据选择提供了新的视角和思路。

地址：https://arxiv.org/pdf/2410.09335

2. Thinking LLMs：通过思维生成进行通用指令跟随

标题：Thinking LLMs: General Instruction Following with Thought Generation

机构：FAIR、纽约大学、UC伯克利分校

关键词：语言模型、指令跟随、思考生成

作者：Tianhao Wu, Janice Lan, Weizhe Yuan

分析：这篇论文提出了一种训练方法，旨在让现有的语言模型具备在没有额外人类数据的情况下进行通用指令跟随的思考能力。通过迭代搜索和优化过程，模型能够在没有直接监督的情况下学习如何思考。对于每个指令，使用判断模型对思维候选进行评分，然后通过偏好优化进行优化。实验结果表明，这种方法在AlpacaEval和Arena-Hard任务上表现出优越性能，并且在非推理和问题解决类别中也取得了改进。

地址：https://arxiv.org/pdf/2410.10630

3. 基于精确字节级别的概率的 tokenized 语言模型

标题：Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles

机构：多伦多大学、Meta AI

作者：Buu Phan, Brandon Amos, Itai Gat

分析：本文研究了tokenization如何影响语言模型的性能，分析了并比较了tokenized模型和token-free 模型之间的随机行为。即使这两个模型在统计上相同，它们的预测下一个字节分布也可以有显著的不同，现象该论文称之为“tokenization bias”。为了充分描述这种现象，该论文提出了 Byte-Token Representation Lemma 框架，建立了一个映射，将学习的 token 分布和其等价的字节级别分布联系起来。从这个结果中，该论文开发了一种消除 tokenization bias 的 next-byte 采样算法，不需要进一步的训练或优化。换句话说，这使得零式转换 tokenized LM 成为可能。该论文用填空任务（FIM）和模型集成两种使用情况进行了演示。在FIM任务中，输入提示可能中途终止

地址：https://arxiv.org/pdf/2410.09303

4. 平衡连续预训练与指令微调：优化大模型的指令遵循能力

标题：Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs

机构：三星研究

关键词：大型语言模型、预训练、指令微调、指令遵循

作者：Ishan Jindal, Chandana Badrinath, Pranjal Bharti

分析：这篇论文主要探讨了大型语言模型(LLMs)在进行公共使用时，如何平衡持续的预训练以保持对最新数据的更新，以及如何通过对特定指令的微调来维持准确遵循指令的能力。通常，LLMs会分为基础LLM和指令精细调整的LLM两个版本发布。基础LLM在各种数据上进行预训练，而指令精细调整的LLM则通过特定的指令进一步训练以获得更好的指令遵循能力。研究者们开始思考应该让哪个模型进行持续的预训练，以保持其指令遵循能力的同时也能跟上最新的数据。这篇论文深入探讨了持续预训练和指令微调之间的关系，并研究了基础模型及其指令精细调整模型在持续预训练下的指令遵循能力的影响。此外，指令微调过程计算量大且需要大量的人工标注样本来进行有效的学习。这项研究旨在找到一种既能获取最新知识又能保持指令遵循能力的最高效的策略，而不需要任何指令数据和微调。作者们在LLaMa 3、3.1和Qwen 2、2.5系列的基础模型和指令模型上进行了实证研究，全面探索了他们的观点在不同预训练数据语料库大小和不同LLM设置下的变化。

地址：https://arxiv.org/pdf/2410.10739

5. 基于大模型的下一个位置预测研究

标题：nextlocllm: next location prediction using LLMs

机构：南洋理工大学

关键词：大语言模型（LLM），位置预测，空间关系建模，POI嵌入

作者：Shuai Liu, Ning Cao, Yile Chen

分析：该论文提出了一种基于大语言模型（LLM）的下一个位置预测方法NextLocLLM。它利用LLM处理自然语言描述的优势和强大的泛化能力来进行位置预测。论文通过编码连续的时空坐标以更好地建模空间关系，并引入了LLM增强的POI嵌入，通过轨迹嵌入和任务数据前缀实现部分冻结的LLM骨架，进一步提高预测性能。实验表明，NextLocLLM在监督学习和零样本设置下均优于现有模型。

地址：https://arxiv.org/pdf/2410.09129

6. LLM×MapReduce:使用大模型简化长序列处理

标题：LLM\timesMapReduce: Simplified Long-Sequence Processing using Large Language Models

机构：厦门大学、北京大学、清华大学

关键词：LLM、MapReduce、长文本处理、大型语言模型

作者：Zihan Zhou, Chong Li, Xinyi Chen

分析：这篇论文主要介绍了一种新的无监督框架，用于处理长文本。该框架通过将整个文档分成几个块，让大型语言模型进行阅读，然后整合中间的答案以产生最终输出。主要挑战在于划分文档时可能会丢失关键的远距离信息，这可能导致模型根据分割后的文本生成不完整或错误的答案。作者设计了一个结构化的信息协议来更好地处理块间依赖关系，并引入了一个上下文信心校准机制来解决块间冲突。实验结果表明，LLM×MapReduce可以优于代表性的开源和商业长上下文语言模型，并适用于多种不同的模型。

地址：https://arxiv.org/pdf/2410.09342

7. Expanding Search Space with Diverse Prompting Agents：一个高效的抽样方法实现大模型数学推理

标题：Expanding Search Space with Diverse Prompting Agents: An Efficient Sampling Approach for LLM Mathematical Reasoning

机构：伦敦大学、首尔国立大学、韩国科学技术院

作者：Gisang Lee, Sangwoo Park, Junyoung Park

分析：人工智能领域的一项研究表明,大型语言模型(LLMs)已经 showed 了在许多复杂的任务,包括数学推理方面的惊人能力。然而,传统的手段严重依赖于确保单提示方法内的自洽,这限制了 Problem-solving 策略的探索。为解决这一问题,该研究通过数学推理领域内不同的提示方法实验分析。结果发现,每种方法都探索了一个不同的搜索空间,随着问题复杂度的增加,这种差异性更加明显。为了利用这一现象,研究者将高效抽样过程应用于此,将这些不同方法中的样本均匀结合,这种方法不仅扩大了最大搜索空间,而且与单方法相比,在更少的运行次数下达到了更高的性能。尤其是在 MATH 数据集的困难子集 MATH-hard 中,该方法平均仅使用了约占四分之一的运行次数就达成了最大搜索空间。

地址：https://arxiv.org/pdf/2410.09780

8. CoMAT：链条数学注释思维改进数学推理

标题：CoMAT: Chain of Mathematically Annotated Thought Improves Mathematical Reasoning

关键词：数学推理、符号转换、推理执行、CoMAT

作者：Joshua Ong Jun Leang, Aryo Pradipta Gema, Shay B. Cohen

分析：这篇论文提出了一种名为CoMAT的机制，它通过两个阶段来增强语言模型（LLM）的数学推理能力：自然语言查询的符号转换（将自然语言查询转换为符号形式）和推理执行（从符号表示中推导出答案）。CoMAT无需外部求解器即可完全通过一个单一的LLM实现。在四种不同的LLM上，CoMAT比传统的CoT在六个七项基准测试中表现更好，平均提高了4.5%左右的数学测试分数。CoMAT不仅提高了性能，还保证了推理的可靠性和可验证性，提供了对复杂数学任务的透明推理过程。

地址：https://arxiv.org/pdf/2410.10336

9. 将自纠能力内置于大模型中以增强数学推理能力

标题：Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning

关键词：大型语言模型、数学推理、自纠能力、自我更正策略

作者：Kuofeng Gao, Huanqia Cai, Qingyao Shuai

分析：这篇论文探讨了一种创新机制——‘环形自我更正’（CoSC），旨在增强大型语言模型（LLMs）的自我更正能力，从而改进它们在数学推理解释方面的表现。通过引入自我更正流程，模型在解决给定问题后对其答案进行验证和必要时的更正。这种迭代过程有助于模型持续优化自己的逻辑步骤和提高数学推理的准确性。通过相对少量的GPT-4生成的初始数据进行训练，后续使用训练后的模型继续生成数据进行自我增强，最终在广泛使用的数据集上显著提高了LLM在传统数学问题的处理能力，特别是在最具挑战性的数学推理数据集 MATH 上的表现，超过了许多现有的经典模型。

地址：https://arxiv.org/pdf/2410.10735

10. 基于高质量数据解锁大模型长输出的微调研究

标题：Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

关键词：大型语言模型、长文本生成、数据质量、性能提升

作者：Yingda Chen, Xingjun Wang, Jintao Huang

分析：针对大型语言模型在生成长文本时存在的能力不均衡问题，本文探索了数据质量对模型长输出的影响，并尝试通过重新对齐模型与高质量数据来解决这一问题。研究发现，通过精心筛选数据，仅使用一小部分训练数据实例和计算资源，就能实现模型的性能提升。此外，该论文的方法具有广泛的适用性，能够在不同的大型语言模型上实现显著的长文本生成改进。

地址：https://arxiv.org/pdf/2410.10210

11. 专家混合LLM实际上是免费的嵌入模型

标题：Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free

机构：马里兰大学

关键词：Mixture-of-Experts LLM,嵌入模型,路由权重,隐藏状态,模型结构改进

作者：Ziyue Li, Tianyi Zhou

分析：论文研究了Mixture-of-Experts（MoE）LLM作为嵌入模型的应用潜力。发现其专家路由器具有出色的嵌入模型性能，无需微调即可应对多种嵌入任务。论文深入分析了MoE路由权重与LLM隐藏状态的互补性，并提出结合两者的新方法MoEE，实现了更好的性能。研究在大量嵌入任务数据集上验证了MoEE的有效性。

地址：https://arxiv.org/pdf/2410.10814

12. 适应终身多模态指令调整的数据动态选择方法

标题：Adapt-\infty: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection

关键词：多模态指令微调、数据动态选择、终身适应性模型、灾难遗忘防止

作者：Adyasha Maharana, Jaehong Yoon, Tianlong Chen

分析：论文提出了一种适应终身多模态指令调整的数据动态选择方法，针对视觉指令数据集在不同时间发布和语义冗余的问题，通过动态数据选择来实现模型的终身适应性和技能获取。方法通过构建伪技能簇，提出一种新的多模式自适应数据选择方法，能有效平衡样本效率和效果，防止灾难性遗忘，促进正向迁移。

地址：https://arxiv.org/pdf/2410.10636

13. 自适应倒置上下文依赖:为什么指令微调实际上可能不会改善上下文依赖性

标题：Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance

关键词：大型语言模型、指令微调、上下文依赖、模型性能

作者：Sachin Goyal, Christina Baek, J. Zico Kolter

分析：研究了大型语言模型根据用户指示和输入上下文进行指令微调以提高遵循用户指示和处理输入上下文的能力。尽管如此，即使是目前最先进的模型在输入上下文与模型参数知识不匹配时也经常难以遵循指示。这表现为各种失败，例如幻觉性输出，其中输出过时、带有偏见或不验证的事实。本文尝试理解指令微调后依赖上下文的问题背后的根本原因。该论文观察到一项令人着迷的现象：在指令微调过程中，依赖上下文的功能最初确实增加，但随着微调的深入而逐渐减少。该论文称之为“自适应倒置上下文依赖”，并观察到它在诸如TULU、Alpaca、Ultrachat等通用指令微调数据集以及Llama、Mistral和Pythia等模型系列中。在一个简单的理论环境中，该论文探讨了为什么在指令微调的梯度下降轨迹中会发生这种现象。该论文将其与指令微调数据混合中的示例联系起来，在这些示例中，输入上下文提供的信息已经在模型的参数知识中存在。该论文的分析建议了一些自然的风险缓解策略，尽管它们提供了一些有限的收益，也为该论文的理论洞察提供了验证。该论文希望本文能够成为解决大型语言模型训练中的一个常见问题的一个起点。

地址：https://arxiv.org/pdf/2410.10796

14. 保持原始长宽比的图像模型预训练研究

标题：NARAIM: Native Aspect Ratio Autoregressive Image Models

机构：阿姆斯特丹大学

关键词：NARAIM、视觉Transformer、预训练、图像模型

作者：Daniel Gallo Fernández, Robert van der Klis, Rǎzvan-Andrei Matişan

分析：这篇论文提出了一种保持图像原始长宽比的预训练方法NARAIM。该方法旨在解决现有图像模型在预训练时忽略图像原始长宽比信息的问题，通过保持图像的原始长宽比，更好地保留图像的空间上下文信息，从而提高模型对视觉信息的解释能力。实验表明，该方法在下游分类任务上的性能有所提升。

地址：https://arxiv.org/pdf/2410.10012

15. FunnelRAG：从粗糙到精细的渐进检索范式研究

标题：FunnelRAG: A Coarse-to-Fine Progressive Retrieval Paradigm for RAG

机构：北京大学

关键词：FunnelRAG、渐进检索范式、大语言模型、检索效率

作者：Xinping Zhao, Yan Zhong, Zetian Sun

分析：论文提出了一种名为FunnelRAG的渐进检索范式，旨在解决传统的检索方法面临的效率与效果的双重挑战。该方法采用从粗糙到精细的检索粒度，通过协作粗粒度到细粒度、大量到少量、低容量到高容量的检索流程，提高了检索效率并平衡了性能上限。

地址：https://arxiv.org/pdf/2410.10293

16. 驯服大模型的过度自信：奖励校准在RLHF中的实践

标题：Taming Overconfidence in LLMs: Reward Calibration in RLHF

机构：卡内基梅隆大学、UC伯克利分校

关键词：大型语言模型自信度校准、奖励模型偏差、PPO策略优化、置信度评分集成

作者：Jixuan Leng, Chengsong Huang, Banghua Zhu

分析：这篇论文关注大型语言模型（LLM）的校准问题，即模型的自信度和其实际表现之间的匹配程度。研究发现，使用人类反馈进行强化学习训练的大型语言模型存在过度自信的问题。论文深入探讨了造成过度自信的原因，并指出奖励模型在策略优化过程中存在偏向高置信度的内在偏差。为了解决这一问题，论文提出了两种策略：一种是集成显式置信度评分的奖励模型训练，另一种是调整基于当前奖励和历史移动平均奖励的奖励分数。实验结果显示这两种策略能减少校准误差并保持与标准策略相当的性能。

地址：https://arxiv.org/pdf/2410.09724

17. 自适应学习率下的低秩适应模型：缓解关键缺陷

标题：ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws

机构：Google

关键词：LoRA模型、自适应学习率、改进方案

作者：Hai Huang, Randall Balestriero

分析：本文主要研究低秩适应（LoRA）在大规模语言模型（LLM）微调中的应用。针对LoRA存在的三大核心限制——在数据量有限和训练步骤较短的情况下的挑战，如Dropout的适用性、参数初始化问题和不同层间LoRA模块的交互问题，提出了自适应学习率的LoRA（ALLoRA）。ALLoRA通过引入自适应学习率机制，解决了这些问题，提高了模型的准确性和收敛速度，并简化了模型的超参数设置。

地址：https://arxiv.org/pdf/2410.09692

18. 基于知识蒸馏的温度敏感型推测解码研究

标题：Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation

机构：微软、伊利诺伊大学

关键词：知识蒸馏、推测解码、大型语言模型、解码温度

作者：Siru Ouyang, Shuohang Wang, Minhao Jiang

分析：本论文主要研究了推测解码方法在大型语言模型中的应用，以及解码温度对推测解码效果的影响。通过知识蒸馏技术，探讨了高解码温度下的问题，并提出了解决方法。同时，还研究了使用不同温度的测试集对解码效果的影响，为提高推测解码的效率提供了新的思路。

地址：https://arxiv.org/pdf/2410.10141

代码：https://github.com/ozyyshr/TempSpec

19. 自我数据蒸馏恢复修剪大模型质量

标题：Self-Data Distillation for Recovering Quality in Pruned Large Language Models

关键词：自我数据蒸馏、大型语言模型质量恢复、结构修剪、监督式微调

作者：Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai

分析：这篇论文提出了自我数据蒸馏技术，用于在修剪大型语言模型后恢复丢失的质量。它针对了结构修剪后质量降低和监督式微调可能导致灾难性遗忘的问题。通过生成一个由原始未修剪模型生成的简化数据集，自我数据蒸馏能够保持语义 richness 并减少模型与基础模型知识之间的差异，从而在 Llama3.1-8B Instruct 模型上进行了实证研究，恢复质量的结果比单纯微调提高了约 8%。

地址：https://arxiv.org/pdf/2410.09982

20. 基于基础模型的自然语言指令驱动的无人驾驶理解

标题：Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models

关键词：基础模型、自然语言指令、无人驾驶

作者：Chanhoe Ryu, Hyunki Seong, Daegyu Lee

分析：这篇论文介绍了一种创新的应用基础模型的方法，使得配备RGB-D摄像头的无人地面车辆能够根据人类的语言指示导航到指定目的地。与学习型方法不同，这种方法不需要预先训练，而是利用现有的基础模型，从而使其能够在新的环境中进行泛化。在接收到人类语言指令后，这些指令会被转换为“认知路线描述”，使用大型语言模型(LLM)进行详细描述，即以人类语言表达的详细导航路线。然后，车辆将该描述分解为地标和导航动作。此外，通过在公开数据集上训练的地形分割模型GANav,车辆还确定了不同区域的海拔成本和可导航性等级，并估计了语义海拔成本。这些成本提供给路径积分规划器MPPI,负责局部路径规划。与此同时，车辆使用基础模型(包括YOLO-World和EfficientViT-SAM)搜索目标地标。最终，车辆执行导航命令以到达指定的最终地标。该论文的实验表明，这种应用在未知地形或城市环境中成功地引导无人地面车辆按照人类的语言指令导航到目的地。

地址：https://arxiv.org/pdf/2410.10577

21. Predicting from Strings：基于预训练语言模型的贝叶斯优化嵌入

标题：Predicting from Strings: Language Model Embeddings for Bayesian Optimization

机构：加州大学、Google、Google DeepMind

关键词：预训练语言模型、贝叶斯优化、字符串嵌入、回归模型

作者：Tung Nguyen, Qiuyi Zhang, Bangding Yang

分析：这篇论文提出了一种名为“嵌入然后回归”的方法，利用预训练语言模型对字符串输入进行嵌入，并将其应用于贝叶斯优化中，从而提升了搜索空间中回归模型的适用性。这种方法可以用于处理包括合成、组合和超参数优化在内的多种领域，且取得了与基于高斯过程的最先进算法相当的结果。

地址：https://arxiv.org/pdf/2410.10190

22. 视频生成的自适应控制

标题：VideoAgent: Self-Improving Video Generation

机构：纽约大学、滑铁卢大学、斯坦福大学

关键词：视频生成、自适应控制、预训练语言模型、机器人控制

作者：Achint Soni, Sreyas Venkataraman, Abhranil Chandra

分析：这篇论文提出了一种新的视频生成方法，通过利用预训练的语言模型对生成的视频进行反馈和优化。这种方法可以有效地改善生成视频的质量和实用性，从而提高机器人控制任务的成功率。

地址：https://arxiv.org/pdf/2410.10076

23. 双向 Transformer: 通过学习随机化的推理轨迹来实现可控的快速与缓慢思考

标题：Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces

机构：FAIR

关键词：双系统思考、随机推理、模型结构改进、推理效率

作者：DiJia Su, Sainbayar Sukhbaatar, Michael Rabbat

分析：该论文提出了一种集成快速和缓慢思考模块的 Transformer 模型，称为 Dualformer。通过在训练过程中随机丢弃推理轨迹的不同部分，Dualformer 能够模拟人类的思考模式，并在推理过程中提供快速的解决方案或详细的思考过程。Dualformer 在任务导航和数学问题解决等应用中表现出了优于传统模型的性能和效率。

地址：https://arxiv.org/pdf/2410.09918

24. 从视频中生成实体中心化信息搜索问题

标题：ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos

机构：微软

关键词：实体中心化信息搜索、视频问题生成、数据集构建、模型结构改进

作者：Arpan Phukan, Manish Gupta, Asif Ekbal

分析：这篇论文关注于从视频中生成实体中心化的信息搜索问题。它主要解决了现有视频问题生成研究非实体中心化的问题，通过构建新的模型架构和大型数据集，提高了生成实体中心化信息搜索问题的能力。此外，该研究在视频学习、推荐系统、聊天机器人和事实核查等领域具有广泛的应用前景。

地址：https://arxiv.org/pdf/2410.09776

代码：https://github.com/thePhukan/ECIS-VQG

25. MMCOMPOSITION：预训练视觉语言模型的组合性研究回顾

标题：MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

机构：微软、Apple、罗切斯特大学

关键词：视觉语言模型、组合性能力、MMCOMPOSITION基准测试、模型评估

作者：Hang Hua, Yunlong Tang, Ziyun Zeng

分析：这篇论文关注预训练视觉语言模型的组合性能力，发现现有模型在这一方面存在局限。论文提出MMCOMPOSITION基准测试来全面准确地评估模型的组合性能力，分析主流模型的组合性，并揭示其设计训练和在精细颗粒度组合感知和推理方面的局限性。

地址：https://arxiv.org/pdf/2410.09733

代码：https://hanghuacs.github.io/MMComposition/

26. MTL-LoRA：低秩自适应多任务学习

标题：MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning

机构：微软、北京大学、南京大学

关键词：MTL-LoRA、低秩自适应、多任务学习、任务分离

作者：Yaming Yang, Dilixat Muhtar, Yelong Shen

分析：该论文提出了一种名为MTL-LoRA的低秩自适应多任务学习方法，用于解决多任务学习中任务间干扰的问题。通过在低维空间中区分任务特定的信息，MTL-LoRA增强了多任务学习的能力，使大语言模型能够以有限的训练参数适应不同目标任务领域。

地址：https://arxiv.org/pdf/2410.09437

27. TemporalBench：多模态视频模型精细时间理解评测

标题：TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

机构：东北大学、香港大学、微软研究院

关键词：时间基准、多模态视频模型、精细时间理解、评测方法

作者：Mu Cai, Reuben Tan, Jianrui Zhang

分析：这篇论文主要讨论了多模态视频中精细时间理解的重要性，介绍了一种新的评测方法——时间基准（TemporalBench），它包含10K个视频问题回答对，来源于2K个高质量的人体标注，用以评估模型在时间理解方面的能力，如动作频率、运动大小、事件顺序等。该评测不仅能衡量视频问题和回答的准确性，还能考察模型在不同的任务和模型上的表现。结果表明，像 GPT-4o 这样的先进模型在问答准确性上只有38.5%，显示了人类和 AI 在时间理解方面存在显著差距。此外，还提出了一种改进的多选问题问答的评分方法——Multiple Binary Accuracy（MBA），以纠正 LLMs 可能存在的偏差。论文作者希望该基准能促进对改进模型时间推理能力的研究。数据集和评估代码将来会对外公开。

地址：https://arxiv.org/pdf/2410.10818

28. 基于知识库增强的大模型研究

标题：KBLaM: Knowledge Base augmented Language Model

机构：微软、微软研究院

关键词：知识增强、大型语言模型、知识库、矩形注意力

作者：Xi Wang, Liana Mikaelyan, Taketomo Isazawa

分析：本文提出了一种基于知识库增强的大型语言模型(KBLaM)，该方法可以将外部知识融入大型语言模型中，通过使用来自文档集的知识库，将知识库中的每个知识点转换为连续的关键值向量对，并通过预训练的句子编码器和线性适配器实现这一过程，同时利用特殊的矩形注意力机制将这些知识整合到预先训练的大型语言模型中。这种方法能够在不使用外部检索模块的情况下集成大量的外部知识，并且其计算开销随着知识库大小的增长而线性增长，而非平方增长。这种方法甚至能够在单个配备80GB GPU的A100上成功整合包含超过10K三元组的知识库，而不需要对模型进行重新训练。实验结果表明，KBLaM在问答和开放式推理等任务中表现出色，并提供了关于这些知识增广知识使用的可解释见解。

地址：https://arxiv.org/pdf/2410.10450

29. 基于适配器的语言模型词汇调整：哪些语言能获得最大的收益？

标题：Adapters for Altering LLM Vocabularies: What Languages Benefit the Most?

机构：微软、马里兰大学、约翰霍普金斯大学

关键词：语言模型、词汇调整、适配器、多语言任务

作者：HyoJung Han, Akiko Eriguchi, Haoran Xu

分析：本文提出了一种名为VocADT的方法，使用适配器模块对语言模型的词汇进行调整，无需外部资源或不限定于特定语言。经过在11种不同语言上的测试，VocADT显示出优于原始Mistral模型的性能，对于拉丁语系语言和高度碎片化的语言尤为有效。此外，即使在进行了精细调优后的机器翻译任务中也证实了词汇调整的益处，且VocADT在此任务中表现最优。

地址：https://arxiv.org/pdf/2410.09644

30. 群体智力量化决策

标题：Crowd IQ -- Aggregating Opinions to Boost Performance

机构：微软、剑桥大学、微软研究院

关键词：群体决策质量量化、智商群体决策、Shapley值贡献、协作博弈论

作者：Michal Kosinski, Yoram Bachrach, Thore Graepel

分析：本文研究了基于群体成员对标准智商测试问卷的回应进行集合意见达成决策的质量，使用简单多数表决和大样本建模的贝叶斯图机学习方法计算群体智力量化决策的质量。本文提出的群体智力量化得分，可以用来量化群体成员和群体决策的实际表现，从而衡量决策的质量。研究显示，群体智力量化得分随着群体规模的增加而快速增加，随后达到最大值。同时，即使群体的智力和最高智商成员相比，在小群体中，群体智力量化得分也显著高于最智能的成员的智商。本文还探讨了根据协作博弈论的Shapley值衡量个体参与者对群体智力量化得分贡献的方法-Contextual IQ。

地址：https://arxiv.org/pdf/2410.10004

31. Q-Former的高效视觉语言对齐研究

标题：Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks

机构：首尔国立大学、UC伯克利分校

关键词：Q-Former模型、视觉语言对齐、参数有效微调、自注意力层

地址：https://arxiv.org/pdf/2410.09489

代码：https://github.com/AttentionX/InstructBLIP_PEFT

32. GlobalMamba：全局图像序列化用于视觉模型

标题：GlobalMamba: Global Image Serialization for Vision Mamba

机构：清华大学、UC伯克利分校

关键词：Global Image Serialization、离散余弦变换、视觉模型、全局信息

地址：https://arxiv.org/pdf/2410.10316

33. 机器人扩散Transform的要素

标题：The Ingredients for Robotic Diffusion Transformers

机构：卡内基梅隆大学、UC伯克利分校

关键词：机器人、扩散模型、Transformer架构、设计决策

地址：https://arxiv.org/pdf/2410.10088

34. 递归ReLU神经网络或许就是你所需的实用可编程计算机

标题：Looped ReLU MLPs May Be All You Need as Practical Programmable Computers

机构：香港大学、清华大学、威斯康星大学

关键词：ReLU神经网络、可编程计算机、基础所需操作、23层神经网络

地址：https://arxiv.org/pdf/2410.09375

35. UniMatch V2: 推动半监督语义分割的极限

标题：UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation

机构：上海AI实验室

关键词：UniMatch V2、半监督语义分割、ViT编码器、大规模预训练

地址：https://arxiv.org/pdf/2410.10777

代码：https://github.com/LiheYoung/UniMatch-V2

36. DuoAttention：高效长语境LLM推理与检索和流式处理头的应用

标题：DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

机构：英伟达、清华大学、麻省理工学院

关键词：DuoAttention、长语境LLM、模型结构改进、KV缓存

地址：https://arxiv.org/pdf/2410.10819

代码：https://github.com/mit-han-lab/duo-attention

37. 种子语言模型: 将LLM权重压缩进伪随机生成器的种子

标题：SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

机构：Apple

关键词：伪随机、LFSR

地址：https://arxiv.org/pdf/2410.10714

38. DR-MPC：基于深度残差模型预测控制的真实世界社交导航技术

标题：DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation

机构：Apple

关键词：深度残差模型预测控制、社交导航、机器人、深度强化学习

地址：https://arxiv.org/pdf/2410.10646

39. MAIR：用于评估指令检索的大规模基准测试

标题：MAIR: A Massive Benchmark for Evaluating Instructed Retrieval

机构：百度、山东大学、卡内基梅隆大学

关键词：MAIR、大规模基准测试、指令检索、模型评估

地址：https://arxiv.org/pdf/2410.10127

代码：https://github.com/sunnweiwei/Mair

40. HART：混合自回归Transform的高效视觉生成

标题：HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

机构：英伟达、清华大学、麻省理工学院

关键词：混合自回归变压器、图像生成、离散和连续建模、高效视觉生成

地址：https://arxiv.org/pdf/2410.10812

代码：https://github.com/mit-han-lab/hart

41. FlatQuant: 平坦性对于LLM量化至关重要

标题：FlatQuant: Flatness Matters for LLM Quantization

机构：清华大学、香港中文大学、诺亚方舟实验室

关键词：大型语言模型、量化压缩、平坦性、学习型变换

地址：https://arxiv.org/pdf/2410.09426

代码：https://github.com/ruikangliu/FlatQuant

42. 深度压缩自编码器：高效高分辨率扩散模型

标题：Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

机构：英伟达、清华大学、麻省理工学院

关键词：深度压缩自编码器，高空间压缩比，残差自编码，去耦合高分辨率适配

地址：https://arxiv.org/pdf/2410.10733

代码：https://github.com/mit-han-lab/efficientvit

43. Effi-Code：释放语言模型代码生成效率

标题：Effi-Code: Unleashing Code Efficiency in Language Models

机构：香港大学、剑桥大学、北京邮电大学

关键词：Effi-Code、语言模型、代码生成、效率优化

地址：https://arxiv.org/pdf/2410.10209

代码：https://github.com/huangd1999/Effi-Code

44. 基于检索的模型集成方法取代微调：零样本学习的新视角

标题：Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning

机构：香港大学、麻省总医院、佐治亚大学

关键词：Retrieval-based Parameter Ensemble（RPE），零样本学习，模型适应，隐私保护，医疗领域

地址：https://arxiv.org/pdf/2410.09908

45. 高效高分辨率图像合成与线性扩散Transform

标题：SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

机构：英伟达、清华大学、麻省理工学院

关键词：高分辨率、图像合成、线性扩散、变压器

地址：https://arxiv.org/pdf/2410.10629

46. RLHF提升归纳推理中的步进信号

标题：Boosting Deductive Reasoning with Step Signals In RLHF

机构：清华大学

关键词：逻辑推理、归纳推理、多步推理、RLHF

地址：https://arxiv.org/pdf/2410.09528

47. Moirai-MoE：赋能时间序列基础模型与稀疏混合专家模型的结合

标题：Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts

机构：香港科技大学、新加坡国立大学、Salesforce AI

关键词：时间序列基础模型、稀疏混合专家模型（MoE）、模型结构改进、自动令牌级别专业化

地址：https://arxiv.org/pdf/2410.10469

48. LG-CAV：以语言指导训练任意概念激活向量

标题：LG-CAV: Train Any Concept Activation Vector with Language Guidance

机构：浙江大学、阿里巴巴集团

关键词：LG-CAV、概念激活向量、视觉语言模型、模型校正

地址：https://arxiv.org/pdf/2410.10308

代码：https://github.com/hqhQAQ/LG-CAV

49. 大模型的低秩线性化研究

标题：LoLCATs: On Low-Rank Linearizing of Large Language Models

机构：斯坦福大学、加州理工学院、麻省理工学院

关键词：LoLCATs方法、大型语言模型、线性化、注意力转移

地址：https://arxiv.org/pdf/2410.10254

50. SkillAggregation：无需参考的依赖型LLM聚合

标题：SkillAggregation: Reference-free LLM-Dependent Aggregation

机构：剑桥大学、斯坦福大学

关键词：技能融合、LLM聚合、无参照数据、模型预测评价

地址：https://arxiv.org/pdf/2410.10215

51. FormalAlign：自动对齐评估用于自动形式化

标题：FormalAlign: Automated Alignment Evaluation for Autoformalization

机构：香港大学、剑桥大学、香港城市大学

关键词：FormalAlign、自动形式化、对齐评估、双重损失函数

地址：https://arxiv.org/pdf/2410.10135

代码：https://github.com/rookie-joe/FormalAlign

52. LongHalQA: 长文本幻想评估对于多模态大模型

标题：LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

机构：浙江大学、南洋理工大学、上海AI实验室

关键词：大型语言模型、幻想现象、多模态、评估基准

地址：https://arxiv.org/pdf/2410.09962

代码：https://github.com/hanqiu-hq/LongHalQA

53. 面向高效迭代优化的语境感知型语言模型研究

标题：COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement

机构：南洋理工大学、亚利桑那大学、新加坡国立大学

关键词：语境感知型语言模型，迭代优化，大型语言模型，令牌依赖关系，并行处理，推理任务

地址：https://arxiv.org/pdf/2410.09675

代码：https://github.com/YuxiXie/COrAL

54. VLFeedback：用于大规模视觉语言模型对齐的AI反馈数据集

标题：VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment

机构：香港大学、北京大学、香港中文大学

关键词：VLFeedback、大规模视觉语言模型、AI反馈数据集、模型对齐

地址：https://arxiv.org/pdf/2410.09421

代码：https://vlf-silkie.github.io

55. 自适应奖励边界是偏好优化所需的方向

标题：\alpha-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs

机构：阿里巴巴集团、中国科学技术大学

关键词：自适应奖励边界、偏好优化、大型语言模型、人类价值观和意图对齐

地址：https://arxiv.org/pdf/2410.10148

代码：https://github.com/junkangwu/alpha-DPO

56. UCI机器学习存储库数据集加载Python包的改进版本——lucie

标题：\textit{lucie}: An Improved Python Package for Loading Datasets from the UCI Machine Learning Repository

机构：哈佛医学院、卡内基梅隆大学

关键词：UCI机器学习存储库、数据集导入、Python包、数据格式自动确定

地址：https://arxiv.org/pdf/2410.09119

57. 句末MLP重新加权调整指令微调大模型越狱指令

标题：Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting

机构：北京大学、西湖大学

关键词：指令微调的大型语言模型、安全机制、MLP神经元重新权重、越狱方法

地址：https://arxiv.org/pdf/2410.10150

58. MMAR：迈向无损多模态自回归概率建模

标题：MMAR: Towards Lossless Multi-Modal Auto-Regressive Prababilistic Modeling

机构：腾讯、中国科学技术大学

关键词：多模态自回归、概率建模、图像信息丢失、扩散去噪

地址：https://arxiv.org/pdf/2410.10798

59. MuseTalk: 实时高质量唇同步技术通过潜在空间补全

标题：MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting

机构：腾讯、香港中文大学

关键词：唇同步技术、实时应用、潜在空间补全、模型结构改进

地址：https://arxiv.org/pdf/2410.10122

60. ACER: 自动语言模型上下文扩展通过检索

标题：ACER: Automatic Language Model Context Extension via Retrieval

机构：伊利诺伊大学、卡内基梅隆大学

关键词：长文本建模、数据生成、模型微调、自动扩展上下文

地址：https://arxiv.org/pdf/2410.09141

61. 基于生成方法的场景动态压缩技术研究

标题：Compressing Scene Dynamics: A Generative Approach

机构：香港城市大学、阿里巴巴集团达摩院

关键词：场景动态压缩、生成式方法、运动先验、模型结构改进

地址：https://arxiv.org/pdf/2410.09768

代码：https://github.com/xyzysz/GNVDC

62. 更精确的minimization有效地选择较平坦的极小值晚期训练

标题：Sharpness-Aware Minimization Efficiently Selects Flatter Minima Late in Training

机构：北京大学、清华大学、上海交通大学

地址：https://arxiv.org/pdf/2410.10373

63. 自动数据标注和精炼增强大模型的上下文学习能力

标题：Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement

机构：IBM研究院

关键词：自动数据标注、数据精炼、大型语言模型、上下文学习

地址：https://arxiv.org/pdf/2410.10348

64. AFlow：自动化代理工作流程生成

标题：AFlow: Automating Agentic Workflow Generation

机构：南京大学、复旦大学、香港科技大学

关键词：大型语言模型、自动化工作流程生成、蒙特卡洛树搜索、工作流程优化

地址：https://arxiv.org/pdf/2410.10762

代码：https://github.com/geekan/MetaGPT

65. Animate-X：基于增强运动表示的通用角色图像动画

标题：Animate-X: Universal Character Image Animation with Enhanced Motion Representation

机构：阿里巴巴集团

关键词：Animate-X、通用角色动画、运动表示、姿势指示器

地址：https://arxiv.org/pdf/2410.10306

66. 大LITTLE Vision Transformer用于高效的视觉识别

标题：big.LITTLE Vision Transformer for Efficient Visual Recognition

机构：清华大学、华中科技大学、上海AI实验室

关键词：大LITTLE Vision Transformer、高效视觉识别、动态推理机制、模型结构改进

地址：https://arxiv.org/pdf/2410.10267

67. LOBG：减少视觉语言模型的过拟合以更好地泛化

标题：LOBG:Less Overfitting for Better Generalization in Vision-Language Model

机构：西安交通大学、南洋理工大学

关键词：LOBG框架、视觉语言模型、过拟合问题、STP损失

地址：https://arxiv.org/pdf/2410.10247

68. The Same But Different：多语言语言建模中的结构相似性与差异性

标题：The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

机构：斯坦福大学

关键词：大型语言模型、机制可解释性、语言结构、内部组件

地址：https://arxiv.org/pdf/2410.09223

69. Beyond Graphs：大模型能否理解超图？

标题：Beyond Graphs: Can Large Language Models Comprehend Hypergraphs?

机构：清华大学、西安交通大学

关键词：大语言模型、超图理解、模型评估、任务多样性

地址：https://arxiv.org/pdf/2410.10083

70. RMB: 综合评估大规模语言模型对齐的奖励模型

标题：RMB: Comprehensively Benchmarking Reward Models in LLM Alignment

机构：复旦大学

地址：https://arxiv.org/pdf/2410.09893

代码：https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark

71. REDO：无执行运行时错误检测编码代理

标题：REDO: Execution-Free Runtime Error Detection for COding Agents

机构：宾夕法尼亚大学、AWS AI Labs

关键词：LLM-based agents、runtime error detection、static analysis tools、coding agents

地址：https://arxiv.org/pdf/2410.09117

72. Scito2M：一个面向临时科学计量分析的两百万条记录跨学科的三十年数据集

标题：Scito2M: A 2 Million, 30-Year Cross-disciplinary Dataset for Temporal Scientometric Analysis

机构：乔治亚理工学院、UC洛杉矶分校

关键词：科学计量学、Scito2M数据集、跨学科分析、时间序列研究

地址：https://arxiv.org/pdf/2410.09510

73. BrainMVP：基于多模态MRI的脑图像分析多模态视觉预训练

标题：BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI

机构：上海交通大学、上海AI实验室

关键词：多模态预训练、BrainMVP、MRI脑图像、模态融合

地址：https://arxiv.org/pdf/2410.10604

74. 混合语言家族专家高效地将医疗大模型民主化，以适应50种语言

标题：Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

机构：香港中文大学

关键词：医疗大语言模型、混合专家（MoE）、多语言LLM、语言家族专家

地址：https://arxiv.org/pdf/2410.10626

75. 如何利用演示数据对齐大模型？自我模仿学习的视角

标题：How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective

机构：清华大学、腾讯AI实验室、中国科学院大学

关键词：自我模仿学习、演示数据对齐、大型语言模型

地址：https://arxiv.org/pdf/2410.10093

76. 增强语言模型的多步推理能力通过直接Q函数优化

标题：Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization

机构：加州大学、UC洛杉矶分校

关键词：直接Q函数优化、马尔可夫决策过程、软actor-critic、强化学习对齐

地址：https://arxiv.org/pdf/2410.09302

77. DOME: 将扩散模型驯化为高保真可控占用领域世界模型

标题：DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model

机构：香港大学、香港科技大学、中国科学院大学

关键词：DOME、扩散模型、高保真、可控预测

地址：https://arxiv.org/pdf/2410.10429

78. 锁定定制大模型（LLM）的安全性

标题：Locking Down the Finetuned LLMs Safety

机构：浙江大学、西湖大学、北京航空航天大学

地址：https://arxiv.org/pdf/2410.10343

代码：https://github.com/zhu-minjun/SafetyLock

79. Text-to-Image Synthesis中的语义变化评估

标题：Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective

机构：复旦大学、浙江大学、香港科技大学

关键词：语义变化、文本到图像合成、评估指标、跨模态对齐

地址：https://arxiv.org/pdf/2410.10291

80. 反馈神经网络

标题：Feedback Favors the Generalization of Neural ODEs

机构：南洋理工大学、北京航空航天大学

关键词：反馈神经网络、神经ODEs、反馈机制

地址：https://arxiv.org/pdf/2410.10253

81. 先创建背景再绘制文本：文字融合的全新范式

标题：First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending

机构：中国科学院大学

关键词：视觉文本合成、背景生成、文本融合、Stable Diffusion

地址：https://arxiv.org/pdf/2410.10168

代码：https://github.com/Zhenhang-Li/GlyphOnly

82. 重构视觉指令调优

标题：Reconstructive Visual Instruction Tuning

机构：香港大学、旷视科技、中国科学院大学

关键词：重构视觉指令调优、大型多模态模型、视觉输出指导、内在激活设计

地址：https://arxiv.org/pdf/2410.09575

83. 视频问答(VideoQA)中的问题

标题：Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

机构：杭州师范大学、中国科学院大学、中国科学院计算技术研究所

关键词：视频问答、实体-动作启发式、预训练、领域特定

地址：https://arxiv.org/pdf/2410.09380

84. TextCtrl:基于先验指导的扩散文本编辑

标题：TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control

机构：中国科学院大学

地址：https://arxiv.org/pdf/2410.10133

85. 基于对比学习的艺术家风格迁移：连接文本与图像

标题：Bridging Text and Image for Artist Style Transfer via Contrastive Learning

机构：香港理工大学

关键词：风格迁移、对比学习、文本-图像、艺术家风格

地址：https://arxiv.org/pdf/2410.09566

86. 语言模型中注意力下沉现象的实证研究

标题：When Attention Sink Emerges in Language Models: An Empirical View

机构：新加坡国立大学

关键词：语言模型、注意力下沉、模型预训练、优化方法

地址：https://arxiv.org/pdf/2410.10781

代码：https://github.com/sail-sg/Attention-Sink

87. ControlMM：可控制的遮罩运动生成

标题：ControlMM: Controllable Masked Motion Generation

机构：中佛罗里达大学、苏黎世联邦理工学院

关键词：控制MM、遮罩运动生成、空间控制信号、实时运动控制

地址：https://arxiv.org/pdf/2410.10780

代码：https://exitudio.github.io/ControlMM-page

88. 基于集合自回归建模的图像生成技术自定义

标题：Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling

机构：南京大学、上海AI实验室

关键词：自回归建模、集合自回归建模、图像生成、序列分割

地址：https://arxiv.org/pdf/2410.10511

89. 基于MoE架构的Ada-K路由策略：提升大模型的效率

标题：Ada-K Routing: Boosting the Efficiency of MoE-based LLMs

机构：中国科学院大学

关键词：Ada-K路由策略、MoE架构、大型语言模型、计算效率

地址：https://arxiv.org/pdf/2410.10456

90. 线性劫掠模型中的矩阵草图：当前陷阱与新的框架

标题：Matrix Sketching in Bandits: Current Pitfalls and New Framework

机构：中国人民大学

关键词：矩阵草图技术、线性劫掠模型、光谱损失、模型结构改进

地址：https://arxiv.org/pdf/2410.10258

91. 同时计算和内存高效的零阶优化器，用于微调大模型

标题：Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models

机构：中山大学、华南理工大学

关键词：零阶优化器，大型语言模型，微调，内存优化，计算效率

地址：https://arxiv.org/pdf/2410.09823

92. Mastering AI：大数据，深度学习，以及大模型的进化 -- AutoML从基本到状态art-of-the-art技术

标题：Mastering AI: Big Data, Deep Learning, and the Evolution of Large Language Models -- AutoML from Basics to State-of-the-Art Techniques

机构：普渡大学、罗格斯大学、威斯康星大学

关键词：AutoML、自动化机器学习、大型语言模型、大数据

地址：https://arxiv.org/pdf/2410.09596

93. 赋予视觉语言模型视觉定位能力而不遗忘

标题：Learning to Ground VLMs without Forgetting

机构：阿姆斯特丹大学

关键词：视觉语言模型、视觉定位、预训练模型、Dual Mixture of Experts模块

地址：https://arxiv.org/pdf/2410.10491

94. MoTE: 可视语言到视频知识迁移的泛化与专业化兼顾框架

标题：MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer

关键词：知识迁移、多模态学习、视频识别、泛化性

地址：https://arxiv.org/pdf/2410.10589

代码：https://github.com/ZMHH-H/MoTE

95. 基于Transformer的语言模型用于描述logic ALCQ的推理

标题：Transformer-based Language Models for Reasoning in the Description Logic ALCQ

机构：波士顿大学

关键词：Transformer、语言模型、逻辑推理、描述logic ALCQ

地址：https://arxiv.org/pdf/2410.09613

96. 无需训练的视频大模型：基于提示的视觉感知框架

标题：Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs

机构：诺亚方舟实验室

关键词：大型语言模型、视频理解、模型蒸馏、任务导向的提示

地址：https://arxiv.org/pdf/2410.10441

代码：https://github.com/contrastive/FreeVideoLLM

97. DeepOSets: 在上下文中的高效非自回归运算符学习

标题：DeepOSets: Non-Autoregressive In-Context Learning of Supervised Learning Operators

机构：德克萨斯大学、德克萨斯农工大学

关键词：DeepOSets、非自回归、上下文学习、监督学习算法

地址：https://arxiv.org/pdf/2410.09298

98. TapWeight：基于任务自适应预训练的目标重权预训练

标题：TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining

关键词：任务自适应预训练、目标重权、预训练目标、下游反馈

地址：https://arxiv.org/pdf/2410.10006

99. MoIN: 混合型内向专家复用大模型

标题：MoIN: Mixture of Introvert Experts to Upcycle an LLM

关键词：混合型内向专家、大型语言模型、预训练、轻量级适配器

地址：https://arxiv.org/pdf/2410.09687

100. SensorLLM：利用运动传感器对齐大模型进行人类活动识别

标题：SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

机构：新南威尔士大学

关键词：SensorLLM，大型语言模型，运动传感器，人类活动识别，数据对齐，模型结构改进

地址：https://arxiv.org/pdf/2410.10624

101. AlphaLoRA: 根据层训练质量分配LoRA专家

标题：AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality

机构：西北大学、达特茅斯学院

关键词：Large Language Models、Low-Rank Adaptation、Mixture-of-Experts、Heavy-Tailed Self-Regularization

地址：https://arxiv.org/pdf/2410.10054

代码：https://github.com/morelife2017/alphalora

102. OpenR：用于大模型高级推理的开源框架介绍

标题：OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models

关键词：大语言模型、推理能力、强化学习训练、非自回归解码

地址：https://arxiv.org/pdf/2410.09671

代码：https://openreasoner.github.io

103. 语言模型推理时间对齐的微调策略：基于模型协作的引导方法

标题：Nudging: Inference-time Alignment via Model Collaboration

关键词：大型语言模型、模型对齐、微调引导法、风格词汇

地址：https://arxiv.org/pdf/2410.09300

代码：https://fywalter.github.io/nudging/

104. Honest AI：调整“小型”语言模型以说出“我不知道”，并减少RAG中的幻想

标题：Honest AI: Fine-Tuning "Small" Language Models to Say "I Don't Know", and Reducing Hallucination in RAG

机构：康奈尔大学

关键词：诚信人工智能、小型语言模型、大型语言模型、RAG

地址：https://arxiv.org/pdf/2410.09699

105. 跳过多模态LLM中的计算

标题：Skipping Computations in Multimodal LLMs

关键词：多模态LLM、计算冗余、跳过计算、性能保持

地址：https://arxiv.org/pdf/2410.09454

代码：https://github.com/mshukor/ima-lmms

106. SLAM-AAC：增强音频描述生成的能力，借助大模型实现句式增广和精细优化

标题：SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

机构：上海交通大学

关键词：SLAM-AAC、自动音频描述生成、大型语言模型、句式增广

地址：https://arxiv.org/pdf/2410.09503

107. 大模型中的逆向建模

标题：Reverse Modeling in Large Language Models

关键词：逆向建模、大型语言模型、预训练、损失差异

地址：https://arxiv.org/pdf/2410.09817

108. Mixture of Experts Made Personalized：为视觉语言模型联合提示学习

标题：Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

机构：匹兹堡大学、中佛罗里达大学

关键词：联邦学习、提示学习、个性化、混合专家

地址：https://arxiv.org/pdf/2410.10114

109. DINTR：基于扩散的插值

标题：DINTR: Tracking via Diffusion-based Interpolation

机构：俄亥俄州立大学

地址：https://arxiv.org/pdf/2410.10053

110. 大模型检索增强生成中的通用指令跟随对齐研究

标题：Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

关键词：检索增强生成、指令跟随对齐、VIF-RAG、FollowRAG

地址：https://arxiv.org/pdf/2410.09584

代码：https://FollowRAG.github.io

111. PCF-Lift：基于概率对比融合的全景提升

标题：PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion

关键词：PCF-Lift、概率对比融合、全景提升、3D全景分割

地址：https://arxiv.org/pdf/2410.10659

112. 当先例冲突时

标题：When Precedents Clash

机构：卢森堡大学

关键词：布尔分类器、层次结构、时间维度、先例冲突

地址：https://arxiv.org/pdf/2410.10567

113. Generalized Adversarial Code-Suggestions：利用基于大模型的代码补全的上下文

标题：Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion

机构：卡尔斯鲁厄理工学院

关键词：通用对抗性代码、触发模式、风险识别、防御机制

地址：https://arxiv.org/pdf/2410.10526

114. 我们可以预测大型模型在视觉语言任务中的性能吗？

标题：Can We Predict Performance of Large Models across Vision-Language Tasks?

机构：澳大利亚国立大学

关键词：大型视觉语言模型、性能预测、矩阵补全、概率矩阵分解

地址：https://arxiv.org/pdf/2410.10112

115. SLiM：大模型的单次量化稀疏加低秩近似

标题：SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs

关键词：大语言模型压缩、量化稀疏、低秩近似、模型准确性

地址：https://arxiv.org/pdf/2410.09615

116. 超越RAG:实时对话中的问题识别和答案生成

标题：Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations

机构：亚利桑那州立大学

关键词：实时对话、问题识别、答案生成、客户服务、大型语言模型

地址：https://arxiv.org/pdf/2410.10136

117. 深度任意视频全深度估计

标题：Depth Any Video with Scalable Synthetic Data

地址：https://arxiv.org/pdf/2410.10815

118. LongMemEval：评估聊天助手在长期交互记忆方面的基准

标题：LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

关键词：长内存、聊天助手、记忆能力、LLM

地址：https://arxiv.org/pdf/2410.10813

119. Use Random Selection for Now：在大模型文本增强分类中的小样选择策略调查

标题：Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification

机构：匹兹堡大学

关键词：大型语言模型、文本增强分类、小样选择策略、随机选择策略

地址：https://arxiv.org/pdf/2410.10756

120. MEGA-Bench：多模态评估扩展至500多个现实任务

标题：MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

关键词：多模态评估、真实任务、模型评估、数据收集

地址：https://arxiv.org/pdf/2410.10563

121. 多模态人类感知的模态不变基础模型X-Fi

标题：X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing

关键词：模态不变基础模型、多模态融合、人类感知、人体姿态估计

地址：https://arxiv.org/pdf/2410.10167

122. 多语言模型编排引擎用于个性化、上下文丰富的辅助

标题：A Multi-LLM Orchestration Engine for Personalized, Context-Rich Assistance

机构：乔治亚理工学院

关键词：大型语言模型、多语言模型编排引擎、个性化、上下文丰富辅助

地址：https://arxiv.org/pdf/2410.10039

123. TULIP：基于令牌长度增强的CLIP模型

标题：TULIP: Token-length Upgraded CLIP

关键词：TULIP、CLIP模型、长文本描述、相对位置编码

地址：https://arxiv.org/pdf/2410.10034

124. SeRA：利用隐式奖励边距实现大模型的自我审查与对齐

标题：SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins

关键词：SeRA、大型语言模型、隐式奖励边距、样本选择

地址：https://arxiv.org/pdf/2410.09362

125. 大模型中知识的激发、过滤和整合：用于常识推理

标题：LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning

关键词：大型语言模型、常识推理、知识激发、知识过滤

地址：https://arxiv.org/pdf/2410.09541

126. 代理式信息检索

标题：Agentic Information Retrieval

机构：上海交通大学

关键词：代理式信息检索、大型语言模型、新颖性、工业应用价值

地址：https://arxiv.org/pdf/2410.09713

127. Surgical-LLaVA：通过大型语言与视觉模型的研究

标题：Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models

关键词：Surgical-LLaVA、大型视语言模型、手术场景理解、多模态聊天能力

地址：https://arxiv.org/pdf/2410.09750

128. Beyond Exact Match：大模型在大事件提取中的语义重新评估

标题：Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models

地址：https://arxiv.org/pdf/2410.09418

129. Green Recommender Systems：优化数据集大小以实现能源效率算法性能

标题：Green Recommender Systems: Optimizing Dataset Size for Energy-Efficient Algorithm Performance

关键词：Green Recommender Systems、数据集优化、能源效率、推荐算法

地址：https://arxiv.org/pdf/2410.09359

130. Synthetic Knowledge Ingestion：针对增强大模型的知识精炼与注入

标题：Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models

关键词：合成知识摄入、大型语言模型、知识精炼、知识注入

地址：https://arxiv.org/pdf/2410.09629

131. 生理无梯度神经网络训练的前沿

标题：Gradient-Free Neural Network Training on the Edge

关键词：无梯度、神经网络、边缘计算、逻辑运算

地址：https://arxiv.org/pdf/2410.09734

132. SplitLLM：用于模型放置和吞吐量优化的大模型协同推理

标题：SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization

关键词：SplitLLM、协同推理、大型语言模型、计算资源分配

地址：https://arxiv.org/pdf/2410.10759

133. 基于LLM的大模型校准研究

标题：On Calibration of LLM-based Guard Models for Reliable Content Moderation

机构：罗格斯大学、新加坡国立大学

关键词：大型语言模型（LLM）、内容审核、可靠性

地址：https://arxiv.org/pdf/2410.10414

134. 隐式规划实现逻辑规范中的组合任务泛化

标题：Generalization of Compositional Tasks with Logical Specification via Implicit Planning

关键词：分层强化学习、组合任务泛化、逻辑规范、隐式规划、多任务

地址：https://arxiv.org/pdf/2410.09686

135. LLM生成进度函数实现自动化奖励

标题：Automated Rewards via LLM-Generated Progress Functions

关键词：LLM、奖励生成、任务进度、进度函数

地址：https://arxiv.org/pdf/2410.09187

136. Benchmark Inflation：利用Retro-Holdouts揭示大模型的性能差距

标题：Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts

关键词：大型语言模型、性能评估、数据集构建、性能差距

地址：https://arxiv.org/pdf/2410.09247

137. DARE the Extreme：重新审视Delta参数修剪对于微调模型的极端情况

标题：DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models

关键词：Delta参数修剪、模型优化、重要性修剪、随机缩放

地址：https://arxiv.org/pdf/2410.09344

138. 精细粒度注意力机制的I/O复杂度分析：针对反向传递的综合研究

标题：Fine-grained Attention I/O Complexity: Comprehensive Analysis for Backward Passes

关键词：注意力机制、I/O复杂度分析、大型语言模型、反向传递

地址：https://arxiv.org/pdf/2410.09397

139. 混合数据还是合并模型：如何优化多样化的多任务学习

标题：Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning

关键词：模型合并、多任务学习、安全任务、多语言模型

地址：https://arxiv.org/pdf/2410.10801

140. 数据稀缺下的归纳式顺应预测：探究非顺应性度量的影响

标题：Inductive Conformal Prediction under Data Scarcity: Exploring the Impacts of Nonconformity Measures

关键词：Conformal prediction、非顺应性度量、数据稀缺、模型评估

地址：https://arxiv.org/pdf/2410.09894

141. One Step at a Time：结合LLM和静态分析生成编程任务下一步提示

标题：One Step at a Time: Combining LLMs and Static Analysis to Generate Next-Step Hints for Programming Tasks

地址：https://arxiv.org/pdf/2410.09268

142. 人工智能自动评分作文：一种新的作文评分方法

标题：Hey AI Can You Grade My Essay?: Automatic Essay Grading

机构：印度理工学院

关键词：自动作文评分、协作学习、迁移学习、模型结构改进

地址：https://arxiv.org/pdf/2410.09319

143. VERITAS-NLI: 可信信息提取与自动化抓取和大语言推理

标题：VERITAS-NLI : Validation and Extraction of Reliable Information Through Automated Scraping and Natural Language Inference

关键词：网络抓取、自然语言推理、虚假新闻检测

地址：https://arxiv.org/pdf/2410.09455

144. MIRAGE：评估与解释语言模型中的归纳推理过程

标题：MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models

关键词：语言模型、归纳推理、数据集构建、评估方法

地址：https://arxiv.org/pdf/2410.09542

145. ReLU's Revival：无归一化大模型中的熵过载问题

标题：ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

关键词：ReLU、GELU、无归一化的大型语言模型、激活函数

地址：https://arxiv.org/pdf/2410.09637

146. 基于脑电图的AI脑机接口轮椅系统研究

标题：EEG-based AI-BCI Wheelchair Advancement: A Brain-Computer Interfacing Wheelchair System Using Machine Learning Mechanism with Right and Left Voluntary Hand Movement

关键词：脑机接口、脑电图、机器学习、手势控制

地址：https://arxiv.org/pdf/2410.09763

147. 代码混合文本生成与代码混合句子的黄金标准无偏评价

标题：Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences

地址：https://arxiv.org/pdf/2410.10580

148. Talk-Act: 增强2D说话人物仿真的纹理感知能力

标题：TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model

关键词：纹理感知、数据驱动模型、头部仿真、说话人物

地址：https://arxiv.org/pdf/2410.10696

代码：https://guanjz20.github.io/projects/TALK-Act

今天的论文分享完啦，欢迎👏🏻👏🏻明天再来~

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486462&idx=1&sn=7daf9cdda4b1b9a7ea24b5ad88185a88

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI