Qwen2.5系列模型论文发布：数学、代码、多模态全揭秘！长上下文扩展和大模型泛化的研究....

文摘 2024-09-19 20:22 广东

前言：如果你想成为一只科学界的“独角兽”，那么看论文是必不可少的。只有掌握了最新的技术和理论，才能在这个竞争激烈的市场中脱颖而出，成为那只最闪亮的“独角兽”！

1. Qwen2.5系列数学专家模型：自我提升的实现之路技术报告

标题：Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

机构：阿里巴巴集团

相关领域：模型结构改进、预训练、指令微调

作者：An Yang, Beichen Zhang, Binyuan Hui

分析：该论文介绍了一种新型数学大型语言模型——Qwen2.5系列数学专家模型。该模型的核心创新在于引入了自我提升的理念，在预训练、后训练和推理阶段都进行了优化。通过生成大规模高质量的数学数据，并利用奖励模型进行迭代优化，该模型在多种数学数据集上表现出强大的性能。

地址：https://arxiv.org/pdf/2409.12122

2. Qwen2-VL：提升任何分辨率下的视觉语言模型对世界感知能力的研究

标题：Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

机构：阿里巴巴集团

相关领域：模型结构改进、多模态

作者：Peng Wang, Shuai Bai, Sinan Tan

分析：论文介绍了Qwen2-VL系列模型，该模型是Qwen-VL模型的先进升级版本，重新定义了传统的视觉处理中的预设分辨率方法。通过引入Naive Dynamic Resolution机制，模型可以动态处理不同分辨率的图像并生成高效准确的视觉表示。此外，论文融合了多模态旋转位置嵌入技术（M-RoPE），促进了文本、图像和视频的位置信息的有效融合。论文还探索了大视觉语言模型（LVLMs）的扩展定律，并在不同版本和大量训练数据的基础上实现了高度竞争力的性能表现。

地址：https://arxiv.org/pdf/2409.12191

代码：https://github.com/QwenLM/Qwen2-VL

3. Qwen2.5-Coder技术报告

标题：Qwen2.5-Coder Technical Report

机构：阿里巴巴集团

相关领域：模型结构改进、预训练、模型评估

作者：Binyuan Hui, Jian Yang, Zeyu Cui

分析：本文介绍了Qwen2.5-Coder系列，这是对其前身CodeQwen1.5的重大升级。该系列包括两个模型：Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B。Qwen2.5-Coder作为一个代码特定模型，建立在Qwen2.5架构上，并在超过5.5万亿令牌的庞大语料库上进行预训练。通过严格的数据清理、可扩展的合成数据生成和平衡的数据混合，Qwen2.5-Coder在保留通用性的同时，展示了令人印象深刻的代码生成能力。该模型已在广泛的代码相关任务中进行评估，在超过10个基准测试中实现最佳性能，包括代码生成、完成、推理和修复等任务。作者认为Qwen2.5-Coder系列的发布将推动代码智能研究边界的扩展，并且由于其许可开放性，将鼓励开发者在真实世界应用中的更广泛采纳。

地址：https://arxiv.org/pdf/2409.12186

4. 长上下文扩展和大模型泛化的研究

标题：A Controlled Study on Long Context Extension and Generalization in LLMs

机构：康奈尔大学、麻省理工学院、上海AI实验室

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Yi Lu, Jing Nathan Yan, Songlin Yang

分析：这篇论文主要探讨了如何利用完整的文档上下文来实现对广泛文本的理解和上下文学习。由于直接训练长上下文模型的实现挑战，许多方法被提出用于扩展模型以处理长上下文。然而，由于数据和模型类别之间的差异，这些方法的比较一直具有挑战性，导致对于如何评估长上下文性能以及它是否与标准评估有所不同的不确定性。作者实施了一个受控的扩展方法协议，并使用标准化的评估方法进行扩展，该方法使用一致的基础模型和扩展数据。研究得出了一些关于长上下文行为的见解。首先，作者重申了困惑度作为通用性能指标的关键作用，即使在更长的上下文任务中也是如此。其次，作者发现当前的近似注意力方法在所有长上下文任务中系统性地表现不佳。最后，作者确认精确微调的方法在其扩展范围内通常有效，而外推仍然具有挑战性。所有的代码库、模型和检查点都将开放源代码，促进透明度并推动这一人工智能发展领域的重要研究。

地址：https://arxiv.org/pdf/2409.12181

5. LLMs+Persona-Plug=Personalized LLMs

标题：LLMs + Persona-Plug = Personalized LLMs

机构：百度、中国人民大学

相关领域：模型个性化

作者：Jiongnan Liu, Yutao Zhu, Shuting Wang

分析：本文提出了一种新的可扩展的个性化大型语言模型，通过轻量级的用户嵌入模块，对用户的历史上下文进行建模，使其能够理解和适应用户习惯与偏好，生成更个性化的输出。研究旨在解决大语言模型个性化时成本高昂和历史一致性问题。实验表明，该模型在LaMP基准任务上显著超越了现有方法。

地址：https://arxiv.org/pdf/2409.11901

6. 思考链有助于数学和符号推理任务的分析研究

标题：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

机构：德克萨斯大学、普林斯顿大学、约翰霍普金斯大学

相关领域：模型评估

作者：Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez

分析：该论文主要探讨了思考链（Chain-of-thought，简称CoT）在大型语言模型（LLM）中的应用。研究发现，在涉及数学或逻辑的任务中，CoT能显著提高性能，而在其他类型的任务中则表现较小。此外，论文还探讨了CoT在这些问题中的作用，并对未来研究方法提出了新的观点和方向。

地址：https://arxiv.org/pdf/2409.12183

7. 双层训练与同时思考和说话的大模型解码

标题：Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking

机构：北京航空航天大学

相关领域：模型结构改进、预训练

作者：Ningyuan Xi, Xiaoyu Wang, Yetao Wu

分析：这篇论文主要探讨了如何通过设计新的模型架构来增强大语言模型的思考能力，使其在生成人类表达的同时，也能进行深入的思考和推理。作者提出了一种名为TaS的模型架构，该架构首先考虑问题，然后基于所考虑的问题生成响应。为了实现这一目标，作者设计了几种用于注释或生成思维内容的管道，并在中间层添加了一个语言头，该语言头充当思考层。通过使用由思维增强的数据进行训练，作者成功地让思考层自动生成合理的思考内容，并最终输出更合理的响应。实验结果表明，TaS模型在质量和性能方面都表现出色。

地址：https://arxiv.org/pdf/2409.12059

代码：https://anonymous.4open.science/r/TadE

8. From Lists to Emojis：格式偏见如何影响模型对齐

标题：From Lists to Emojis: How Format Bias Affects Model Alignment

机构：马里兰大学、伊利诺伊大学

相关领域：模型对齐、奖励模型、RLHF

作者：Xuanchang Zhang, Wei Xiong, Lichang Chen

分析：这篇论文研究了在人类反馈强化学习（RLHF）中出现的格式偏见。该论文发现了对诸如列表、链接、粗体文本和颜文字等特定格式模式显著偏好的现象。此外，大型语言模型（LLMs）利用这些偏好达到在AlpacaEval和LMSYS Chatbot Arena等流行评估基准上的高分。其中一个显著的偏好是冗长偏置，即当前偏好模型倾向于格式更长的答复，即使它们的质量与更短的竞争答复相当。然而，除了长度偏置外，格式偏见的其他方面尚未得到充分的研究。在这项工作中，该论文扩大了偏好学习中偏见的研究范围，包括更广泛的其他格式偏见。该论文还展示了，即使使用少量偏置数据（少于1%），该论文也可以引入显著的偏见到奖励模型。此外，这些格式偏见也可以被下游对齐算法轻易地利用，如最佳子集抽样和在线迭代DPO，因为更容易操纵格式而不是提高回复质量。研究成果强调了分离格式和内容的重要性，无论是设计对齐算法还是评估模型。

地址：https://arxiv.org/pdf/2409.11704

9. MAgICoRe：多智能体迭代粗细粒度优化推理

标题：MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning

相关领域：模型评估、奖励模型、模型结构改进

作者：Justin Chih-Yao Chen, Archiki Prasad, Swarnadeep Saha

分析：论文提出了一种多智能体迭代粗细粒度优化推理方法，旨在改进大型语言模型的推理能力。针对现有测试时间聚合策略性能饱和的问题，论文引入了细化概念并使用模型生成反馈提高解决方案质量。通过引入三个关键挑战和多智能体循环解决策略，论文实现了有效的模型推理优化。

地址：https://arxiv.org/pdf/2409.12147

10. 改进大模型推理的多智能体树状思维验证代理

标题：Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent

机构：德克萨斯大学

相关领域：自然语言处理、人工智能、推理

作者：Fatemeh Haji, Mazal Bethany, Maryam Tabar

分析：多智能体策略已成为提高大型语言模型推理能力的有前途的方法，通过在解决问题的过程中分配专业的角色。同时，树状思维（ToT）方法在处理复杂问答任务时改善推理的潜力已经显示出来。多智能体推理的一个关键限制是'推理者'代理对推理路径的浅层探索。尽管ToT策略可以帮助减轻这个问题，但他们可能会生成有缺陷的推理分支，这可能会损害最终答案的可信度。为了利用多智能体推理和ToT策略的优势，该论文提出了一种新颖的方法，将基于ToT的推理者代理与思维验证代理相结合。多个推理者代理并行工作，利用ToT探索多种推理路径。思维验证者然后审查这些路径，只考虑推理者的结论，如果其推理是有效的。这种方法通过排除有缺陷的推理路径，增强了系统的强硬表决策略，使其能够处理需要系统性和可信推理的任务。该论文的方法在GSM8K数据集上的评估优于现有技术，将标准ToT策略平均提高5.6% across four LLMs.

地址：https://arxiv.org/pdf/2409.11527

11. LLM-wrapper：黑箱视觉语言模型的语义感知适应

标题：LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models

相关领域：视觉语言模型、 Referring Expression Comprehension、黑箱调整

作者：Amaia Cardiel, Eloi Zablocki, Oriane Siméoni

分析：本论文提出LLM-wrapper，一种无白盒权限下对视觉语言模型进行‘黑箱’调整的方法，以增强其Referring Expression Comprehension任务的能力。它通过利用大型语言模型进行深入输出解析来提升模型对语义和空间的理解。这项工作对现有模型进行显著提升，性能可与经典细调方法相媲美，解决零-shot能力有限的问题。

地址：https://arxiv.org/pdf/2409.11919

12. 与数据一致的数据驱动控制：避免数据之外的过早泛化

标题：Data-conforming data-driven control: avoiding premature generalizations beyond data

相关领域：模型结构改进、评估指标

作者：Mohammad Ramadan, Evan Toler, Mihai Anitescu

分析：本文针对数据驱动和自适应控制方法所面临的引入数据学习过程之外的分布性突变的问题进行了探讨。这类方法可能会导致违反其构建时所使用的一系列假设，这主要是由于数据驱动控制方法中所固有假设的线性系统特性，这种特性可能会在数据范围外错误泛化系统的操作系统行为。本文的目标是通过强制使用数据及降低数据联合状态输入空间中的分布性突变速率，解决这一问题。实现这一目标的方法是引入affine正则化项和线性矩阵不等式约束到数据驱动方法中，从而得到可求解的凸半肯定义规划问题。文章讨论了这种规划的优化条件，并以一个数值实例进一步突显了越过数据界限的过早泛化问题，同时展示了所提出方法在提升数据驱动控制方法安全性的效果。

地址：https://arxiv.org/pdf/2409.11549

13. Decoding Style：利用LLM解码风格的高效微调框架

标题：Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference

相关领域：模型微调、多模态、个性化推荐

作者：Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi

分析：该论文提出一种利用大型语言模型（LLM）进行个性化的着装推荐框架，通过微调和直接反馈消除其透明度和静态性问题。通过结合多模态大语言模型进行图像描述以弥补商品描述中的视觉与文本差距，让LLM学习提取时尚风格和颜色特性，为个性化推荐奠定基础。通过在Polyvore开源数据集上进行有效微调，以及利用否定例的直接偏好机制，LLM能够根据季节时尚趋势不断优化推荐。实验评估在填补空白和互补项检索任务中表现出色，超出了基线LLM。这表明该框架能显著提升购物体验，具有很高的工业应用价值。

地址：https://arxiv.org/pdf/2409.12150

14. RUIE：基于检索的统一信息提取大模型

标题：RUIE: Retrieval-based Unified Information Extraction using Large Language Model

相关领域：指令微调、奖励模型、模型蒸馏

作者：Xincheng Liao, Junwen Duan, Yixi Huang

分析：这篇论文提出了一种名为RUIE的统一信息提取框架，旨在解决大语言模型在处理未见过的信息提取任务时的泛化问题。RUIE通过利用上下文学习来快速泛化并减少计算成本，通过集成大语言模型的偏好来实现对候选演示的排名，并设计了关键词增强奖励模型来捕捉查询和演示之间的细微关系。实验结果表明，RUIE在泛化性能上优于基于指令微调的方法和其他检索器。

地址：https://arxiv.org/pdf/2409.11673

15. M-BEST-RQ：智能眼镜多通道语音基础模型

标题：M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses

机构：俄亥俄州立大学

相关领域：预训练、模型结构改进

作者：Yufeng Yang, Desh Raj, Ju Lin

分析：随着智能眼镜等可穿戴设备的普及，对其语音功能的需求也在增长。这篇论文提出了一个智能眼镜多通道语音基础模型M-BEST-RQ，它可以在阵列几何无关的方法下利用大规模自监督学习。与传统的独立训练模型不同，它可以从大量未标记数据中受益。该模型在对话自动语音识别、球形主动源定位和眼镜佩戴者语音活动检测等任务上表现出良好的性能，特别是在对话自动语音识别任务上，仅使用8小时的标记语音数据就能超越使用2000小时标记数据的监督ASR基线。

地址：https://arxiv.org/pdf/2409.11494

16. DocMamba：基于状态空间模型的高效文档预训练

标题：DocMamba: Efficient Document Pre-training with State Space Model

相关领域：文档预训练, 自注意力优化, SFBS

作者：Pengfei Hu, Zhenrong Zhang, Jiefeng Ma

分析：论文介绍了一种名为DocMamba的新型框架，用于解决Transformer模型在处理长文档时的计算复杂性和信息连贯性问题。它通过将自注意力机制的复杂度降低到线性，同时保持全局建模能力。作者提出了Segment-First Bidirectional Scan（SFBS）来捕获连续的语义信息。实验表明，DocMamba在 FUNSD、CORD 和 SORIE 等任务上取得了最先进的结果，同时提高了速度和减少了内存使用。HRDoc上的测试进一步证明了其在长文档处理上的潜力。技术价值高，尤其对文档理解领域的研究来说。

地址：https://arxiv.org/pdf/2409.11887

17. 将大模型的预测不确定性转化为可理解的语言表达

标题：Finetuning Language Models to Emit Linguistic Expressions of Uncertainty

机构：Google DeepMind

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Arslan Chaudhry, Sridhar Thiagarajan, Dilan Gorur

分析：该论文探讨了如何通过监督微调，使大型语言模型能够产生表示其预测不确定性的语言表达。作者发现，预训练的大型语言模型在对其预测进行校准方面表现良好，并且，通过使用模型自身的置信度进行监督微调，可以生成具有良好校准的不确定性表达，特别是对于单声明答案的情况。

地址：https://arxiv.org/pdf/2409.12180

18. 基于梯度信息的MoE模型研究

标题：GRIN: GRadient-INformed MoE

机构：微软

相关领域：模型结构改进

作者：Liyuan Liu, Young Jin Kim, Shuohang Wang

分析：这篇论文介绍了MoE模型（Mixture-of-Experts模型）的优势和面临的挑战。针对传统训练实践中的梯度问题，论文提出了GRIN训练方法，通过稀疏梯度估计进行专家路由配置，避免了令牌丢失的模型并行性。在自动回归语言建模中的应用表明，该模型在性能上超过了密集模型，具有更大的扩展潜力。

地址：https://arxiv.org/pdf/2409.12136

19. Flare: 融合语言模型和协作架构以增强推荐系统

标题：FLARE: Fusing Language Models and Collaborative Architectures for Recommender Enhancement

机构：滑铁卢大学、谷歌研究院

相关领域：模型结构改进、多模态

作者：Liam Hebert, Marialena Kyriakidi, Hubert Pham

分析：这篇论文提出了一种名为Flare的 novel 推荐系统，它整合了一个语言模型（mT5）和一个协作过滤模型（Bert4Rec），通过 Perceiver 网络实现融合。这种架构允许 Flare 有效地结合协作和内容信息以改进推荐。首先，在较小数据集上的 established baselines 进行评估，展示出 Flare 具有competitive accuracy。然后，在更大、更现实的数据集上进行评估，结果表明 Flare 在更大项词汇量上同样表现优秀，并且展示了对其的 critique 能力，允许用户提供反馈以进一步 refine 推荐。最后，通过 critique 作为 evaluation method，评估模型对语言的理解和 transferability。主要解决的问题是如何在一个更大型、词汇量更大的数据集上提高推荐系统的准确性和可解释性。

地址：https://arxiv.org/pdf/2409.11699

20. Mamba融合：通过提问学习动作

标题：Mamba Fusion: Learning Actions Through Questioning

机构：谷歌研究院、乔治亚理工学院

相关领域：模型结构改进、多模态

作者：Zhikang Dong, Apoorva Beedu, Jason Sheinkopf

分析：这篇论文提出了一种新的视频语言模型（VLMs）的方法来解决视觉和语言任务的挑战。它通过利用选择性状态空间模态融合技术，克服了传统基于Transformer架构在视觉语言训练中的局限性，如二次计算复杂性、高GPU内存使用以及长期依赖性问题。该模型通过共享状态转换矩阵，在场景内从多个角度捕捉动作信息，并通过问答任务来指导模型学习相关线索，增强了动作识别和环境上下文理解的性能。

地址：https://arxiv.org/pdf/2409.11513

21. 基于神经编码的图像回忆：接近人类的记忆

标题：Neural Encoding for Image Recall: Human-Like Memory

机构：UC伯克利分校

相关领域：模型结构改进、预训练、模型评估

作者：Virgile Foussereau, Robin Dumas

分析：本文专注于模仿人类记忆过程的方法，以实现人工系统的类人图像回忆能力。虽然在自然场景下人类有极强的记忆能力，但面对非自然的刺激时，这一能力显著减弱。研究提出一种技术，通过在编码前为图片添加噪声，模拟人类记忆编码中的不确定性。利用预训练模型的嵌入层，探索不同架构对图片的编码方式及其对记忆回召的影响。该方法在自然图片上的准确率为97%，而在纹理图片上的表现接近随机（52%）。这项研究提供了对编码过程的洞察，并揭示了人工智能和人类记忆机制之间的相似性，为机器学习记忆系统提供了宝贵信息。

地址：https://arxiv.org/pdf/2409.11750

22. 轮椅用户共享自主系统WeHelp的研究

标题：WeHelp: A Shared Autonomy System for Wheelchair Users

机构：卡内基梅隆大学

作者：Abulikemu Abuduweili, Alice Wu, Tianhao Wei

分析：本文主要介绍了一种面向轮椅用户的共享自主系统WeHelp。该系统通过机器人技术，为轮椅用户提供辅助，帮助他们完成日常任务。系统包括跟随模式、遥控模式和遥操作模式。在跟随模式下，机器人通过视觉追踪自动跟随轮椅用户。在遥控模式和遥操作模式下，用户可以通过操纵杆控制机器人完成一些复杂的任务，如开关门、移动障碍物等。系统实用性得到了评估。

地址：https://arxiv.org/pdf/2409.12159

代码：https://github.com/Walleclipse/WeHelp

23. 多文档地基多轮生成式对话系统

标题：Multi-Document Grounded Multi-Turn Synthetic Dialog Generation

机构：IBM研究院

相关领域：多文档对话系统、LLM、对话生成、多轮生成

作者：Young-Suk Lee, Chulaka Gunasekara, Danish Contractor

分析：论文介绍了一种利用 Taxonomy 驱动的 Chain-of-Thought 指令提示生成用户查询以控制对话流程的新技术。通过模仿真实世界检索器在用户每一轮对话后更新基础文档，保证了多文档地基对话的生成。此外，使用LLM作为法官来过滤出答案错误的查询。评估显示，该数据集生成的对话既多样又连贯，且大部分答案正确。模型在多轮文档地基基准测试集上的表现优于仅使用现有人类生成数据训练的模型。

地址：https://arxiv.org/pdf/2409.11500

24. Low Frame-rate Speech Codec：为快速高质量语音大模型训练和推理设计的编解码器

标题：Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

机构：英伟达

相关领域：模型结构改进、数据集构建

作者：Edresson Casanova, Ryan Langman, Paarth Neekhara

分析：这篇论文提出了一种低帧率语音编解码器（LFSC），该编解码器利用有限标量量化和对抗性训练，与大型语音语言模型相结合，实现了高质量音频压缩。与传统的音频编解码器相比，该编解码器能够以更快的速度和更高的效率进行语音语言模型的训练和推理，同时保持语音的清晰度和质量。

地址：https://arxiv.org/pdf/2409.12117

25. 混合专家融合针对仿造音频检测的冻结wav2vec 2.0

标题：Mixture of Experts Fusion for Fake Audio Detection Using Frozen wav2vec 2.0

机构：腾讯、清华大学、中国科学院大学

相关领域：模型结构改进、预训练

作者：Zhiyong Wang, Ruibo Fu, Zhengqi Wen

分析：这篇论文提出了一种基于Mixture of Experts的特征融合方法，用于仿造音频检测。该方法冻结了预训练模型，从各层特征中提取和整合与仿造音频检测相关的特征，由基于最后层特征的gating network指导，避免了对模型的 fine-tuning，从而减少了训练时间。实验在ASVspoof2019和ASVspoof2021 datasets上进行，与需要fine-tuning的方法相比，该方法表现出了竞争力的性能。

地址：https://arxiv.org/pdf/2409.11909

26. 机器人学习通用框架

标题：Generalized Robot Learning Framework

机构：哈佛大学、清华大学

相关领域：机器人学习

作者：Jiahuan Yan, Zhouyang Hong, Yu Zhao

分析：最近，模仿机器人学习在机器人领域获得显著关注，因为它具有理论上的可转移性和可泛化性。然而，它仍然是代价高昂的，无论是在硬件还是数据收集方面，在真实世界环境中部署它需要精心设置机器人和精确的实验条件。在这篇论文中，该论文提出了一种低成本的机器人学习框架，它既易于可重复，又可广泛应用于各种机器人和环境。该论文证明，可部署的模仿学习可以成功地应用于工业级机器人，不仅适用于昂贵的协作机器人手臂。此外，该论文的结果表明，多任务机器人学习可以在简单的网络架构和较少的示范下实现。当前的评估方法对于现实世界操作任务几乎是主观的，因此该论文提出“投票积极率”（VPR）-一种新颖的评估策略，能提供更客观的性能评估。该论文通过在各种自我设计的任务上的成功率比较来证明该论文的方法。为了促进协作和支持机器人学习社区，该论文已开源所有相关数据集和模型检查点，可通过http://huggingface.co/ZhiChengAI获得。

地址：https://arxiv.org/pdf/2409.12061

27. 基于思维链提示的语音翻译

标题：Chain-of-Thought Prompting for Speech Translation

机构：英伟达

相关领域：多模态、模型结构改进

作者：Ke Hu, Zhehuai Chen, Chao-Han Huck Yang

分析：这篇论文提出了一种利用自动语音识别（ASR）转录作为提示进行自动语音翻译（AST）的新方法。该方法基于大型语言模型（LLM），通过解码语音生成ASR转录，然后使用这些转录和编码语音进行提示，引导语音翻译过程。论文还介绍了低秩适配（LoRA）技术在T5 LLM中的应用，以提高模型适应性和翻译性能。实验结果表明，该方法显著提高了AST的性能，特别是在多语种翻译任务上。

地址：https://arxiv.org/pdf/2409.11538

28. WMCodec：具有深度水印的端到端神经语音编解码器，用于身份认证

标题：WMCodec: End-to-End Neural Speech Codec with Deep Watermarking for Authenticity Verification

机构：清华大学

相关领域：模型结构改进、多模态

作者：Junzuo Zhou, Jiangyan Yi, Yong Ren

分析：这篇论文提出了一种新的端到端的神经语音编解码器WMCodec，它能深度集成水印与语音特性用于身份验证。与之前的方法相比，WMCodec能够联合训练压缩与重建以及水印嵌入与提取过程，提高了水印的隐蔽性和提取准确性。同时，设计了注意力印记单元来减少量化噪声对水印的影响，并在多种质量指标下表现出优良性能。

地址：https://arxiv.org/pdf/2409.12121

29. MEOW：基于内存监督的大模型通过反事实进行卸载学习

标题：MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts

机构：清华大学、复旦大学、上海AI实验室

相关领域：模型评估、大模型子研究领域（其他）

作者：Tianle Gu, Kexin Huang, Ruilin Luo

分析：这篇论文关注大型语言模型（LLMs）在训练过程中可能记住敏感信息的问题，并提出一种事后删除这些信息的解决方案。论文提出了一种新的卸载学习方法MEOW，通过生成反事实数据集，使用梯度下降方法进行模型微调，以消除LLMs中的记忆。该方法在常用的卸载基准测试ToFU上表现出显著的效果，不仅提高了遗忘质量，而且不会显著降低模型的实用性。

地址：https://arxiv.org/pdf/2409.11844

30. VL-Reader：视觉与语言重构是有效的场景文本识别器

标题：VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer

机构：阿里巴巴集团

相关领域：模型结构改进、预训练、多模态

作者：Humen Zhong, Zhibo Yang, Zhaohai Li

分析：论文提出了一种新的场景文本识别方法VL-Reader，通过视觉和语言之间的全面交互来解决文本识别中的挑战。方法包括使用Masked Visual-Linguistic Reconstruction（MVLR）目标进行建模，设计Masked Visual-Linguistic Decoder（MVLD）以实现跨模态特征交互。VL-Reader在预训练和微调阶段保持一致性，并在六个典型数据集上实现了平均准确率97.1%，超过了现有技术1.1%。

地址：https://arxiv.org/pdf/2409.11656

31. 艺术与科学的量化大型模型：全面概述

标题：Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

机构：北京大学

相关领域：模型结构改进、量化感知训练

地址：https://arxiv.org/pdf/2409.11650

32. Biological arrow of time：涌现的纠缠信息层次与自建模动态

标题：Biological arrow of time: Emergence of tangled information hierarchies and self-modelling dynamics

机构：牛津大学、帝国理工学院、亚利桑那州立大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.12029

33. DreamMover:利用扩散模型的先验知识进行大运动图像插值

标题：DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion

机构：华中科技大学、Adobe Research

地址：https://arxiv.org/pdf/2409.09605

34. 利用最小训练成本实现实时会话

标题：Enabling Real-Time Conversations with Minimal Training Costs

机构：清华大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.11727

35. 提高复杂公式识别精度的分层细节关注网络

标题：Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network

机构：香港大学、南洋理工大学

相关领域：模型结构改进、预训练、指令微调

地址：https://arxiv.org/pdf/2409.11677

36. Speaking from Coarse to Fine：通过多尺度语音编码和生成改进神经编解码器语言模型

标题：Speaking from Coarse to Fine: Improving Neural Codec Language Model via Multi-Scale Speech Coding and Generation

机构：香港中文大学

相关领域：大模型、语音编码和生成、神经编解码器语言模型

地址：https://arxiv.org/pdf/2409.11630

37. 音频文本对比模型中的关键设计选择对音乐文本表示学习的影响

标题：Augment, Drop & Swap: Improving Diversity in LLM Captions for Efficient Music-Text Representation Learning

机构：伦敦玛丽女王大学、Adobe Research

地址：https://arxiv.org/pdf/2409.11498

38. GaussianHeads：从粗到细表示学习驾驶高斯头半身像

标题：GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations

机构：帝国理工学院、马克斯·普朗克计算机科学研究所

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11951

39. 代表性样本与多样样本选择提升半监督学习效果研究

标题：Enhancing Semi-Supervised Learning via Representative and Diverse Sample Selection

机构：浙江大学

地址：https://arxiv.org/pdf/2409.11653

40. Takin：优质零样本语音生成模型的群体研究

标题：Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.12139

代码：https://takinaudiollm.github.io

41. TART：一个用于可解释表格推理的开源工具增强框架

标题：TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning

机构：亚利桑那大学、新加坡国立大学、MBZUAI大学

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2409.11724

代码：https://github.com/XinyuanLu00/TART

42. NT-ViT: 神经编解码视觉Transform用于EEG到fMRI的合成

标题：NT-ViT: Neural Transcoding Vision Transformers for EEG-to-fMRI Synthesis

机构：瑞典皇家理工学院

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11836

代码：https://github.com/rom42pla/ntvit

43. DynaMo：visuo-motor控制领域的领域内动态预训练

标题：DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

相关领域：visuo-motor control, dynamics modeling, self-supervised learning

地址：https://arxiv.org/pdf/2409.12192

44. MoRAG模型——基于多融合检索增强技术的文本驱动人类运动生成

标题：MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion

机构：加州大学

相关领域：模型结构改进、预训练、多模态

地址：https://arxiv.org/pdf/2409.12140

代码：https://motion-rag.github.io/

45. LEMON: 基于网格优化和神经着色的局部编辑

标题：LEMON: Localized Editing with Mesh Optimization and Neural Shaders

机构：慕尼黑工业大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.12024

46. 利用LLM进行API交互：分类和数据集生成的框架

标题：Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation

机构：纽约大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2409.11703

47. NovAScore: 一种用于评估文档级新颖性的新自动化指标

标题：NovAScore: A New Automated Metric for Evaluating Document Level Novelty

机构：摩根大通、哥伦比亚大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2409.09249

48. SPRMamba：基于Mamba的内镜黏膜下剥离术手术阶段识别

标题：SPRMamba: Surgical Phase Recognition for Endoscopic Submucosal Dissection with Mamba

机构：上海交通大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.12108

49. PARAPHRASUS：一个全面的语义等同检测模型基准

标题：PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models

机构：苏黎世大学

相关领域：模型评估，语义理解，多模态评估

地址：https://arxiv.org/pdf/2409.12060

50. LMMCoDrive：基于大模型的协同驾驶技术

标题：LMMCoDrive: Cooperative Driving with Large Multimodal Model

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.11981

代码：https://github.com/henryhcliu/LMMCoDrive

51. 压缩激活的梯度反向传播，减少内存需求对应小型GPU

标题：Less Memory Means smaller GPUs: Backpropagation with Compressed Activations

机构：海德堡大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11902

52. 用自动化声明式UI代码生成器连接设计和开发

标题：Bridging Design and Development with Automated Declarative UI Code Generation

机构：华中科技大学、澳大利亚国立大学

地址：https://arxiv.org/pdf/2409.11667

53. 自对比多段前馈网络算法

标题：Self-Contrastive Forward-Forward Algorithm

机构：康奈尔大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11593

54. 预训练语言模型在音乐理解方面的评估

标题：Evaluation of pretrained language models on music understanding

机构：伦敦玛丽女王大学

相关领域：模型结构改进、预训练、指令微调

地址：https://arxiv.org/pdf/2409.11449

55. 破解大模型使用符号数学

标题：Jailbreaking Large Language Models with Symbolic Mathematics

机构：德克萨斯大学

相关领域：模型安全、AI安全

地址：https://arxiv.org/pdf/2409.11445

56. MARCA：具有可重构架构的Mamba加速器

标题：MARCA: Mamba Accelerator with ReConfigurable Architecture

机构：上海交通大学

地址：https://arxiv.org/pdf/2409.11440

57. 基于人类反馈的语言、语音和视觉任务中的偏好调整：一份调查报告

标题：Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey

机构：哥伦比亚大学

相关领域：模型评估、数据集构建、评估指标

地址：https://arxiv.org/pdf/2409.11564

58. Skill matching at scale：自由职业者与项目的多语言高效匹配研究

标题：Skill matching at scale: freelancer-project alignment for efficient multilingual candidate retrieval

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.12097

59. 在生成世界模型中表示位置信息以实现对象操作

标题：Representing Positional Information in Generative World Models for Object Manipulation

机构：根特大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.12005

60. Extract-and-Abstract：在单个编码器-解码器框架中合并提取式和抽象式摘要

标题：Extract-and-Abstract: Unifying Extractive and Abstractive Summarization within Single Encoder-Decoder Framework

机构：曼彻斯特大学

相关领域：模型结构改进,预训练

地址：https://arxiv.org/pdf/2409.11827

61. From Words to Wheels：自动风格定制的自动驾驶策略生成

标题：From Words to Wheels: Automated Style-Customized Policy Generation for Autonomous Driving

地址：https://arxiv.org/pdf/2409.11694

代码：https://yokhon.github.io/Words2Wheels/

62. 基于SIR模型的流行病规划问题解决指标混合规划方法

标题：A Metric Hybrid Planning Approach to Solving Pandemic Planning Problems with Simple SIR Models

机构：莫纳什大学

地址：https://arxiv.org/pdf/2409.11631

63. Autoregressive + Chain of Thought Recurrent：循环在语言模型的计算能力与递归Transformer的重新审视

标题：Autoregressive + Chain of Thought Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer

机构：英属哥伦比亚大学、MBZUAI大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2409.09239

64. METEOR: 能够适应旋律的纹理可控式交响乐生成模型

标题：METEOR: Melody-aware Texture-controllable Symbolic Orchestral Music Generation

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11753

65. Brain-Streams：基于多模态引导的fMRI到图像重建

标题：Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2409.12099

66. ChefFusion：融合多模态的烹饪模型，实现食谱与食品图像生成整合

标题：ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation

相关领域：多模态、模型结构改进与预训练

地址：https://arxiv.org/pdf/2409.12010

67. 精确实数计算的必要编程语言

标题：An Imperative Language for Verified Exact Real-Number Computation

相关领域：模型结构改进、精确实数计算

地址：https://arxiv.org/pdf/2409.11946

68. BanStereoSet数据集：衡量大模型中面向孟加拉语的刻板社会偏见

标题：BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2409.11638

69. Inferno：用于脉冲神经网络机器学习任务的扩展框架介绍

标题：Inferno: An Extensible Framework for Spiking Neural Networks

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11567

70. 文本到SQL:你只读一次

标题：You Only Read Once (YORO): Learning to Internalize Database Knowledge for Text-to-SQL

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.12172

71. 更强的基线模型——实现机器学习研究与临床应用一致的关键要求

标题：Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility

相关领域：模型评估、评估指标

地址：https://arxiv.org/pdf/2409.12116

72. 语言合成数据的效用作为基准

标题：Efficacy of Synthetic Data as a Benchmark

相关领域：自然语言处理、文本生成

地址：https://arxiv.org/pdf/2409.11968

73. 小型语言模型在创意写作任务中的表现优于人类

标题：Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2409.11547

74. 单向人-机器人-人物理交互方法在步态训练中的应用

标题：Unidirectional Human-Robot-Human Physical Interaction for Gait Training

机构：西北大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11510

75. 超高性能月球着陆模拟

标题：High performance Lunar landing simulations

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11450

76. 泛化压缩和大型数据集的压缩搜索

标题：Generalized compression and compressive search of large datasets

相关领域：数据集构建

地址：https://arxiv.org/pdf/2409.12161

77. 元素顺序对LM代理性能的影响

标题：The Impact of Element Ordering on LM Agent Performance

相关领域：模型评估、模型结构改进

地址：https://arxiv.org/pdf/2409.12089

78. 基于学习的加速A*搜索的风险感知路径规划

标题：Learning-accelerated A* Search for Risk-aware Path Planning

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2409.11634

79. BERT-VBD：越南多文档摘要框架

标题：BERT-VBD: Vietnamese Multi-Document Summarization Framework

相关领域：模型结构改进、预训练、多模态

地址：https://arxiv.org/pdf/2409.12134

80. Unraveling the Hessian：在损失函数景观中的平滑收敛途径

标题：Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2409.11995

81. M2R-Whisper：多阶段多尺度检索增强方法提高语音识别性能

标题：M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper

相关领域：模型结构改进、数据集构建、多模态

地址：https://arxiv.org/pdf/2409.11889

82. Retrieve, Annotate, Evaluate, Repeat：利用多模态LLM进行大规模产品检索评估

标题：Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2409.11860

83. NFT赋能视觉艺术家的数字资产

标题：Empowering Visual Artists with Tokenized Digital Assets with NFTs

地址：https://arxiv.org/pdf/2409.11790

84. 大模型角色游戏中的角色知识错误检测挑战

标题：Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2409.11726

85. Linguini:一种无语言专业知识的语言模型推理基准

标题：Linguini: A benchmark for language-agnostic linguistic reasoning

机构：伦敦大学

地址：https://arxiv.org/pdf/2409.12126

好啦，小编今天的分享就到这里啦，欢迎留言讨论哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486416&idx=1&sn=22f758b5e4d899ef0ad29b3699adb6e4

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI