Baichuan-Omni技术报告技术报告发布！关于更高维度RoPE注意力模型的令牌距离建模能力研究

文摘 2024-10-14 23:26 广东

前言：科研就像一场冒险，而看论文就是你的探险工具！只有通过深入阅读，才能找到宝藏，发现那些意想不到的科研奇遇哦！

1. Baichuan-Omni技术报告

标题：Baichuan-Omni Technical Report

机构：西湖大学、浙江大学

相关领域：多模态

作者：Yadong Li, Haoze Sun, Mingan Lin

分析：这篇论文介绍了Baichuan-Omni，首个开源的7B多模态大型语言模型（MLLM），能同时处理和分析图像、视频、音频和文本等多种模态数据，提供先进的多模态交互体验和卓越性能。通过有效的多模态训练模式，该模型具备处理视觉和音频数据的能力，并在各种多模态基准测试中表现出强劲性能。该研究旨在为开源社区提供竞争基准，推动多模态理解和实时交互的进步。

地址：https://arxiv.org/pdf/2410.08565

2. 关于更高维度RoPE注意力模型的令牌距离建模能力研究

标题：On the token distance modeling ability of higher RoPE attention dimension

机构：腾讯、清华大学、微信AI

相关领域：模型结构改进、模型评估

作者：Xiangyu Hong, Che Jiang, Biqing Qi

分析：本文基于Rotary位置嵌入（RoPE）算法，探究如何通过增加注意力维度来提升语言模型的上下文长度。研究发现不同维度的RoPE编码对应不同的变化频率，特别是被称为‘Positional Heads’的特定注意力头能很好地捕捉长距离信息交互，对于处理长输入至关重要。这为未来长文本理解研究提供了新视角。

地址：https://arxiv.org/pdf/2410.08703

3. Mentor-KD: 让小型语言模型成为更好的多步 reasoning 者

标题：Mentor-KD: Making Small Language Models Better Multi-step Reasoners

机构：韩国高丽大学

相关领域：模型结构改进、模型蒸馏

作者：Hojae Lee, Junho Kim, SangKeun Lee

分析：这篇论文提出了一种名为 Mentor-KD 的知识提炼 (KD) 方法，通过让小型语言模型学习大型语言模型的多步推理能力，来提高小型模型的推理能力。该方法考虑到了从大型模型教师模型中提炼数据质量和软标签的问题。论文中使用了 mentors（中间大小的、特定任务微调的模型）来为小型模型提供额外的 CoT 注释和软标签，以提高提炼效果。实验结果表明，Mentor-KD 方法对于多个模型和各种复杂推理任务都很有效。

地址：https://arxiv.org/pdf/2410.09037

4. 基于动态词汇生成的语言模型研究

标题：Generation with Dynamic Vocabulary

机构：复旦大学、华东师范大学

相关领域：模型结构改进、多模态

作者：Yanting Liu, Tao Ji, Changzhi Sun

分析：这篇论文提出了一种新的动态词汇生成方法，用于改进语言模型。动态词汇可以在生成过程中涉及任意文本跨度，类似于传统静态词汇中的令牌。与标准语言模型相比，该动态词汇能够在生成质量和效率上都有所提高。研究展示了该动态词汇能够提高MAUVE指标（增加了25%），同时降低了延迟（减少了20%）。该动态词汇还具有可扩展性，可用于各种下游应用程序。研究展示了动态词汇如何应用于不同领域且无需进行训练。此外，它在问答任务中生成可靠引用方面表现良好，有助于提高引用结果而不会影响答案的准确性。

地址：https://arxiv.org/pdf/2410.08481

5. 为什么预训练对下游分类任务有益

标题：Why pre-training is beneficial for downstream classification tasks?

相关领域：预训练

作者：Xin Jiang, Xu Cheng, Zechao Li

分析：本文旨在从一个新颖的游戏理论视角提出并定量解释预训练对下游任务的影响，对理解深度神经网络（DNNs）的学习行为提供了新的见解。研究发现，预训练模型以编码的少量知识，为下游任务的推理提供动力，这部分知识对于从头开始训练的模型来说非常难以学习。通过利用这部分预训练且有价值的知识，从预训练模型中微调的模型通常能取得更好的性能。此外，预训练能指导微调后的模型更直接且快速地学习目标知识，这是下游任务收敛更快的原因。

地址：https://arxiv.org/pdf/2410.08455

6. Code LLMs中的秘密记忆解码

标题：Decoding Secret Memorization in Code LLMs Through Token-Level Characterization

机构：北京邮电大学、南洋理工大学、华中科技大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Yuqing Nie, Chong Wang, Kailong Wang

分析：这篇论文主要研究了如何通过分析LLM生成的代码中的token特征，来识别并解码出真实的秘钥信息。作者提出了一种新的两阶段方法(DESEC),利用这种方法可以更有效地区分真实的秘钥信息和LLM生成的假秘钥信息。

地址：https://arxiv.org/pdf/2410.08858

7. 语言模型的下游性能预测中的比例法则分析

标题：Scaling Laws for Predicting Downstream Performance in LLMs

机构：伊利诺伊大学、Amazon

相关领域：模型评估、预训练

作者：Yangyi Chen, Binxuan Huang, Yifan Gao

分析：论文提出了基于比例法则的语言模型下游性能预测方法，解决了在自然语言处理中预测大型语言模型性能的问题。主要探讨了两个阶段的映射过程，一是计算资源（如浮点运算次数FLOPs）与预训练损失之间的映射关系，二是预训练损失与下游任务性能之间的映射关系。实验结果表明，论文提出的方法能准确预测大型语言模型的性能，并通过数据集成和多源数据的处理方法扩展了其预测能力。

地址：https://arxiv.org/pdf/2410.08527

8. 改进时间到首个令牌的KV预测

标题：KV Prediction for Improved Time to First Token

机构：Apple

作者：Maxwell Horton, Qingqing Cao, Chenfan Sun

分析：论文主要讨论了在Transformer基础的语言模型推理中，第一输出令牌建立的KV缓存可以产生计算昂贵的步骤。为降低预训练模型产生第一输出（即时间到首个令牌，TTFT）所需的时间，提出了一种名为KV预测的新方法。该方法利用一个小型的辅助模型处理提示生成近似于基模型使用的KV缓存。接着，用基模型进行自回归生成，无需再次查询辅助模型。实验结果显示，该方法在TriviaQA任务上的相对准确率在不同的TTFT FLOPs预算下都有改善。

地址：https://arxiv.org/pdf/2410.08391

代码：https://github.com/apple/corenet/tree/main/projects/kv-prediction

9. 基于快速思考和慢速推理的对话式智能代理架构研究

标题：Agents Thinking Fast and Slow: A Talker-Reasoner Architecture

机构：Google DeepMind

相关领域：模型结构改进、多模态

作者：Konstantina Christakopoulou, Shibl Mourad, Maja Matarić

分析：这篇论文提出了一种基于快速思考和慢速推理的智能代理架构，包括一个快速对话代理（Talker）和一个慢速推理代理（Reasoner）。Talker负责快速和直观的用户交互对话合成响应，而Reasoner则进行更复杂的长期规划和推理分析，使得智能代理在处理复杂任务时具有更高的灵活性和准确性。论文讨论了这种架构的优势，包括模块化、降低延迟等，并以睡眠教练代理为例进行实际应用的演示。

地址：https://arxiv.org/pdf/2410.08328

10. ElasticTok：自适应令牌化用于图像和视频处理

标题：ElasticTok: Adaptive Tokenization for Image and Video

机构：UC伯克利分校、Google DeepMind

相关领域：模型结构改进、多模态

作者：Wilson Yan, Matei Zaharia, Volodymyr Mnih

分析：这篇论文介绍了一种自适应的视频令牌化方法ElasticTok，该方法可以根据先前帧的条件来动态地为一帧生成可变数量的令牌。为了以计算上可扩展的方式实现这一点，论文提出了一种掩码技术，该技术可以在每个帧的令牌编码结束时随机丢弃一些令牌。在推理过程中，ElasticTok可以根据需要动态分配令牌，更复杂的数据可以使用更多令牌，而更简单的数据只需要少量令牌。论文的经验评估表明，该方法在有效使用令牌方面非常有效，为开发更强大的多模态模型、世界模型和智能体铺平了道路。

地址：https://arxiv.org/pdf/2410.08368

11. RoRA-VLM: 稳健检索增强型视觉语言模型

标题：RoRA-VLM: Robust Retrieval-Augmented Vision Language Models

机构：英伟达、华盛顿大学、香港中文大学

相关领域：模型结构改进、预训练、多模态

作者：Jingyuan Qi, Zhiyang Xu, Rulin Shao

分析：当前视觉语言模型（VLMs）在处理知识密集型任务时表现不佳，主要是因为难以精确编码视觉对象与场景之间的关联，以及它们对应的实体和相关背景知识。检索增强方法提供了一种整合外部知识的高效方法，但将其应用于视觉语言领域面临两个独特挑战：一是如何在查询中融合视觉和文本信息来精确检索相关信息，二是如何提高模型对检索信息中的无关、冗余和噪声信息的抵抗力。本文提出RoRA-VLM，一个专为VLMs设计的稳健检索增强框架，其中包含两个关键创新：一是通过图像锚定文本查询扩充的两阶段检索过程，二是通过在检索增强训练过程中注入对抗性噪声以及通过查询导向的视觉令牌细化策略排除无关视觉信息的方法，提高模型对无关信息的抵抗力。该论文进行了广泛的实验，并在三个广泛使用的基准数据集上验证了方法的有效性和稳健性。结果显示，即使训练实例量有限，RoRA-VLM也能显著提升基础模型的性能，并在所有测试标准上显著优于现有的检索增强型VLMs，并且展现了零样本跨领域转移的能力。

地址：https://arxiv.org/pdf/2410.08876

12. StraGo：利用战略指导优化提示

标题：StraGo: Harnessing Strategic Guidance for Prompt Optimization

机构：微软

相关领域：提示优化

作者：Yurong Wu, Yan Gao, Bin Benjamin Zhu

分析：这篇论文主要讨论了一种名为斯特戈（Strategic-Guided Optimization）的提示优化方法。它旨在减少由现有提示优化方法引起的提示漂移问题，即新的提示可能对之前成功的情况产生负面影响。斯特戈通过结合成功的和不成功的案例来寻找实现优化目标的本质因素，并提供详细的行动方案来指导提示优化。该方法不仅在语言处理任务上表现出色，而且在工业应用中也显示出优越性。它已经成为新的提示优化领域的标杆，展现了实现稳定和有效的提示改进的能力。

地址：https://arxiv.org/pdf/2410.08601

13. AMPO: 自动多分支提示优化

标题：AMPO: Automatic Multi-Branched Prompt Optimization

机构：微软、中国科学院大学

相关领域：模型结构改进

作者：Sheng Yang, Yurong Wu, Yan Gao

分析：本文讨论的是自动多分支提示优化方法AMPO，该方法旨在通过反馈失败案例，迭代生成包含多分支的提示，以更好地处理复杂任务中多种模式。面对复杂问题，提示工程师倾向于从示例中提炼多种模式并注入相关解决方案来优化提示，得到满意结果，然而现有的自动化提示优化技术仅能产生单一流程指令，难以处理多种模式。为解决这一问题，该论文提出引入三个模块：模式识别、分支调整和分支修剪，以此扩展提示结构的多样性。

地址：https://arxiv.org/pdf/2410.08696

14. 面向混合整数线性规划的基础模型研究

标题：Towards Foundation Models for Mixed Integer Linear Programming

机构：微软研究院、麻省理工学院

相关领域：模型结构改进、数据集构建

作者：Sirui Li, Janardhan Kulkarni, Ishai Menache

分析：针对混合整数线性规划（MILP）面临的计算可行性和问题多样化挑战，本文采取了一种基础模型训练方法。训练单个深度学习模型以处理多种MILP问题，并引入MILP-Evolve框架生成大量多样化的MILP类问题实例。通过实证研究发现，该模型在未见问题上表现优异，并强调基础模型方法在MILP中的潜力。

地址：https://arxiv.org/pdf/2410.08288

15. 循环Transformer能否学习实现多步梯度下降的在线学习？

标题：Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

机构：谷歌研究院、麻省理工学院

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Khashayar Gatmiry, Nikunj Saunshi, Sashank J. Reddi

分析：这篇论文主要研究了循环Transformer在线性回归问题上的应用，探讨了其是否能够学习并实现多步梯度下降的在线学习。通过理论分析和实验验证，论文发现循环Transformer确实能够学习并实现多步梯度下降的在线学习，并且具有较快的收敛速度。这是对多层Transformer在特定任务上的首次理论分析，具有一定的理论和实践意义。

地址：https://arxiv.org/pdf/2410.08292

16. SimpleStrat：通过分层多样化语言模型生成

标题：SimpleStrat: Diversifying Language Model Generation with Stratification

机构：UC伯克利分校

相关领域：模型结构改进、模型评估、数据集构建、评估指标

作者：Justin Wong, Yury Orlovskiy, Michael Luo

分析：该论文主要研究了如何使大型语言模型（LLMs）在生成多样答案方面得到改善。论文指出，传统方法通过提高温度来增加多样性，但这种做法不仅会导致单个生成质量下降，还需要模型在下一个输出词的概率与真实答案分布相似。论文提出了SimpleStrat方法，该方法使用语言模型本身将空间分区成子层，并在推理时随机选择一个子层进行采样。论文通过覆盖查询（CoverageQA）和KL散度来评估多样性和召回率，结果显示SimpleStrat在召回率和KL散度上均优于GPT-4o和Llama 3。

地址：https://arxiv.org/pdf/2410.09038

17. KnowGraph: 基于图 reasoning 的知识增强异常检测

标题：KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data

机构：字节跳动、UC伯克利分校

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Andy Zhou, Xiaojun Xu, Ramesh Raghunathan

分析：这篇论文提出了一种知识增强的异常检测方法 KnowGraph，它旨在通过逻辑推理在图数据上进行异常检测。该方法通过两个主要组件工作：统计学习组件和 reasoning 组件。统计学习组件包括一个主模型和一个多个特定于域的语义实体预测模型。reasoning 组件使用概率图形模型进行逻辑推理，并使用加权一阶逻辑公式编码领域知识。实验证明，KnowGraph 在异构和自举设置中均优于现有技术基准，尤其是在极端类别不平衡的情况下表现出色。该论文提出的 reasoning 组件显著提高了检测性能。这意味着 KnowGraph 可以识别图中的异常模式，并通过逻辑推理将领域知识整合到数据驱动的模型中。

地址：https://arxiv.org/pdf/2410.08390

18. 大模型的知识去学习方法是否移除了模型权重的信息？

标题：Do Unlearning Methods Remove Information from Language Model Weights?

机构：哈佛大学、Anthropic

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Aghyad Deeb, Fabien Roger

分析：这篇论文主要探讨了大型语言模型的知识去学习方法是否真正移除了模型权重中的信息。通过提出一种对抗性评估方法，作者发现现有的去学习方法在移除信息方面存在限制，无法完全移除模型权重中的信息。

地址：https://arxiv.org/pdf/2410.08827

19. 参数高效的大模型语义知识调优

标题：Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning

机构：Amazon、中佛罗里达大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Nusrat Jahan Prottasha, Asif Mahmud, Md. Shohanur Islam Sobuj

分析：这篇论文提出了一种新的大语言模型调优方法——语义知识调优(SK-Tuning)。传统的调优方法通常使用固定的、无法修改的标记，这些标记缺乏语义信息，需要大量的训练才能达到最佳效果。而SK-Tuning则采用有意义的词汇进行调优，通过一个预训练的大型语言模型理解和处理提示的语义内容，然后将处理后的提示与输入文本结合，以提高模型在特定任务上的表现。实验结果表明，SK-Tuning在文本分类和理解等任务上比其他调优方法具有更快的训练速度、更少的参数以及更好的性能。这种方法为优化大型语言模型在处理语言任务中的效率和效果提供了一种有前景的方法。

地址：https://arxiv.org/pdf/2410.08598

20. Retriever-and-Memory：面向复杂问答任务的自适应笔记增强检索增强生成研究

标题：Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

机构：清华大学、东北大学、华南理工大学

相关领域：模型结构改进、数据集构建

作者：Ruobing Wang, Daren Zha, Shi Yu

分析：论文提出了一种自适应笔记增强检索增强生成（Adaptive-Note）的通用方法，用于解决复杂问答任务中的信息获取和交互问题。该方法通过迭代信息搜集、自适应记忆回顾和任务导向生成三个步骤，遵循检索器与记忆器相结合的新范式。引入知识增长的整体视角，以笔记形式迭代收集新信息，并更新到最佳知识结构中，提高知识交互质量。同时采用自适应的基于笔记的停止探索策略，决定何时检索和停止，鼓励充分的知识探索。实验结果表明，该方法在五个复杂问答数据集上表现优异。

地址：https://arxiv.org/pdf/2410.08821

代码：https://github.com/thunlp/Adaptive-Note

21. Koala-36M大型视频数据集：提升精细条件与视频内容之间的一致性

标题：Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content

机构：清华大学

相关领域：数据集构建

作者：Qiuheng Wang, Yukai Shi, Jiarong Ou

分析：论文介绍了一种大规模高质量视频数据集Koala-36M，该数据集通过精确的时间分割、详细的标题和优质视频筛选来提高视频内容的质量。采用概率分布线性分类器提高转换检测精度，确保更好的时间一致性。同时为分割后的视频提供结构化标题，改进文本与视频的对应性。开发视频训练适用性评分（VTSS），从原始语料库中筛选出高质量视频。最后，论文将多个指标纳入生成模型的训练过程中，进一步调整精细条件。实验证明了数据处理流程的有效性和Koala-36M数据集的高质量。

地址：https://arxiv.org/pdf/2410.08260

代码：https://koala36m.github.io/

22. 视频SAM: 开放世界视频分割

标题：VideoSAM: Open-World Video Segmentation

机构：复旦大学、Amazon

作者：Pinxue Guo, Zixu Zhao, Jianxiong Gao

分析：视频分割对于推进机器人技术和自动驾驶至关重要，尤其是在开放环境中。然而，将SAM(Segment Anything Model)从静态图像分割扩展到视频分割带来了重大挑战。该论文主要解决了两个主要问题：a)SAM在关联跨帧对象时的嵌入限制，以及b)对象分割的粒度不一致性。为此，该论文提出了VideoSAM,一个端到端的框架，通过改进动态环境中的对象跟踪和分割一致性来解决这些问题。VideoSAM集成了一个聚合骨干网络RADIO,通过相似度度量进行对象关联，并引入了带有记忆机制的Cycle-ack-Pairs传播以实现稳定的对象跟踪。此外，该论文在SAM解码器中引入了自回归的对象令牌机制，以保持跨帧的一致性粒度。该论文的方法在UVO和BURST基准测试以及RoboTAP的机器人视频上进行了广泛的评估，证明了其在实际场景中的有效性和鲁棒性。所有代码都将提供。

地址：https://arxiv.org/pdf/2410.08781

23. 揭秘与缓解视觉语言模型的“安全对齐”退化问题

标题：Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

机构：Amazon、AWS AI Labs

相关领域：模型结构改进、多模态

作者：Qin Liu, Chao Shang, Ling Liu

分析：这篇论文研究了视觉语言模型（VLMs）中的“安全对齐”退化现象。研究发现，与文本语言模型（LLM）相比，引入视觉模块后，VLMs的安全对齐能力容易退化。挑战在于多模态输入表示与仅文本输入表示之间存在差距，这导致LLM的原始优化分布发生变化。同时，LLM原本在文本嵌入空间中开发的安全对齐能力未能成功转移到新的多模态表示空间中。为了解决这个问题，论文提出了一种名为跨模态表示操纵（CMRM）的方法，这是一种在推理时间恢复VLMs内在安全对齐能力的方法，同时保持VLMs的功能性。该方法显著恢复了从LLM继承的对齐能力，对预训练的VLMs的流畅性和语言功能影响最小，即使在无需额外训练的情况下也是如此。

地址：https://arxiv.org/pdf/2410.09047

24. VIBES -- 视觉骨干高效选择

标题：VIBES -- Vision Backbone Efficient Selection

机构：麻省理工学院、乔治亚理工学院

相关领域：模型结构改进

作者：Joris Guerin, Shray Bansal, Amirreza Shaban

分析：该工作解决了从现有预训练视觉骨干网络中高效选择适合特定任务的骨干网络的挑战。尽管对有限数量的骨干网络进行彻底搜索可以解决这个问题，但对于大型数据集和骨干网络池，这种方法变得不可行。为了解决这个问题，该论文引入了视觉骨干高效选择（VIBES），旨在快速找到适合的骨干网络，从而可能以效率换取最佳性能。该论文提出了几项简单而有效的方法来应对VIBES，并在四个不同的计算机视觉数据集上进行了评估。该论文的结果表明，这些方法即使在单GPU上的一个小时的有限搜索预算内，也能识别出优于从通用基准中选择的骨干网络。该论文认为，VIBES标志着从基准测试向特定任务优化的转变。

地址：https://arxiv.org/pdf/2410.08592

25. 语言模型开发者应报告训练与测试重叠情况

标题：Language model developers should report train-test overlap

机构：斯坦福大学

相关领域：模型评估

作者：Andy K Zhang, Kevin Klyman, Yifan Mai

分析：这篇论文关注语言模型的评估问题，强调在评估语言模型时需要考虑到训练与测试数据的重叠情况。目前大多数语言模型没有公开训练与测试重叠的统计数据，第三方也无法直接测量，导致评估结果难以被准确理解。论文呼吁语言模型开发者公开相关的统计数据或训练数据，以提高评估的透明度，增加社区对模型评价的信任度。

地址：https://arxiv.org/pdf/2410.08385

26. Flex-MoE：灵活建模任意模态组合的方法研究

标题：Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts

机构：北卡罗来纳大学、宾夕法尼亚大学、中国科学技术大学

相关领域：多模态

作者：Sukwon Yun, Inyoung Choi, Jie Peng

分析：针对现有模型在处理任意模态组合时存在的局限性，提出了一种新的框架Flex-MoE。它通过灵活的混合专家模型来建模任意模态组合，同时能够应对缺失数据的情况。通过使用缺失模态银行和稀疏MoE框架，Flex-MoE能够灵活适应不同的模态组合输入。论文通过实验验证了Flex-MoE在多种模态缺失场景下的有效性。

地址：https://arxiv.org/pdf/2410.08245

代码：https://github.com/UNITES-Lab/flex-moe

27. 大模型的最优降采样

标题：Optimal Downsampling for Imbalanced Classification with Generalized Linear Models

机构：斯坦福大学、Duke University

作者：Yan Chen, Jose Blanchet, Krzysztof Dembczynski

分析：这篇论文探讨了使用广义线性模型(GLMs)进行不平衡分类时最优的降采样方法。该论文提出了一个伪最大似然估计器，并研究了在样本大小与不平衡程度相对增加的情况下其渐近正态性。该论文为引入的估计器提供了理论保证。此外，该论文使用一种兼顾统计准确性和计算效率的标准来计算最优的降采样率。该论文的数值实验在合成数据和实际数据上进行了验证，进一步证明了该论文理论结果的有效性，并表明所提出的估计器优于常见的替代方法。

地址：https://arxiv.org/pdf/2410.08994

28. 参数高效的微调状态空间模型

标题：Parameter-Efficient Fine-Tuning of State Space Models

机构：首尔国立大学

相关领域：自然语言处理

作者：Kevin Galim, Wonjun Kang, Yuchen Zeng

分析：深度状态空间模型(SSMs),如Mamba(Gu & Dao,2024),已成为强大的语言建模工具,提供了高效的推断和线性缩放。然而,将参数高效的微调(PEFT)方法应用到基于SSM的模型上仍然是一个未探索的领域。本文旨在系统地研究两个关键问题:(i)现有PEFT方法在基于SSM的模型上的表现如何?(ii)哪些模块是最有效的进行微调?本文在基于SSM的模型上开展了四种类型的基本PEFT方法的实证基准。研究结果发现针对提示的微调方法(如前缀微调)已不再有效,应用引导的方法仍有效,也得到了理论分析的支持。该论文将引导(LoRA)方法应用于线性投影矩阵,而未对SSM模块进行修改,表明其在性能上优于标准引导。为了进一步提高性能,本文引入了选择性维度调优(SDLoRA),它在执行引导(LoRA)对线性投影矩阵进行微调的同时,选择性地更新SSM模块中的某些通道和状态。大量实验结果显示,采用这种方法的最高性能超过了SDLoRA。

地址：https://arxiv.org/pdf/2410.09016

29. ZipVL: 高效能的大视觉语言模型设计，通过动态令牌稀疏化和平庸键值（KV）缓存压缩

标题：ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

机构：浙江大学、阿德莱德大学、上海AI实验室

相关领域：模型结构改进、内存优化

作者：Yefei He, Feng Chen, Jing Liu

分析：这篇论文提出了ZipVL框架，旨在提高大型视觉语言模型（Vision-Language Models, VLM）的推理效率，特别是在处理高分辨率的图像或视频场景时。它通过动态令牌稀疏化和键值缓存压缩策略，解决了模型在预测阶段（prefill phase）的计算瓶颈和在解码阶段（decoding phase）的内存瓶颈。论文提出了一种动态令牌比例分配策略，该策略基于每一层的注意力得分分布来确定重要性，从而提高模型的效率，并减少了GPU内存使用量，同时保持了较高的准确性。

地址：https://arxiv.org/pdf/2410.08584

30. 扩散模型需要视觉先验来进行图像生成

标题：Diffusion Models Need Visual Priors for Image Generation

机构：牛津大学、上海AI实验室

相关领域：模型结构改进、视觉领域应用

作者：Xiaoyu Yue, Zidong Wang, Zeyu Lu

分析：这篇论文提出了一种新的多阶段生成框架，称为“扩散上的扩散”（DoD），来解决传统类指导扩散模型在纹理细节上的不足。通过引入视觉先验，该框架在扩散采样的早期阶段就提供了丰富的指导信息。具体来说，论文介绍了一种潜在嵌入模块，采用压缩重建方法来丢弃条件样本中的冗余细节信息，只保留语义信息用于指导。评估结果表明，该框架在ImageNet-256×256数据集上的性能优于其他方法，并且训练成本降低了7倍。

地址：https://arxiv.org/pdf/2410.08531

31. 3D-Adapter: 一种一息生生成的三维生成对抗网络方法

标题：One-shot Generative Domain Adaptation in 3D GANs

机构：南京大学、中国科学技术大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2410.08824

代码：https://github.com/iceli1007/3D-Adapter

32. Beyond GFVC：具有自适应视觉令牌的渐进式面部视频压缩框架

标题：Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens

机构：香港城市大学

相关领域：模型结构改进、预训练、指令微调、自适应视觉令牌

地址：https://arxiv.org/pdf/2410.08485

代码：https://github.com/Berlin0610/PFVC

33. AgroGPT：利用专家调优的高效农业视觉语言模型

标题：AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning

机构：乔治亚理工学院、MBZUAI大学、约翰霍普金斯大学

相关领域：模型结构改进、指令微调、多模态

地址：https://arxiv.org/pdf/2410.08405

代码：https://github.com/awaisrauf/agroGPT

34. DiffPO：因果扩散模型在潜在结果分布学习中的应用

标题：DiffPO: A causal diffusion model for learning distributions of potential outcomes

机构：慕尼黑大学、慕尼黑机器学习中心

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.08924

35. Chain-of-Restoration：多任务图像恢复模型是零样本按步恢复的通用图像恢复器

标题：Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers

机构：西安交通大学

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2410.08688

代码：https://github.com/toummHus/Chain-of-Restoration

36. Humanity in AI：检测大模型的个性

标题：Humanity in AI: Detecting the Personality of Large Language Models

机构：约翰霍普金斯大学

相关领域：模型评估, 数据集构建, 指令微调

地址：https://arxiv.org/pdf/2410.08545

37. 避免扩散模型其微调中模态塌陷

标题：Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning

机构：帝国理工学院

地址：https://arxiv.org/pdf/2410.08315

38. E-Motion：基于事件序列扩散的未来动作模拟

标题：E-Motion: Future Motion Simulation via Event Sequence Diffusion

机构：香港城市大学、西安电子科技大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.08649

39. LLaMA3的ViT3D对齐：医学图像报告自动生成

标题：ViT3D Alignment of LLaMA3: 3D Medical Image Report Generation

机构：伯明翰大学、帝国理工学院、伦敦玛丽女王大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2410.08588

40. 理解大模型中参数知识和上下文知识的交互作用

标题：Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models

机构：亚利桑那大学、加利福尼亚大学

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2410.08414

代码：https://github.com/sitaocheng/Knowledge

41. MedMobile：具有专家级临床能力的移动端语言模型

标题：MedMobile: A mobile-sized language model with expert-level clinical capabilities

机构：德克萨斯大学

相关领域：模型结构改进、预训练、指令微调、模型评估

地址：https://arxiv.org/pdf/2410.09019

42. 检测AI生成的多模态真实新闻

标题：MiRAGeNews: Multimodal Realistic AI-Generated News Detection

机构：宾夕法尼亚大学

相关领域：模型结构改进、数据集构建、多模态检测

地址：https://arxiv.org/pdf/2410.09045

43. Superpipeline：降低大型模型在有限资源硬件上运行时的GPU内存使用率的通用方法

标题：Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models

相关领域：模型优化、多模态

地址：https://arxiv.org/pdf/2410.08791

代码：https://github.com/abbasiReza/super-pipeline

44. QEFT：高效微调大模型的量化技术

标题：QEFT: Quantization for Efficient Fine-Tuning of LLMs

相关领域：模型优化、模型蒸馏

地址：https://arxiv.org/pdf/2410.08661

代码：https://github.com/xvyaward/qeft

45. KinDEL：针对激酶抑制剂的DNA编码库数据集

标题：KinDEL: DNA-Encoded Library Dataset for Kinase Inhibitors

相关领域：数据集构建

地址：https://arxiv.org/pdf/2410.08938

代码：https://github.com/insitro/kindel

46. 模型感知 TVM 基础的异构边设备部署

标题：MATCH: Model-Aware TVM-based Compilation for Heterogeneous Edge Devices

机构：都灵理工大学、博洛尼亚大学

地址：https://arxiv.org/pdf/2410.08855

47. AI生成图像和视频质量预测：新兴趋势和机遇

标题：Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities

机构：德克萨斯州奥斯汀大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.08534

48. FusionSense:融合常识、视觉和触觉进行鲁棒稀疏视图重建

标题：FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction

机构：伊利诺伊大学

相关领域：大模型

地址：https://arxiv.org/pdf/2410.08282

49. Wikimedia data for AI：对维基百科NLP任务和AI辅助编辑的数据集进行综述

标题：Wikimedia data for AI: a review of Wikimedia datasets for NLP tasks and AI-assisted editing

相关领域：大模型

地址：https://arxiv.org/pdf/2410.08918

50. 从N-grams到预训练多语种模型：语言识别的应用

标题：From N-grams to Pre-trained Multilingual Models For Language Identification

相关领域：模型结构改进、预训练、多模态

地址：https://arxiv.org/pdf/2410.08728

51. 基于思维链的Transformer模型解决奇偶校验问题的理论研究

标题：Transformers Provably Solve Parity Efficiently with Chain of Thought

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2410.08633

52. The Impact of Visual Information in Chinese Characters：评估大型模型识别和使用偏旁部首的能力

标题：The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals

机构：罗格斯大学、乔治亚理工学院

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.09013

53. 合成数据潜力的最大化：来自随机矩阵理论的见解

标题：Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory

机构：阿布扎比科技创新研究所

相关领域：数据集构建

地址：https://arxiv.org/pdf/2410.08942

54. 基于Mamba的模型强化学习：样本和参数效率的提高

标题：Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient

相关领域：模型结构改进、RLHF

地址：https://arxiv.org/pdf/2410.08893

代码：https://github.com/realwenlongwang/drama.git

55. MUSO：在大参数化区域实现精确机器反学习

标题：MUSO: Achieving Exact Machine Unlearning in Over-Parameterized Regimes

机构：上海交通大学

相关领域：模型结构改进、模型蒸馏

地址：https://arxiv.org/pdf/2410.08557

56. 探究大模型在构建多步骤自然语言推理证明结构中的作用

标题：Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models

机构：英国女王大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2410.08436

57. 不修改代码，而是编码转换：利用LLM实现精确的代码重写

标题：Don't Transform the Code, Code the Transforms: Towards Precise Code Rewriting using LLMs

相关领域：模型结构改进、指令微调

地址：https://arxiv.org/pdf/2410.08806

58. OpenGPT-X模型家族的数据处理概览

标题：Data Processing for the OpenGPT-X Model Family

相关领域：数据集构建

地址：https://arxiv.org/pdf/2410.08800

59. Mycroft: 通向有效的和高效的对外部数据进行扩充的方法

标题：MYCROFT: Towards Effective and Efficient External Data Augmentation

相关领域：模型评估

地址：https://arxiv.org/pdf/2410.08432

60. 大模型的token空间结构研究

标题：The structure of the token space for large language models

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2410.08993

好啦，小编今天的分享就到这里啦，欢迎留言讨论哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486458&idx=1&sn=66df6204298e81caeda6f8c85efc6f1b

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI