前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 大模型微调的终极指南:从基础到突破的详尽综述
标题:The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan
分析:本报告详细探讨了大型语言模型(LLMs)的微调,结合理论与实践应用。它概述了从传统的自然语言处理(NLP)模型到LLM在人工智能中的关键角色的历史演变。比较了微调方法,包括监督、无监督和指令式方法,强调它们对不同任务的适用性。报告引入了一个结构化的七阶段流程进行LLMs微调,涵盖数据准备、模型初始化、超参数调整和模型部署。重点关注管理不平衡数据集和优化技术。介绍了参数效率方法如低秩适应(LoRA)和半微调以平衡计算效率与性能。讨论了利用专门网络和多代理协作的高级技术,如混合专家(MoE)和混合代理(MoA)。报告还探讨了新颖的方法,如近端策略优化(PPO)和直接偏好优化(DPO),将LLMs与人类偏好对齐,同时讨论剪枝和路由优化以提高效率。进一步的章节涵盖验证框架、部署后监控和推理优化,注重在分布式和基于云的平台上部署LLMs。新兴领域如多模态LLMs、音频和语音微调以及与可扩展性、隐私和问责制相关的挑战也被讨论。本报告为研究者和实践者在不断发展的LLM微调领域提供了实用的建议。
地址:https://arxiv.org/pdf/2408.13296
2. 链式思维提示方法的统计基础揭秘
标题:Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods
机构:新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Xinyang Hu, Fengzhuo Zhang, Siyu Chen
分析:这篇论文主要从统计的角度对链式思维提示(CoT)的方法进行了深入的研究和分析。该方法被广泛用于解决多步推理问题,利用预训练的大型语言模型作为工具。研究者们提出了一个多步潜在变量模型来描述推理过程,并证明了当预训练数据集足够大时,由链式思维提示形成的估计器等价于贝叶斯估计器。这使得估计器能够通过聚合来自提示中的演示样本的后验分布来有效地解决多步推理问题。此外,研究者还分析了链式思维提示估计器的统计误差,将其分解为两部分:一部分是由链式思维提示推断真实任务引起的提示误差,另一部分是预训练大型语言模型的统计误差。他们进一步证明,在适当的假设下,提示误差会随着演示样本数量的增加而呈指数衰减到零。此外,他们还明确地刻画了预训练大型语言模型的近似误差和泛化误差。他们的分析扩展到了其他链式思维提示变体,包括自一致链式思维提示、树形思维提示和选择-推理链式思维提示,提供了对这些方法有效性的广泛视角。他们还通过数值实验验证了理论发现。
地址:https://arxiv.org/pdf/2408.14511
3. 探索合成数据替代真实数据潜力
标题:Exploring the Potential of Synthetic Data to Replace Real Data
机构:马里兰大学
相关领域:数据集构建、评估指标
作者:Hyungtae Lee, Yan Zhang, Heesung Kwon
分析:该论文探讨了合成数据在AI领域的应用潜力,特别是在训练过程中,当使用少量真实数据与合成数据进行结合时的效果。论文发现这种潜力受到跨领域真实数据数量和测试集的影响。作者提出了train2test距离和AP_t2t两个新指标,用于评估合成数据在跨领域训练集上表现的能力。通过这些新指标,论文进一步分析了影响合成数据潜力的因素,并揭示了合成数据对训练性能的影响机制。
地址:https://arxiv.org/pdf/2408.14559
4. 1-Bit FQT:将全量化训练极限推到极致
标题:1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit
机构:清华大学、北京交通大学
相关领域:模型评估
作者:Chang Gao, Jianfei Chen, Kang Zhao
分析:该论文尝试探索全量化训练(FQT)的极限,即实现最低精度的全量化训练。论文基于Adam和SGD进行了理论分析,揭示梯度方差对FQT收敛的影响。提出一种激活梯度修剪(AGP)策略,通过修剪信息量较少的梯度并增强剩余梯度的数值精度来减轻梯度方差。同时,论文提出样本通道联合量化(SCQ),确保方法在低位宽硬件上友好运行。该算法对VGGNet-16和ResNet-18进行微调,平均准确率提高约6%,训练速度最大可提高至全精度训练的5.13倍。
地址:https://arxiv.org/pdf/2408.14267
5. 实践者指南:持续多模态预训练
标题:A Practitioner's Guide to Continual Multimodal Pretraining
机构:剑桥大学、慕尼黑工业大学、慕尼黑黑尔姆霍兹中心
相关领域:预训练、多模态
作者:Karsten Roth, Vishaal Udandarao, Sebastian Dziadzio
分析:这篇论文关注多模态预训练模型的持续更新问题。论文介绍了一个持续多模态预训练基准测试平台,为有效更新模型提供了综合指导。同时,论文还从数据、方法、学习率调度和模型计算扩展等多个角度,探讨了实际持续预训练中的复杂问题。
地址:https://arxiv.org/pdf/2408.14471
代码:https://github.com/ExplainableML/fomo_in_flux
6. Smaller, Weaker, Yet Better:通过计算最优采样训练LLM推理器
标题:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
机构:加州大学、Google DeepMind
相关领域:模型蒸馏、数据集构建
作者:Hritik Bansal, Arian Hosseini, Rishabh Agarwal
分析:本文探讨了在高质量合成数据训练下,强化语言模型(SE)与弱化语言模型(WC)在不同计算预算下的训练策略。研究发现,虽然WC模型产生的数据具有更高的覆盖率和多样性,但同时也存在较高的误报率。通过在不同的训练场景下(如知识蒸馏、自我改进和弱到强训练设置)对模型进行微调,结果显示使用WC数据生成的模型在多个基准测试中表现优于使用SE数据生成的模型。这一发现挑战了传统依赖SE模型生成合成数据的做法。
地址:https://arxiv.org/pdf/2408.16737
7. Generative Verifiers:将奖励建模作为下一个令牌预测
标题:Generative Verifiers: Reward Modeling as Next-Token Prediction
机构:加州大学、多伦多大学、Google DeepMind
相关领域:奖励模型、模型评估
作者:Lunjun Zhang, Arian Hosseini, Hritik Bansal
分析:这篇论文提出了一种新的验证器训练方法,利用大型语言模型的文本生成能力,通过下一个令牌预测目标进行训练。该验证器不仅可以提高推理性能,还可以无缝集成指令调整,支持链式思维推理,并通过多数投票进行更好的验证。在算法和小学数学推理任务上的实验表明,该方法优于传统的验证器和大型模型评判方法。
地址:https://arxiv.org/pdf/2408.15240
8. 基于扩散模型的实时游戏引擎
标题:Diffusion Models Are Real-Time Game Engines
机构:谷歌研究院、特拉维夫大学、Google DeepMind
相关领域:模型结构改进、预训练、模型评估
作者:Dani Valevski, Yaniv Leviathan, Moab Arar
分析:该论文提出了一种全新的游戏引擎GameNGen,它完全由神经网络模型驱动,可实现与复杂环境的高质量实时交互。GameNGen能在单个TPU上以超过每秒20帧的速度模拟经典游戏DOOM。其预测下一帧的能力达到了与有损JPEG压缩相当的PSNR值,人类评估者很难区分游戏片段和模拟片段。GameNGen的训练分为两个阶段:首先是RL-agent学习游戏,并记录训练会话;然后是训练扩散模型以基于过去的帧序列和动作生成下一帧。通过条件增强,实现了长期轨迹的稳定自回归生成。
地址:https://arxiv.org/pdf/2408.14837
9. WavTokenizer:音频语言模型中的高效声学离散码字分词器
标题:WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
机构:浙江大学、FAIR、阿里巴巴集团
作者:Shengpeng Ji, Ziyue Jiang, Xize Cheng
分析:这篇论文主要介绍了一种名为WavTokenizer的音频语言模型中的高效声学离散码字分词器。它在音频领域相较于先前的最先进模型具有几个优点:1)极高的压缩比,通过压缩量化器和离散码字的时间维度,24kHz采样率的一秒音频只需一个具有40或75个标记的量化器。2)改进的主观质量,尽管标记数量减少,但WavTokenizer在重建质量上实现了最先进的水平,并且内在包含更丰富的语义信息。为了实现这些结果,作者设计了一个更广泛的VQ空间,扩展了上下文窗口,并改进了注意力网络,引入了一个强大的多尺度判别器和一种逆傅里叶变换结构。他们在语音、音频和音乐等领域进行了广泛的重建实验,WavTokenizer在各种客观和主观指标上与最先进的模型相比表现出强大的性能。他们还测试了语义信息、VQ利用率和生成模型的适应性。全面的消融研究证实了WavTokenizer中每个模块的必要性。相关代码、演示和预训练模型可以在https://github.com/jishengpeng/WavTokenizer找到。
地址:https://arxiv.org/pdf/2408.16532
代码:https://github.com/jishengpeng/WavTokenizer
10. 语言模型在解决小学数学问题上的错误纠正
标题:Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems
机构:FAIR、MBZUAI大学
相关领域:预训练
作者:Tian Ye, Zicheng Xu, Yuanzhi Li
分析:这篇论文主要探讨了如何通过直接在预训练阶段使用包含错误纠正步骤的数据来提高语言模型在解决推理任务中的准确性。这种数据集由错误的解题步骤紧接着其纠正步骤组成。使用合成的数学数据集进行实验,结果显示,与只使用无错误数据进行预训练相比,使用包含错误纠正步骤的数据可以直接提高语言模型的推理准确性(即,通过简单的自动回归,而无需多轮提示)。此外,论文还详细讨论了许多相关问题,如这种方法与束搜索的区别、如何准备此类数据、是否需要对错误标记进行遮盖、所需的错误量以及此类数据是否可以推迟到微调阶段等。
地址:https://arxiv.org/pdf/2408.16293
11. 数据格式化器2:使用AI迭代创建丰富的可视化
标题:Data Formulator 2: Iteratively Creating Rich Visualizations with AI
机构:微软研究院
作者:Chenglong Wang, Bongshin Lee, Steven Drucker
分析:为了创建丰富的可视化,数据分析师通常需要在数据处理和图表规范之间来回迭代,以实现他们的目标。然而,最近的LLM驱动的AI系统已经大大改进了可视化创作体验,例如通过LLM的代码生成能力来缓解手动数据转换障碍。但是,这些系统对于迭代可视化创作并不适用,因为它们通常需要用户在一个回合中提供完全描述要执行的复杂可视化任务的纯文本提示,这在许多情况下对用户和模型来说都是不现实的。本文提出了一种名为数据格式化器2的LLM驱动的可视化系统,旨在解决这些挑战。数据格式化器2允许用户通过混合UI和自然语言输入描述他们的可视化意图,并将数据转换委托给AI。为了支持迭代,数据格式化器2让用户导航他们的迭代历史记录并重用以前的设计来创建新的设计,这样他们就不必每次都从头开始。在一项与八名参与者的用户研究中,该论文观察到数据格式化器2使参与者能够制定自己的迭代策略来完成具有挑战性的数据分析会话。
地址:https://arxiv.org/pdf/2408.16119
12. 大模型在代码生成任务中的评估综述
标题:A Survey on Evaluating Large Language Models in Code Generation Tasks
机构:北京大学、微软亚洲研究院
相关领域:机器学习
作者:Liguo Chen, Qi Guo, Hongrui Jia
分析:本文对当前用于评估大语言模型(LLMs)在代码生成任务中性能的方法和指标进行了综合阐述。随着自动化软件开发需求的迅速增长,LLMs在代码生成领域表现出巨大的潜力。文章首先概述了LLMs的历史发展及其在代码生成中的应用。接着详细解析了评估LLMs代码生成能力的方法和指标,包括代码正确性、效率、可读性以及基于专家评审和用户体验的评估方法。文章还考察了广泛使用的基准数据集,识别出其局限性并提出改进方向。具体而言,文章通过结合多个评价指标,如代码编译/解释成功率、单元测试通过率、性能和效率指标,来全面评估LLMs在代码生成任务中的应用实际效果。此外,文章还讨论了在评估LLMs代码生成过程中面临的挑战,如确保评价方法全面和准确以及适应软件开发变化的实践。这些分析与讨论为优化和提升LLMs在代码生成任务中的应用提供了宝贵见解。
地址:https://arxiv.org/pdf/2408.16498
13. K-Sort Arena:基于K-wise人类偏好的高效和可靠的大模型评估平台
标题:K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
机构:UC伯克利分校、中国科学院自动化研究所
相关领域:模型评估
作者:Zhikai Li, Xuewen Liu, Dongrong Fu
分析:本文介绍了一种名为K-Sort Arena的新平台,旨在高效、可靠地评估视觉生成模型。该平台通过K-wise比较,利用图像和视频的高度感知直观性,允许多个模型同时进行比较,以提升评估效率。论文还提出了一种基于概率模型和贝叶斯更新的稳健性增强方法,并通过一个高效的信息收集策略提高匹配信息的丰富性。实验表明,K-Sort Arena比ELO算法快16.3倍收敛,能快速融入新型模型并更新排行榜。
地址:https://arxiv.org/pdf/2408.14468
代码:https://huggingface.co/spaces/ksort/K-Sort-Arena
14. CogVLM2:视觉语言模型
标题:CogVLM2: Visual Language Models for Image and Video Understanding
机构:清华大学
相关领域:视觉语言模型、图像理解、视频理解
作者:Wenyi Hong, Weihan Wang, Ming Ding
分析:CogVLM2是一种新的视觉语言模型,旨在提高图像和视频理解的能力。它继承了VisualGLM和CogVLM的视觉专家架构,并进行了改进。作为图像理解模型,CogVLM2在预训练和后训练阶段都有优化的训练食谱,支持高达$1344 imes 1344$像素的输入分辨率。作为视频理解模型,CogVLM2-Video集成了多帧输入和时间戳,并提出了自动构建时间基底数据的方法。该系列模型已在多个基准测试上实现了最先进的结果。
地址:https://arxiv.org/pdf/2408.16500
代码:https://github.com/THUDM/CogVLM2; https://github.com/THUDM/CogVLM2,
15. LeMON:预训练与精细化调整策略
标题:LeMON: Learning to Learn Multi-Operator Networks
机构:加州大学、卡内基梅隆大学、佛罗里达州立大学
相关领域:模型结构改进、预训练
作者:Jingmin Sun, Zecheng Zhang, Hayden Schaeffer
分析:论文研究多算子学习在偏微分方程(PDE)求解中的应用。通过预训练和精细化调整策略,提出一种能够预测多种算子的模型。该模型能够利用多样化的PDE家族数据进行预训练,并在面对新PDE时通过少量样本进行微调,从而实现零样本预测和参数初始化优化。此外,还探索了低秩适应方法来提高求解精度并降低计算成本。研究展示了模型在广泛适应PDE求解任务方面的潜力。
地址:https://arxiv.org/pdf/2408.16168
16. Power Scheduler:与批大小和令牌数量无关的学习率调度器
标题:Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler
机构:IBM研究院
相关领域:预训练、模型评估(性能优化)
作者:Yikang Shen, Matthew Stallone, Mayank Mishra
分析:本文研究了最优学习率、批大小和训练令牌数量之间的关系,并提出了一个新的学习率调度器——功率调度器,该调度器对训练令牌数量和批大小具有鲁棒性。通过结合功率调度器和最大更新参数化,可以在不同的训练令牌数量、批大小、模型大小和模型架构下实现稳定的性能。实验表明,使用功率调度器训练的3B稠密模型和MoE模型可以达到与先进的小型语言模型相当的性能。
地址:https://arxiv.org/pdf/2408.13359
代码:https://ibm.biz/BdKhLa
17. DocLayLLM:高效的多模态扩展大模型用于富文本文档理解
标题:DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
机构:华南理工大学、阿里巴巴集团
相关领域:多模态、模型结构改进(整合视觉和文本信息)、预训练(CoT预训练技术)
作者:Wenhui Liao, Jiapeng Wang, Hongliang Li
分析:这篇论文介绍了一种高效的多模态扩展大型语言模型DocLayLLM,专门用于富文本文档理解。它通过整合视觉补丁令牌和二维位置令牌到大型语言模型中,利用这些模型本身的文档理解能力并增强其对OCR信息的感知。同时,论文深入考虑了思维链的作用,并创新性地提出了思维预训练和思维退火技术。实验结果表明,DocLayLLM在轻量级训练设置下取得了显著的性能,超越了现有的OCR依赖方法和OCR免费竞争对手。
地址:https://arxiv.org/pdf/2408.15045
18. Platypus:一种用于阅读各种形式文本的通用专家模型
标题:Platypus: A Generalized Specialist Model for Reading Text in Various Forms
机构:阿里巴巴集团
相关领域:模型结构改进、数据集构建
作者:Peng Wang, Zhaohai Li, Jun Tang
分析:这篇论文提出了一种名为Platypus的通用专家模型,用于阅读各种形式的文本。该模型结合了专业模型和通用模型的优点,能够在单一架构中识别各种形式的文本,同时实现卓越准确性和高效率。论文还构建了一个名为Worms的文本阅读数据集,以更好地利用Platypus模型的优势。该数据集的图片来自先前数据集并部分重新标注。实验结果表明,Platypus模型在标准基准测试上的有效性和优越性。
地址:https://arxiv.org/pdf/2408.14805
代码:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus
19. 多模态大模型语义对齐研究
标题:Semantic Alignment for Multimodal Large Language Models
机构:浙江大学、阿里巴巴集团、新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Tao Wu, Mengze Li, Jingyuan Chen
分析:论文主要研究了多模态大型语言模型(MLLM)在多图像跨模态指令任务中的应用,尤其是对于相似图片的描述(如更改描述)。现有的MLLM通常采用两步流程:首先独立地为每个输入图片提取视觉token,然后将这些视觉token与LLM在文本特征空间中进行对齐。然而,独立提取每个图片的视觉token可能导致第一个步骤中不同图片的语义被优先考虑,导致后续LLM分析中图片之间的链接信息丢失。特别是当图片之间存在显著差异(如视觉故事讲述)时,这个问题会更严重。本文提出了多模态大型语言模型的语义对齐方法(SAM),通过在视觉token提取过程中引入双向语义指导,以增强对齐不同图片之间的语义,并在将其输入到LLM之前保存图片之间的链接信息。作为测试平台,该论文提出了一个包含69K样本的大型多模态指令集,MmLINK,与现有的MLLM精细调优数据集不同,MmLINK数据集包含多样化的图片和多模态指令。在包括群组描述和故事讲述在内的任务中,SAM模型在CIDEr分数上的表现超越了当前最好的方法,在组描述任务上提高了37%,在讲故事任务上提高了22%。
地址:https://arxiv.org/pdf/2408.12867
代码:https://mccartney01.github.io/SAM
20. Hand1000: 仅使用1000张图片生成逼真的手图像
标题:Hand1000: Generating Realistic Hands from Text with Only 1,000 Images
机构:北京大学、新加坡管理大学、中国科学技术大学
相关领域:模型结构改进、预训练、数据集构建、评估指标
作者:Haozhuo Zhang, Bin Zhu, Yu Cao
分析:文本图像生成模型近年来取得了显著的进步,旨在从文本描述生成逼真的图像。然而,这些模型经常遇到生成解剖学准确的人手图像的难题。生成的图像经常出现手指数量错误、手指不自然扭转或交缠,或手图像模糊不清的问题。这些问题源于手的结构复杂性以及文本描述与精确的手图像表示对齐的难度。为了解决这些问题,该论文提出了一种名为Hand1000的新方法,它能够使用仅1000个训练样本生成逼真的人手图像。Hand1000的训练分为三个阶段。第一阶段旨在通过使用预训练的手势识别模型来增强模型对解剖学手部知识的理解,提取手势表示。第二阶段通过结合提取的手势表示进一步优化文本嵌入,以提高文本描述和生成的手图像之间的对齐度。第三阶段使用优化后的嵌入进行稳定扩散模型的微调,生成逼真的人手图像。此外,该论文还构建了首个专门为文本到手图像生成设计的公开数据集。基于现有的手势识别数据集,该论文采用高级图像captioning模型和LLaMA3生成丰富的文本描述,包括详细的动作信息。广泛的实验表明,Hand1000在产生解剖学正确的手图像并在其上忠实地代表其他文本细节方面显著超越了现有的模型,如脸部、服装和颜色。
地址:https://arxiv.org/pdf/2408.15461
21. CustomCrafter:通过保持运动和概念组合能力的视频生成
标题:CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
机构:浙江大学、腾讯AI实验室
相关领域:视频生成、多模态模型、概念组合、运动修复
作者:Tao Wu, Yong Zhang, Xintao Wang
分析:本论文提出了一种名为CustomCrafter的新框架,用于自定义视频生成,解决了现有方法在融合概念和保留视频动态能力方面的挑战。通过设计插件式模块和动态加权视频抽样策略,它既保持了视频模型的运动生成能力,又能适应新主体的外观细节,且无需额外视频或重调。实验表明方法优越于先前方法。
地址:https://arxiv.org/pdf/2408.13239
22. LalaEval:领域特定大模型的全人类评估框架介绍
标题:LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models
机构:香港中文大学
相关领域:模型评估、数据集构建
作者:Chongyan Sun, Ken Lin, Shiwei Wang
分析:这篇论文介绍了一个针对特定领域的大型语言模型(LLM)进行全面人类评估的框架——LalaEval。它提出了一系列端到端的协议,涵盖领域指定、标准制定、基准数据集创建、评估标准的构建以及评估结果的全面分析和解读。该框架旨在填补特定领域内标准化人类评估的研究空白,并为领域特定的LLM评估和选择提供指导。论文展示了该框架在物流行业的应用,展示了其实际效用和贡献。
地址:https://arxiv.org/pdf/2408.13338
23. 利用开放知识推进大模型任务专精
标题:Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models
机构:腾讯、上海交通大学
相关领域:大模型
作者:Yuncheng Yang, Yulei Qin, Tong Wu
分析:这篇论文主要探讨了如何利用开放知识(包括低秩适应模型和指令数据集)来提高大型语言模型的任务专精性。为了避免手动准备指导数据集和训练资源带来的巨大成本,作者提出了一种有效的、可扩展的管道,以经济高效的方式产生任务专家。通过引入少量人工标注样本(即k-shot),该方法可以在利用开放知识的同时,弥合大型语言模型在特定领域部署中的知识差距。具体来说,作者开发了一个高效的、可扩展的流程,以经济高效的方式产生任务专家,其中k-shot数据在选择最有希望的专家候选者和与任务相关的指令方面起着关键作用。通过构建混合专家系统(MoE),作者成功地实现了在多个专家之间充分利用个体但互补的知识。作者揭示了MoE系统的两个关键成功因素:1)遵循k-shot;2)坚持多样性。对于前者,作者确保选择了真正具有k-shot问题解决能力的模型,而不是那些盲目猜测的模型。此外,在数据选择过程中,与k-shot共享任务相关上下文的指令被优先考虑。对于后者,作者强调构成专家的多样性以及在整个模型和数据选择过程中微调指令的多样性。
地址:https://arxiv.org/pdf/2408.15915
24. DOMAINEVAL: 一个自构造的多领域代码生成基准
标题:DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation
机构:香港科技大学、中国科学院大学
相关领域:代码生成、模型评估、数据集构建
作者:Qiming Zhu, Jialun Cao, Yaojie Lu
分析:这篇论文提出了一种名为DOMAINEVAL的自构造多领域代码生成基准,用以全面评估大语言模型的代码能力。它研究了12个代表性模型在六个流行领域的表现,发现了模型在计算任务上的普遍擅长,而在密码学和系统编程任务上的不足。研究还发现,生成的样本越多,模型的整体表现可能提高,但域偏置可能增加。
地址:https://arxiv.org/pdf/2408.13204
代码:https://domaineval.github.io/
25. 粤语NLP能走多远?大模型粤语能力的基准测试
标题:How Far Can Cantonese NLP Go? Benchmarking Cantonese Capabilities of Large Language Models
机构:香港大学、香港中文大学
相关领域:模型评估、数据集构建
作者:Jiyue Jiang, Liheng Chen, Pengan Chen
分析:本文关注粤语自然语言处理的发展状况,特别是在大语言模型方面的应用。文章指出,虽然粤语有庞大的使用人群,但在NLP研究中却鲜有涉及。文章旨在建立新的基准测试,以评估大语言模型在粤语方面的表现,包括事实生成、数学逻辑、复杂推理和通用知识等方面。同时,文章也提出了未来的研究方向和推荐的模型,以推动粤语大语言模型的发展。
地址:https://arxiv.org/pdf/2408.16756
26. 基于令牌级别奖励函数估计的选择性偏好优化
标题:Selective Preference Optimization via Token-Level Reward Function Estimation
机构:百度、曼彻斯特大学
相关领域:模型结构改进、奖励模型
作者:Kailai Yang, Zhiwei Liu, Qianqian Xie
分析:这篇论文提出了一种新的选择性对齐策略,称为选择性偏好优化(SePO),它专注于有效的关键令牌选择。SePO基于直接偏好优化(DPO)提出第一种令牌选择方法,该方法训练一个Oracle模型来估计目标数据的令牌级别奖励函数。这种方法适用于任何具有响应级别注释的现有对齐数据集,并且使用小规模Oracle模型和训练数据可以实现成本效益高的令牌选择。论文在三个公共评估基准上的实验表明,SePO通过仅优化目标数据集的30%关键令牌显著优于其他基线方法。此外,SePO在弱到强的泛化应用表明,弱Oracle模型可以有效地监督具有更多参数的强策略模型。
地址:https://arxiv.org/pdf/2408.13518
27. Pandora's Box or Aladdin's Lamp:全面分析揭示大模型中RAG噪声的作用
标题:Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
机构:清华大学
相关领域:模型评估、数据集构建
作者:Jinyang Wu, Feihu Che, Chuyuan Zhang
分析:论文探讨了大型语言模型中RAG噪声的作用,定义了七种不同类型的噪声,并建立了一个包含多个数据集和推理任务的噪声RAG基准测试框架。研究发现,噪声可分为有益和有害两类。有益噪声可增强模型能力,而有害噪声会损害性能。论文为开发更稳健、适应性强RAG解决方案提供了见解,以解决各种检索场景中的幻觉问题。
地址:https://arxiv.org/pdf/2408.13533
28. EasyControl:将控制网转移至视频扩散,实现可控生成与插值
标题:EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation
机构:AI2、中山大学、MBZUAI大学
作者:Cong Wang, Jiaxi Gu, Panwen Hu
分析:本文提出了一个名为'易控制'(EasyControl)的通用框架,探讨了视频生成领域中信息基础上的文本控制难题。易控制框架通过条件适配器传播和注入条件特征,实现用户仅需一个条件映射即可控制视频生成。此框架支持多种输入,如原始像素、深度信息、HED等,与现有的预训练视频扩散模型结合,以较低的实践成本实现各种条件的集成。实验结果表明,与VideoComposer等作品相比,'易控制'方法在UCF101和MSR-VTT等公共数据集上明显提高了生成的准确性,并在符号到视频生成任务中分别提高了152.0 FVD和19.9 IS的值。
地址:https://arxiv.org/pdf/2408.13005
29. 训练无关的长视频生成与链传播模型专家
标题:Training-free Long Video Generation with Chain of Diffusion Model Experts
机构:东南大学、商汤研究院、上海交通大学
作者:Wenhao Li, Yichao Cao, Xie Su
分析:视频生成模型在电影制作等领域具有巨大潜力。然而,目前的视频扩散模型需要较高的计算成本,由于视频生成任务的高复杂性,导致其产生次优结果。本文提出了一个高效、高质量的视频生成框架ConFiner,它将视频生成解耦为更易的子任务:结构控制和空间-时间再细化。ConFiner可以通过链传播现有的扩散模型专家,每个专家负责一个解耦子任务。在细化过程中,该论文引入了协调去噪,可以使多个扩散专家的能力合并为一个采样。此外,该论文还设计了ConFiner-Long框架,可以生成具有ConFiner中的三种约束策略的较长连贯视频。实验结果表明,仅需推理成本的10%,ConFiner就超过了代表模型Lavie和Modelscope在所有客观和主观指标上的表现。ConFiner-Long可以生成高质量、连贯的视频,最大可达600帧。
地址:https://arxiv.org/pdf/2408.13423
30. 无偏好数据的大模型对齐中的逆Q*:令牌级别强化学习
标题:Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data
机构:复旦大学、上海AI实验室
相关领域:RLHF
作者:Han Xia, Songyang Gao, Qiming Ge
分析:论文介绍了一种名为Inverse-Q*的创新框架,它通过优化令牌级别的强化学习,无需额外的奖励或价值模型,就能实现大型语言模型与人类意图的对齐。该方法通过直接优化偏好策略,提高了模型响应的粒度灵活性,尤其适用于资源有限的环境。实验结果表明,Inverse-Q*在收敛速度和模型响应与人类偏好的对齐度方面,不仅与PPO相匹配,甚至可能实现超越。
地址:https://arxiv.org/pdf/2408.14874
31. 统一对RLHF/PPO、DPO和KTO的映射:通过广义隐式奖励函数
标题:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
机构:厦门大学
相关领域:预训练
作者:Zhichao Wang, Bin Bi, Can Huang
分析:这篇论文提出了一种名为UNified Alignment(UNA)的方法,该方法统一了 RLHF/PPO、DPO和KTO 对齐技术。论文证明了一个经典RLHF目标函数诱导了一个广义隐式奖励函数,从而可以简化、加速、稳定并降低RL微调过程的负担。UNA能够适应不同的反馈类型,并且在下游实验中表现优于DPO、KTO和RLHF。
地址:https://arxiv.org/pdf/2408.15339
32. StyleSpeech:预训练可控文本到语音的参数高效微调
标题:StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech
机构:新南威尔士大学
相关领域:模型结构改进、预训练、多模态
作者:Haowei Lou, Helen Paik, Wen Hu
分析:这篇论文介绍了一种新型的文本到语音(TTS)系统——StyleSpeech,它提高了合成语音的自然度和准确性。该系统建立在现有的TTS技术之上,融入了一个独特的Style Decorator结构,使深度学习模型能够同时学习风格和音素特征,通过低秩适应(LoRA)原理提高适应性和效率。此外,还引入了一种新的自动评估指标LLM-MOS,该指标采用大型语言模型,为TTS系统的性能提供了客观和稳健的评估协议。测试表明,该方法在生成自然、准确、高质量的语音方面显著优于现有基线方法,推动了TTS系统的边界,并促进了其在互动虚拟助手、自适应有声读物和定制游戏声音等领域的应用。
地址:https://arxiv.org/pdf/2408.14713
代码:https://style-speech.vercel.app
33. Kangaroo:一个强大的视频-语言模型,支持长视频输入
标题:Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input
相关领域:数据集构建、视频理解、模型训练
作者:Jiajun Liu, Yibing Wang, Hanghang Ma
分析:袋鼠(Kangaroo)是一个旨在解决LLMs扩展到视频数据输入问题的强大Video LMM。由于缺乏高质量的视频数据和视觉特征的过度压缩,现有的方法在处理长视频方面表现不佳。为此,他们开发了一个数据整理系统来构建一个有高质量标注的大型预训练数据集。此外,他们设计了一个分级训练管道,该管道逐渐增加分辨率和输入帧数,以适应长视频。实验结果表明,Kangaroo在多个视频理解基准测试中表现出色,甚至在某些拥有超过10B参数的模型和私有模型上表现更好。
地址:https://arxiv.org/pdf/2408.15542
34. Instruct-SkillMix:大模型指令微调的强大管道
标题:Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
相关领域:指令微调、数据集构建、模型评估
作者:Simran Kaur, Simon Park, Anirudh Goyal
分析:本文介绍了一种自动化的方法Instruct-SkillMix,用于创建多样化的高品质SFT数据。该方法利用现有强大语言模型进行两阶段处理:首先,通过LLM提取处理指令所需的“技能”;其次,利用LLM生成显示随机技能组合的(指令,响应)数据。研究发现,使用Instruct-SkillMix生成的数据在AlpacaEval 2.0、MT-Bench和WildBench等指令遵循基准测试上取得了显著成果。该研究对中国大模型指令微调领域具有重要价值。
地址:https://arxiv.org/pdf/2408.14774
35. 质与量:在调整大模型用于资源匮乏翻译中,数据规模与多样性的作用
标题:Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation
机构:爱丁堡大学
相关领域:预训练、低资源学习、翻译
作者:Vivek Iyer, Bhavitvya Malik, Pavel Stepachev
分析:本文探讨了大型语言模型(LLMs)在机器翻译(MT)中用于资源匮乏翻译领域的事态,其性能明显低于神经机器翻译(NMT)模型。研究重新审视了两个关键因素的作用:一、平行数据的重要性及其应用;二、监督微调(SFT)期间的数据多样性。研究发现,对于LLM-MT在资源匮乏情况下,前者对LLM的预训练和SFT都至关重要,而后者可能导致干扰而非迁移。通过在北美原住民语言和东北印度多种语言上进行的实验,证实了这两点发现的一致性,题为本文理论的一般可扩散性。本研究相信将对大规模多语言资源匮乏语言服务的LLM-MT模式发展具有重要意义。
地址:https://arxiv.org/pdf/2408.12780
36. 逐步揭示大模型在子任务上的参数有效性替换方法
标题:Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models
机构:印度理工学院
作者:Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta
分析:论文旨在解决大语言模型(LLMs)在下游任务上进行微调所需的大量计算资源问题。它提出了一种参数高效微调(PEFT)技术,只需选择一小部分函数参数进行微调,从而降低计算成本。这种技术虽然计算效率高,但往往无法达到全模型微调的性能,原因在于函数选择的动态选择过程中引入了固有的偏见。作者提出了一种名为“ID^3”的新颖选择性PEFT方法,该方法可以通过持续地和工作参数选择的探索和利用保持平衡。作者在15个任务上将该方法与其他固定masking-based PEFT技术进行比较,结果表明该方法的有效性。
地址:https://arxiv.org/pdf/2408.14470
37. SwiftBrush v2: 提升一步法文本到图像扩散模型的性能
标题:SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Trung Dao, Thuan Hoang Nguyen, Thanh Le
分析:这篇论文主要探讨了如何提升SwiftBrush,一种知名的一步文本到图像扩散模型的性能。作者首先研究了SwiftBrush和其多步稳定的Stable Diffusion版本之间的质量多样性权衡:前者在图像多样性方面表现出色,而后者在图像质量上更胜一筹。这一观察结果推动了他们对训练方法的改进,包括更好的权重初始化和高效的LoRA训练。此外,引入了一种新的夹紧CLIP损失以增强图像-文本对齐,从而提高了图像质量。通过结合使用高效LoRA训练和完整训练得到的模型权重,他们实现了一个新的一步扩散模型,达到了8.14的FID, 超越了所有的GAN-based和多步稳定扩散模型。
地址:https://arxiv.org/pdf/2408.14176
代码:https://github.com/vinairesearch/swiftbrushv2
38. ReMamba:有效长序列建模的ReMamba研究
标题:ReMamba: Equip Mamba with Effective Long-Sequence Modeling
机构:AI国家级重点实验室
相关领域:模型结构改进
作者:Danlong Yuan, Jiahao Liu, Bei Li
分析:该研究针对Mamba模型在长序列语境理解方面的不足,提出了ReMamba模型。ReMamba通过选择性压缩和适应技术,在两相前向传播过程中增强了对长语境的理解能力,且几乎未产生额外的推理成本。实验结果表明,ReMamba提高了在长文本基准测试集上的性能,几乎达到了相同大小的Transform模型的性能。
地址:https://arxiv.org/pdf/2408.15496
39. Critic-CoT:通过链式思维批判提升大模型的推理能力
标题:Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic
相关领域:模型评估、数据集构建、奖励模型
作者:Xin Zheng, Jie Lou, Boxi Cao
分析:这篇论文提出了Critic-CoT框架,旨在通过逐步的链式思维推理和远程监督数据构建来提升大型语言模型(LLM)的批判能力,从而增强其推理性能。当前方法通常只是简单使用基本提示,而未进行进一步训练,导致准确率有限。论文通过实验证明了该方法能够在过滤无效解决方案或通过迭代精炼来提高任务解决性能。研究旨在通过训练对批判和精炼的反馈来提升LLM的生成能力。
地址:https://arxiv.org/pdf/2408.16326
40. Mini-Omni:语言模型能听、说也能实时思考
标题:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
相关领域:模型结构改进、多模态
作者:Zhifei Xie, Changqiao Wu
分析:这篇论文提出了一种基于音频的端到端对话模型Mini-Omni,能够实现实时语音交互。它通过文本指导的语音生成方法和批量并行推理策略,在不降低原有语言模型能力的前提下,实现了实时语音交互的能力。此外,论文还介绍了用于优化语音输出的VoiceAssistant-400K数据集。
地址:https://arxiv.org/pdf/2408.16725
41. Nexus:专业性与适应性相结合,高效训练专家混合模型
标题:Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts
相关领域:模型结构改进、多模态
作者:Nikolas Gritsch, Qizhen Zhang, Acyr Locatelli
分析:这篇论文关注于如何结合专业性和适应性,以高效地训练专家混合模型。论文提出了一种名为Nexus的增强型MoE架构,该架构具有自适应路由功能,可从领域表示中学习专家嵌入。Nexus能够在初始升级后灵活地添加新专家,通过分别训练的密集模型使用有限微调数据来扩展MoE,而无需针对未见数据域进行大规模MoE训练。实验表明,Nexus在初始升级时相对于基线获得了最高达2.1%的相对增益,而在使用有限微调数据扩展MoE时,相对增益为18.8%。这种灵活性对于建立一个开放源代码生态系统至关重要,用户可以根据需要连续组装自己的MoE混合。
地址:https://arxiv.org/pdf/2408.15901
42. 晶体相和晶界生成的大模型
标题:Grand canonical generative diffusion model for crystalline phases and grain boundaries
机构:劳伦斯利弗莫尔国家实验室
相关领域:模型结构改进、预训练、指令微调
作者:Bo Lei, Enze Chen, Hyuna Kwon
分析:这篇论文提出了一种新的大模型——Grand canonical generative diffusion model,用于生成晶体结构以及晶界结构。传统的粒子扩散模型在生成简单有序的晶体结构时存在缺陷,主要是因为粒子在模拟退火过程中被困在局部最小值中,无法跳出。该模型采用连续体素而非固定数量的粒子来表示原子,从而避免了这个问题。该模型已被用于生成多种常见晶体相以及具有挑战性的晶界结构。
地址:https://arxiv.org/pdf/2408.15601
43. CURLoRA:大模型的稳定微调与灾难性遗忘的缓解
标题:CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation
相关领域:模型结构改进、预训练、模型评估
作者:Muhammad Fawi
分析:论文提出了一种新的大型语言模型(LLM)微调方法CURLoRA,它结合了CUR矩阵分解和低阶适应(LoRA)。主要解决了LLM微调中的两个关键问题:持续学习中的灾难性遗忘和可训练参数数量的减少。通过独特的CUR分解过程修改,使用逆概率选择行列,作为隐式正则化,并初始化U矩阵为零矩阵,只对其进行微调。实验证明,与标准LoRA相比,CURLoRA在缓解灾难性遗忘方面表现更优,能维持模型稳定性和跨任务性能,同时显著减少可训练参数数量。
地址:https://arxiv.org/pdf/2408.14572
44. Less for More:通过自动化自我整理训练语料库增强偏好学习
标题:Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora
相关领域:自然语言处理
作者:JoonHo Lee, JuYoun Son, Juree Seok
分析:语言的歧义性对更强的语言模型的开发带来挑战,尤其是在偏好学习中,因为注释方之间的变异导致一致使用的数据集和模型对齐不一致。解决这个问题,该论文引入了一个自我整理方法,通过利用在这些数据集上直接训练的代理模型来预处理注释数据集。该论文的方法通过自动检测并从数据集中删除歧义注释来增强偏好学习。提出的做法通过广泛的实验验证,在各种遵循命令的任务性能有了显著的改善。该论文可以直接而且可靠地克服注释不一致的问题,这是向更高级的偏好学习技术发展的初始步骤。
地址:https://arxiv.org/pdf/2408.12799
45. Assessing Contamination in Large Language Models:介绍LogProber方法
标题:Assessing Contamination in Large Language Models: Introducing the LogProber method
作者:Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri
分析:这篇论文探讨了在大型语言模型(LLMs)训练过程中可能出现的数据污染问题。由于LLMs通常在庞大的、不透明的网络文本语料库上进行训练,测试数据泄露到训练集中的情况时有发生。论文提出了LogProber算法,用于检测使用句子中标记概率的污染情况,并研究了不同训练方法可能导致的污染。
地址:https://arxiv.org/pdf/2408.14352
46. 音乐基础模型:综述
标题:Foundation Models for Music: A Survey
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Yinghao Ma, Anders Øland, Anton Ragni
分析:这篇论文主要综述了近年来在音乐领域中影响深远的基础模型,包括大型语言模型和潜在扩散模型等。文章详细探讨了这些模型在音乐表示学习、生成学习和多模态学习等方面的应用。同时,作者也指出了现有模型在音乐领域的一些问题和挑战,如缺乏对多样性音乐应用的普适性,以及在理解、生成和医疗应用方面的潜力。此外,作者还强调了伦理考虑的重要性,如解释性、透明度、人类责任和版权问题等。
地址:https://arxiv.org/pdf/2408.14340
47. 基于提示工程的LLM路径规划是否可行?
标题:Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Hourui Deng, Hongjie Zhang, Jie Ou
分析:该论文主要探讨了大型语言模型在空间推理方面的基础问题,即在简单的迷宫环境中,LLMs仍然面临长期路径规划的挑战。这主要是由于LLMs的空间幻觉和长期推理中的上下文不一致性幻觉影响。为解决这一挑战,该研究提出了一种创新的方法,即“空间到关系转换和课程Q学习”。该方法将空间提示转换为实体关系和路径,代表实体关系链。这种方法充分利用了LLMs在序列思维方面的可能性。因此,该论文设计了一个基于Q学习的路径规划算法来缓解LLMs的上下文不一致性幻觉,从而提高其推理能力。通过使用状态-动作的Q值作为提示的辅助信息,该论文纠正了LLMs的幻觉,引导LLMs学习最优路径。最后,该论文提出了一种基于LLMs的反向课程学习技术,以进一步缓解上下文不一致性幻觉。通过降低任务难度并利用成功经验积累,LLMs可以快速应对更复杂的任务。该研究在百度自主研发的LLM ERNIE-Bot 4.0上进行了全面实验。结果表明,该论文的S2RCQL相比于先进的提示工程,成功率和最优性提高了23%至40%。
地址:https://arxiv.org/pdf/2408.13184
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^