大模型微调的终极指南：从基础到突破综述 | 1-Bit FQT：将全量化训练极限推到极致 | 百度发布最新DPO方法..

文摘 2024-08-27 21:21 广东

前言：论文可以让你更快地了解最新研究进展，掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要，尤其是在快速发展的学科领域，下面小编带你来看大模型最近的研究成果。

1. 大模型微调的终极指南：从基础到突破的详尽综述

标题：The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities

关键词：大型语言模型、自然语言处理、预训练、指令微调

作者：Ahtsham Zafar, Aafaq Khan

分析：本报告详细探讨了大型语言模型(LLMs)的微调，结合理论与实践应用。它概述了从传统的自然语言处理(NLP)模型到LLM在人工智能中的关键角色的历史演变。比较了微调方法，包括监督、无监督和指令式方法，强调它们对不同任务的适用性。报告引入了一个结构化的七阶段流程进行LLMs微调，涵盖数据准备、模型初始化、超参数调整和模型部署。重点关注管理不平衡数据集和优化技术。介绍了参数效率方法如低秩适应(LoRA)和半微调以平衡计算效率与性能。讨论了利用专门网络和多代理协作的高级技术，如混合专家(MoE)和混合代理(MoA)。报告还探讨了新颖的方法，如近端策略优化(PPO)和直接偏好优化(DPO),将LLMs与人类偏好对齐，同时讨论剪枝和路由优化以提高效率。进一步的章节涵盖验证框架、部署后监控和推理优化，注重在分布式和基于云的平台上部署LLMs。新兴领域如多模态LLMs、音频和语音微调以及与可扩展性、隐私和问责制相关的挑战也被讨论。本报告为研究者和实践者在不断发展的LLM微调领域提供了实用的建议。

地址：https://arxiv.org/pdf/2408.13296

2. 利用扩散模型专家链实现无需训练的长视频生成

标题：Training-free Long Video Generation with Chain of Diffusion Model Experts

机构：东南大学、商汤研究院、上海交通大学

作者：Wenhao Li, Yichao Cao, Xie Su

分析：视频生成模型在电影制作等领域具有巨大潜力。然而，目前的视频扩散模型需要较高的计算成本，由于视频生成任务的高复杂性，导致其产生次优结果。本文提出了一个高效、高质量的视频生成框架ConFiner，它将视频生成解耦为更易的子任务：结构控制和空间-时间再细化。ConFiner可以通过链传播现有的扩散模型专家，每个专家负责一个解耦子任务。在细化过程中，该论文引入了协调去噪，可以使多个扩散专家的能力合并为一个采样。此外，该论文还设计了ConFiner-Long框架，可以生成具有ConFiner中的三种约束策略的较长连贯视频。实验结果表明，仅需推理成本的10%，ConFiner就超过了代表模型Lavie和Modelscope在所有客观和主观指标上的表现。ConFiner-Long可以生成高质量、连贯的视频，最大可达600帧。

地址：https://arxiv.org/pdf/2408.13423

3. 1-Bit FQT：将全量化训练极限推到极致

标题：1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit

机构：清华大学、北京交通大学

关键词：全量化训练、梯度方差、激活梯度修剪、样本通道联合量化

作者：Chang Gao, Jianfei Chen, Kang Zhao

分析：该论文尝试探索全量化训练（FQT）的极限，即实现最低精度的全量化训练。论文基于Adam和SGD进行了理论分析，揭示梯度方差对FQT收敛的影响。提出一种激活梯度修剪（AGP）策略，通过修剪信息量较少的梯度并增强剩余梯度的数值精度来减轻梯度方差。同时，论文提出样本通道联合量化（SCQ），确保方法在低位宽硬件上友好运行。该算法对VGGNet-16和ResNet-18进行微调，平均准确率提高约6%，训练速度最大可提高至全精度训练的5.13倍。

地址：https://arxiv.org/pdf/2408.14267

4. 基于令牌级别奖励函数估计的选择性偏好优化

标题：Selective Preference Optimization via Token-Level Reward Function Estimation

机构：百度、曼彻斯特大学

关键词：选择性偏好优化、令牌级别奖励函数估计、大语言模型优化

作者：Kailai Yang, Zhiwei Liu, Qianqian Xie

分析：这篇论文提出了一种新的选择性对齐策略，称为选择性偏好优化（SePO），它专注于有效的关键令牌选择。SePO基于直接偏好优化（DPO）提出第一种令牌选择方法，该方法训练一个Oracle模型来估计目标数据的令牌级别奖励函数。这种方法适用于任何具有响应级别注释的现有对齐数据集，并且使用小规模Oracle模型和训练数据可以实现成本效益高的令牌选择。论文在三个公共评估基准上的实验表明，SePO通过仅优化目标数据集的30%关键令牌显著优于其他基线方法。此外，SePO在弱到强的泛化应用表明，弱Oracle模型可以有效地监督具有更多参数的强策略模型。

地址：https://arxiv.org/pdf/2408.13518

5. 实践者指南：持续多模态预训练

标题：A Practitioner's Guide to Continual Multimodal Pretraining

机构：剑桥大学、慕尼黑工业大学、慕尼黑黑尔姆霍兹中心

关键词：持续多模态预训练、模型更新、多模态基准测试平台

作者：Karsten Roth, Vishaal Udandarao, Sebastian Dziadzio

分析：这篇论文关注多模态预训练模型的持续更新问题。论文介绍了一个持续多模态预训练基准测试平台，为有效更新模型提供了综合指导。同时，论文还从数据、方法、学习率调度和模型计算扩展等多个角度，探讨了实际持续预训练中的复杂问题。

地址：https://arxiv.org/pdf/2408.14471

代码：https://github.com/ExplainableML/fomo_in_flux

6. K-Sort Arena：基于K-wise人类偏好的高效和可靠的大模型评估平台

标题：K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

机构：UC伯克利分校、中国科学院自动化研究所

关键词：K-wise比较、大模型评估、高效评价、贝叶斯更新

作者：Zhikai Li, Xuewen Liu, Dongrong Fu

分析：本文介绍了一种名为K-Sort Arena的新平台，旨在高效、可靠地评估视觉生成模型。该平台通过K-wise比较，利用图像和视频的高度感知直观性，允许多个模型同时进行比较，以提升评估效率。论文还提出了一种基于概率模型和贝叶斯更新的稳健性增强方法，并通过一个高效的信息收集策略提高匹配信息的丰富性。实验表明，K-Sort Arena比ELO算法快16.3倍收敛，能快速融入新型模型并更新排行榜。

地址：https://arxiv.org/pdf/2408.14468

代码：https://huggingface.co/spaces/ksort/K-Sort-Arena

7. Power Scheduler：与批大小和令牌数量无关的学习率调度器

标题：Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

机构：IBM研究院

关键词：学习率调度器、批大小、训练令牌数量、模型性能优化

作者：Yikang Shen, Matthew Stallone, Mayank Mishra

分析：本文研究了最优学习率、批大小和训练令牌数量之间的关系，并提出了一个新的学习率调度器——功率调度器，该调度器对训练令牌数量和批大小具有鲁棒性。通过结合功率调度器和最大更新参数化，可以在不同的训练令牌数量、批大小、模型大小和模型架构下实现稳定的性能。实验表明，使用功率调度器训练的3B稠密模型和MoE模型可以达到与先进的小型语言模型相当的性能。

地址：https://arxiv.org/pdf/2408.13359

代码：https://ibm.biz/BdKhLa

8. LalaEval：领域特定大模型的全人类评估框架介绍

标题：LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models

机构：香港中文大学

关键词：LalaEval框架、领域特定大型语言模型、全面人类评估、物流行业应用

作者：Chongyan Sun, Ken Lin, Shiwei Wang

分析：这篇论文介绍了一个针对特定领域的大型语言模型（LLM）进行全面人类评估的框架——LalaEval。它提出了一系列端到端的协议，涵盖领域指定、标准制定、基准数据集创建、评估标准的构建以及评估结果的全面分析和解读。该框架旨在填补特定领域内标准化人类评估的研究空白，并为领域特定的LLM评估和选择提供指导。论文展示了该框架在物流行业的应用，展示了其实际效用和贡献。

地址：https://arxiv.org/pdf/2408.13338

9. Pandora's Box or Aladdin's Lamp：全面分析揭示大模型中RAG噪声的作用

标题：Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models

机构：清华大学

关键词：RAG噪声、大型语言模型、噪声分类、评估框架

作者：Jinyang Wu, Feihu Che, Chuyuan Zhang

分析：论文探讨了大型语言模型中RAG噪声的作用，定义了七种不同类型的噪声，并建立了一个包含多个数据集和推理任务的噪声RAG基准测试框架。研究发现，噪声可分为有益和有害两类。有益噪声可增强模型能力，而有害噪声会损害性能。论文为开发更稳健、适应性强RAG解决方案提供了见解，以解决各种检索场景中的幻觉问题。

地址：https://arxiv.org/pdf/2408.13533

10. 逐步揭示大模型在子任务上的参数有效性替换方法

标题：Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

机构：印度理工学院

关键词：参数有效性、选择性微调、微调技术、大语言模型

作者：Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta

分析：论文旨在解决大语言模型（LLMs）在下游任务上进行微调所需的大量计算资源问题。它提出了一种参数高效微调（PEFT）技术，只需选择一小部分函数参数进行微调，从而降低计算成本。这种技术虽然计算效率高，但往往无法达到全模型微调的性能，原因在于函数选择的动态选择过程中引入了固有的偏见。作者提出了一种名为“ID^3”的新颖选择性PEFT方法，该方法可以通过持续地和工作参数选择的探索和利用保持平衡。作者在15个任务上将该方法与其他固定masking-based PEFT技术进行比较，结果表明该方法的有效性。

地址：https://arxiv.org/pdf/2408.14470

11. Assessing Contamination in Large Language Models：介绍LogProber方法

标题：Assessing Contamination in Large Language Models: Introducing the LogProber method

关键词：大型语言模型、数据污染、LogProber、模型评估

作者：Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri

分析：这篇论文探讨了在大型语言模型（LLMs）训练过程中可能出现的数据污染问题。由于LLMs通常在庞大的、不透明的网络文本语料库上进行训练，测试数据泄露到训练集中的情况时有发生。论文提出了LogProber算法，用于检测使用句子中标记概率的污染情况，并研究了不同训练方法可能导致的污染。

地址：https://arxiv.org/pdf/2408.14352

12. 互信息一致性评估超级LLM的弱监督评估

标题：Poor-Supervised Evaluation for SuperLLM via Mutual Consistency

关键词：大语言模型、弱监督评估、互信息一致性、模型评估框架

作者：Peiwen Yuan, Shaoxiong Feng, Yiwei Li

分析：该论文提出了一种名为PoEM的框架，用于在没有准确标签的情况下评估LLM的能力，即所谓的'弱监督'评估。PoEM框架通过比较模型预测分布与特定参考模型的独立性，以及在大样本条件下评估模型能力的等价性。为了克服现实情况中的不足，论文还介绍了一种算法，将人类（如果可用）和被评估的模型视为参考模型，在‘E-step’和‘M-step’中交替进行模型权重校准和过滤。跨3种任务的实证研究表明，PoEM在弱监督下平均达到了0.98的皮尔逊相关系数，证明了其实效性、效率和泛化性。总的来说，PoEM推进了评估范式的演进，从以人为中心转为人与模型结合的中心，缓解了在大模型时代人类评估的局限性。

地址：https://arxiv.org/pdf/2408.13738

13. 音乐基础模型：综述

标题：Foundation Models for Music: A Survey

关键词：音乐基础模型、大型语言模型、潜在扩散模型、音乐表示学习

作者：Yinghao Ma, Anders Øland, Anton Ragni

分析：这篇论文主要综述了近年来在音乐领域中影响深远的基础模型，包括大型语言模型和潜在扩散模型等。文章详细探讨了这些模型在音乐表示学习、生成学习和多模态学习等方面的应用。同时，作者也指出了现有模型在音乐领域的一些问题和挑战，如缺乏对多样性音乐应用的普适性，以及在理解、生成和医疗应用方面的潜力。此外，作者还强调了伦理考虑的重要性，如解释性、透明度、人类责任和版权问题等。

地址：https://arxiv.org/pdf/2408.14340

14. LLaVaOLMoBitnet1B：三元大模型实现多模态化！

标题：LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!

关键词：LLaVaOLMoBitnet1B、多模态大型语言模型、图像和文本输入、训练过程

作者：Jainaveen Sundaram, Ravishankar Iyer

分析：这篇论文介绍了一种名为LLaVaOLMoBitnet1B的三元多模态大型语言模型，它可接受图像和文本输入，并产生连贯的文本响应。模型采用公开源代码发布，并提供训练脚本，鼓励在该领域进行进一步研究。论文重点介绍了训练过程、评估细节、与三元模型相关的挑战和未来机遇。

地址：https://arxiv.org/pdf/2408.13402

代码：https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

15. SwiftBrush v2: 提升一步法文本到图像扩散模型的性能

标题：SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

作者：Trung Dao, Thuan Hoang Nguyen, Thanh Le

分析：这篇论文主要探讨了如何提升SwiftBrush,一种知名的一步文本到图像扩散模型的性能。作者首先研究了SwiftBrush和其多步稳定的Stable Diffusion版本之间的质量多样性权衡：前者在图像多样性方面表现出色，而后者在图像质量上更胜一筹。这一观察结果推动了他们对训练方法的改进，包括更好的权重初始化和高效的LoRA训练。此外，引入了一种新的夹紧CLIP损失以增强图像-文本对齐，从而提高了图像质量。通过结合使用高效LoRA训练和完整训练得到的模型权重，他们实现了一个新的一步扩散模型，达到了8.14的FID(Fréchet Inception Distance),超越了所有的GAN-based和多步稳定扩散模型。

地址：https://arxiv.org/pdf/2408.14176

代码：https://github.com/vinairesearch/swiftbrushv2

16. 无训练过渡视频生成方法：基于扩散模型的TVG研究

标题：TVG: A Training-free Transition Video Generation Method with Diffusion Models

机构：四川大学、电子科技大学

关键词：过渡视频生成、扩散模型、高斯过程回归、帧间过渡

作者：Rui Zhang, Yaosen Chen, Yuegen Liu

分析：这篇论文提出了一种基于扩散模型的无需训练过渡视频生成方法TVG。该方法解决了传统过渡视频生成方法缺乏艺术性和专业技能需求的问题，并解决了当前扩散模型在视频生成中面临的帧间关系建模不佳和内容突变挑战。通过使用视频级扩散模型，实现平滑动态帧间过渡，提出利用高斯过程回归对潜在表示进行建模，引入插值条件控制和频率感知双向融合架构来增强时间控制和过渡可靠性。该方法在基准数据集和自定义图像对上表现出生成高质量平滑过渡视频的效能。

地址：https://arxiv.org/pdf/2408.13413

代码：https://sobeymil.github.io/tvg.com

17. MagicMan：基于3D感知扩散和迭代优化的人体生成式新视图合成

标题：MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

机构：清华大学、香港科技大学、香港中文大学

关键词：MagicMan、多视图合成、3D感知、扩散模型

作者：Xu He, Xiaoyu Li, Di Kang

分析：这篇论文提出了一种名为MagicMan的人体特定多视图扩散模型，该模型能够从单张参考图像生成高质量的新视图图像。为了解决单图像人体重建中存在的泛化性差的问题，该模型结合了预训练的二维扩散模型和参数化SMPL-X模型，以实现更好的3D感知。论文的主要贡献包括引入混合多视图注意力机制、几何感知的双分支生成以及迭代优化策略，以提高生成的多视图的一致性和质量。该模型在新型视图合成和随后的3D人体重建任务上均表现出显著优势。

地址：https://arxiv.org/pdf/2408.14211

18. SurGen：文本引导的扩散模型在手术视频生成中的应用

标题：SurGen: Text-Guided Diffusion Model for Surgical Video Generation

机构：斯坦福大学、约翰霍普金斯大学

关键词：SurGen模型、手术视频生成、文本引导扩散模型、深度学习分类器

作者：Joseph Cho, Samuel Schmidgall, Cyril Zakka

分析：这篇论文介绍了一种针对手术视频合成的文本引导扩散模型SurGen，该模型能够产生高分辨率和长时间的视频，且在现有手术视频生成模型中表现最佳。论文通过使用标准的图像和视频生成指标验证了输出的视觉和时间质量，并通过深度学习分类器评估了输出与文本提示的匹配度。该研究展示了扩散模型作为手术训练有价值教育工具的应用潜力。

地址：https://arxiv.org/pdf/2408.14028

19. Re-Mix：优化数据混合用于大规模模仿学习

标题：Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

机构：斯坦福大学、UC伯克利分校

关键词：优化数据混合、模仿学习、机器人基础模型、分布鲁棒优化

作者：Joey Hejna, Chethan Bhateja, Yichen Jian

分析：这篇论文研究如何在机器人基础模型预训练中权衡机器人数据集的不同的子集或“领域”。采用分布鲁棒优化（DRO）来最大化所有可能的下游领域的最坏情况性能。通过大量实验，证明了数据整理对下游性能的巨大影响。

地址：https://arxiv.org/pdf/2408.14037

20. Reactzyme：酶反应预测基准测试

标题：Reactzyme: A Benchmark for Enzyme-Reaction Prediction

机构：Deepmind

关键词：酶反应预测、机器学习算法、蛋白质功能注释、数据排名

作者：Chenqing Hua, Bozitao Zhong, Sitao Luan

分析：这篇论文介绍了一种基于酶催化反应的新型酶注释方法。该方法为特定反应提供了详细的见解，并适应新发现的反应。通过机器学习算法分析酶反应数据集，为酶的功能性提供更为精细的视图。研究使用了迄今为止最大的酶反应数据集，来源于SwissProt和Rhea数据库，旨在将酶反应预测作为检索问题，根据酶的催化能力对酶进行排名。该模型有助于为新型反应招募蛋白质，并预测新型蛋白质的酶反应，促进酶的发现和功能注释。

地址：https://arxiv.org/pdf/2408.13659

21. LogParser-LLM：利用大模型推进高效日志解析

标题：LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models

机构：哈佛大学、剑桥大学、哈佛医学院

关键词：LogParser-LLM, 大型语言模型，日志解析，语义洞察，统计细微差别，解析粒度

作者：Aoxiao Zhong, Dengyao Mo, Guiyang Liu

分析：该论文介绍了一种新型日志解析器LogParser-LLM，其结合了大型语言模型（LLM）的能力，将语义洞察与统计细微差别相结合，无需超参数调整和标记训练数据，即可确保通过在线解析实现快速适应。论文还解决了解析粒度这一复杂挑战，并提出了一种新的度量标准，同时集成人类互动，以便用户可以根据其特定需求校准粒度。该论文通过Loghub-2k和大型LogPub基准测试集的评估，展示了LogParser-LLM的高效率和准确性，优于包括基于模式、基于神经网络和现有LLM增强方法在内的最新日志解析器。

地址：https://arxiv.org/pdf/2408.13727

22. Video-CCAM：通过因果交叉注意力掩膜增强视频语言理解

标题：Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos

机构：腾讯、清华大学

关键词：视频语言理解、多模态大型语言模型、因果交叉注意力掩膜

作者：Jiajun Fei, Dian Li, Zhidong Deng

分析：这篇论文提出了一种名为Video-CCAM的视频多模态大型语言模型，旨在解决视频语言理解的问题。论文针对长视频中的高分辨率信息提取难题，引入了一种带有因果交叉注意力掩膜的跨注意力层机制，用于提高视频与语言之间的交互理解。该模型在多个视频基准测试中表现出卓越的性能，特别是在处理长视频时也能保持高水平的准确性。

地址：https://arxiv.org/pdf/2408.14023

代码：https://github.com/QQ-MM/Video-CCAM

23. TranSplat：基于稀疏多视角图像的通用3D高斯展平技术

标题：TranSplat: Generalizable 3D Gaussian Splatting from Sparse Multi-View Images with Transformers

机构：清华大学、香港大学

关键词：TranSplat、3D重建、多视角特征匹配、深度估计

作者：Chuanrui Zhang, Yingshuang Zou, Zhuoling Li

分析：这篇论文提出了一种名为TranSplat的新型通用3D高斯展平方法，用于从稀疏的多视角图像进行3D重建。该方法主要解决了现有技术中多视角特征匹配不准确的问题，特别是在场景中存在大量非重叠区域和相似区域时。论文通过引入深度置信图来指导局部特征匹配，并借助现有的单目深度估计模型来提高非重叠区域的深度估计精度。实验结果表明，该方法在RealEstate10K和ACID基准测试中表现最佳，同时保持了较高的计算效率，并展现出良好的跨数据集泛化能力。

地址：https://arxiv.org/pdf/2408.13770

代码：https://xingyoujun.github.io/transplat

24. 大模型用于监测与控制3D打印：LLM-3D Print

标题：LLM-3D Print: Large Language Models To Monitor and Control 3D Printing

机构：卡内基梅隆大学

关键词：大规模语言模型、3D打印、过程监控、缺陷检测

作者：Yayati Jadhav, Peter Pak, Amir Barati Farimani

分析：该研究提出了一种利用大规模预训练语言模型（LLMs）辅助3D打印过程监控和控制的框架，主要解决3D打印过程中的缺陷检测与问题定位难题。过去虽存在自动化检测系统及机器学习模型，但它们在适应不同3D打印机配置、固件和传感器方面遇到了局限性，而深度学习方法则需要大量带注释的数据来进行训练，导致其在规模和适应性方面受到限制。通过LLM的参与，该框架能通过分析层间或打印段后捕捉的图像，识别失败模式，并查询打印机以获取相关参数，之后制定并执行纠正策略。研究验证了基于LLM的代理能够准确识别常见的3D打印错误，如不均匀挤出、挂丝、翘曲和层粘合问题，并能自主确定引发这些问题的参数并进行修正，无需人类干预。

地址：https://arxiv.org/pdf/2408.14307

25. 符号工作记忆增强语言模型复杂规则应用

标题：Symbolic Working Memory Enhances Language Models for Complex Rule Application

机构：复旦大学、南加州大学、华盛顿大学

关键词：大型语言模型、规则应用、工作记忆、神经符号框架

作者：Siyuan Wang, Zhongyu Wei, Yejin Choi

分析：这篇论文主要研究了大型语言模型在处理多步骤演绎推理，特别是涉及到非顺序规则呈现的情况时的表现。该论文的初步分析发现，尽管大型语言模型在单一步骤的规则应用上表现出色，但在其表现大大降低在多步骤场景下，这主要是由于规则根植的挑战。为了解决这个问题，该论文提出了使用外部工作记忆来增强大型语言模型，并引入了一个神经符号框架来进行规则应用。这个记忆存储了事实和规则在自然语言和符号形式中的信息，从而能够进行精确跟踪。利用这个记忆，该论文的框架迭代地进行符号规则根植和基于大型语言模型的规则实现。实验结果表明，该论文的框架在规则应用的有效性和在各种步骤和设置下的鲁棒性。

地址：https://arxiv.org/pdf/2408.13654

代码：https://github.com/SiyuanWangw/RuleApplication.

26. SpeechCraft: 一个表达性口语描述精细的语音数据集及自然语言描述

标题：SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description

机构：清华大学

关键词：表达性、口语描述、语音风格、自然语言描述

作者：Zeyu Jin, Jia Jia, Qixin Wang

分析：这篇论文提出了一种自动语音表达性标注系统，通过它，可以在自然语言层面细致地描述语音风格。该系统首先对语音进行一系列处理，包括专家分类器分析和使用Captioning模型捕捉多样化的语音特征，然后使用经过微调的LLaMA生成自定义的标注。与基于标签或模板的前置框架相比，该系统通过定制化的自然语言描述提供了深入的语音风格理解，从而生成大量准确的数据以供大规模模型训练。通过这种系统，创建了一个包含约2000小时音频数据和超过200万语音剪辑的精细表达性口语数据集SpeechCraft。实验表明，该数据集显著提高了风格化口语合成和口语风格理解的任务性能。

地址：https://arxiv.org/pdf/2408.13608

27. vitaLITy 2：利用大模型进行学术文献综述

标题：vitaLITy 2: Reviewing Academic Literature Using Large Language Models

机构：埃默里大学、乔治亚理工学院

关键词：大型语言模型、学术文献综述、文本嵌入空间、检索增强生成

作者：Hongye An, Arpit Narechania, Emily Wall

分析：论文提出了一种使用大型语言模型（LLM）进行学术文献综述的方法，通过文本嵌入空间识别语义相关文献。论文解决了传统文献综述方法精度和准确度低的问题，提供了一种更高效的文献检索和摘要方法。该方法包括一个包含66,692篇论文的语料库，可通过三种语言模型创建的文本嵌入进行搜索。论文还介绍了一种新型的检索增强生成（RAG）架构，可通过增强提示与大型语言模型进行交互，并提供了一个聊天界面，使用户能够执行复杂的查询并获取大型语言模型中的知识。

地址：https://arxiv.org/pdf/2408.13450

代码：https://vitality-vis.github.io

28. ShapeMamba-EM：通过局部形状描述符和Mamba模块调整基础模型来进行3D EM图像分割

标题：ShapeMamba-EM: Fine-Tuning Foundation Model with Local Shape Descriptors and Mamba Blocks for 3D EM Image Segmentation

机构：北京大学、鹏城实验室

关键词：形塑Mamba-EM、基础模型、EM图像分割、局部形状描述符

作者：Ruohua Shi, Qiufan Pang, Lei Ma

分析：这项研究聚焦于利用基础模型提高电子显微镜（EM）图像分割的准确性，解决EM数据特有的体积和形态复杂性问题。该研究引入了"形塑Mamba-EM"方法，通过针对长时间依赖的适应器和原始基础模型内部的局部形状描述编码器来调整基础模型。这种方法在广泛的EM图像数据集上，涵盖了五项分割任务和十个数据集，显著超越了现有技术，设立了EM图像分割的新标准，并推动了对神经组织结构理解的进展。

地址：https://arxiv.org/pdf/2408.14114

29. 3D-VirtFusion:利用生成扩散模型和可控编辑自动生成3D标签训练数据

标题：3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing

机构：南洋理工大学

关键词：生成扩散模型、可控编辑、3D数据增强、大型基础模型

作者：Shichao Dong, Ze Yang, Guosheng Lin

分析：这篇论文提出了一种新的方法，通过利用预训练的大型基础模型(如语言模型和扩散模型),自动生成3D标记训练数据。该方法首先使用扩散模型和ChatGPT生成的文本提示在2D图像中生成各种结构和外观的单个对象，然后通过改变对象的形状并将其转换为3D对象来构建虚拟场景。这种方法可以自动生成大量的3D场景数据，无需真实数据，对于解决少数类别学习挑战和缓解长尾类不平衡问题具有重要意义。

地址：https://arxiv.org/pdf/2408.13788

30. 量子计算辅助药物发现研究综述与展望

标题：Quantum-machine-assisted Drug Discovery: Survey and Perspective

机构：普渡大学、哈佛大学、匹兹堡大学

关键词：量子计算、药物发现、药物研发、量子技术

作者：Yidong Zhou, Jintai Chen, Weikang Li

分析：这篇论文讨论了将量子计算整合到药物发现和开发中的潜力，探索了量子技术在药物研发周期不同阶段的加速和提升作用。特别是在解决药物发现的挑战方面，如分子模拟和药物靶点相互作用预测等。通过利用量子计算的固有功能，论文提出有望减少新药上市的时间和成本，最终有益于公众健康。

地址：https://arxiv.org/pdf/2408.13479

31. LSM-YOLO：面向医疗检测的紧凑高效ROI检测器

标题：LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection

机构：浙江大学、东南大学

关键词：LSM-YOLO、医疗图像检测、ROI检测、模型结构改进

地址：https://arxiv.org/pdf/2408.14087

代码：https://github.com/VincentYuuuuuu/LSM-YOLO

32. SONICS：合成与否——识别假冒歌曲

标题：SONICS: Synthetic Or Not -- Identifying Counterfeit Songs

机构：圣克拉拉大学、弗吉尼亚理工学院、UC圣塔芭芭拉分校

关键词：SONICS数据集，合成歌曲检测，长期时间依赖关系，SpecTTTra模型

地址：https://arxiv.org/pdf/2408.14080

33. COMPOSE：综合肖像阴影编辑

标题：COMPOSE: Comprehensive Portrait Shadow Editing

机构：密歇根州立大学、Adobe Research

关键词：肖像阴影编辑、环境地图表示、主导光源编辑、阴影精细调整

地址：https://arxiv.org/pdf/2408.13922

34. CodeGraph：通过编码图问题解决方案为代码以增强大模型的图推理能力

标题：CodeGraph: Enhancing Graph Reasoning of LLMs with Code

机构：香港科技大学

关键词：CodeGraph，大型语言模型，图推理，程序生成，程序解释器

地址：https://arxiv.org/pdf/2408.13863

35. Localize-and-Stitch：稀疏任务运算中的高效模型合并策略

标题：Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

机构：伊利诺伊大学、香港科技大学

关键词：模型合并、局部化策略、任务协同、模型压缩

地址：https://arxiv.org/pdf/2408.13656

代码：https://github.com/yifei-he/Localize-and-Stitch

36. LlamaDuo：为从服务大模型平滑迁移到小型本地大模型构建的LLMOps流水线

标题：LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

机构：香港科技大学

关键词：LlamaDuo、LLMOps流水线、模型精调、模型迁移

地址：https://arxiv.org/pdf/2408.13467

代码：https://github.com/deep-diver/llamaduo

37. AngleSizer：通过智能手机助手增强视力障碍者的立体感知能力

标题：AngleSizer: Enhancing Spatial Scale Perception for the Visually Impaired with an Interactive Smartphone Assistant

机构：清华大学、UC洛杉矶分校

地址：https://arxiv.org/pdf/2408.13505

38. Sifting through the Chaff：关于利用执行反馈对生成代码候选进行排名

标题：Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates

机构：北京大学、香港城市大学

关键词：代码生成、大语言模型、执行反馈、代码排名

地址：https://arxiv.org/pdf/2408.13976

39. TF-Attack：面向大模型的可转移和快速对抗攻击

标题：TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models

机构：鹏城实验室、哈尔滨工业大学

关键词：大型语言模型、对抗攻击、可转移攻击、快速攻击

地址：https://arxiv.org/pdf/2408.13985

40. RT-Attack: 利用随机词攻击文本到图像模型的越狱

标题：RT-Attack: Jailbreaking Text-to-Image Models via Random Token

机构：牛津大学、南洋理工大学、阿里巴巴集团

关键词：文本到图像、随机词攻击、模型评估、黑色盒攻击

地址：https://arxiv.org/pdf/2408.13896

41. Draw Like an Artist：复杂场景生成使用扩散模型通过分界、画图和补救

标题：Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching

机构：中国科学院大学

关键词：Text-to-Image Diffusion Models、Deep Learning、Complex Scenes

地址：https://arxiv.org/pdf/2408.13858

42. ConceptMix：一种具有可控难度的组合图像生成基准测试

标题：ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty

机构：普林斯顿大学

关键词：文本到图像模型，组合生成，基准测试，模型评估

地址：https://arxiv.org/pdf/2408.14339

43. 使大模型成为更优秀的规划者，通过推理决策一致性

标题：Making Large Language Models Better Planners with Reasoning-Decision Alignment

机构：中山大学、鹏城实验室、悉尼科技大学

关键词：大型语言模型、多模态增强、推理决策一致性、自动驾驶

地址：https://arxiv.org/pdf/2408.13890

44. 评估大模型在空间任务上的性能：一项多任务基准研究

标题：Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study

机构：浙江大学、德克萨斯农工大学

关键词：大语言模型、空间任务、多任务基准、模型评估

地址：https://arxiv.org/pdf/2408.14438

45. SelEx：自专家的细粒度通用类别发现

标题：SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery

机构：阿姆斯特丹大学

关键词：细粒度发现、自专家、通用类别、自监督学习

地址：https://arxiv.org/pdf/2408.14371

代码：https://github.com/SarahRastegar/SelEx

46. 面向任务的扩散反演用于基于高保真文本编辑

标题：Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing

机构：香港大学、华南理工大学、上海AI实验室

关键词：面向任务的扩散反演，图像编辑，高保真度，U-Net层，嵌入优化

地址：https://arxiv.org/pdf/2408.13395

47. 像素对齐的多视图生成与深度引导解码器

标题：Pixel-Aligned Multi-View Generation with Depth Guided Decoder

机构：多伦多大学、伊利诺伊大学

关键词：图像到多视图生成、潜在视频扩散模型、注意力层、U-Net

地址：https://arxiv.org/pdf/2408.14016

48. CodeRefine：利用大模型将研究论文方法自动转化为功能代码的技术流程

标题：CodeRefine: A Pipeline for Enhancing LLM-Generated Code Implementations of Research Papers

机构：印度理工学院

关键词：CodeRefine、大语言模型、研究论文、代码生成、知识图谱

地址：https://arxiv.org/pdf/2408.13366

49. Foodfusion：一种新颖的食物图像合成方法 via 扩散模型

标题：Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models

机构：西安电子科技大学

关键词：食物图像合成、扩散模型、前景和背景信息融合、FC22k 数据集

地址：https://arxiv.org/pdf/2408.14135

50. Avatar Concept Slider：精准控制你的人类化身

标题：Avatar Concept Slider: Manipulate Concepts In Your Human Avatar With Fine-grained Control

机构：新加坡科技与设计大学

关键词：异界概念滑块、3D人类化身、自然语言编辑、精确控制

地址：https://arxiv.org/pdf/2408.13995

51. Geo-Llama：利用大模型生成具有时空约束的人类移动轨迹

标题：Geo-Llama: Leveraging LLMs for Human Mobility Trajectory Generation with Spatiotemporal Constraints

机构：埃默里大学、南加州大学

关键词：Geo-Llama框架、大型语言模型（LLM）、时空约束、人类移动轨迹生成

地址：https://arxiv.org/pdf/2408.13918

52. MetaFFI -- 多语言间接互操作性系统

标题：MetaFFI -- Multilingual Indirect Interoperability System

机构：特拉维夫大学

关键词：多语言、间接互操作性、MetaFFI、跨语言调用

地址：https://arxiv.org/pdf/2408.14175

53. LMM-VQA: 推进大型多模态模型在视频质量评估中的应用

标题：LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models

关键词：视频质量评估、大型多模态模型、复杂问题、多样性问题

地址：https://arxiv.org/pdf/2408.14008

代码：https://github.com/Sueqk/LMM-VQA

54. TalkLoRA：低秩适应性对于说话驱动的动画

标题：TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation

机构：英国巴斯大学

关键词：低秩适应、说话驱动、动画模型、风格适应

地址：https://arxiv.org/pdf/2408.13714

55. 自动评估人类-模型交互式问题回答

标题：IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering

关键词：自动评估、交互式问题回答、大型语言模型、评估框架

地址：https://arxiv.org/pdf/2408.13545

56. Reducing the Cost：跨提示预微调用于短答题评分

标题：Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring

地址：https://arxiv.org/pdf/2408.13966

57. 长视频中的基于多跳问答的模型研究

标题：Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

机构：上海交通大学

关键词：长视频、多跳问答、模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.14469

58. Balancing Diversity and Risk in LLM Sampling：如何选择你的方法和参数 for开放式文本生成

标题：Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation

机构：曼海姆大学、马克斯·普朗克计算机科学研究所

地址：https://arxiv.org/pdf/2408.13586

59. 大模型生成代码文档：一项首次定量和定性评估

标题：Using Large Language Models to Document Code: A First Quantitative and Qualitative Assessment

地址：https://arxiv.org/pdf/2408.14007

60. 自动医学报告生成：方法与应用

标题：Automatic Medical Report Generation: Methods and Applications

关键词：自动医学报告生成、人工智能、放射科医生、医学成像

地址：https://arxiv.org/pdf/2408.13988

61. 基于大模型的桥梁设计规范问答系统

标题：Question answering system of bridge design specification based on large language model

关键词：大型语言模型、桥梁设计规范、问答系统

地址：https://arxiv.org/pdf/2408.13282

你觉得今天分享的论文哪篇at到了你？欢迎留言分享哦。

http://mp.weixin.qq.com/s?__biz=Mzg5OTkwMDY4Mw==&mid=2247486336&idx=1&sn=4ac9f66c12e42c94e590d309b1482a22

AI for Research

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI