统一RLHF、PPO、DPO和KTO方法:​广义隐式奖励函数 | Hand1000: 仅使用1000张图片生成逼真的手图像..

文摘   2024-08-29 19:47   广东  

前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!


1. UNA:统一RLHF、PPO、DPO和KTO:广义隐式奖励函数

  标题:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function

  机构:Salesforce、厦门大学

  作者:Zhichao Wang,  Bin Bi,  Can Huang

  分析:这篇论文提出了一种名为UNified Alignment(UNA)的方法,该方法统一了 RLHF/PPO、DPO和KTO 对齐技术。论文证明了一个经典RLHF目标函数诱导了一个广义隐式奖励函数,从而可以简化、加速、稳定并降低RL微调过程的负担。UNA能够适应不同的反馈类型,并且在下游实验中表现优于DPO、KTO和RLHF。

  地址:https://arxiv.org/pdf/2408.15339


2. Hand1000: 仅使用1000张图片生成逼真的手图像

  标题:Hand1000: Generating Realistic Hands from Text with Only 1,000 Images

  机构:北京大学、新加坡管理大学、中国科学技术大学

  相关领域:模型结构改进、预训练、数据集构建、评估指标

  作者:Haozhuo Zhang,  Bin Zhu,  Yu Cao

  分析:文本图像生成模型近年来取得了显著的进步,旨在从文本描述生成逼真的图像。然而,这些模型经常遇到生成解剖学准确的人手图像的难题。生成的图像经常出现手指数量错误、手指不自然扭转或交缠,或手图像模糊不清的问题。这些问题源于手的结构复杂性以及文本描述与精确的手图像表示对齐的难度。为了解决这些问题,该论文提出了一种名为Hand1000的新方法,它能够使用仅1000个训练样本生成逼真的人手图像。Hand1000的训练分为三个阶段。第一阶段旨在通过使用预训练的手势识别模型来增强模型对解剖学手部知识的理解,提取手势表示。第二阶段通过结合提取的手势表示进一步优化文本嵌入,以提高文本描述和生成的手图像之间的对齐度。第三阶段使用优化后的嵌入进行稳定扩散模型的微调,生成逼真的人手图像。此外,该论文还构建了首个专门为文本到手图像生成设计的公开数据集。基于现有的手势识别数据集,该论文采用高级图像captioning模型和LLaMA3生成丰富的文本描述,包括详细的动作信息。广泛的实验表明,Hand1000在产生解剖学正确的手图像并在其上忠实地代表其他文本细节方面显著超越了现有的模型,如脸部、服装和颜色。

  地址:https://arxiv.org/pdf/2408.15461


3. Freestyler:无伴奏说唱声音生成系统

  标题:Drop the beat! Freestyler for Accompaniment Conditioned Rapping Voice Generation

  机构:微软、西北工业大学、香港中文大学

  相关领域:大模型

  作者:Ziqian Ning,  Shuai Wang,  Yuepeng Jiang

  分析:这篇论文提出了一种名为Freestyler的系统,该系统可以直接从歌词和伴奏输入生成说唱声音。它使用了基于语言模型的标记生成,条件流匹配模型来产生频谱图,并通过神经声码器恢复音频。实验结果表明,Freestyler能够生成高质量的说唱声音,具有增强的自然度和与伴奏的良好节奏和风格对齐。

  地址:https://arxiv.org/pdf/2408.15474


4. Kangaroo:一个强大的视频-语言模型,支持长视频输入

  标题:Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input

  相关领域:数据集构建、视频理解、模型训练

  作者:Jiajun Liu,  Yibing Wang,  Hanghang Ma

  分析:袋鼠(Kangaroo)是一个旨在解决LLMs扩展到视频数据输入问题的强大Video LMM。由于缺乏高质量的视频数据和视觉特征的过度压缩,现有的方法在处理长视频方面表现不佳。为此,他们开发了一个数据整理系统来构建一个有高质量标注的大型预训练数据集。此外,他们设计了一个分级训练管道,该管道逐渐增加分辨率和输入帧数,以适应长视频。实验结果表明,Kangaroo在多个视频理解基准测试中表现出色,甚至在某些拥有超过10B参数的模型和私有模型上表现更好。

  地址:https://arxiv.org/pdf/2408.15542


5. 有限计算资源下的语言自适应:替换分词器有效且纯bfloat16精度足够

  标题:Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Konstantin Dobler,  Gerard de Melo

  分析:本文研究了紧凑学术计算预算下的语言适应问题,即只能使用少量GPU并持续预训练大型语言模型的情况。该论文主要关注将Mistrail-7B模型适应德语或阿拉伯语,并评估了几种方法以提高这种设置下的效率和效果。该论文的德语模型在这种紧凑计算预算下性能较差,而阿拉伯语模型则优于多个基线,表明对于表示充分的语言,专门的继续预训练并不总是有帮助的。该论文的主要发现集中在训练精度和token交换上。结果表明,仅使用少量GPU时,纯bfloat16训练是混合精度训练的有效替代方案,而且速度更快。交换专用tokenizer可以实现更高效的标记化,与包含一些德语tokens但并未显著提高性能的原始tokenizer具有竞争力。代码和模型权重可在GitHub上获得。

  地址:https://arxiv.org/pdf/2408.15793


6. Nexus:专业性与适应性相结合,高效训练专家混合模型

  标题:Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts

  相关领域:模型结构改进、多模态

  作者:Nikolas Gritsch,  Qizhen Zhang,  Acyr Locatelli

  分析:这篇论文关注于如何结合专业性和适应性,以高效地训练专家混合模型。论文提出了一种名为Nexus的增强型MoE架构,该架构具有自适应路由功能,可从领域表示中学习专家嵌入。Nexus能够在初始升级后灵活地添加新专家,通过分别训练的密集模型使用有限微调数据来扩展MoE,而无需针对未见数据域进行大规模MoE训练。实验表明,Nexus在初始升级时相对于基线获得了最高达2.1%的相对增益,而在使用有限微调数据扩展MoE时,相对增益为18.8%。这种灵活性对于建立一个开放源代码生态系统至关重要,用户可以根据需要连续组装自己的MoE混合。

  地址:https://arxiv.org/pdf/2408.15901


7. 晶体相和晶界生成的大模型

  标题:Grand canonical generative diffusion model for crystalline phases and grain boundaries

  机构:劳伦斯利弗莫尔国家实验室

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Bo Lei,  Enze Chen,  Hyuna Kwon

  分析:这篇论文提出了一种新的大模型——Grand canonical generative diffusion model,用于生成晶体结构以及晶界结构。传统的粒子扩散模型在生成简单有序的晶体结构时存在缺陷,主要是因为粒子在模拟退火过程中被困在局部最小值中,无法跳出。该模型采用连续体素而非固定数量的粒子来表示原子,从而避免了这个问题。该模型已被用于生成多种常见晶体相以及具有挑战性的晶界结构。

  地址:https://arxiv.org/pdf/2408.15601


8. ReMamba:有效长序列建模的ReMamba研究

  标题:ReMamba: Equip Mamba with Effective Long-Sequence Modeling

  机构:AI国家级重点实验室

  相关领域:模型结构改进

  作者:Danlong Yuan,  Jiahao Liu,  Bei Li

  分析:该研究针对Mamba模型在长序列语境理解方面的不足,提出了ReMamba模型。ReMamba通过选择性压缩和适应技术,在两相前向传播过程中增强了对长语境的理解能力,且几乎未产生额外的推理成本。实验结果表明,ReMamba提高了在长文本基准测试集上的性能,几乎达到了相同大小的Transform模型的性能。

  地址:https://arxiv.org/pdf/2408.15496


9. 利用开放知识推进大模型任务专精

  标题:Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

  机构:腾讯、上海交通大学

  相关领域:大模型

  作者:Yuncheng Yang,  Yulei Qin,  Tong Wu

  分析:这篇论文主要探讨了如何利用开放知识(包括低秩适应模型和指令数据集)来提高大型语言模型的任务专精性。为了避免手动准备指导数据集和训练资源带来的巨大成本,作者提出了一种有效的、可扩展的管道,以经济高效的方式产生任务专家。通过引入少量人工标注样本(即k-shot),该方法可以在利用开放知识的同时,弥合大型语言模型在特定领域部署中的知识差距。具体来说,作者开发了一个高效的、可扩展的流程,以经济高效的方式产生任务专家,其中k-shot数据在选择最有希望的专家候选者和与任务相关的指令方面起着关键作用。通过构建混合专家系统(MoE),作者成功地实现了在多个专家之间充分利用个体但互补的知识。作者揭示了MoE系统的两个关键成功因素:1)遵循k-shot;2)坚持多样性。对于前者,作者确保选择了真正具有k-shot问题解决能力的模型,而不是那些盲目猜测的模型。此外,在数据选择过程中,与k-shot共享任务相关上下文的指令被优先考虑。对于后者,作者强调构成专家的多样性以及在整个模型和数据选择过程中微调指令的多样性。

  地址:https://arxiv.org/pdf/2408.15915


10. StyleRemix: 手动风格混淆的可解释性方法

  标题:StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

  机构:华盛顿大学、艾伦AI研究所

  相关领域:大模型、作者身份模糊、风格元素转换、低秩适应(LoRA)

  作者:Jillian Fisher,  Skyler Hallinan,  Ximing Lu

  分析:StyleRemix 是一种旨在提高作者身份模糊度,同时保留特定风格特征的先进方法。它通过低秩适应(LoRA)模块定向地改变原文的正式程度、长度等风格维度,同时保持低成本。在自动和人类评估中,它超越了最先进的基线和大型LLMs。该论文还发布了AuthorMix和DiSC数据集,进一步推动了该领域的研究。

  地址:https://arxiv.org/pdf/2408.15666


11. 基于检索增强的指令调优自动化流程工程计算求解框架

   标题:Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection

   相关领域:模型结构改进、指令微调

   作者:Sagar Srinivas Sakhinana,  Geethan Sannidhi,  Venkataramana Runkana

   分析:论文介绍了一种新型自主代理框架,利用检索增强的指令调优(RAIT)技术,增强开放、可定制的小型代码语言模型(SLM),以进行流程工程计算。该框架结合了指令调优代码SLM和检索增强代码生成(RACG)使用外部工具,从自然语言规范生成、调试和优化代码。论文解决了当前缺乏用于专项流程工程任务的基础AI模型的问题,并提供了可解释性、知识编辑和成本效益的优势。此外,论文还整理了化学和流程工程的问题和解决方案数据集,以克服数据稀缺问题。实验结果表明,该框架在基准数据集上的性能与大型专有模型相匹配,证明了其有效性和实用性。

   地址:https://arxiv.org/pdf/2408.15866


12. 基于统计的检索增强模型框架

   标题:A Statistical Framework for Data-dependent Retrieval-Augmented Models

   机构:Google

   相关领域:模型结构改进,预训练,指令微调

   作者:Soumya Basu,  Ankit Singh Rawat,  Manzil Zaheer

   分析:这篇论文主要研究了在机器学习系统中,通过检索增强模型来提升最终预测性能的方法。论文提出了一个统计框架,该框架包括一个检索器用于根据数据依赖的指标从大量数据中找出相关信息,以及一个预测器使用输入实例和检索到的信息来进行预测。论文还提供了联合训练这两个组件的方法,并与其他文献中提到的训练方法进行了比较。此外,论文还提出了检索增强模型的风险超量界限,并分析了检索器和预测器在模型性能中所起的作用。在开放域的问答任务中验证了所提出训练方法的有效性和理论分析的正确性。

   地址:https://arxiv.org/pdf/2408.15399


13. 学习到排名用于大模型高效调度的策略

   标题:Efficient LLM Scheduling by Learning to Rank

   机构:清华大学、UC伯克利分校

   相关领域:模型结构改进

   作者:Yichao Fu,  Siqi Zhu,  Runlong Su

   分析:论文旨在解决大语言模型推理中请求输出长度不可预测导致的调度问题,传统做法倾向于简单的一来一去的调度策略,这容易造成瓶颈和吞吐量以及服务质量的下降。研究者提出通过学习到排名方法预测请求输出长度的相对排名,并据此开发了一个新颖的调度器,与现有系统相比,在聊天机器人服务中的延迟降低了2.8倍,在合成数据生成中的吞吐量提高了6.5倍。

   地址:https://arxiv.org/pdf/2408.15792

   代码:https://github.com/hao-ai-lab/vllm-ltr.git


14. Eagle:探索多模态 LLMs 的混合编码器设计空间

   标题:Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

   机构:英伟达、佐治亚理工学院

   相关领域:模型结构改进、多模态LLMs、视觉感知提升、混合编码器

   作者:Min Shi,  Fuxiao Liu,  Shihao Wang

   分析:这篇论文探讨了多模态大型语言模型(MLLMs)中混合编码器的设计空间,重点关注了通过混合视觉编码器提高视觉感知准确性和减少 hallucinations 的策略。它研究了视觉tokens 从多个互补视觉编码器中简单拼接与更复杂混合架构或策略的相对效果,并引入了预对齐(Pre-Alignment)机制来增强模型的一致性。研究结果表明,简单拼接方法同样有效,而预对齐机制进一步提高了性能。

   地址:https://arxiv.org/pdf/2408.15998

   代码:https://github.com/NVlabs/Eagle


15. TourSynbio: 多模态大型模型和代理框架,用于文字与蛋白质序列之间的桥梁

   标题:TourSynbio: A Multi-Modal Large Model and Agent Framework to Bridge Text and Protein Sequences for Protein Engineering

   机构:剑桥大学、上海交通大学、香港城市大学

   相关领域:模型结构改进、预训练、指令微调、多模态

   作者:Yiqing Shen,  Zan Chen,  Michail Mamalakis

   分析:这篇论文介绍了一种多模态大型模型,专门用于蛋白质工程任务,而不需要外部蛋白质编码器。该模型在无监督预训练和有监督微调时使用ProteinLMDataset数据集进行post-training和instruction fine-tuning,并在ProteinLMBench基准测试中表现出色。此外,该论文还介绍了一种名为TourSynbio-Agent的代理框架,该框架可以执行多种蛋白质工程任务,包括突变分析、逆向折叠、蛋白质折叠和可视化。

   地址:https://arxiv.org/pdf/2408.15299


16. CodeSift: 一种基于LLM的无需参考代码的自动代码验证框架

   标题:CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation

   机构:IBM研究院

   相关领域:模型评估

   作者:Pooja Aggarwal,  Oishik Chatterjee,  Ting Dai

   分析:论文介绍了一种名为CodeSift的框架,该框架利用大型语言模型(LLM)作为代码验证的第一道防线,无需执行代码、参考代码或人类反馈,从而减少验证工作量。该框架在多个编程语言和多样化的数据集中进行了测试,结果显示它比目前的代码评估方法更有效。专家测试也表明,CodeSift生成的结果符合人类偏好,表明它作为可靠的自动代码验证工具的有效性。

   地址:https://arxiv.org/pdf/2408.15630


17. Whisper-PMFA:基于 Whisper 模型进行说话人识别的部分多尺度特征聚合

   标题:Whisper-PMFA: Partial Multi-Scale Feature Aggregation for Speaker Verification using Whisper Models

   机构:清华大学、剑桥大学

   相关领域:预训练、模型评估、模型结构改进

   作者:Yiyang Zhao,  Shuai Wang,  Guangzhi Sun

   分析:本文提出了一种基于 Whisper 大规模预训练模型进行说话人识别的方法。该方法使用 Whisper 模型的部分编码器块进行部分多尺度特征聚合(PMFA),从而提取具有高度区分度的说话人嵌入。实验结果表明,中间和后期的编码器块保留了更多说话人信息。在 VoxCeleb1 和 CN-Celeb1 数据集上,该系统分别实现了 1.42% 和 8.23% 的等错误率(EER),相比 ECAPA-TDNN 和 ResNet34 基准模型分别降低了 0.58% 和 1.81% 的绝对 EER。此外,论文还指出在多语言数据上预训练的 Whisper 模型可以有效提高模型对语言的鲁棒性。最后,评估了一种低秩适应方法,该方法可以减少约 45 倍的可训练模型参数,同时仅使 EER 微增 0.2%。

   地址:https://arxiv.org/pdf/2408.15585


18. LogicGame:基于规则推理能力的大模型的基准测试

   标题:LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models

   机构:清华大学

   相关领域:模型评估

   作者:Jiayi Gui,  Yiming Liu,  Jiale Cheng

   分析:这篇论文介绍了一种新型基准测试LogicGame,用于评估大型语言模型(LLMs)的规则理解、执行和规划能力。该基准测试通过设计包含一系列规则的游戏场景,要求LLMs理解并应用这些规则来解决问题。论文强调逻辑游戏的设计旨在区分逻辑推理和单纯的知识,通过模拟情景让LLMs执行或规划操作以达到特定结果,以全面评估其基于规则的推理能力。该基准测试还包括不同难度级别的游戏场景,以精确评估LLMs在不同方面的性能。

   地址:https://arxiv.org/pdf/2408.15778


19. Interactive Agents:通过角色扮演模拟心理辅导员-客户语言模型交互

   标题:Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions

   机构:西湖大学

   相关领域:预训练模型、角色扮演

   作者:Huachuan Qiu,  Zhenzhong Lan

   分析:这篇论文主要探讨了如何使用大型语言模型(LLMs)来模拟心理辅导员和客户的对话,以实现有效的心理健康支持。研究人员构建了一个在线心理健康平台,让专业心理辅导员可以通过文本方式为每个会话的客户提供大约一个小时的辅导服务。然而,尽管这种方法在效果上是有效的,但也存在一些问题,比如人工标注耗时、成本高昂、需要保护隐私且不可扩展等。为了解决这些问题并研究LLM在心理辅导对话模拟中的适用性,作者提出了一个框架,该框架通过角色扮演的方式使用两个LLMs来模拟辅导员和客户的交互。这两个LLMs分别是扮演具有特定真实用户配置文件的客户和扮演经验丰富的辅导员,使用综合治疗技术生成专业的响应。作者通过零引导GPT-4模型实现了辅导员和客户的实现。为了评估LLM在模拟辅导员-客户交互中的效果以及了解LLM生成的对话与人类生成的对话之间的差异,作者从多个角度对合成数据进行了评估。首先,通过自动评估评估了客户的性能。然后,分析并比较了由LLM生成的对话与由专业辅导员生成的对话之间的差异。此外,还通过广泛的实验来彻底检查了该论文基于合成交互对话训练的LLM辅导员的性能,将其与最先进的心理健康模型进行基准测试。

   地址:https://arxiv.org/pdf/2408.15787


20. Conan-embedding:使用更多更高质量的负样本进行通用文本嵌入

   标题:Conan-embedding: General Text Embedding with More and Better Negative Samples

   机构:腾讯、北京大学

   相关领域:模型结构改进、预训练、数据集构建

   作者:Shiyu Li,  Yang Tang,  Shizhe Chen

   分析:这篇论文主要介绍了柯南嵌入模型,该模型通过利用更多的高质量负样本,提高文本嵌入的效果。论文提出了动态硬负样本挖掘方法,使模型在训练过程中接触到更具挑战性的负样本。同时,论文还使用了跨GPU平衡损失来提供更多的负样本进行嵌入训练,并平衡多个任务的批次大小。此外,研究还发现了来自大型语言模型的提示-响应对可用于嵌入训练。这些创新方法有效提高了嵌入模型的能力,并在大规模文本嵌入基准测试中排名中国第一。

   地址:https://arxiv.org/pdf/2408.15710


21. 探索联邦学习中选择性层式微调

   标题:Exploring Selective Layer Fine-Tuning in Federated Learning

   机构:香港科技大学、阿里巴巴集团

   相关领域:模型结构改进

   作者:Yuchang Sun,  Yuexiang Xie,  Bolin Ding

   分析:研究了在联邦学习中选择性层式微调的可变方法,并通过实验证明了一种利用本地梯度和调节层选择的方法在应对联邦学习中客户端多样性方面具有有效性。

   地址:https://arxiv.org/pdf/2408.15600


22. 从像素到散文:理解图像描述技术

   标题:Pixels to Prose: Understanding the art of Image Captioning

   机构:印度理工学院

   作者:Hrishikesh Singh,  Aarti Sharma,  Millie Pant

   分析:在人工智能不断发展的时代,机器越来越多地模拟人类类似的技能,包括视觉感知和语言表达。图像描述技术正处于这些领域的交叉点,使机器能够理解和生成描述性文本。本文全面回顾了图像描述技术的方法,内容包括基础方法到最先进的解决方案。从探索基础架构开始,追溯图像描述模型的发展到最新的高端解决方案。通过剖析这些架构的组成部分,读者可以了解潜在机制,并选择针对特定问题需求而定制的方法,避免重复工作。本文还探讨了图像描述技术在医疗领域的应用,阐述了其在各种实际场景中的重要性。此外,本文还提供了评估图像描述系统性能的指南,突出了进行评估的关键指标。通过概括理论概念和实际应用,本文帮助读者掌握了导航图像描述技术复杂环境和利用其潜在多元化的应用知识。

   地址:https://arxiv.org/pdf/2408.15714


23. SciLitLLM:如何适应科学文献理解的大模型

   标题:SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

   相关领域:预训练、指令微调、数据集构建

   作者:Sihang Li,  Jian Huang,  Jiaxi Zhuang

   分析:这篇论文提出了一种针对科学文献理解的大语言模型(LLM)的适应策略。通过连续预训练(CPT)和监用微调(SFT)的结合,该策略同时融合了科学领域知识和增强了针对特定任务的指令遵循能力。这种策略能够有效解决大语言模型在处理科学文献时面临的缺乏科学知识和不熟悉专业任务两大挑战。同时,论文还提出了一种基于LLM的合成方法,用于生成多样且高质量的科学指令,为缺乏代表性领域的监督微调提供了新的指令集。

   地址:https://arxiv.org/pdf/2408.15545


24. TEDRA:基于文本的动态和逼真的演员编辑技术

   标题:TEDRA: Text-based Editing of Dynamic and Photoreal Actors

   机构:弗莱堡大学、马克斯·普朗克计算机科学研究所

   相关领域:模型结构改进

   作者:Basavaraj Sunagad,  Heming Zhu,  Mohit Mendiratta

   分析:论文提出了一种基于文本的动态和逼真的演员编辑技术TEDRA。该技术解决了通过文本描述对人物角色的服装风格进行精细粒度且用户友好的编辑问题。通过训练模型创建高保真数字角色副本,并结合预训练的生成扩散模型进行个性化调整,实现对动态角色的文本驱动编辑。该方法保证了角色的高保真度、时空连贯性和动力学特性,并实现了骨骼姿态和视图控制。通过个人化扩散模型和基于文本的提示,实现了高质量的角色编辑。

   地址:https://arxiv.org/pdf/2408.15995


25. LLaVA-MoD:通过知识蒸馏实现小规模多模态语言模型的优化训练

   标题:LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

   相关领域:模型蒸馏、多模态

   作者:Fangxun Shu,  Yue Liao,  Le Zhuo

   分析:这篇论文提出了一种名为LLaVA-MoD的新型框架,旨在通过从大规模多模态语言模型(l-MLLM)中蒸馏知识,实现小规模多模态语言模型(s-MLLM)的有效训练。该框架解决了MLLM蒸馏中的两个基本挑战:一是通过集成稀疏的专家混合(MoE)架构优化s-MLLM的网络结构,在计算效率和模型表现力之间取得平衡;二是提出渐进的知识转移策略,确保全面的知识迁移。此外,论文通过广泛实验证明LLaVA-MoD在各种多模态基准测试中的表现优于现有模型,同时保持较少的激活参数和较低的计算成本。

   地址:https://arxiv.org/pdf/2408.15881

   代码:https://github.com/shufangxun/LLaVA-MoD


26. GenDDS:生成多样化驾驶视频场景的提示到视频生成模型

   标题:GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model

   机构:哥伦比亚大学

   相关领域:模型结构改进、数据集构建

   作者:Yongjie Fu,  Yunlong Li,  Xuan Di

   分析:该论文提出了一种基于Stable Diffusion XL(SDXL)的生成模型GenDDS,用于生成具有多样性的驾驶视频场景,目的是为了解决自动驾驶训练中需要覆盖多种交通、天气和道路类型的数据集。通过使用描述性提示来引导合成过程,结合最新的计算机视觉技术,如ControlNet和Hotshot-XL,作者构建了一个完整的视频生成流程。实验表明,该模型能够生成高质量的视频,模拟真实世界的驾驶场景,对于自动驾驶系统的高级训练数据和虚拟环境创建具有创新意义。

   地址:https://arxiv.org/pdf/2408.15868


27. Dolphin:Dolphin模型:长语境作为能源高效设备上语言模型的新模式

   标题:Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

   相关领域:模型结构改进、模型蒸馏、多模态

   作者:Wei Chen,  Zhiyuan Li,  Shuo Xin

   分析:这篇论文提出了一种名为Dolphin的新型解码器-解码器架构,用于能源高效处理语言模型中的长语境。它通过压缩解码器和记忆嵌入技术解决了设备上的语言模型面临的巨大能源消耗和延迟挑战。论文将长文本语境视为一种独特的形式,并受到视觉语言模型的启发,将图像嵌入投影器用于编码长文本语境。这种创新方法能够在不损失响应质量的情况下,实现更长的语境处理,显著提高能源效率和降低延迟。该论文为资源受限环境中能源高效和响应迅速的AI技术的发展做出了贡献,对自然语言处理领域具有广泛影响。

   地址:https://arxiv.org/pdf/2408.15518

   代码:https://huggingface.co/NexaAIDev/Dolphin


28. 基于神经网络架构搜索的二进制神经网络

   标题:NAS-BNN: Neural Architecture Search for Binary Neural Networks

   相关领域:模型结构改进

   作者:Zhihao Lin,  Yongtao Wang,  Jinhe Zhang

   分析:论文提出了一种新型的针对二进制神经网络的神经网络架构搜索方法,旨在解决传统全精度网络推理效率低下和压缩比不高的问题。通过设计一个基于二进制神经网络独特特性的搜索空间,以及三种训练策略,论文所发现的二进制模型家族在广泛的运算操作中表现出优异的性能。此外,论文还验证了所搜索到的二进制神经网络在目标检测任务上的可迁移性。

   地址:https://arxiv.org/pdf/2408.15484

   代码:https://github.com/VDIGPKU/NAS-BNN


29. TempoFormer: 时间感知的Transformer用于动态表示学习

   标题:TempoFormer: A Transformer for Temporally-aware Representations in Change Detection

   机构:伦敦玛丽女王大学

   作者:Talia Tseriotou,  Adam Tsakalidis,  Maria Liakata

   分析:动态表示学习在理解语言内容随时间演变方面起着关键作用。当前的方法通过预训练表示来建模上下文,这些表示通常是与时间无关的。在建模上下文和时间动态方面,先前的工作使用了循环方法,这既慢又容易过拟合。本文介绍了TempoFormer,这是第一个任务无关的基于Transformer的时间感知动态表示学习模型。该论文的模型联合训练了上下文的内部和外部动态,并引入了一个新的旋转位置嵌入的时间变化形式。该架构是灵活的,可以作为其他模型的时间表示基础,也可以应用于不同的Transformer架构。该论文在三个不同的实时变化检测任务上展示了新的最先进性能。

   地址:https://arxiv.org/pdf/2408.15689


30. VoxInstruct:表达性人类指令到语音生成的统一多语言编解码语言建模

   标题:VoxInstruct: Expressive Human Instruction-to-Speech Generation with Unified Multilingual Codec Language Modelling

   相关领域:模型结构改进、指令微调、多模态

   作者:Yixuan Zhou,  Xiaoyu Qin,  Zeyu Jin

   分析:本论文针对大语言模型中的语音合成领域,提出了一种名为VoxInstruct的新颖的统一多语言编解码语言建模框架。这个框架将传统文本到语音的任务扩展到人类指令到语音的通用任务。论文的目的是增强人类指令指导下的语音生成表达性,并使语音生成模 式与其他模态相匹配。为了使模型能够自动从原始文本指令中提取合成语音的内容,引入了语音语义标记作为指示内容的中间表示。此外,论文集成多个 Classifier-Free Guidance 策略来加强模型在遵循人类指令生成语音方面的表现。论文模型架构与训练策略允许同时支持结合语音提示和描述人类指令进行具有表现力的语音合成,这是首次尝试。论文额外提供代码、模型和演示,可供研究人员实现实验和拓展。

   地址:https://arxiv.org/pdf/2408.15676

   代码:https://github.com/thuhcsi/VoxInstruct


31. Atari-GPT:探究多模态大模型在 Atari 游戏中的低级别策略能力

   标题:Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games

   相关领域:多模态、模型评估

   地址:https://arxiv.org/pdf/2408.15950

   代码:https://sites.google.com/view/atari-gpt/


32. Implicit Geometry of Next-token Prediction:从语言稀疏模式到模型表示

   标题:Implicit Geometry of Next-token Prediction: From Language Sparsity Patterns to Model Representations

   机构:英属哥伦比亚大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2408.15417


33. CoGen: 学习反馈的耦合理解与生成

   标题:CoGen: Learning from Feedback with Coupled Comprehension and Generation

   机构:康奈尔大学、康奈尔科技学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2408.15992


34. WildFeedback:将大模型与用户现场交互和反馈对齐

   标题:WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2408.15549


35. MODULI:解锁偏好泛化能力,通过扩散模型实现离线多目标强化学习

   标题:MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2408.15501


36. 指令感知上下文压缩增强和加速大模型

   标题:Enhancing and Accelerating Large Language Models via Instruction-Aware Contextual Compression

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2408.15491


37. 基于大模型的全自动研究:模拟案例研究

   标题:Towards Fully Autonomous Research Powered by LLMs: Case Study on Simulations

   相关领域:指令微调、模型评估、数据集构建

   地址:https://arxiv.org/pdf/2408.15512


38. Mixture-of-Experts模型中的辅助损失无负载均衡策略

   标题:Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2408.15664


39. 自修正大模型用于数据科学代码生成

   标题:An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2408.15658


40. SIaM:大模型的自我提升编码辅助数学推理

   标题:SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2408.15565


41. 比较中文AI技术中的多样性、负面性和刻板印象:以百度、Ernie和Qwen为例

   标题:Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen

   相关领域:AI技术、社会偏见、语言模型、搜索引擎

   地址:https://arxiv.org/pdf/2408.15696


42. LLaMA3-70B与W8A8量化的独特关系

   标题:The Uniqueness of LLaMA3-70B with Per-Channel Quantization: An Empirical Study

   相关领域:大模型

   地址:https://arxiv.org/pdf/2408.15301


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章