探究语言模型中潜在思维链向量的发现 | 后续概率作为奖励信号对语言模型进行对齐 | 面向小时级视频理解的超长视觉语言模型...

文摘   2024-09-24 23:06   广东  

前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!


1. 探究语言模型中潜在思维链向量的发现

  标题:Uncovering Latent Chain of Thought Vectors in Language Models

  机构:斯坦福大学

  相关领域:指令微调、模型评估、数据集构建、评估指标

  作者:Jason Zhang,  Scott Viteri

  分析:这篇论文主要探讨了如何引导大型语言模型向有利于人类的方向发展。它提出了一种利用“引导向量”的方法,通过这种方法可以对语言模型的前向传递进行偏差,从而引导模型进行思维链(CoT)推理,而不需要通过自然语言来进行提示。研究在Llama3 8b和Mistral 7b v0.2模型上进行测试,并在多个推理基准测试中取得了与使用提示进行CoT相比的竞争力结果。这种方法可以一致地将模型引向CoT响应,且计算量小于传统的模型微调方法。

  地址:https://arxiv.org/pdf/2409.14026


2. Domino:通过通用张量切片和重叠消除大模型训练中的通信

  标题:Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping

  机构:微软

  相关领域:模型结构改进、模型评估、分布式训练技术

  作者:Guanhua Wang,  Chengming Zhang,  Zheyu Shen

  分析:这篇论文针对大型语言模型(LLM)训练过程中的通信开销问题,提出了一种名为Domino的新方案。该方案通过拆分数据依赖性的单个批次训练为较小的独立块,并管道化这些独立块的训练,从而隐藏通信背后的计算。此外,Domino还提供了精细粒度的通信和计算重叠的通用策略。实验结果表明,与Megatron-LM相比,Domino在Nvidia DGX-H100 GPU上实现了高达1.3倍的LLM训练速度提升。

  地址:https://arxiv.org/pdf/2409.15241


3. 后续概率作为奖励信号对语言模型进行对齐

  标题:Aligning Language Models Using Follow-up Likelihood as Reward Signal

  机构:北京大学、香港大学、新加坡国立大学

  相关领域:模型蒸馏

  作者:Chen Zhang,  Dading Chong,  Feng Jiang

  分析:论文提出了一种使用后续对话反应概率作为奖励信号的方法,来对语言模型进行对齐,从而提高模型回应的恰当性和帮助性。该方法旨在减少对人工标注或高级模型标注的依赖,通过自动挖掘偏好数据并直接优化模型以提高其表现。

  地址:https://arxiv.org/pdf/2409.13948


4. 具有混合注意力机制的推理友好型模型

  标题:Inference-Friendly Models With MixAttention

  机构:斯坦福大学

  作者:Shashank Rajput,  Ying Sheng,  Sean Owen

  分析:这篇论文主要研究了一种名为MixAttention的模型架构,这种架构在一定程度上解决了大语言模型中KV缓存大小与内存消耗、推理速度之间的矛盾。通过将滑动窗口注意力(一种特殊的注意力机制)与KV缓存共享的思想相结合,MixAttention显著降低了内存使用量,提升了推理速度,同时并未影响模型在各种上下文长度任务上的表现。

  地址:https://arxiv.org/pdf/2409.15012


5. Video-XL:面向小时级视频理解的超长视觉语言模型

  标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

  机构:北京大学、上海交通大学、中国人民大学

  相关领域:模型结构改进、多模态

  作者:Yan Shu,  Peitian Zhang,  Zheng Liu

  分析:这篇论文针对现有多模态大语言模型在处理极长视频时的挑战,如处理大量token的问题和视觉清晰度的降低,以及计算成本的高昂,提出了Video-XL模型。Video-XL是一个为高效率小时级视频理解设计的超长视觉语言模型,能够将视觉上下文压缩为高度紧凑的形式。实验结果表明,尽管该模型在有限的图像数据上训练,但仍取得了有希望的结果,且在处理1024帧视频时,在 haystack 中寻找 needle 的评估中达到接近100%的准确率。该模型对于视频摘要、异常检测和广告放置识别等长视频应用具有重要的价值。

  地址:https://arxiv.org/pdf/2409.14485


6. HOTVCOM:生成引人注目的视频评论

  标题:HOTVCOM: Generating Buzzworthy Comments for Videos

  机构:复旦大学、亚利桑那州立大学

  相关领域:数据集构建

  作者:Yuyan Chen,  Yiwen Qian,  Songzhou Yan

  分析:在社交媒体视频平台时代,热门评论对于吸引用户对短视频的关注度起着至关重要的作用,对于营销和品牌推广至关重要。然而,现有的研究主要集中在生成描述性评论或英文弹幕,对特定视频片段的即时反应。针对这一空白,本研究引入了最大的中文视频热门评论数据集HotVCom,包含9.4万多个多样化的视频和1.37亿条评论。此外,还提出了ComHeat框架,该框架协同整合视觉、听觉和文本数据,在中文视频数据集上生成有影响力的热门评论。实证研究证明了框架的有效性,并在新建和现有数据集上都表现出卓越性能。

  地址:https://arxiv.org/pdf/2409.15196


7. LoVA: 长视频到音频生成

  标题:LoVA: Long-form Video-to-Audio Generation

  相关领域:模型结构改进

  作者:Xin Cheng,  Xihua Wang,  Yihan Wu

  分析:这篇论文主要探讨了从长视频生成同步音频的问题,这一领域尚未得到充分的关注。研究指出,现有的基于UNet扩散模型的方法在处理长视频时无法避免地会出现音频连贯性问题。论文提出了LoVA模型,这是一种基于Diffusion Transformer的解决方案,能够有效生成长段音频,并在实验中优于传统模型。

  地址:https://arxiv.org/pdf/2409.15157


8. 大模型的算术机制解释

  标题:Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis

  相关领域:模型结构改进

  作者:Zeping Yu,  Sophia Ananiadou

  分析:该论文通过对比神经元分析的方法,揭示了大语言模型内部的算术能力。他们发现算术能力存在于有限数量的注意力头中,每个头专门处理不同的运算。进一步,他们引入了比较神经元分析(CNA)方法,从输入到预测的过程中识别出由四个不同阶段构成的内部逻辑链:浅层FFN神经元的特征增强、浅层注意力层的特性传递、算术头部的特性预测以及深层FFN神经元的预测增强。此外,他们还识别出了在特征增强和特征预测阶段都具有人类可解释性的FFN神经元。这些发现促使他们研究了LoRA的机制,揭示了LoRA通过放大与预测相关的FFN神经元的系数分数来增强预测概率。最后,他们在算术任务的模型剪枝和减少性别偏见的模型编辑中应用了这种方法。

  地址:https://arxiv.org/pdf/2409.14144

  代码:https://github.com/zepingyu0512/arithmetic-mechanism


9. 更具效率的LLM压缩令牌:均匀分布位置标识符与压缩损失

  标题:More Effective LLM Compressed Tokens with Uniformly Spread Position Identifiers and Compression Loss

  相关领域:模型蒸馏

  作者:Runsong Zhao,  Pengcheng Huang,  Xinyu Liu

  分析:这篇论文研究如何通过压缩Transformer输入来提高大语言模型(LLM)的速度和成本效率。基于ICAE压缩方法,论文仔细研究了压缩令牌的位置标识符选择,并提出了一种新的压缩损失。实证结果表明,新方法实现了更高的压缩比率(相较于ICAE方法的4倍,达到了15倍),同时保持了相当的重建性能。

  地址:https://arxiv.org/pdf/2409.14364


10. GlamTry: 进步的高级配件虚拟试穿

  标题:GlamTry: Advancing Virtual Try-On for High-End Accessories

  机构:斯坦福大学

  相关领域:模型结构改进、评估指标

  作者:Ting-Yu Chang,  Seretsi Khabane Lekena

  分析:这篇论文旨在解决高级配件如珠宝和手表方面缺乏逼真的虚拟试穿模型的问题,以适应在线零售的需要。虽然现有的虚拟试穿模型主要针对服饰,该研究探索了在服饰领域已有的技术,如 VITON-HD,并将它们与 MediaPipe 手部地标模型等其他计算机视觉模型相结合。利用特定的配件数据和网络架构修改自定制并重新训练模型,以评估将虚拟试穿技术扩展到配件领域的可行性。结果显示,即使在数据集较小的情况下,衣物定位预测相比原模型有所提高,证明了在更大数据集(超过10,000张图像)下模型的潜力,为未来研究配件虚拟试穿应用提供了探索路径。

  地址:https://arxiv.org/pdf/2409.14553


11. 初步研究o1在医学:我们接近AI医生?

   标题:A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

   机构:国家卫生研究院、UC圣克鲁斯分校

   相关领域:模型结构改进、指令微调、奖励模型、RLHF

   作者:Yunfei Xie,  Juncheng Wu,  Haoqin Tu

   分析:这篇论文主要介绍了OpenAI开发的o1大型语言模型,它是第一个使用强化学习策略内化思维链条技术的LLM。o1在各种领域都有出色的表现,但其在医学领域的表现还很未知。论文进行了全面的探索,评估了o1在6个医学场景中的表现,包括理解、推理和多语言能力。研究表明,o1在理解医疗指令和推理复杂的临床场景方面有显著提升。尽管o1在准确性上超过了GPT-4,但也存在一些问题,如幻觉、多语言能力不一致和评估指标不统一。论文还提供了数据和模型输出,供未来研究使用。

   地址:https://arxiv.org/pdf/2409.15277

   代码:https://ucsc-vlaa.github.io/o1_medicine/


12. Large Model Agents:最新技术、合作范式、安全与隐私及未来趋势

   标题:Large Model Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends

   相关领域:模型结构改进、预训练、多模态

   作者:Yuntao Wang,  Yanghe Pan,  Quan Zhao

   分析:本文主要介绍了大型模型代理(LM agents)的最新进展,包括其架构、合作范式、安全、隐私和未来发展趋势。文章首先探讨了大型模型代理的基本原理和关键特性,然后讨论了从数据、计算和知识角度的实际合作范式,接着分析了与大型模型代理相关的安全漏洞和隐私泄露问题,并探讨了潜在对策。最后,文章展望了构建稳健安全的大型模型代理生态系统的未来研究方向。

   地址:https://arxiv.org/pdf/2409.14457


13. SAMEdge:边缘云视频分析架构

   标题:SAMEdge: An Edge-cloud Video Analytics Architecture for the Segment Anything Model

   机构:英伟达、MetaAI研究

   作者:Rui Lu,  Siping Shi,  Yanting Liu

   分析:这篇论文主要介绍了一种新的边缘云计算架构,名为SAMEdge,旨在支持SAM模型在边缘用户中的实时计算。SAMEdge通过集成新的边缘和云端模块,优化了视觉提示和图像提示下的大数据分析精度,并解决了资源挑战,包括提示编码和图像编码。该架构是对开源的SAM项目(来自Meta AI)的扩展。通过一个视导导游示例,论文展示了SAMEdge的实际应用,并证明其在各种网络带宽下都能显著提高视频分析应用的准确性。

   地址:https://arxiv.org/pdf/2409.14784


14. Target word activity detector:获取ASR单词边界的无字典方法

   标题:Target word activity detector: An approach to obtain ASR word boundaries without lexicon

   机构:微软

   相关领域:预训练模型结构

   作者:Sunit Sivasankaran,  Eric Sun,  Jinyu Li

   分析:本文提出了一种无需依赖字典的新方法来估计端到端ASR模型中的单词边界。该方法利用子词 token 单元的词嵌入信息和预训练的ASR模型,仅在训练期间需要单词对齐信息。该方法能够无成本地扩展到任意数量的语言,并通过使用多语言ASR模型验证其有效性,该模型在五种语言上进行训练。

   地址:https://arxiv.org/pdf/2409.13913


15. 从开放域单目视频中重建穿宽松服装的真人

   标题:ReLoo: Reconstructing Humans Dressed in Loose Garments from Monocular Video in the Wild

   机构:微软

   相关领域:模型评估、数据集构建、评估指标

   作者:Chen Guo,  Tianjian Jiang,  Manuel Kaufmann

   分析:本文提出了一种名为ReLoo的方法,可以重建穿宽松服装人像的3D模型。针对以往方法难以处理宽松服装带来的非刚体表面形变的问题,该方法通过构建层叠神经人类表示,将着装的人类分解为神经网络内体和外部服装,并结合非层次虚拟骨骼形变模块,实现对宽松服装的非刚性形变的精确恢复。通过多层级可微体积渲染进行形状、外观及形变的全局优化。实验在现有和新的数据集上证明,ReLoo在室内数据集和野外视频中均表现出优于现有技术的性能。

   地址:https://arxiv.org/pdf/2409.15269


16. 基于LLM驱动的初始种子语料库生成增强定向灰盒模糊测试的研究

   标题:ISC4DGF: Enhancing Directed Grey-box Fuzzing with LLM-Driven Initial Seed Corpus Generation

   机构:北京大学、微软亚洲研究院

   相关领域:模型结构改进、指令微调

   作者:Yijiang Xu,  Hongrui Jia,  Liguo Chen

   分析:论文提出了一种使用大型语言模型(LLM)生成优化初始种子语料库的方法,以增强定向灰盒模糊测试(DGF)。该方法通过利用LLM对软件的深度理解和精细的用户输入,创建精确的种子语料库,以触发特定的漏洞。研究实现了对AFL模糊测试器的改进,并在Magma基准测试上测试了该方法,显示出其高效性和优越性。

   地址:https://arxiv.org/pdf/2409.14329


17. SpaceBlender:通过生成式3D场景融合创建丰富的上下文协作空间

   标题:SpaceBlender: Creating Context-Rich Collaborative Spaces Through Generative 3D Scene Blending

   机构:伦敦大学、微软研究院

   相关领域:模型结构改进、场景生成

   作者:Nels Numan,  Shwetha Rajaram,  Balasaravanan Thoravi Kumaravel

   分析:这篇论文关注虚拟现实应用中生成式AI创建3D空间的问题。当前模型生成的环境无法支持融入用户物理上下文的协作任务。论文引入SpaceBlender,一种利用生成式AI技术将用户现实环境融入统一虚拟空间的管道。该管道通过深度估计、网格对齐和基于扩散的空间补全等迭代过程,以几何先验和自适应文本提示为指导,将用户提供的2D图像转化为丰富的3D环境。论文对SpaceBlender进行了初步的用户研究,评估了其在协作任务中创建虚拟空间的适用性。用户认为SpaceBlender增强了熟悉感和上下文,但也指出了生成环境中的复杂性可能会分散任务注意力。

   地址:https://arxiv.org/pdf/2409.13926


18. ToxiCraft:有害信息合成生成的新型框架

   标题:ToxiCraft: A Novel Framework for Synthetic Generation of Harmful Information

   机构:微软、清华大学、哥伦比亚大学

   相关领域:数据集构建

   作者:Zheng Hui,  Zhaoxiao Guo,  Hang Zhao

   分析:论文提出了一种名为ToxiCraft的新型框架,用于合成生成有害信息数据集。该框架旨在解决在线环境中检测有害内容存在的两个主要问题:资源稀缺环境下的数据缺乏以及有害内容定义和评判标准的不一致。通过仅使用少量种子数据,ToxiCraft能够生成大量合成但非常现实的有害信息示例。在不同数据集上的实验展示了该框架在增强检测模型的稳健性和适应性方面的显著优势,甚至超越了黄金标准。

   地址:https://arxiv.org/pdf/2409.14740


19. Mufu:多语言融合学习在低资源翻译中的应用与大模型

   标题:Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM

   机构:墨尔本大学、Google

   相关领域:模型结构改进、预训练、指令微调、低资源翻译

   作者:Zheng Wei Lim,  Nitish Gupta,  Honglin Yu

   分析:这篇论文关注多语言大型语言模型(LLM)在低资源翻译中的表现。针对LLM在翻译低资源语言时的挑战,提出Mufu方法,包括自动生成的多元语言候选和指令来修正不准确的翻译提示。Mufu将翻译任务转化为校订任务,利用LLM的推理能力与辅助翻译候选,要求模型评估输入质量、跨语言语义对齐、复制相关输入并覆盖错误实例。实验表明,该方法在En-XX翻译任务中表现优越。

   地址:https://arxiv.org/pdf/2409.13949


20. One Model is All You Need:ByT5-梵文模型在梵语自然语言处理任务中的统一应用

   标题:One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks

   机构:苏黎世大学、UC伯克利分校

   相关领域:预训练、模型结构改进

   作者:Sebastian Nehrdich,  Oliver Hellwig,  Kurt Keutzer

   分析:这篇论文提出了一种新的预训练语言模型ByT5-Sanskrit,用于处理梵语这种形态丰富的语言在自然语言处理(NLP)中的任务。论文主要解决了以往梵语处理模型的局限性问题,介绍了模型的构建、性能评估和实际应用,以及在多语言环境中的性能表现。该模型在梵语单词分割、依赖解析和OCR校正等任务上取得了最新成果。此外,论文还引入了一个新型多任务数据集用于联合训练梵语单词分割、词形分析和形态句法标注任务。论文展示了该模型在各种梵语NLP应用的通用性和实用性。

   地址:https://arxiv.org/pdf/2409.13920


21. MANTA -- 模型适配器原生生成,经济实惠

   标题:MANTA -- Model Adapter Native generations that's Affordable

   机构:UC伯克利分校

   相关领域:模型结构和改进

   作者:Ansh Chaurasia

   分析:论文提出了一个模型适配器组合的问题,并介绍了一种新的方法MANTA,该方法能够提高图像任务的多样性和质量,尽管在一致性上有所下降。MANTA在COCO 2014验证集上取得了显著的性能,任务多样性和任务质量胜率分别达到了94%和80%。该系统的性能表明,它在合成数据生成和创意艺术领域有很强的应用潜力。

   地址:https://arxiv.org/pdf/2409.14363


22. 评估大模型生成代码注释的教育有效性

   标题:Evaluating the Quality of Code Comments Generated by Large Language Models for Novice Programmers

   机构:匹兹堡大学、伊利诺伊大学、卡内基梅隆大学

   相关领域:模型评估、注释生成、新手程序员

   作者:Aysa Xuemo Fan,  Arun Balajiee Lekshmi Narayanan,  Mohammad Hassany

   分析:这篇论文主要研究了大型语言模型(LLMs)生成Java代码注释的可用性,特别是对于新手程序员的指导质量。论文比较了GPT-4、GPT-3.5-Turbo和Llama2模型生成的注释与专家注释的差异,重点关注新手程序员所需的关键特性,如清晰性、易用性、概念阐述和步骤指导。通过分析LeetCode上的“简单”级别Java解题示例,论文发现GPT-4在多方面与专家注释相当,尤其是在适合新手的地方。GPT-4在讨论复杂性方面的表现优于Llama2,并被认为比GPT-3.5和Llama2更适合新手。研究凸显了LLMs为新手程序员生成定制注释的潜力。

   地址:https://arxiv.org/pdf/2409.14368


23. 基于问题与选项遮蔽技巧提升LLM在电信领域的问答性能研究

   标题:QMOS: Enhancing LLMs for Telecommunication with Question Masked loss and Option Shuffling

   机构:卡内基梅隆大学

   相关领域:模型结构改进、指令微调

   作者:Blessed Guda,  Gabrial Zencha A.,  Lawrence Francis

   分析:针对LLM在电信领域问答系统的不足,提出了一种基于问题与选项遮蔽技巧的方法QMOS,通过增强RAG框架在电信领域多选题的回答性能。使用开源小型语言模型Phi-2和Falcon-7B进行试验,对微调、检索、提示工程和推理等整个LLM-RAG流程进行多方面的改进,显著提高了准确性。

   地址:https://arxiv.org/pdf/2409.14175


24. MemeCLIP:利用CLIP表示进行多模态meme分类

   标题:MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification

   机构:东北大学、南洋理工大学、伊利诺伊大学

   相关领域:多模态

   作者:Siddhant Bikram Shah,  Shuvam Shiwakoti,  Maheep Chaudhary

   分析:论文介绍了多模态分析的新方法,聚焦于文本嵌入图像的理解挑战。通过引入新的数据集PrideMM,研究涵盖了多种语言方面,包括仇恨、目标、立场和幽默检测。论文提出了MemeCLIP框架,该框架结合了预训练的CLIP模型和下游学习任务,在真实数据集上表现出优越性能。

   地址:https://arxiv.org/pdf/2409.14703

   代码:https://github.com/SiddhantBikram/MemeCLIP


25. UniMo:无需网络重训的医疗图像通用运动校正框架

   标题:UniMo: Universal Motion Correction For Medical Images without Network Retraining

   机构:东北大学、哈佛医学院、麻省理工学院

   相关领域:模型结构改进、多模态

   作者:Jian Wang,  Razieh Faghihpirayesh,  Danny Joca

   分析:论文介绍了一种通用运动校正(UniMo)框架,利用深度神经网络解决跨不同成像模式的运动校正挑战。该方法采用先进的神经网络架构和等变滤波器,克服当前模型需要迭代推理或新图像模式重训的限制。UniMo能够在单一模式上进行一次训练,同时在多个未见图像模式上保持高稳定性和适应性。该研究还开发了一个联合学习框架,能够整合形状和图像的跨模态知识,以提高运动校正的准确性。

   地址:https://arxiv.org/pdf/2409.14204

   代码:https://github.com/IntelligentImaging/UNIMO/


26. SSE: 工业级大规模数据融合与增强框架

   标题:SSE: Multimodal Semantic Data Selection and Enrichment for Industrial-scale Data Assimilation

   机构:英伟达

   相关领域:数据融合/增强,多模态学习,语义理解,工业自动化

   作者:Maying Shen,  Nadine Chang,  Sifei Liu

   分析:SSE论文提出了一种新的数据处理方法,通过多模态语义数据选择和增强,处理工业级大量数据,解决数据过多但模型表现饱和的问题。研究利用基础模型为数据点生成语义,并证明了减少训练数据但保持性能,或通过增强小数据提高性能的策略。关键价值在于强调了语义多样性对最优数据和模型性能的重要性。

   地址:https://arxiv.org/pdf/2409.13860


27. Archon:一种自动设计推理时架构的框架

   标题:Archon: An Architecture Search Framework for Inference-Time Techniques

   机构:斯坦福大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Jon Saad-Falcon,  Adrian Gamarra Lafuente,  Shlok Natarajan

   分析:这篇论文主要介绍了一种名为Archon的自动化框架,用于设计推理时架构。该框架定义了一个可扩展的设计空间,包括生成集成、多采样、排序、融合、评估、验证和单元测试等方法。然后,它将选择和组合大型语言模型(LLM)和推理时技术的问题转化为一个超参数优化目标。为了优化这个目标,作者引入了自动推理时架构搜索(ITAS)算法。给定目标基准、推理计算预算和可用的大型语言模型,ITAS输出优化的架构。在多个指令跟踪和推理基准上评估了Archon架构,结果显示,Archon自动设计的推理时架构在这些基准上的性能优于GPT-4o和Claude 3.5 Sonnet等强模型。论文还提供了代码和数据集。

   地址:https://arxiv.org/pdf/2409.15254

   代码:https://github.com/ScalingIntelligence/Archon


28. MaskedMimic:通过遮罩动作填补统一物理基础角色控制

   标题:MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting

   机构:英伟达

   相关领域:模型结构改进、预训练、奖励模型、RLHF

   作者:Chen Tessler,  Yunrong Guo,  Ofir Nabati

   分析:这篇论文提出了一种新的方法,将物理基础的角色控制视为一个通用动作填补问题。该论文通过训练单一的全能模型,使其能够从部分(遮罩)动作描述中生成动作,比如说遮罩关键帧、物体、文本描述或任何组合。论文通过利用动作跟踪数据和设计有效的多样化的动作描述训练方法,实现了这一目标。这种方式让该论文的方法学习到了一种物理基础的角色控制,提供了无需繁琐的奖励工程即可控制角色的直觉接口。控制支持多种控制方式,并能无缝地切换不同的任务。这种方法能创造出能够适应复杂场景和即兴生成各种动作的虚拟角色。

   地址:https://arxiv.org/pdf/2409.14393


29. TalkMosaic: 交互式照片拼贴艺术与多模态LLM问答交互

   标题:TalkMosaic: Interactive PhotoMosaic with Multi-modal LLM Q&A Interactions

   机构:麻省理工学院

   相关领域:模型结构改进、预训练、指令微调

   作者:Kevin Li,  Fulu Li

   分析:这篇论文提出了一个新颖的多模态技术,将汽车图片组成动物图片,如鸟或狮子,以提高环保意识,并通过交互式照片拼贴展示汽车信息。论文构建了一个名叫TalkMosaic的艺术家设计的交互式照片拼贴,它结合了汽车图片和知识,集成到ChatGPT中。用户可以上传汽车图片并向TalkMosaic提问,如询问环保轮胎购买地点,以获取答案。论文还提出了加速多模态LLM推理的方法,包括稀疏注意力、量化技术和动态注意力机制。实验证明所提出的方法有效可行。

   地址:https://arxiv.org/pdf/2409.13941


30. 用emoji在不监督的图预训练中释放文本的威力

   标题:Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training

   机构:复旦大学、阿里巴巴集团

   相关领域:预训练

   作者:Zhou Zhang,  Dongzeng Tan,  Jiaan Wang

   分析:这篇论文提出了一种通过在不监督的图预训练中考虑表情符号来增强文本数据 mining 能力的方法。作者们构建了一个包含三种节点(帖子、单词和表情符号节点)的综合图,以及定义清晰的概念关系,以表示不同元素之间的互动。通过两个预训练任务(节点级别的图对比学习以及边缘级别的链接重建学习),作者们提出了一种图预训练框架,用于文本和表情符号的共同建模。在微博上和Twitter上的实验表明,这种方法能够显著提升与已有强基线的性能。

   地址:https://arxiv.org/pdf/2409.14552


31. MaterialFusion:增强反渲染与材料扩散先验

   标题:MaterialFusion: Enhancing Inverse Rendering with Material Diffusion Priors

   机构:特拉维夫大学、卡内基梅隆大学

   地址:https://arxiv.org/pdf/2409.15273


32. DanceCamAnimator:基于关键帧的可控三维舞蹈摄像机合成

   标题:DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis

   机构:清华大学、北京大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.14925

   代码:https://github.com/Carmenw1203/DanceCamAnimator-Official


33. KARMA:通过长短时记忆系统增强嵌入式AI代理

   标题:KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems

   机构:阿里巴巴集团、中国科学院大学、中国科学院计算技术研究所

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.14908

   代码:https://youtu.be/4BT7fnw9ehs


34. 蛋白蛛模型: 用于蛋白质功能预测的生物蜘蛛模型

   标题:Protein-Mamba: Biological Mamba Models for Protein Function Prediction

   机构:斯坦福大学、伊利诺伊大学、韩国科学技术院

   相关领域:预训练

   地址:https://arxiv.org/pdf/2409.14617


35. 提示增强与语义利用提升大模型的视觉理解

   标题:Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization

   机构:复旦大学、字节跳动

   相关领域:指令微调, 多模态

   地址:https://arxiv.org/pdf/2409.14484

   代码:https://github.com/zhaominyiz/PACU


36. UU-Mamba:面向心血管分割的不确定性感知U-Mamba模型

   标题:UU-Mamba: Uncertainty-aware U-Mamba for Cardiovascular Segmentation

   机构:普渡大学、哈佛医学院、北卡罗来纳大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.14305


37. SURf:教学大型视觉语言模型选择性利用检索信息的能力提升研究

   标题:SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information

   机构:厦门大学、香港中文大学、上海AI实验室

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.14083

   代码:https://github.com/GasolSun36/SURf


38. 图像到图像的图像辅助

   标题:PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

   机构:北京大学、上海AI实验室

   地址:https://arxiv.org/pdf/2409.15278

   代码:https://github.com/AFeng-x/PixWizard


39. 解决科学文献中的多文档同指性和层次结构问题的定义增强关系推理

   标题:Scientific Cross-Document Coreference and Hierarchy with Definition-Augmented Relational Reasoning

   机构:希伯莱大学、艾伦AI研究所

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.15113


40. 从泛化视角重新审视视频质量评估

   标题:Revisiting Video Quality Assessment from the Perspective of Generalization

   机构:腾讯、武汉大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.14847

   代码:https://github.com/XinliYue/VQA-Generalization


41. ChemEval:大模型在化学领域的全面多层次评估

   标题:ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models

   机构:中国科学技术大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.13989

   代码:https://github.com/USTC-StarTeam/ChemEval


42. OmniBench:多模态元语言模型的未来评估基准

   标题:OmniBench: Towards The Future of Universal Omni-Language Models

   机构:南京大学、曼彻斯特大学、香港科技大学

   相关领域:多模态语言模型、大模型集成、OMLs(Omni-Language Models)

   地址:https://arxiv.org/pdf/2409.15272

   代码:https://m-a-p.ai/OmniBench


43. LLM引导的交通模拟可控性研究

   标题:Controllable Traffic Simulation through LLM-Guided Hierarchical Chain-of-Thought Reasoning

   机构:清华大学、香港科技大学、威斯康星大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.15135


44. PackageIntel:利用大模型在包生态系统中进行自动化情报提取

   标题:PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems

   机构:南京大学、四川大学、南洋理工大学

   相关领域:指令微调、模型评估

   地址:https://arxiv.org/pdf/2409.15049


45. VLEU:自动评估文本到图像模型泛化能力的方法

   标题:VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models

   机构:香港中文大学、香港科技大学

   相关领域:模型评估,文本到图像模型,泛化能力

   地址:https://arxiv.org/pdf/2409.14704


46. 创意作家对于将他们的写作作为大模型训练数据的态度

   标题:Creative Writers' Attitudes on Writing as Training Data for Large Language Models

   机构:哈佛大学、密歇根大学、约翰霍普金斯大学

   地址:https://arxiv.org/pdf/2409.14281


47. Can-Do数据集与神经符号化框架在大型多模态模型中的实体规划应用

   标题:Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

   机构:阿里巴巴集团达摩院、新加坡科技与设计大学

   相关领域:数据集构建、模型评估、多模态

   地址:https://arxiv.org/pdf/2409.14277

   代码:https://embodied-planning.github.io


48. 大模型是自动驾驶的万灵药吗?

   标题:Will Large Language Models be a Panacea to Autonomous Driving?

   机构:清华大学、麻省理工学院

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.14165


49. 精细粒度组合指代表达式理解的全新数据集与任务:FineCops-Ref

   标题:FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension

   机构:电子科技大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.14750

   代码:https://github.com/liujunzhuo/FineCops-Ref


50. SongTrans:歌词与音符的统一转录与对齐方法

   标题:SongTrans: An unified song transcription and alignment method for lyrics and notes

   机构:阿里巴巴集团、曼彻斯特大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.14619


51. InteLiPlan:基于交互式轻量化LLM的家庭机器人自主规划框架

   标题:InteLiPlan: Interactive Lightweight LLM-Based Planner for Domestic Robot Autonomy

   机构:牛津大学

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.14506


52. DilateQuant:基于权重膨胀的扩散模型的准确高效量化研究

   标题:DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation

   机构:中国科学院大学、中国科学院自动化研究所

   相关领域:模型评估、模型蒸馏

   地址:https://arxiv.org/pdf/2409.14307


53. 基于谓语文本双重转换的医疗事实知识掌握度评估研究

   标题:PretextTrans: Investigating Medical Factual Knowledge Mastery of LLMs with Predicate-text Dual Transformation

   机构:清华大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.14302


54. FisheyeDepth: 鱼眼深度估计模型

   标题:FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera

   机构:香港科技大学

   地址:https://arxiv.org/pdf/2409.15054

   代码:https://github.com/guoyangzhao/FisheyeDepth


55. FastGL:加速大尺度图神经网络训练的GPU高效框架

   标题:FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale

   机构:上海交通大学、中国科学院大学

   相关领域:模型优化、图神经网络、GPU加速

   地址:https://arxiv.org/pdf/2409.14939

   代码:https://github.com/a1bc2def6g/fastgl-ae


56. 提升人工智能生成内容视频质量评估

   标题:Advancing Video Quality Assessment for AIGC

   机构:腾讯、武汉大学

   相关领域:模型评估、数据集构建、评估指标、多模态

   地址:https://arxiv.org/pdf/2409.14888


57. GroupDiff:基于扩散的团队肖像编辑

   标题:GroupDiff: Diffusion-based Group Portrait Editing

   机构:北京大学、南洋理工大学、Adobe Research

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.14379


58. MobileViews:一个大规模的移动GUI数据集

   标题:MobileViews: A Large-Scale Mobile GUI Dataset

   机构:清华大学、北京邮电大学

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2409.14337


59. 视频到音频生成:具有精细时间语义的模型

   标题:Video-to-Audio Generation with Fine-grained Temporal Semantics

   机构:腾讯AI实验室

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.14709


60. S^2AG-Vid:基于空间与句法注意力引导增强视频扩散模型中的多动作对齐

   标题:S^2AG-Vid: Enhancing Multi-Motion Alignment in Video Diffusion Models via Spatial and Syntactic Attention-Based Guidance

   机构:百度

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.15259


61. UELLM: 统一且高效的 LLMs 推断服务方法

   标题:UELLM: A Unified and Efficient Approach for LLM Inference Serving

   机构:中国科学院-深圳

   相关领域:模型资源管理

   地址:https://arxiv.org/pdf/2409.14961


62. 自适应注意力 Large Vision-Language Models

   标题:A-VL: Adaptive Attention for Large Vision-Language Models

   机构:中国科学技术大学

   相关领域:模型结构改进、自适应注意力、视觉语言模型

   地址:https://arxiv.org/pdf/2409.14846


63. Like a Martial Arts Dodge:移动操纵器的全身快速安全控制以实现避障

   标题:Like a Martial Arts Dodge: Safe Expeditious Whole-Body Control of Mobile Manipulators for Collision Avoidance

   机构:清华大学、中山大学、合肥工业大学

   地址:https://arxiv.org/pdf/2409.14775


64. 多模态生成AI:多模态语言模型,扩散和更多

   标题:Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond

   机构:清华大学

   地址:https://arxiv.org/pdf/2409.14993


65. zsLLMCode: 一种通过LLM实现零样本学习的功能代码嵌入的有效方法

   标题:zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning

   机构:南京大学、澳门科技大学

   地址:https://arxiv.org/pdf/2409.14644


66. 各向异性扩散概率模型在图像分类不平衡问题中的应用

   标题:Anisotropic Diffusion Probabilistic Model for Imbalanced Image Classification

   机构:天津大学、阿里巴巴集团达摩院

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.14313


67. Multiple-Exit Tuning:用于视觉Transform的推理效率自适应

   标题:Multiple-Exit Tuning: Towards Inference-Efficient Adaptation for Vision Transformer

   机构:清华大学

   地址:https://arxiv.org/pdf/2409.13999


68. Past Meets Present:用大模型创造历史类比

   标题:Past Meets Present: Creating Historical Analogy with Large Language Models

   机构:复旦大学、字节跳动

   地址:https://arxiv.org/pdf/2409.14820


69. MobileVLM: 一种用于更好理解内部和跨UI理解的Vision-Language模型

   标题:MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding

   机构:电子科技大学、中国人民大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.14818


70. 基于知识蒸馏的面部超分辨率网络(PKDN)

   标题:Prior Knowledge Distillation Network for Face Super-Resolution

   机构:合肥工业大学、中国科学技术大学

   相关领域:模型知识蒸馏, 面部超分辨率, 键盘注意力

   地址:https://arxiv.org/pdf/2409.14385


71. 记忆增强对话系统的实际世界评估

   标题:MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems

   机构:IDEA

   地址:https://arxiv.org/pdf/2409.15240


72. AutoAPIEval:面向API导向的代码生成的大模型自动化评估

   标题:AutoAPIEval: A Framework for Automated Evaluation of LLMs in API-Oriented Code Generation

   机构:曼尼托巴大学、英国女王大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.15228


73. Style over Substance:大模型对齐度评判的失败模式

   标题:Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

   机构:哥伦比亚大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.15268

   代码:https://github.com/penfever/sos-bench


74. Beyond Words:评估大模型在交通规划中的作用

   标题:Beyond Words: Evaluating Large Language Models in Transportation Planning

   机构:宾夕法尼亚州立大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.14516


75. LLM for Everyone:在大模型中代表被忽视的语种

   标题:LLM for Everyone: Representing the Underrepresented in Large Language Models

   机构:香港科技大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.13897


76. 可扩展扩散策略在机器人操作中的应用:将扩散策略规模扩大到1亿参数

   标题:Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation

   机构:IDEA、华东师范大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.14411


77. FineMolTex:面向细粒度分子图文本预训练的探索

   标题:FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training

   机构:新加坡管理大学

   相关领域:预训练、多模态

   地址:https://arxiv.org/pdf/2409.14106


78. 大模型在Loihi 2上实现高效流式序列处理

   标题:A Diagonal Structured State Space Model on Loihi 2 for Efficient Streaming Sequence Processing

   机构:慕尼黑大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.15022


79. 基于分歧校准方法的大模型预训练数据检测研究

   标题:Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

   相关领域:预训练、模型评估

   地址:https://arxiv.org/pdf/2409.14781

   代码:https://github.com/zhang-wei-chao/DC-PDD


80. 大模型的时间一致性事实探测

   标题:Temporally Consistent Factuality Probing for Large Language Models

   机构:印度理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.14065


81. 连续预训练在临床LLM中的潜力:超越微调的研究

   标题:Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs

   相关领域:预训练、指令微调、临床LDA

   地址:https://arxiv.org/pdf/2409.14988


82. EchoAtt:关注注意力机制,优化大模型的效率

   标题:EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models

   机构:滑铁卢大学

   相关领域:模型结构改进、模型蒸馏

   地址:https://arxiv.org/pdf/2409.14595


83. GTSinger全球多技术歌唱语料库:适用于所有歌唱任务的逼真乐谱

   标题:GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

   机构:新加坡科技与设计大学

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2409.13832


84. TransUKAN:计算高效的混合KAN-Transformer用于增强医学图像分割

   标题:TransUKAN:Computing-Efficient Hybrid KAN-Transformer for Enhanced Medical Image Segmentation

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.14676

   代码:https://github.com/wuyanlin-wyl/TransUKAN


85. 基于专家混合的通用专家与专家协同的语言模型设备端优化研究

   标题:On-device Collaborative Language Modeling via a Mixture of Generalists and Specialists

   机构:瑞士洛桑联邦理工学院

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.13931


86. 语音相关的指令微调语言模型

   标题:Speechworthy Instruction-tuned Language Models

   相关领域:指令微调

   地址:https://arxiv.org/pdf/2409.14672


87. 探究预训练语言模型子层中的多义词上下文定位

   标题:Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.14097


88. 基于Kolmogorov-Arnold网络的模型发现研究

   标题:Data-driven model discovery with Kolmogorov-Arnold networks

   机构:亚利桑那州立大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.15167


89. 大模型的一致性问题

   标题:Consistency for Large Neural Networks

   机构:新加坡国立大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.14123


90. ToolPlanner:工具增强型大模型在多粒度指令中的路径规划与反馈机制研究

   标题:ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback

   相关领域:模型结构改进、数据集构建、强化学习在大模型中的应用

   地址:https://arxiv.org/pdf/2409.14826


91. 针对部分填充注意力掩码的Flash注意力高效调度

   标题:Efficiently Dispatching Flash Attention For Partially Filled Attention Masks

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.15097


92. With Ears to See and Eyes to Hear:多模态大模型的声音象征性实验

   标题:With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.14917


93. 直接判断偏好优化研究

   标题:Direct Judgement Preference Optimization

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.14664


94. 一种低复杂度数字反向传播的新方法

   标题:A New Twist on Low-Complexity Digital Backpropagation

   相关领域:

   地址:https://arxiv.org/pdf/2409.14489


95. 汽车创新景观利用LLM

   标题:Automotive innovation landscaping using LLM

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.14436


96. 指令优化代码语言模型利用辅助函数进行代码生成的能力研究

   标题:Eliciting Instruction-tuned Code Language Models' Capabilities to Utilize Auxiliary Function for Code Generation

   相关领域:指令微调、模型结构改进

   地址:https://arxiv.org/pdf/2409.13928


97. 正交微调用于直接偏好优化

   标题:Orthogonal Finetuning for Direct Preference Optimization

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.14836


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章