前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!
1. 大模型训练的改进条件和预训练策略
标题:On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models
机构:FAIR、麦吉尔大学、Canada CIFAR AI Chair
关键词:大型语言模型、训练策略、条件化、预训练
作者:Tariq Berrada Ifriqi, Pietro Astolfi, Melissa Hall
分析:这篇论文主要探讨了大型语言模型训练的关键部分,并重新实现了五个先前发布的模型及其相应的训练方法。通过深入研究,论文探索了(i)在将生成模型与语义信息(如文本提示)和控制元数据(如裁剪大小、随机翻转标志等)进行条件化处理时,如何影响模型性能;以及(ii)在较小和较低分辨率的数据集上学习到的表示如何在较大的数据集上迁移以提高训练效率和模型性能。论文还提出了一种新的条件化机制,能够分离语义和控制元数据的条件化处理,并在ImageNet-1k数据集上的类条件生成方面实现了新的最先进水平,同时在CC12M文本到图像生成数据集上实现了8%的FID改进。
地址:https://arxiv.org/pdf/2411.03177
2. 自Logits进化解码法 (SLED):提高大模型的事实性
标题:SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models
机构:谷歌研究院、Duke University
关键词:大型语言模型、事实准确性、自Logits解码、模型改进
作者:Jianyi Zhang, Da-Cheng Juan, Cyrus Rashtchian
分析:该研究提出了一种名为SLED的解码框架,它利用大型语言模型(LLM)内部的潜在知识,通过对比早期和最终层的输出logits,采用近似梯度方法指导输出自我改进,以提高事实准确性。该方法在多种模型(如LLaMA 2和3)上进行了测试,并能够在多选题、开放生成任务等多种任务中显著提升真实性,同时保持了自然语言流畅性和极低的延迟。
地址:https://arxiv.org/pdf/2411.02433
3. 视觉语言模型的推理优化仅需一个视觉令牌但模型更大
标题:Inference Optimal VLMs Need Only One Visual Token but Larger Models
机构:博世AI中心、卡内基梅隆大学
关键词:视觉语言模型、推理优化、视觉令牌、模型性能
作者:Kevin Y. Li, Sachin Goyal, Joao D. Semedo
分析:本文主要研究视觉语言模型(VLMs)在推理过程中的优化问题。通过减少视觉令牌的数量,以降低推理成本,同时保持模型性能。研究发现,在视觉推理任务中,使用最大的语言模型并尽量减少视觉令牌数量(有时甚至只有一个令牌)可以达到最优的推理效果。这为视觉语言模型的推理优化提供了新的视角和方法。
地址:https://arxiv.org/pdf/2411.03312
代码:https://github.com/locuslab/llava-token-compression
4. Growing a Tail:在大模型中增加输出多样性
标题:Growing a Tail: Increasing Output Diversity in Large Language Models
机构:希伯来大学
关键词:大型语言模型、多样性、温度采样、多视角引导
作者:Michal Shur-Ofry, Bar Horowitz-Amsalem, Adir Rahamim
分析:这篇论文探讨了当大型语言模型生成多个正确答案的多选问题时,模型的输出多样性。研究发现,模型输出的回答相对集中,主要反映单一的、主流的‘世界观’,这与人类回答所展现的多样性相比显得狭窄得多。为了提高模型的输出多样性,论文提出了三种方法:1)通过温度采样增加生成的随机性;2)引导模型从多个角度来看待问题;3)将多个模型的输出进行聚合。论文指出,这些方法的结合能够显著提升模型输出多样性,使其接近人类的水平。论文还讨论了这些发现对AI政策的影响,强调了文化多样性的重要性,这对于民主社会的构建是一个关键的组成部分。
地址:https://arxiv.org/pdf/2411.02989
5. TokenSelect: 高效长上下文推理和长度外推的大规模语言模型方法
标题:TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection
关键词:TokenSelect、大规模语言模型、长上下文推理、注意力计算
作者:Wei Wu, Zhuoshi Pan, Chao Wang
分析:这篇论文提出了一种新的模型无关、训练免费的方法,用于大规模语言模型(LLM)中的高效准确的长上下文推理。该方法基于观察到的非连续注意力稀疏性,使用查询键点积来测量每个头的键值缓存关键性。通过每个头的软投票机制,TokenSelect选择性地在注意力计算中涉及少数关键的键值缓存令牌,而不牺牲准确性。为了进一步加速TokenSelect,论文设计了基于观察到的连续查询相似性和实现高效的点积核的选择缓存,显著减少了令牌选择的开销。综合评估表明,TokenSelect在注意力计算中提高了23.84倍的速度,端到端延迟提高了2.28倍,同时提供了比最先进的长上下文推理方法更好的性能。
地址:https://arxiv.org/pdf/2411.02886
6. RWKV:高效语言模型的发展
标题:The Evolution of RWKV: Advancements in Efficient Language Modeling
作者:Akul Datta
分析:这篇论文回顾了受体权重关键值(RWKV)架构的发展,强调了它在高效语言建模方面的进步。RWKV通过一种新颖的线性注意力机制将Transformers的训练效率与RNNs的推理效率结合在一起。该论文对其核心创新、在各种领域的适应性以及相对于传统模型的表现优势进行了研究。论文还讨论了RWKV作为深度学习中多功能架构的挑战和未来方向。
地址:https://arxiv.org/pdf/2411.02795
7. HtmlRAG: HTML比纯文本更适合用于RAG系统中建模检索到的知识
标题:HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
关键词:RAG系统、HTML、知识检索、模型性能提升
作者:Jiejun Tan, Zhicheng Dou, Wen Wang
分析:本文提出了一种名为HtmlRAG的系统,它使用HTML而不是纯文本作为RAG(检索增强生成)系统中检索知识的格式。这种做法可以保留检索结果中的结构和语义信息,如标题和表格结构,而传统方法在转换为纯文本时往往丢失这些信息。为了解决HTML中可能引入的额外内容(如标签、脚本和样式表)带来的问题,本文提出了清理、压缩和修剪策略,以减少HTML内容的同时尽量保留信息。实验在6个问答数据集上验证了使用HTML在RAG系统中的优越性。
地址:https://arxiv.org/pdf/2411.02959
8. 主动提示调优使GPT-40能够高效分类显微图像
标题:Active Prompt Tuning Enables Gpt-40 To Do Efficient Classification Of Microscopy Images
关键词:显微图像分类、大型语言模型、GPT-4
作者:Abhiram Kandiyana, Peter R. Mouton, Yaroslav Kolinko
分析:这篇论文主要介绍了使用OpenAI的GPT-4模型进行显微图像分类的方法。传统的基于深度学习的方法需要专家进行大量的时间和精力来进行模型训练,包括准确的地面真实值准备和大量的输入图像数据。作者提出了一种解决方案,该方案利用GPT-4模型在一个小规模的试验数据集上取得了与传统的CNN基线相当的结果,并且提高了吞吐量效率。然后,他们利用一个更大的显微镜图像数据集进一步改进了这个方法。新的模型GPT-4o以及改进的提示被用于对这些图像进行分类,结果显示,相比于基线方法,该方法在92%的情况下正确地对11只老鼠进行了分类(96%的效率提升),并且减少了图像需求,大大减少了域专家的时间和努力需求。
地址:https://arxiv.org/pdf/2411.02639
9. 大模型能否在涉及既定痛苦与快乐的状态之间进行权衡?
标题:Can LLMs make trade-offs involving stipulated pain and pleasure states?
机构:Google、Google DeepMind
关键词:大语言模型、情感体验、权衡决策、痛苦与快乐
作者:Geoff Keeling, Winnie Street, Martyna Stachaczyk
分析:这篇论文探讨了大型语言模型(LLMs)是否能够在决策场景中复制痛苦和快乐的动机力量,即LLMs是否具有情感体验的能力。研究者通过一个简单的游戏实验,研究了在不同痛苦和快乐强度下,大语言模型是否会从追求得分最大化转向追求痛苦最小化或快乐最大化。结果表明,某些模型在痛/乐强度达到一定程度时,会表现出权衡行为。此研究对LLMs的感知能力辩论具有重要意义。
地址:https://arxiv.org/pdf/2411.02432
10. LiVOS
标题:LiVOS: Light Video Object Segmentation with Gated Linear Matching
机构:微软
关键词:LiVOS、轻量级记忆网络、视频对象分割、线性匹配
作者:Qin Liu, Jianfeng Wang, Zhengyuan Yang
分析:本文主要介绍了一种用于视频对象分割(VOS)的轻量级记忆网络,称为LiVOS。它通过线性匹配和线性注意力机制解决了由于空间-时间存储(STM)网络中softmax注意的二次复杂性而导致的记忆限制问题。LiVOS使用递归来减少需要的内存,并通过数据相关的门矩阵来控制存储信息,从而提高了选择性。实验结果在多个基准测试中证明了这种方法的有效性,它在性能上超过所有非STM方法,并接近基于STM的方法。这项工作特别针对长视频和高分辨率视频的处理,大幅降低了GPU内存需求,从而让在32G消费级GPU上进行4096p推理成为可能。
地址:https://arxiv.org/pdf/2411.02818
11. 跨LLM通信增强的DroidSpeak:新技术框架
标题:DroidSpeak: Enhancing Cross-LLM Communication
机构:微软
关键词:大型语言模型、多代理系统、通信效率、中间数据重用
作者:Yuhan Liu, Esha Choukse, Shan Lu
分析:论文探讨了多代理系统中的大型语言模型(LLM)间的通信问题,尤其是在处理长上下文信息时引起的延迟问题。提出了一种名为DroidSpeak的技术框架,该框架通过利用中间数据的重用,如输入嵌入和键值缓存,来优化跨LLM通信。这种方法解决了在相同的基模型上进行的任务性能优化和快速上下文整合问题。论文通过实验验证了DroidSpeak能够显著提升多代理系统中的通信效率,减少了约2.78倍的准备阶段延迟,而对准确性影响微不足道。
地址:https://arxiv.org/pdf/2411.02820
12. 预训练Transformer有效地学习上下文中的低维目标函数
标题:Pretrained transformer efficiently learns low-dimensional target functions in-context
机构:纽约大学、UC伯克利分校
关键词:预训练Transformer、上下文学习、低维目标函数、非线性多层感知机层
作者:Kazusato Oko, Yujin Song, Taiji Suzuki
分析:本文主要研究了预训练Transformer在非线性的上下文中的学习能力,特别是针对一类具有低维结构的单索引目标函数。通过引入非线性多层感知机层,证明了预训练Transformer能够高效地从示例演示中进行上下文学习。其统计效率远高于直接解决线性回归问题的算法。本研究强调了预训练Transformer对于函数类低维结构的适应性,使得样本有效的上下文学习成为可能。
地址:https://arxiv.org/pdf/2411.02544
13. TypeScore:文本到图像生成模型的文本可信度指标
标题:TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models
机构:Apple
关键词:文本到图像生成模型、文本可信度指标、TypeScore、指令遵循能力
作者:Georgia Gabriela Sampaio, Ruixiang Zhang, Shuangfei Zhai
分析:本文聚焦于文本到图像生成模型中文本呈现方面所面临的挑战,尽管在整体性能方面取得了显著的进展,但现有的评估指标,如CLIPScore,只能提供粗略的评估,无法细腻地区分模型性能在快速提升过程中的细微差异。为了评估模型在遵循精确指令时生成高保真度嵌入文本的能力,本文提出了一种名为TypeScore的新评估框架。该论文主张这一文本生成能力能够作为描述图像合成时更广泛的指令遵循能力的代理。TypeScore利用额外的文本描述模型,通过衡量原始文本与提取文本之间的集合不相似度来评估渲染文本的保真度。与CLIPScore相比,TypeScore显示了更高的分辨能力,能够根据不同指令和文本风格区分流行图像生成模型。研究还评估了视觉语言模型(VLMs)在遵循风格指令时的契合程度,并将风格评估与嵌入文本的保真度分开来研究。通过人工评估研究,定量地评价了指标的有效性。本研究通过全面分析探索了诸如文本长度、图像描述模型和向人类水平任务进展的程度等变量。该框架提供了关于在生成包含文本的图像时,遵循指令中存在问题的深入见解。
地址:https://arxiv.org/pdf/2411.02437
14. 医疗图像分割的基础AI模型
标题:Foundation AI Model for Medical Image Segmentation
机构:哈佛医学院
关键词:基础AI模型、医疗图像分割、模型结构改进、预训练
作者:Rina Bao, Erfan Darzi, Sheng He
分析:这篇论文讨论了大规模预训练的AI模型在医疗图像分割领域的应用与开发可能性。基础模型指的是在大量数据上训练的AI模型,能够广泛地应用于多种任务,且准确度高,具备通用性的特点。它们能够解决单个模型针对特定任务的开发需求,同时适应于数据集规模较小的场景。论文提出了在现有针对自然图像的模型基础上进行调整与改进,以及从零构建专门用于医疗图像的模型两种实现路径。主要目标是在医疗图像分割领域推动基础模型的发展,简化模型开发流程并提高医疗图像处理的效率和准确性。
地址:https://arxiv.org/pdf/2411.02745
15. 用于视觉语言预训练的分类新方法研究
标题:Classification Done Right for Vision-Language Pre-Training
机构:字节跳动
关键词:SuperClass、视觉语言预训练、分类方法、性能优越
作者:Huang Zilong, Ye Qinghao, Kang Bingyi
分析:本文介绍了一种针对图像文本数据的简单分类方法SuperClass,用于视觉语言预训练。该方法直接使用标记化的原始文本作为监督分类标签,无需额外的文本过滤或选择。相较于对比学习方法CLIP,SuperClass无需文本编码器且无需保持大规模批次。实验结果表明,SuperClass在不同下游任务上表现出卓越性能,并在模型规模、训练时间或数据量上的扩展行为方面也展现了鼓舞人心的结果。
地址:https://arxiv.org/pdf/2411.03313
代码:https://github.com/x-cls/superclass
16. Photon: 联邦LLM预训练
标题:Photon: Federated LLM Pre-Training
机构:剑桥大学、浙江大学、北京邮电大学
关键词:联邦学习、大型语言模型、预训练、通信效率
作者:Lorenzo Sani, Alex Iacob, Zeyu Cao
分析:这篇论文主要介绍了如何利用低带宽的联邦学习方法在全球范围内协作训练大型语言模型,并且实现了通过减少通信量来高效训练7亿参数的LLM。论文提出了一种新的系统 Photon,它能够有效地支持端到端的LLM训练,同时表明这种联邦训练方法可以降低训练时间,减少64到512倍的通信量,并且在数据异构性和收敛速度方面表现出色。
地址:https://arxiv.org/pdf/2411.02908
17. 连续视觉辅助声音分离任务研究
标题:Continual Audio-Visual Sound Separation
机构:德克萨斯大学、卡内基梅隆大学
关键词:持续学习、灾难性遗忘、音频-视觉分离、模型蒸馏
作者:Weiguo Pian, Yiyang Nan, Shijian Deng
分析:本文提出了一个新颖的连续视听声音分离任务,旨在在有视觉指导的情况下能够不断分离新的声音类别,同时保持对先前学习类别的性能。这对于适应实际视觉引导的听觉感知至关重要,因为这对于提高音频-视觉声音分离模型的适应性和鲁棒性,使之适用于真实世界中的场景非常重要,在这些场景中,遇到新的声音类别是常有的事。这项任务因其挑战性,该论文的模型必须在当前任务中有效利用两种模式的信息,并且在新任务中维护模态间的关联,以减轻在音频视觉连续学习中可能发生的灾难性遗忘。为了解决这些挑战,该论文提出了一个名为ContAV-Sep的方法。ContAV-Sep提出了一个新的跨模态相似约束(CrossSDC),以确保跨模态语义相似性通过增量任务得到保持,保留旧模型中获得的语义相似性知识,以减轻灾难性遗忘的风险。CrossSDC可以在不同的音频-视觉声音分离框架的训练过程中无缝集成。实验表明,ContAV-Sep能够有效缓解灾难性遗忘,并且取得了显著优于其他持续学习基线的性能,尤其是在音频-视觉声音分离方面。
地址:https://arxiv.org/pdf/2411.02860
代码:https://github.com/weiguoPian/ContAV-Sep_NeurIPS2024
18. MM-Embed: 动态多模态检索与多模态大模型
标题:MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs
机构:英伟达、滑铁卢大学
关键词:多模态大语言模型、动态多模态检索、模态感知硬负样本挖掘、连续微调
作者:Sheng-Chieh Lin, Chankyu Lee, Mohammad Shoeybi
分析:这篇论文探讨了如何利用多模态大语言模型实现动态多模态检索,解决固定检索任务和单一模态支持的问题,提出了一个可适用于多种模态和多元检索任务的更广泛检索场景——动态多模态检索。通过深度学习方法,论文提升了多模态检索能力,使得模型能够理解和处理包含文本和图像的复杂查询,并通过引入模态感知硬负样本挖掘(Modality-aware Hard Negative Mining)、连续微调以及zero-shot排序等技术,显著提升了模型的整体性能。论文成果在多模态检索基准M-BEIR上取得了最佳结果,并在文本检索基准MTEB中超越了NV-Embed-v1,显示出在动态多模态检索领域的巨大潜力。
地址:https://arxiv.org/pdf/2411.02571
19. 专项基础模型难以超越监督学习基线
标题:Specialized Foundation Models Struggle to Beat Supervised Baselines
机构:普林斯顿大学、卡内基梅隆大学
关键词:基础模型、监督学习、模型评估、预训练
作者:Zongzhe Xu, Ritvik Gupta, Wenduo Cheng
分析:论文探讨了基础模型(FM)在特定领域(如基因组学、卫星成像和时序分析)的应用和挑战。研究发现,在这些专业领域中,简单的监督学习模型就能匹配甚至超越最新的基础模型性能。论文强调了对比新基础模型与强大、良好调整的基线模型的重要性,并介绍了两个新的易于使用、开源、自动化的对比工作流程。
地址:https://arxiv.org/pdf/2411.02796
20. Interaction2Code:我们离自动交互网页生成还有多远?
标题:Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation?
机构:清华大学、香港中文大学、新加坡管理大学
关键词:交互网页生成、大语言模型、多模态
作者:Jingyu Xiao, Yuxuan Wan, Yintong Huo
分析:这篇论文探讨了如何利用大语言模型(MLLMs)自动将网页设计转换为功能性UI代码。它通过构建包含多种网页和交互元素的基准测试集,评估了不同大语言模型在这个任务上的表现,并分析了其在处理复杂交互时的局限性。论文解决了现有方法在静态网页生成上的局限性,提出了针对交互式网页生成的新方法。
地址:https://arxiv.org/pdf/2411.03292
代码:https://github.com/WebPAI/Interaction2Code
21. 人工智能增强的Couinaud肝段分割用于精确肝癌治疗
标题:Artificial Intelligence-Enhanced Couinaud Segmentation for Precision Liver Cancer Therapy
机构:斯坦福大学、南加州大学、麻省总医院
关键词:Couinaud分割、肝癌治疗、人工智能、深度学习
作者:Liang Qiu, Wenhao Chi, Xiaohan Xing
分析:精确的肝癌治疗需要准确划分肝段以保护健康组织并同时瞄准肿瘤,这对于降低复发率和提高生存率至关重要。然而,由于子区域边界不清晰且需要大量标注数据,肝段分割(Couinaud分割)具有挑战性。本研究介绍了一种新的Couinaud分割模型——LiverFormer,该模型基于3D混合CNN-Transformer架构,有效地将全局上下文与低级局部特征相结合。此外,还引入了一种基于注册的数据增强策略,以增强有限标记数据下的分割性能。在123名患者的CT图像上进行评估后,LiverFormer在各种指标上显示出高准确性,并与专家注释在很大程度上保持一致,这为手术和放射治疗的治疗计划制定提供了增强的潜力。它有望减少并发症和周围组织的潜在损伤,从而改善患有复杂肝癌治疗的患者的结果。
地址:https://arxiv.org/pdf/2411.02815
22. 大型视觉语言模型的连续指令微调研究
标题:Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models
机构:旷视科技、复旦大学、中山大学
关键词:连续指令微调、大型视觉语言模型、知识遗忘、COAST基准测试
作者:Meng Cao, Yuyang Liu, Yingfei Liu
分析:论文提出了一种新的大型视觉语言模型(LVLMs)的连续指令微调方法,即Continual LLaVA。该方法主要针对现实场景中任务多样化且不断变化的问题,能够在面对流式任务分布时,持续进行指令微调并减少遗忘先前知识。论文提出了COAST基准测试,用于评估LVLM在连续指令微调方面的性能,并包括域增量、能力增量和数据集增量等多种配置。
地址:https://arxiv.org/pdf/2411.02564
23. FactTest:具有统计保证的大模型的真实性测试
标题:FactTest: Factuality Testing in Large Language Models with Statistical Guarantees
机构:斯坦福大学、罗格斯大学
关键词:FactTest框架、语言模型评估、幻觉检测、假设检验
作者:Fan Nie, Xiaotian Hou, Shuhang Lin
分析:大型语言模型易产生幻觉和非真实内容,在高风险领域可靠性低。论文提出FactTest框架,以统计方式评估模型对给定问题的回答是否可信,并提供高概率正确性保证。通过假设检验控制一类错误的上限,同时确保二类错误的控制。该框架适用于任何黑箱或白箱语言模型,实验证明能有效检测幻觉并提高模型对未知问题的拒绝回答能力。
地址:https://arxiv.org/pdf/2411.02603
24. MILU:面向多任务印度语言理解基准的测试
标题:MILU: A Multi-task Indic Language Understanding Benchmark
机构:印度理工学院、IBM研究院
关键词:印度语言、大型语言模型、基准测试、模型评估
作者:Sshubam Verma, Mohammed Safi Ur Rahman Khan, Vishwajeet Kumar
分析:论文介绍了一个面向多任务印度语言理解的基准测试MILU。它旨在解决自然语言处理领域中对低资源和语言多样化的语言的大型语言模型评估的挑战,特别是针对非拉丁字母语言。论文创建了一个跨越11种印度语言和多个学科的基准测试,包含一般和特定文化知识的问题。对多个大型语言模型进行了评估,发现它们在这个基准测试中的表现不佳,现有的大型语言模型平均准确率仅为72%。同时发现开放的多语种模型表现优于特定语言的微调模型,且高资源语言的性能优于低资源语言。然而,论文强调这些模型在涉及文化相关领域的表现较差。论文为首个专注于印度语言的基准测试,为全面的文化评估迈出了重要一步。
地址:https://arxiv.org/pdf/2411.02538
25. INQUIRE:自然世界文本到图像检索基准测试
标题:INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
机构:伦敦大学、麻省理工学院
关键词:INQUIRE基准测试、iNaturalist数据集、文本到图像检索、多模态模型评估
作者:Edward Vendrow, Omiros Pantazis, Alexander Shepard
分析:论文介绍了一个名为INQUIRE的文本到图像检索基准测试,该测试旨在挑战跨模态视觉语言模型在专家级别查询上的能力。论文提出了一个新的数据集iNaturalist 2024,包含五百万张自然世界图像和250个专家级别的检索查询。这些查询与iNat24中的相关图像全面配对并全面标注,总计33,000个匹配项。查询涵盖了物种识别、上下文、行为和外观等类别,强调需要微妙的图像理解和领域专业知识。该基准测试评估了两个核心的检索任务:INQUIRE-Fullrank(全数据集排名任务)和INQUIRE-Rerank(对前100个检索结果重新排序的任务)。论文详细评估了一系列最新的多模态模型,发现INQUIRE构成了一个重大挑战,最好的模型的mAP@50仍低于50%。此外,论文展示了使用更强大的多模态模型进行重排可以提高检索性能,但仍存在很大的改进空间。论文的目标是通过关注科学驱动的生态挑战,在AI能力和现实科学探索需求之间搭建桥梁,鼓励开发能够加速生态和生物多样性研究的检索系统。
地址:https://arxiv.org/pdf/2411.02537
26. 一款多任务角色扮演代理器能够模仿角色 linguistic 风格
标题:A Multi-Task Role-Playing Agent Capable of Imitating Character Linguistic Styles
机构:华为、中国科学院大学
关键词:角色模仿、语言风格、多任务、角色语言风格
作者:Siyuan Chen, Qingyi Si, Chenxu Yang
分析:这篇论文介绍了一种能够模仿不同角色语言风格的multi-task角色扮演代理器(MRstyle RPA)。与现有的角色扮演代理器不同,MRstyle RPA不仅能够模仿角色的基础特征,还能够很好地复制角色的语言风格来进行多任务对话。它通过一个名为MRstyle的数据集来训练,这个数据集包含了大量的人物描写和七种不同类型的任务。实验表明,MRstyle RPA在七种任务上均表现出色,包括对话、词典、作文、故事生成、产品描述、音乐评论和开放式问题回答。
地址:https://arxiv.org/pdf/2411.02457
27. DiffLM:基于扩散语言模型进行可控合成数据生成
标题:DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models
机构:字节跳动、中国科学院大学
关键词:DiffLM、合成数据生成、大型语言模型、变分自编码器
作者:Ying Zhou, Xinyao Wang, Yulei Niu
分析:针对大型语言模型在目标数据分布理解以及提示工程复杂性方面的问题,论文提出了一种基于变分自编码器(VAE)的可控数据合成框架DiffLM。该框架利用扩散模型保留原始分布的更多信息,同时通过即插即用潜在特征注入模块,将目标分布知识的学习与LLM的生成目标相分离。引入潜在扩散模块以解决变分自编码器潜在表示与真实数据分布之间的差异问题。在七个真实数据集上的实验表明,DiffLM生成的数据质量高,在某些下游任务上的性能甚至超过真实数据。
地址:https://arxiv.org/pdf/2411.03250
28. DA-MoE:通过专家混合解决图级别分析中的深度敏感性挑战
标题:DA-MoE: Addressing Depth-Sensitivity in Graph-Level Analysis through Mixture of Experts
机构:武汉大学、澳大利亚悉尼麦考瑞大学
关键词:深度适应性、专家混合机制、图神经网络、图结构数据
作者:Zelin Yao, Chuang Liu, Xianke Meng
分析:这篇论文针对图神经网络(GNNs)处理图结构数据时面临的深度敏感性挑战进行深入研究。通过引入专家混合机制(MoE),论文提出了深度自适应的MoE方法(DA-MoE),该方法允许模型灵活适应不同规模的图数据,更有效地解决深度敏感性问题。此外,DA-MoE通过改进GNN结构,利用不同的GNN层作为专家,以更有效地捕捉图中的结构信息。实验结果显示,DA-MoE在各种任务上超越了现有方法。
地址:https://arxiv.org/pdf/2411.03025
代码:https://github.com/Celin-Yao/DA-MoE
29. SMoA: 改进多智能体大模型
标题:SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents
机构:密歇根州立大学、亚利桑那州立大学、德克萨斯州奥斯汀大学
关键词:SMoA、多智能体大语言模型、稀疏混合智能体
作者:Dawei Li, Zhen Tan, Peijia Qian
分析:本文提出了一个新的框架SMoA,将多智能体大语言模型(LLMs)的性能和效率提升到一个新的水平。传统的混合智能体(MoA)方法在多任务和应用中取得了良好的效果,但完全连接的结构可能会影响其效率和多样性。为解决这一挑战,本文从稀疏混合智能体(SMoE)中得到灵感,提出了SMoA框架。SMoA采用响应选择和早期停止机制,在单个MLM代理之间稀疏化信息流,实现性能和效率的平衡。同时,本文为每个MLM代理分配不同的角色描述,促进多样化和不同思维方式的火花。在推理、对齐、公平等多个基准测试上进行的实验表明,SMoA的性能与传统MoA方法相当,但计算成本降低。进一步的分析表明,SMoA更加稳定,可扩展性更好,且在超参数优化方面具有巨大的潜力。
地址:https://arxiv.org/pdf/2411.03284
代码:https://github.com/David-Li0406/SMoA
30. See it, Think it, Sorted:大型多模态模型是少数步骤时序异常分析器
标题:See it, Think it, Sorted: Large Multimodal Models are Few-shot Time Series Anomaly Analyzers
机构:清华大学
关键词:时间序列、异常检测、多模态模型、少样本学习
作者:Jiaxin Zhuang, Leon Yan, Zhenwei Zhang
分析:这篇论文介绍了一种名为Time Series Anomaly Multimodal Analyzer(TAMA)的框架,该框架利用大型多模态模型(LMMs)处理时间序列数据,特别是将其转换为图像格式以方便LMMs处理。这种方法通过利用LMMs的少样本学习能力,减少了在时间序列异常检测(TSAD)中对大量标记数据的需求。论文通过实验验证了TAMA在多个真实世界数据集上的性能,并且能够提供丰富的自然语言解释,揭示异常的性质。此外,论文提供了一个包含异常检测标签、类型标签和上下文描述的开放资源数据集,促进了该领域的研究。
地址:https://arxiv.org/pdf/2411.02465
31. 基于三分偏好增强大模型对齐
标题:TODO: Enhancing LLM Alignment with Ternary Preferences
机构:北京航空航天大学
关键词:大型语言模型、Bradley-Terry模型、偏好优化
地址:https://arxiv.org/pdf/2411.02442
代码:https://github.com/XXares/TODO
32. 关于通用指令微调中上下文感知能力的损失
标题:On the loss of context-awareness in general instruction fine-tuning
机构:加州大学
关键词:上下文感知能力、指令微调、大型语言模型、聊天模板
地址:https://arxiv.org/pdf/2411.02688
33. Multi-Transmotion:人类运动预测预训练模型
标题:Multi-Transmotion: Pre-trained Model for Human Motion Prediction
机构:瑞士洛桑联邦理工学院
关键词:Multi-Transmotion模型、人类运动预测、预训练模型、多模态数据
地址:https://arxiv.org/pdf/2411.02673
代码:https://github.com/vita-epfl/multi-transmotion
34. 利用精确和完整的代码上下文指导自动 false positive 缓解的 LLM
标题:Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation
机构:中国科学技术大学
地址:https://arxiv.org/pdf/2411.03079
35. Stochastic Monkeys at Play:简单的随机增强如何轻易破坏大模型的稳健性对齐
标题:Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment
机构:浙江大学、伊利诺伊大学
关键词:大型语言模型,安全对齐,随机增强,稳健性评估,安全研究
地址:https://arxiv.org/pdf/2411.02785
36. GarVerseLOD: 高保真度3D服装重建技术从开放域单张图像到高保真度3D服装重建技术
标题:GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details
关键词:3D服装重建、数据集构建、模型蒸馏、视觉几何处理
地址:https://arxiv.org/pdf/2411.03047
代码:https://garverselod.github.io/
37. Label Critic:模型前的设计数据
标题:Label Critic: Design Data Before Models
机构:新加坡国立大学、约翰霍普金斯大学
关键词:Label Critic、AI标签、视觉语言模型、自动工具
地址:https://arxiv.org/pdf/2411.02753
38. 利用大模型进行代码问答:基准线与问题
标题:Leveraging Large Language Models in Code Question Answering: Baselines and Issues
关键词:大语言模型、代码问答、微调模型、数据集预处理
地址:https://arxiv.org/pdf/2411.03012
代码:https://github.com/IU-AES-AI4Code/CodeQuestionAnswering
39. 大模型在生物医学数据融合中的应用
标题:A Natural Language Processing Approach to Support Biomedical Data Harmonization: Leveraging Large Language Models
机构:波士顿大学
关键词:大型语言模型、生物医学、数据融合、变量匹配
地址:https://arxiv.org/pdf/2411.02730
40. HumanVLM:人类场景视觉语言模型的基石
标题:HumanVLM: Foundation for Human-Scene Vision-Language Model
关键词:HumanVLM,人类场景视觉语言模型,数据集构建,多模态,图像文本对齐
地址:https://arxiv.org/pdf/2411.03034
41. PersianRAG:面向波斯语言的检索增强生成系统
标题:PersianRAG: A Retrieval-Augmented Generation System for Persian Language
关键词:波斯语言、检索增强生成、问答回答、数据预处理
地址:https://arxiv.org/pdf/2411.02832
42. Zebra-Llama:一种针对民主化进程中的罕见疾病知识的专业大模型
标题:Zebra-Llama: A Context-Aware Large Language Model for Democratizing Rare Disease Knowledge
关键词:斑马样骆驼、大语言模型、罕见疾病、医疗知识民主化
地址:https://arxiv.org/pdf/2411.02657
43. TeleOracle:基于长上下文支持的微调检索增强生成网络
标题:TeleOracle: Fine-Tuned Retrieval-Augmented Generation with Long-Context Support for Network
关键词:TeleOracle、大型语言模型、电信环境、上下文支持
地址:https://arxiv.org/pdf/2411.02617
44. 基于上下文的信息丰富的机器翻译漫畫用多模态大模型
标题:Context-Informed Machine Translation of Manga using Multimodal Large Language Models
关键词:多模态大型语言模型、漫画翻译、上下文信息、视觉元素
地址:https://arxiv.org/pdf/2411.02589
45. From Pen to Prompt:创意作家如何将人工智能融入写作实践
标题:From Pen to Prompt: How Creative Writers Integrate AI into their Writing Practice
关键词:创意写作、人工智能、大型语言模型、自动化写作、作家价值观
地址:https://arxiv.org/pdf/2411.03137
46. Precise Drive with VLM:PRCV 2024 Drive LM挑战的第一奖解决方案
标题:Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge
关键词:VLM、自动驾驶、多模态
地址:https://arxiv.org/pdf/2411.02999
47. 小语言模型的后训练优化方法
标题:A Post-Training Enhanced Optimization Approach for Small Language Models
关键词:小语言模型、后训练优化、数据集构建、对齐数据
地址:https://arxiv.org/pdf/2411.02939
48. 稀疏激活控制增强大模型的多个维度信任度研究
标题:Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control
关键词:大语言模型、信任度提升、人类偏好对齐、稀疏激活控制
地址:https://arxiv.org/pdf/2411.02461
49. Brewing Vodka:利用轻量级威胁检测在审计日志中的纯净知识精炼
标题:Brewing Vodka: Distilling Pure Knowledge for Lightweight Threat Detection in Audit Logs
关键词:Vodka系统、知识精炼、审计日志、轻量级威胁检测
地址:https://arxiv.org/pdf/2411.02775
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~