英伟达发布NVLM:最新前沿多模态大模型!GPT-O1能否消灭所有Bug?自注意力限制了基于大模型的工作记忆容量?

文摘   2024-09-18 17:53   广东  

前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。


1. NVLM:前沿多模态大模型

  标题:NVLM: Open Frontier-Class Multimodal LLMs

  机构:英伟达

  关键词:NVLM、多模态大型语言模型、视觉语言任务、模型设计

  作者:Wenliang Dai,  Nayeon Lee,  Boxin Wang

  分析:论文介绍了一种前沿的多模态大型语言模型NVLM 1.0,该模型在视觉语言任务上达到了最先进的水平,并改进了仅文本性能。论文通过对比不同的模型设计,提出了一种新的架构,以提高训练效率和多模态推理能力。此外,论文还介绍了一种基于动态高清晰度图像的1-D tile-tagging设计,显著提高了多模态推理和OCR相关任务的性能。论文详细阐述了多模态预训练和精细调整数据集的制作过程,并发现数据集质量和任务多样性比规模更重要。最后,论文开放了模型权重和代码,为社区提供了研究资源。

  地址:https://arxiv.org/pdf/2409.11402

  代码:https://nvlm-project.github.io/


2. GPT-O1能否消灭所有Bug?GPT家族LLM在QuixBugs上的评估

  标题:Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs

  机构:南京大学

  关键词:GPT-O1、自动程序修复、LLM、QuixBugs

  作者:Haichuan Hu,  Ye Shang,  Guolin Xu

  分析:本文主要研究了不同版本的GPT家族模型在自动程序修复(APR)上的表现,特别是最新版的GPT-O1系列模型。文章对比了各模型在修复成功率、修复成本、响应长度和行为模式等方面的表现,并发现O1系列的修复能力超过了之前的GPT模型,成功修复了所有40个benchmark中的bug。文章为GPT家族模型在APR领域的进一步应用提供了基础。

  地址:https://arxiv.org/pdf/2409.10033


3. 自注意力限制了基于Transformer的大模型的工作记忆容量

  标题:Self-Attention Limits Working Memory Capacity of Transformer-Based Models

  关键词:Transformer、工作记忆、自注意力、N-back任务

  作者:Dongyu Gong,  Hantao Zhang

  分析:本文研究了基于Transformer的大语言模型在工作记忆容量上存在的限制,äm类似于人类行为研究中所发现的现象。观察发现,模型在N-back任务上的表现会随着N值的增加而显著下降。作者从行为科学中的执行注意理论中获得启发,提出了Transformer模型中的自注意力机制可能是导致这种容量限制的原因。通过训练仅包含解码器的Transformer模型进行N-back任务,观察到注意力分数在训练过程中逐渐聚集到N-back位置,表明模型通过学习一种关注当前位置与N-back位置之间关系的方法来掌握任务。更重要的是,随着N的增加,注意力分数矩阵的总熵增加,表明注意力分数的分散可能是观察到的容量限制的原因。

  地址:https://arxiv.org/pdf/2409.10715


4. 基于向量检索的RetrievalAttention:加快长上下文LLM推理速度

  标题:RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

  机构:复旦大学、微软研究院、上海交通大学

  关键词:RetrievalAttention,长上下文LLM,推理加速,向量检索,注意力机制

  作者:Di Liu,  Meng Chen,  Baotong Lu

  分析:这篇论文提出了一种无需训练即可加速注意力计算的方法——RetrievalAttention。该方法利用注意力机制的动态稀疏属性,在CPU内存中建立基于KV向量的近似最近邻搜索索引,并在生成过程中通过向量检索获取最相关的数据。针对查询向量和关键向量之间的分布外(OOD)问题,论文提出了一种自适应于查询的注意力感知向量搜索算法,该算法只需访问数据的1--3%,从而实现子线性时间复杂度。RetrievalAttention降低了长上下文LLM的推理成本,同时降低了GPU内存要求,并保持了模型精度。

  地址:https://arxiv.org/pdf/2409.10516


5. Diversify and Conquer:基于迭代精化的多样性中心数据选择

  标题:Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement

  机构:东北大学、斯坦福大学、谷歌研究院

  关键词:数据多样性、迭代精化、k-means、指令微调

  作者:Simon Yu,  Liangyu Chen,  Sara Ahmadian

  分析:该论文研究了在大语言模型微调过程中,如何从众多数据集选择最优的子集以实现有效的训练。论文提出了一个基于k-means clustering的全球性方法,旨在确保选择的子集能够代表整个数据集的多样性,并通过迭代精化的方法不断调整和优化数据的选择。

  地址:https://arxiv.org/pdf/2409.11378

  代码:https://github.com/for-ai/iterative-data-selection


6. Propulsion:通过微小的微调来引导大模型

  标题:Propulsion: Steering LLM with Tiny Fine-Tuning

  机构:Amazon、中佛罗里达大学

  关键词:大型语言模型、参数高效微调、选择性重新缩放、模型微调

  作者:Md Kowsher,  Nusrat Jahan Prottasha,  Prakash Bhat

  分析:这篇论文提出了一种新的参数高效微调(PEFT)方法,旨在优化特定任务的性能,同时大幅减少计算开销。该方法通过选择性重新缩放预训练模型的一些特定维度来引导输出预测,而无需修改模型参数。通过引入轻量级的可训练推进参数,该方法在微调过程中减少了需要更新的参数数量,从而防止对现有知识的过度拟合或覆盖。理论分析表明,推进方法可以用更少的可训练参数来逼近全微调的性能。

  地址:https://arxiv.org/pdf/2409.10927


7. SIFToM:通过理论思维实现鲁棒的口头指令遵循

  标题:SIFToM: Robust Spoken Instruction Following through Theory of Mind

  机构:哈佛大学、麻省理工学院、约翰霍普金斯大学

  关键词:SIFToM、理论思维、口头指令遵循、模型结构改进

  作者:Lance Ying,  Jason Xinyu Liu,  Shivam Aarya

  分析:这篇文章讨论了一个重要且广泛存在的主题,即在代理人的合作中口头语言指令的使用。尤其是在人-机器人协作中,人类语言的识别准确度会受到多种因素的影响,如背景噪音、说话口音和发音不准确。人类通过利用上下文和先验知识来解析模糊或不熟悉的听觉输入,并采取实际的行动,这一过程被称为认知科学中的自上而下的处理。研究者提出了一种基于认知启发的模型,即“通过理论思维实现口头指令遵循”(SIFToM),旨在让机器人在多种语言条件中实现对人类指令的“鲁棒”遵循。SIFToM模型能够预测人类的目标和联合计划以预先调整词汇理解和感知,从而提高其准确度。这项研究在虚拟家庭实验中得到验证,并在早餐准备这项任务中进行测试,结果显示SIFToM在处理困难的口语指令任务时表现优秀,接近人类级别的准确性。

  地址:https://arxiv.org/pdf/2409.10849


8. 向 ethical 个人AI应用迈进:具有长期记忆功能的AI助手的实际考量

  标题:Towards Ethical Personal AI Applications: Practical Considerations for AI Assistants with Long-Term Memory

  机构:麻省理工学院

  关键词:长期记忆AI、个人助手、AI伦理、大模型

  作者:Eunhae Lee

  分析:本文探讨了具有长期记忆功能的AI助手的实际应用,着重关注个人和专业场景中的应用。文章旨在通过综合评价方法,探讨构建和部署此类应用的全局影响。具体研究内容包括:1)评估大型语言模型中长期记忆技术的技术基础;2)调查当前个人AI助手的发展状况;3)分析部署和使用这些应用的关键考量及其影响。

  地址:https://arxiv.org/pdf/2409.11192


9. CSKV:针对长文本场景KV缓存训练有效的通道收缩技术

  标题:CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios

  机构:清华大学、上海交通大学

  关键词:CSKV、长文本场景、KV缓存、通道收缩技术

  作者:Luning Wang,  Shiyao Li,  Xuefei Ning

  分析:本文提出了CSKV,一种针对长文本场景中KV缓存训练有效的通道收缩技术。文章首先分析了KV缓存的奇异值分布,揭示了通道维度上的冗余和压缩潜力。基于这一观察,文章提出了使用低秩分解对键和值层进行分解,并存储低维特征的方法。为了保持模型性能,文章引入了双分支KV缓存,包括基于窗口的全精度KV缓存和低精度压缩KV缓存。为了降低训练成本,文章最小化了压缩KV缓存的层间重建损失,而不是重新训练整个LLM。实验表明,CSKV可以在减少KV缓存内存开销的同时保持模型的长期上下文能力。

  地址:https://arxiv.org/pdf/2409.10593


10. OSV:一步生成高质量视频图像

  标题:OSV: One Step is Enough for High-Quality Image to Video Generation

  机构:腾讯、复旦大学、香港科技大学

  关键词:视频扩散模型、一致性蒸馏

  作者:Xiaofeng Mao,  Zhengkai Jiang,  Fu-Yun Wang

  分析:这篇论文提出了一种结合一致性蒸馏和GAN训练的两阶段训练框架,旨在解决视频扩散模型生成视频时计算成本高、耗时长的问题。通过引入新型视频判别器设计,模型能够一步生成高质量视频,并可通过多步优化进一步提高性能。在OpenWebVid-1M基准测试上,该模型性能显著优于现有方法。

  地址:https://arxiv.org/pdf/2409.11367


11. Less is More:一种用于高效多模态大模型的简单但有效的标记减少方法

   标题:Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

   机构:香港中文大学

   关键词:Token Reduction、CLIP Metric、Multi-modal Large Language Models、Efficiency

   作者:Dingjie Song,  Wenjun Wang,  Shunian Chen

   分析:本文探讨了跨多个领域的快速发展的多模态大语言模型的兴起,但这种进步伴随着对这一模型资源消耗的明显增加问题。本研究提出了一种解决方案,名为Token Reduction using CLIP Metric (TRIM),旨在提高多模态大语言模型的效率,同时不牺牲性能。TRIM方法受到了人类在视觉问答任务上的注意力模式的启发,对图像标记的选择与减少进行了新的视角。经过在12个不同数据集上的测试,该方法证明了其能够在保持同等性能水平的同时显著降低计算开销。这项研究标志着多模态高效大模型发展的关键进展,提升了高性能模型的可访问性和可持续性。

   地址:https://arxiv.org/pdf/2409.10994


12. 改进多候选预测解码

   标题:Improving Multi-candidate Speculative Decoding

   机构:UC尔湾分校

   关键词:多候选预测解码(MCSD)、大型语言模型(LLM)、草案模型、目标模型

   作者:Xiaofan Lu,  Yixiao Zeng,  Feiyang Ma

   分析:论文介绍了多候选预测解码(MCSD)的改进版本,以提高大型语言模型(LLM)的推理效率。通过对草稿模型进行改进,采用目标模型初始化多候选过程、动态切片拓扑感知因果掩码实现动态长度调整,以及决策模型优化早期停止策略,提高了接受率和生成速度。该研究解决了现有MCSD方法存在的草案和目标模型输出分布差异问题,特别是在动态生成环境中。

   地址:https://arxiv.org/pdf/2409.10644


13. ASFT:通过绝对概率对齐的精细监督微调

   标题:ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood

   机构:北京邮电大学

   关键词:大语言模型、人类偏好对齐、监督微调

   作者:Ruoyu Wang,  Jiachen Sun,  Shaowei Hua

   分析:论文提出了一种名为Aligned Supervised Fine-Tuning(ASFT)的方法,该方法通过对大语言模型进行优化,使它们更好地与人类偏好对齐。论文解决了Direct Preference Optimization(DPO)方法中概率调整不平衡的问题,并提高了模型性能。通过理论分析和实验验证,证明了ASFT方法能够更好地利用监督微调的优势,使模型学习人类偏好响应的能力更强。

   地址:https://arxiv.org/pdf/2409.10571


14. Promptriever:指令训练检索器可以像语言模型一样提示

   标题:Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

   机构:约翰霍普金斯大学

   关键词:Promptriever、指令训练、检索模型、自然语言处理

   作者:Orion Weller,  Benjamin Van Durme,  Dawn Lawrie

   分析:本文主要研究了指令训练检索模型,该模型可以像语言模型一样进行提示。研究团队使用新的实例级指令训练集来训练Promptriever检索模型,该模型不仅在标准检索任务上表现出色,还能遵循指令进行工作。研究结果显示,该模型在遵循详细相关指令、提高查询和指令的词汇选择灵活性、通过提示进行超参数搜索等方面表现出良好的性能。

   地址:https://arxiv.org/pdf/2409.11136


15. 全方位评估量化指令微调大模型的性能:可达405B的实验分析

   标题:A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

   关键词:指令微调、大型语言模型、性能评估

   作者:Jemin Lee,  Sihyeong Park,  Jinse Kwon

   分析:该论文全面评估了采用不同量化方法(GPTQ、AWQ、SmoothQuant、FP8)的7亿至405亿参数指令微调语言模型(LLMs)的性能。测试了13个基准测试,涵盖六种任务类型:常识问答、语言理解、指令执行、幻觉检测、数学和对话。结果表明,量化较大模型的性能往往优于同等规模的较小FP16模型,除了幻觉检测和指令执行;量化方法的差异显著影响性能,大型模型中的重量量化方法通常效果更好;任务难度与精度下降无关;MT-Bench评估方法在这些高表现LLM之间的区分能力有限。

   地址:https://arxiv.org/pdf/2409.11055


16. 通用图像生成模型OmniGen

   标题:OmniGen: Unified Image Generation

   关键词:统一图像生成模型、简化工作流程、无需额外文本编码器、通用图像生成

   作者:Shitao Xiao,  Yueze Wang,  Junjie Zhou

   分析:这篇论文介绍了一种新的图像生成模型OmniGen,它是一种统一的图像生成模型,不仅可以进行文本到图像的生成,还支持其他图像处理任务,如图像编辑、主题驱动生成和视觉条件生成。此外,OmniGen还可以将经典的计算机视觉任务转换为图像生成任务,如边缘检测和人姿态识别。该模型的设计简洁,无需额外的文本编码器,可以简化图像生成的工作流程。通过统一的学习格式,OmniGen能够有效地在不同任务和领域之间转移知识。这篇论文是通用图像生成领域的一次重要尝试,虽然还有一些未解决的问题,但它的开源项目将有助于推动这个领域的发展。

   地址:https://arxiv.org/pdf/2409.11340

   代码:https://github.com/VectorSpaceLab/OmniGen


17. Kolmogorov-Arnold Transformer(KAT)

   标题:Kolmogorov-Arnold Transformer

   机构:新加坡国立大学

   关键词:Kolmogorov-Arnold Transformer、模型结构改进、多层感知机替换、基础函数选择

   作者:Xingyi Yang,  Xinchao Wang

   分析:这篇论文提出了一种新型的神经网络架构Kolmogorov-Arnold Transformer(KAT),旨在通过引入Kolmogorov-Arnold网络(KAN)层替换传统多层感知机(MLP)层,从而提高模型的表达力和性能。论文解决了在集成KAN到Transform时面临的挑战,如基础函数选择、参数和计算效率问题以及权重初始化问题。通过提出理性基础、群组KAN和方差保持初始化等解决方案,KAT可以有效地扩展,并优于传统的MLP基于Transform的模型。

   地址:https://arxiv.org/pdf/2409.10594


18. LLM基于Agent的统一建模框架,无缝集成多主动/被动核心Agent

   标题:LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents

   关键词:LLM-Agent-UMF框架、多核心Agent架构、模型结构改进、统一建模

   作者:Amine B. Hassouna,  Hana Chaari,  Ines Belhaj

   分析:论文提出了一种基于LLM的统一建模框架,解决了现有工具集成和模块化问题。框架明确了LLM基于Agent的不同组件边界,引入核心Agent作为中央协调器,包括规划、记忆、配置文件、操作和安全性五个模块。此外,论文还探讨了核心Agent的被动和主动类型分类,并进行了相关评估和集成。

   地址:https://arxiv.org/pdf/2409.11393


19. SuperCoder2.0:探索大模型作为自主程序员的可行性

   标题:SuperCoder2.0: Technical Report on Exploring the feasibility of LLMs as Autonomous Programmer

   作者:Anmol Gautam,  Kishore Kumar,  Adarsh Jha

   分析:该论文提出了一个名为SuperCoder2.0的先进自主系统,该系统通过人工智能增强软件开发。该系统结合了一种AI原生开发方法和智能代理,以实现完全自主的编码。关键关注领域包括使用错误输出回溯的重试机制、使用抽象语法树(ast)解析进行全面的代码重写和替换以最小化linting问题、用于检索增强生成的代码嵌入技术以及将解决问题的方法定位集中在本地而不是特定的行号。该方法采用了一种分层三步搜索空间缩小的方法来进行代码库导航和错误定位:利用检索增强生成(RAG)和存储库文件级映射来识别候选文件,缩小到最相关的文件使用文件级原理图,然后从这些文件中提取“相关位置”。代码编辑通过两部分模块完成,包括在不同温度值下生成多个解决方案并替换整个方法或类以保持代码完整性。执行存储库级别的测试用例的反馈循环以验证和改进解决方案。在SWE-bench Lite数据集上进行的实验显示了SuperCoder2.0的有效性,在前5个候选方案中的84.33%的情况下正确定位文件,并成功解决了34%的测试实例。这种性能使SuperCoder2.0在全球SWE-bench排行榜上排名第四。系统能够处理各种仓库和问题类型,突显了其作为自主软件开发工具的潜在价值。未来的工作将集中在完善代码编辑过程以及探索高级嵌入模型以改善自然语言到代码映射。

   地址:https://arxiv.org/pdf/2409.11190


20. MonoKAN:可验证的单调Kolmogorov-Arnold网络

   标题:MonoKAN: Certified Monotonic Kolmogorov-Arnold Network

   关键词:MonoKAN网络、Kolmogorov-Arnold网络、人工神经网络、部分单调性

   作者:Alejandro Polo-Molina,  David Alfaya,  Jose Portela

   分析:该论文提出了一种基于Kolmogorov-Arnold网络(KAN)的新型人工神经网络架构——MonoKAN。该网络在保证部分单调性的同时,增强了可解释性。论文通过使用立方Hermite样条来确保单调性,并通过样条的线性组合中的正权重来保持输入和输出之间的单调关系。实验表明,MonoKAN不仅提高了可解释性,而且在大多数基准测试上提高了预测性能,超越了最新的单调多层感知机方法。

   地址:https://arxiv.org/pdf/2409.11078


21. LOLA:一种开源的多语种大规模语言模型

   标题:LOLA -- An Open-Source Massively Multilingual Large Language Model

   关键词:多语种模型、LOLA、大规模语言模型、混合专家Transformer

   作者:Nikit Srivastava,  Denis Kuchelev,  Tatiana Moteu

   分析:LOLA论文探讨了一个使用稀疏混合专家Transformer架构,训练在160种以上语言的大规模多语言模型。它克服了多语种处理的挑战,保持了效率,并通过专家路由机制揭示了潜在的多语种解脱。研究展示了在自然语言生成和理解任务中的竞争力。这为构建高效且跨语言性能出色的多语言模型提供了基础。

   地址:https://arxiv.org/pdf/2409.11272


22. 线性递减偏见在训练中改善Transformers对阅读时间的拟合

   标题:Linear Recency Bias During Training Improves Transformers' Fit to Reading Times

   关键词:Transformers、递减偏见、阅读时间、语言模型

   作者:Christian Clark,  Byung-Doh Oh,  William Schuler

   分析:这篇论文主要探讨了如何改进Transformer模型,使其更好地模拟人类处理语言的难度。通过在注意力分数上添加递减偏见(Recency Bias),使得模型能够更好地拟合人类的阅读时间。研究发现,使用递减偏见的模型在预测单词概率时,与人类的阅读时间有更好的一致性。此外,作者还对模型的注意力机制进行了深入分析,发现递减偏见有助于模型跟踪不同类型的语言依赖关系,从而提高其性能。

   地址:https://arxiv.org/pdf/2409.11250


23. 探究大模型在上下文保持方面的内在机制:记忆强度和证据呈现方式的影响

   标题:Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style

   关键词:大型语言模型、上下文保持、记忆强度、证据呈现方式

   作者:Yuepei Li,  Kang Zhou,  Qiao Qiao

   分析:本研究探讨了大型语言模型(LLMs)的上下文保持能力,以及影响该能力的各种因素。该论文引入了一种新的方法来量化LLMs的记忆强度,通过测量对同一问题的不同同义改写的反应差异来衡量。此外,该论文还生成了各种风格的证据,以评估不同风格证据的效果。该论文使用了两个数据集进行评估:自然问题(NQ)和长尾问题问答(popQA)。该论文的结果显示,对于具有高记忆强度的问题,较大的LLMs(如GPT-4)更有可能依赖于内部记忆。另一方面,呈现改述证据显著增加了LLMs对外部证据的接受度,相比之下,简单的重复或添加细节则没有这种效果。

   地址:https://arxiv.org/pdf/2409.10955


24. 薛定谔的记忆:大模型

   标题:Schrodinger's Memory: Large Language Models

   关键词:记忆机制、通用逼近定理、大型语言模型

   作者:Wei Wang,  Qing Li

   分析:这篇论文探讨了大型语言模型(LLM)的记忆机制问题。基于当前的发展状况,LLM表现出了一定的记忆能力,但其背后的机制尚不明确。论文使用通用逼近定理(UAT)来解释LLM中的记忆机制,并通过实验验证了不同LLM的记忆能力,提出了一种新的评估方法。此外,论文还比较了人类大脑和LLM的记忆能力,并探讨了它们在运行机制上的异同点。

   地址:https://arxiv.org/pdf/2409.10482


25. LLM作为法官与奖励模型:它们能做什么与不能做什么

   标题:LLM-as-a-Judge & Reward Model: What They Can and Cannot Do

   关键词:LLM作为法官、奖励模型、语言模型评估、自动化评估工具

   作者:Guijin Son,  Hyunwoo Ko,  Hoyoung Lee

   分析:这篇论文主要探讨了LLM作为法官和奖励模型在大型语言模型评估中的应用与局限性。研究发现,这些自动化评估工具在英语评估能力上的表现显著,能够影响其在其他语言上的表现。然而,它们也存在一些关键缺陷,如无法准确检测并惩罚事实错误、文化误用和不希望出现的语言等问题。此外,论文还介绍了首个非英语元评估数据集Kudge。

   地址:https://arxiv.org/pdf/2409.11239


26. OpenAI O1-Preview模型解决随机K-SAT问题的快速分析

   标题:Fast Analysis of the OpenAI O1-Preview Model in Solving Random K-SAT Problem: Does the LLM Solve the Problem Itself or Call an External SAT Solver?

   关键词:OpenAI O1-Preview模型,K-SAT问题,模型评估,智能火花,外部SAT求解器

   作者:Raffaele Marino

   分析:这篇论文分析了OpenAI O1-Preview模型在解决随机K-SAT问题时的性能,探讨了模型是否能直接解决问题,还是会调用外部SAT求解器。同时,论文还分析了模型在输出分配时是否表现出智能火花还是仅仅进行随机猜测。

   地址:https://arxiv.org/pdf/2409.11232


27. 层级注意力捷径实现自适应大模型

   标题:Adaptive Large Language Models By Layerwise Attention Shortcuts

   关键词:自适应大型语言模型、Transformer架构、注意力捷径、模型结构改进

   作者:Prateek Verma,  Mert Pilanci

   分析:这篇论文挑战了现有Transformer架构,为大型语言模型(LLM)引入了自适应计算。它通过注意力机制,使最终层能够按需关注所有中间层,从而引入注意力捷径,使架构具有深度与上下文适应性。论文在声学符号、自然语言、符号音乐等四个不同数据集上展示了优势,并在GPT类似架构上取得了卓越性能。证据显示,模型能在上下文和深度上自适应地处理复杂依赖关系。

   地址:https://arxiv.org/pdf/2409.10870


28. 不确定性增强偏好优化提升大模型的自我演化能力

   标题:Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

   关键词:不确定性增强偏好优化、蒙特卡罗、贝叶斯神经网络、鲁棒性

   作者:Jianing Wang,  Yang Zhou,  Xiaocheng Zhang

   分析:这篇论文主要研究了一种名为UPO(Uncertainty-enhanced Preference Optimization,不确定性增强偏好优化)的框架,旨在通过改进偏好优化策略,使大型语言模型能够自我演化并获得更可靠的反馈。通过减少训练过程中产生的噪音偏好数据影响,论文强调一种双向的不确定性估计方法,以及谨慎选择可靠的反馈采样方式。此外,提出了一个集成Monte Carlo dropout的贝叶斯神经网络(BNN)作为卡尔伯诺模型,用于对语言模型生成的偏好数据进行不确定性估算。相较于单纯依据奖励得分过滤生成响应的传统方法,该框架不仅关注模型的不确定性,还有效避免了奖励模型产生的确认偏误问题。同时,论文还提出了一种稳定性增强的自我演化算法,旨在提高偏好优化的鲁棒性,鼓励模型生成既拥有高奖励也具备高确定性的响应。通过多个基准测试,论文显示其框架在解决噪音问题与提高迭代偏好优化性能方面表现显著

   地址:https://arxiv.org/pdf/2409.11212


29. 评估压缩技术对特定任务大模型性能的影响

   标题:Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models

   关键词:大型语言模型、压缩技术、下游任务性能、评估指标

   作者:Bishwash Khanal,  Jeffery M. Capone

   分析:这篇论文主要探讨了大型语言模型的压缩技术及其任务特定性能的影响。研究评估了幅度裁剪、SparseGPT和Wanda等流行压缩方法对LLaMA-2-7B模型的影响,并研究了模型大小缩减、下游任务性能以及校准数据的作用。研究发现,尽管SparseGPT和Wanda在50%稀疏性时能保持困惑度,但在下游任务中性能显著下降,表明困惑度作为唯一评估指标是不充分的。为此,论文引入了Jensen-Shannon Divergence作为更全面的评估指标。此外,论文还展示了特定任务的校准数据对压缩模型的下游性能有显著提升。研究强调了多样评估指标和校准数据选择的必要性,以充分理解大型语言模型压缩的复杂性及其在实际应用中的影响。

   地址:https://arxiv.org/pdf/2409.11233


30. MILO:加速多模态AI数据标注的模型内循环

   标题:Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs

   关键词:数据标注、机器学习、大型语言模型

   作者:Yifan Wang,  David Stevens,  Pranay Shah

   分析:这篇论文提出了一种新的数据标注方法,即Model-in-the-Loop (MILO)。MILO将人工智能和机器学习模型融入到数据标注过程中,通过使用大型语言模型(LLMs)作为预标注和实时辅助工具,并利用对标注者的反馈进行评估,从而提高数据标注的效率和质量。MILO框架可以减少对人工标注的依赖,促进人机之间的协作,对于推动AI/ML的发展具有重要的价值。

   地址:https://arxiv.org/pdf/2409.10702


31. OneEncoder:一种轻量级框架,用于模态的进阶对齐

   标题:OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

   关键词:轻量级框架、模态跨领域对齐、模型结构改进、多模态应用

   地址:https://arxiv.org/pdf/2409.11059


32. Eureka:评估和理解大型基础模型

   标题:Eureka: Evaluating and Understanding Large Foundation Models

   关键词:大型基础模型、评估框架、基准测试集合、模型能力

   地址:https://arxiv.org/pdf/2409.10566


33. CaBaGe: 数据无关模型提取使用平衡分类生成器集合

   标题:CaBaGe: Data-Free Model Extraction using ClAss BAlanced Generator Ensemble

   机构:普渡大学

   关键词:模型提取、黑盒模型、数据无关、生成器技术

   地址:https://arxiv.org/pdf/2409.10643


34. RAG中衡量和增强大模型可信度的Trust-Score方法

   标题:Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

   机构:新加坡科技与设计大学

   关键词:RAG、大型语言模型、可信度、Trust-Score

   地址:https://arxiv.org/pdf/2409.11242

   代码:https://github.com/declare-lab/trust-align


35. KVPpruner: 结构剪枝改善大模型的速度和效率

   标题:KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models

   机构:华中科技大学

   关键词:结构剪枝、KV缓存、大型语言模型、效率提升

   地址:https://arxiv.org/pdf/2409.11057


36. 保护医学预训练语言模型的版权:无训练后门水印技术

   标题:Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking

   机构:华东师范大学

   关键词:医学预训练语言模型、版权保护、水印技术、特殊符号触发词

   地址:https://arxiv.org/pdf/2409.10570


37. Playground v3:改进文本到图像对齐的深度学习大模型

   标题:Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models

   关键词:Playground v3模型结构改进、大语言模型整合、图像描述生成、图形设计任务处理

   地址:https://arxiv.org/pdf/2409.10695


38. jina-embeddings-v3: 多语言嵌入模型

   标题:jina-embeddings-v3: Multilingual Embeddings With Task LoRA

   地址:https://arxiv.org/pdf/2409.10173


39. C到Rust的代码自动翻译:LLM驱动的方法

   标题:Context-aware Code Segmentation for C-to-Rust Translation using Large Language Models

   机构:东京大学

   关键词:大型语言模型、C到Rust、自动翻译、代码优化

   地址:https://arxiv.org/pdf/2409.10506


40. 时间序列推理与语言模型

   标题:Towards Time Series Reasoning with LLMs

   机构:斯坦福大学、Apple、伊利诺伊大学

   关键词:时间序列推理、大型语言模型、自然语言

   地址:https://arxiv.org/pdf/2409.11376


41. Semformer:基于语义规划的Transformer语言模型

   标题:Semformer: Transformer Language Models with Semantic Planning

   机构:浙江大学、西湖大学、字节跳动

   关键词:Semformer、语义规划、Transformer、快捷学习

   地址:https://arxiv.org/pdf/2409.11143


42. 基于Adam改进的洗发剂优化研究

   标题:SOAP: Improving and Stabilizing Shampoo using Adam

   机构:哈佛大学

   关键词:Shampoo优化、Adam优化、深度学习优化、模型预训练

   地址:https://arxiv.org/pdf/2409.11321

   代码:https://github.com/nikhilvyas/SOAP


43. 因果语言建模在解决逻辑谜题中的搜索与推理能力

   标题:Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzles

   机构:谷歌研究院、德克萨斯大学

   关键词:因果语言建模,数独谜题,Transformer模型,逻辑序列,内部表示,推理引擎

   地址:https://arxiv.org/pdf/2409.10502


44. 模型自我指示注意力位置:忠实性与自动注意力引导的结合

   标题:Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering

   机构:微软研究院、乔治亚理工学院、宾夕法尼亚大学

   关键词:AutoPASTA、大语言模型、忠实性、注意力引导

   地址:https://arxiv.org/pdf/2409.10790

   代码:https://github.com/QingruZhang/AutoPASTA


45. ASHABot:一个支持社区健康工作者信息需求的LLM驱动聊天机器人

   标题:ASHABot: An LLM-Powered Chatbot to Support the Informational Needs of Community Health Workers

   机构:微软研究院、康奈尔大学

   关键词:ASHABot、LLM驱动聊天机器人、社区健康工作者、信息需求

   地址:https://arxiv.org/pdf/2409.10913


46. AMEGO:从长自我中心视频中的主动记忆

   标题:AMEGO: Active Memory from long EGOcentric videos

   机构:FAIR、都灵理工大学

   关键词:AMEGO,自我中心视频,视频理解,主动记忆,关键地点,对象交互

   地址:https://arxiv.org/pdf/2409.10917


47. AutoSpec:神经网络规格的自动生成

   标题:AutoSpec: Automated Generation of Neural Network Specifications

   机构:东北大学、密歇根大学、微软研究院

   关键词:神经网络规格自动生成、模型评估、安全关键领域

   地址:https://arxiv.org/pdf/2409.10897


48. 在线学习通过内存:检索增强的检测器适应

   标题:Online Learning via Memory: Retrieval-Augmented Detector Adaptation

   机构:微软

   关键词:在线学习、模型适应、检索增强、模型蒸馏

   地址:https://arxiv.org/pdf/2409.10716


49. 数据评估基准的开发用于数据整理推荐系统

   标题:Development of Data Evaluation Benchmark for Data Wrangling Recommendation System

   机构:微软

   关键词:数据评估基准开发、数据处理、数据整理、推荐系统

   地址:https://arxiv.org/pdf/2409.10635


50. 大模型在低资源口音语音语料库上的应用

   标题:Zero Shot Text to Speech Augmentation for Automatic Speech Recognition on Low-Resource Accented Speech Corpora

   机构:微软、帝国理工学院

   关键词:自动语音识别、低资源、文本转语音

   地址:https://arxiv.org/pdf/2409.11107


51. SAGED: 一个全面性偏见基准化管道,适用于无偏语言模型

   标题:SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration

   机构:伦敦大学、斯坦福大学、马里兰大学

   地址:https://arxiv.org/pdf/2409.11149


52. 基于校验数据科学原则的医学基础模型研究

   标题:Veridical Data Science for Medical Foundation Models

   机构:UC伯克利分校

   关键词:基础模型、数据科学、医学应用、VDS原则

   地址:https://arxiv.org/pdf/2409.10580


53. 探究代码注释不一致性对引入错误的影响

   标题:Investigating the Impact of Code Comment Inconsistency on Bug Introducing

   机构:UC尔湾分校

   关键词:代码注释、不一致性、错误引入、大语言模型

   地址:https://arxiv.org/pdf/2409.10781


54. MM2Latent: 多模态辅助下的文本到面部图像生成与编辑在GAN中的潜在空间

   标题:MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance

   机构:三星AI中心、伦敦玛丽女王大学

   关键词:MM2Latent、多模态、图像生成、GAN

   地址:https://arxiv.org/pdf/2409.11010

   代码:https://github.com/Open-Debin/MM2Latent


55. MacDiff: 统一骨架建模的掩码条件性扩散

   标题:MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion

   机构:北京大学、北大王选计算机研究所

   关键词:扩散模型、骨架建模、自我监督学习、生成模型

   地址:https://arxiv.org/pdf/2409.10473

   代码:https://lehongwu.github.io/ECCV24MacDiff/


56. 医疗AI合成成像

   标题:MAISI: Medical AI for Synthetic Imaging

   机构:英伟达、牛津大学、国家卫生研究院

   地址:https://arxiv.org/pdf/2409.11169


57. THaMES: 一个端到端的工具用于在大模型中减轻和评估幻觉

   标题:THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models

   机构:伦敦大学、斯坦福大学

   关键词:大型语言模型、自动化测试

   地址:https://arxiv.org/pdf/2409.11353


58. PDMX:一个大规模公共领域MusicXML音乐数据集

   标题:PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

   机构:UC圣迭戈分校

   关键词:公共领域音乐XML、音乐数据集、符号音乐处理、多轨道音乐生成

   地址:https://arxiv.org/pdf/2409.10831

   代码:https://pnlong.github.io/PDMX.demo/


59. ReXErr:合成诊断放射学报告中的临床意义错误

   标题:ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports

   机构:哈佛医学院、斯坦福大学

   关键词:ReXErr方法、大型语言模型、诊断放射学报告、错误合成、报告校正算法、临床合理性

   地址:https://arxiv.org/pdf/2409.10829


60. MotIF:对齐机器人行为与环境的语义

   标题:MotIF: Motion Instruction Fine-tuning

   机构:斯坦福大学、麻省理工学院、卡内基梅隆大学

   关键词:动息微调、机器人轨迹理解、视图语言模型、MotIF-1K

   地址:https://arxiv.org/pdf/2409.10683


61. EzAudio:基于高效扩散Transform增强文本到音频生成

   标题:EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

   机构:约翰霍普金斯大学、腾讯AI实验室(WA)

   关键词:文本到音频生成、扩散模型、优化扩散Transform、数据高效训练

   地址:https://arxiv.org/pdf/2409.10819

   代码:https://haidog-yaqub.github.io/EzAudio-Page/


62. Temporal As a Plugin:使用预训练的图像去噪器进行无监督视频去噪

   标题:Temporal As a Plugin: Unsupervised Video Denoising with Pre-Trained Image Denoisers

   机构:南洋理工大学

   关键词:无监督视频去噪、预训练图像去噪器、时序模块、空间去噪能力

   地址:https://arxiv.org/pdf/2409.11256


63. MoDex:通过神经手部模型学习实现高维灵巧控制规划

   标题:MoDex: Planning High-Dimensional Dexterous Control via Learning Neural Hand Models

   机构:清华大学

   关键词:MoDex框架、神经手部模型、动态特性模拟、灵巧手势生成

   地址:https://arxiv.org/pdf/2409.10983

   代码:https://tongwu19.github.io/MoDex


64. 描绘交互式可视化在计算性笔记本中使用的大数据分析

   标题:Charting EDA: Characterizing Interactive Visualization Use in Computational Notebooks with a Mixed-Methods Formalism

   机构:麻省理工学院

   关键词:交互式可视化、大数据分析、探索性数据分析、数据分析工具

   地址:https://arxiv.org/pdf/2409.10450


65. 数据陈述的自动化验证与沟通

   标题:"The Data Says Otherwise"-Towards Automated Fact-checking and Communication of Data Claims

   机构:佐治亚理工学院、Adobe Research

   关键词:自动化事实核查、数据证据沟通、预训练大型语言模型、数据表和可视化表示

   地址:https://arxiv.org/pdf/2409.10713


66. 基于合成场景的自动驾驶车辆测试极端行为生成研究

   标题:Realistic Extreme Behavior Generation for Improved AV Testing

   机构:英伟达、斯坦福大学

   关键词:自动驾驶车辆测试、极端行为生成、合成场景、行为模型

   地址:https://arxiv.org/pdf/2409.10669


67. 基于大模型的生成式错误修正:语音识别的挑战与基线

   标题:Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition

   机构:英伟达、清华大学、麻省理工学院

   关键词:大语言模型,生成式错误修正,语音转录校正,说话者标签,情感识别,ASR后处理任务

   地址:https://arxiv.org/pdf/2409.09785


68. 预测古代中国文本中的标点符号:多层LSTM和注意力机制方法

   标题:Predicting Punctuation in Ancient Chinese Texts: A Multi-Layered LSTM and Attention-Based Approach

   机构:斯坦福大学

   关键词:Turn Based Training Model、Split Delimiters into Punctuation Marks、Chinese Manuscripts

   地址:https://arxiv.org/pdf/2409.10783


69. 高效混合长尾专家训练方法LPT++

   标题:LPT++: Efficient Training on Mixture of Long-tailed Experts

   机构:香港理工大学、新加坡管理大学

   关键词:长尾分类、预训练模型、模型结构改进、训练效率提升

   地址:https://arxiv.org/pdf/2409.11323


70. 基于fMRI的3D重建综合数据集研究

   标题:fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction

   机构:复旦大学、西北工业大学

   关键词:fMRI数据、三维重建、MinD-3D框架、数据集构建

   地址:https://arxiv.org/pdf/2409.11315

   代码:https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape,; https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape; https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape


71. GenCRF: 生成聚类与重写框架用于增强基于意图的信息检索

   标题:GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval

   机构:北京大学

   关键词:生成聚类、意图增强、信息检索、大语言模型

   地址:https://arxiv.org/pdf/2409.10909


72. 超细粒度图像识别(UFGIR)

   标题:Down-Sampling Inter-Layer Adapter for Parameter and Computation Efficient Ultra-Fine-Grained Image Recognition

   机构:清华大学、国立阳明交通大学

   地址:https://arxiv.org/pdf/2409.11051


73. 推荐系统中的多模态生成模型

   标题:Multi-modal Generative Models in Recommendation System

   机构:清华大学、剑桥大学、斯坦福大学

   关键词:推荐系统、多模态、图像识别、自然语言处理

   地址:https://arxiv.org/pdf/2409.10993


74. 增强多语言语音生成与识别能力的大模型的构建研究

   标题:Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data

   机构:香港中文大学

   关键词:多语言语音生成、多语言语音识别、代码切换数据、模型性能提升

   地址:https://arxiv.org/pdf/2409.10969


75. 基于反演的文本到图像编辑的简易框架

   标题:SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing

   机构:华盛顿大学、阿里巴巴集团

   关键词:SimInversion框架、文本到图像编辑、DDIM反演、扩散模型

   地址:https://arxiv.org/pdf/2409.10476


76. 菲迪亚斯:从文本、图像和3D条件创建3D内容的生成模型,带有参考增强的扩散

   标题:Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

   机构:香港城市大学、上海AI实验室

   关键词:生成模型、参考增强、3D内容生成

   地址:https://arxiv.org/pdf/2409.11406


77. 语音情感识别系统刺激模态的影响

   标题:Stimulus Modality Matters: Impact of Perceptual Evaluations from Different Modalities on Speech Emotion Recognition System Performance

   机构:清华大学

   地址:https://arxiv.org/pdf/2409.10762


78. CoCA: 通过宪法校准重新找回多模态大模型的安全意识

   标题:CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

   机构:香港大学、香港科技大学、香港理工大学

   关键词:多模态大语言模型、安全意识、宪法校准、CoCA技术

   地址:https://arxiv.org/pdf/2409.11365


79. 混合多因素框架用于动态术中低血压预测

   标题:HMF: A Hybrid Multi-Factor Framework for Dynamic Intraoperative Hypotension Prediction

   机构:合肥工业大学、中国科学技术大学

   关键词:Hybrid Multi-Factor框架、平均动脉压预测、术中低血压预测

   地址:https://arxiv.org/pdf/2409.11064


80.  towards 有效用户标注对于潜在扩散模型 via 水印加成融合(TEAWIB)的中文翻译

   标题:Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending

   机构:南京大学、上海交通大学、密歇根州立大学

   关键词:有效用户标注、潜在扩散模型、水印加成融合、版权标注

   地址:https://arxiv.org/pdf/2409.10958


81. 理想LLM:融合双编码器和语言适应性LLM的多语种语音转文本

   标题:Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text

   机构:西北工业大学

   关键词:多语种环境、语言适配、双模态编码器、理想LLM

   地址:https://arxiv.org/pdf/2409.11214


82. LoRa通信在农业4.0中的应用:机遇、挑战和未来方向

   标题:LoRa Communication for Agriculture 4.0: Opportunities, Challenges, and Future Directions

   机构:阿联酋大学

   关键词:LoRa通信、农业物联网、智能农业、无线通信技术

   地址:https://arxiv.org/pdf/2409.11200


83. 基于Transformer解决交通信号控制中的部分可观察性问题

   标题:Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformers

   机构:多伦多大学

   关键词:Transformer模型、自适应交通信号控制、部分可观察性、强化学习

   地址:https://arxiv.org/pdf/2409.10693


84. 结构药物设计中的原子间距约束问题

   标题:Manifold-Constrained Nucleus-Level Denoising Diffusion Model for Structure-Based Drug Design

   机构:多伦多大学、渥太华大学、加州理工学院

   关键词:结构药物设计、原子间距约束、人工智能模型

   地址:https://arxiv.org/pdf/2409.10584


85. 艺术品图像描述系统KALE:基于异构图的知识增强

   标题:KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph

   机构:墨尔本大学

   关键词:艺术品图像描述、异构图、知识增强、视觉语言模型

   地址:https://arxiv.org/pdf/2409.10921

   代码:https://github.com/Yanbei-Jiang/Artwork-Interpretation


86. GLC-SLAM: 高斯分裂SLAM与高效闭环检测

   标题:GLC-SLAM: Gaussian Splatting SLAM with Efficient Loop Closure

   机构:北京航空航天大学

   关键词:SLAM、3D Gaussian Splatting(3DGS)、全局优化、闭环检测

   地址:https://arxiv.org/pdf/2409.10982


87. 深度学习和语言模型在研究微生物群落中的最新进展

   标题:Recent advances in deep learning and language models for studying the microbiome

   机构:匹兹堡大学、宾夕法尼亚大学

   关键词:微生物群落、语言模型、深度学习、预训练方法

   地址:https://arxiv.org/pdf/2409.10579


88. 利用蒸馏技术实现文档理解:以FLAN-T5为例的案例分析

   标题:Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5

   机构:科隆莱茵应用技术大学

   关键词:文档理解、大型语言模型、蒸馏技术、FLAN-T5

   地址:https://arxiv.org/pdf/2409.11282


89. 跨模态对齐相似性测试:用于视觉语言模型的评估

   标题:CAST: Cross-modal Alignment Similarity Test for Vision Language Models

   机构:特兰托大学

   关键词:视觉语言模型、跨模态对齐、自我一致性评估

   地址:https://arxiv.org/pdf/2409.11007


90. Versatile Incremental Learning:朝向类和域无关的增量学习

   标题:Versatile Incremental Learning: Towards Class and Domain-Agnostic Incremental Learning

   关键词:通用增量学习、适应变化控制、增量分类器、模型结构改进

   地址:https://arxiv.org/pdf/2409.10956

   代码:https://github.com/KHU-AGI/VIL


91. 双向自回归扩散模型在文本到动作生成中的应用

   标题:BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation

   关键词:双向自回归扩散,文本到动作生成,序列依赖性建模,模型结构改进

   地址:https://arxiv.org/pdf/2409.10847

   代码:https://github.com/RohollahHS/BAD


92. DILA:字典标签注意力机制在高维多标签医疗编码预测中的机制可解释性

   标题:DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction

   机构:伊利诺伊大学

   关键词:DILA、医学编码预测、机制可解释性、稀疏嵌入

   地址:https://arxiv.org/pdf/2409.10504


93. 大模型的提示混淆研究

   标题:Prompt Obfuscation for Large Language Models

   关键词:大语言模型、系统提示、提示混淆、知识产权保护

   地址:https://arxiv.org/pdf/2409.11026


94. 预训练视觉语言模型编码对象状态吗?

   标题:Do Pre-trained Vision-Language Models Encode Object States?

   关键词:视觉语言模型、预训练、对象状态、物理世界理解

   地址:https://arxiv.org/pdf/2409.10488


95. XLM用于自动驾驶系统:综合评述

   标题:XLM for Autonomous Driving Systems: A Comprehensive Review

   地址:https://arxiv.org/pdf/2409.10484


96. AraDiCE:大模型中方言和文化能力的基准

   标题:AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs

   关键词:方言文化能力、大语言模型、AraDiCE基准、方言理解

   地址:https://arxiv.org/pdf/2409.11404


97. 微调图像条件扩散模型比你想象的更容易

   标题:Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

   机构:亚琛工业大学、埃因霍温科技大学

   关键词:图像条件扩散模型、高效微调、深度估计、下游任务性能优化

   地址:https://arxiv.org/pdf/2409.11355


98. Attention-Seeker:动态自注意力评分的无监督关键词抽取

   标题:Attention-Seeker: Dynamic Self-Attention Scoring for Unsupervised Keyphrase Extraction

   关键词:注意力-Seeker、无监督关键词抽取、自注意力、大型语言模型

   地址:https://arxiv.org/pdf/2409.10907


99. 保留语义的Emoji推荐与大模型

   标题:Semantics Preserving Emoji Recommendation with Large Language Models

   机构:罗切斯特大学、乔治亚理工学院

   关键词:Emoji推荐、大型语言模型、语义保留、评估框架

   地址:https://arxiv.org/pdf/2409.10760


100. 假音乐帽子: 文本到音乐生成检测和归属的资料集

   标题:FakeMusicCaps: a Dataset for Detection and Attribution of Synthetic Music Generated via Text-to-Music Models

   关键词:文本到音乐、合成音乐、资料集

   地址:https://arxiv.org/pdf/2409.10684


101. LLM-Powered Ensemble Learning for Paper Source Tracing:无GPU环境下的集成学习新尝试

    标题:LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach

    关键词:LLM, 论文溯源, 集成学习, 无GPU环境

    地址:https://arxiv.org/pdf/2409.09383

    代码:https://github.com/Cklwanfifa/KDDCUP2024-PST


102. 自动驾驶车辆中多模态大模型的视频令牌稀疏化

    标题:Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving

    机构:普渡大学

    关键词:自动驾驶车辆、大型语言模型、视频令牌稀疏化、计算效率

    地址:https://arxiv.org/pdf/2409.11182


103. 罗曼语RoMath:罗曼语数学推理基准测试集

    标题:RoMath: A Mathematical Reasoning Benchmark in Romanian

    地址:https://arxiv.org/pdf/2409.11074


104. 利用评审者经验在代码评审评论生成

    标题:Leveraging Reviewer Experience in Code Review Comment Generation

    机构:墨尔本大学、滑铁卢大学、新加坡管理大学

    关键词:代码评审、深度学习、自然语言生成、经验-aware损失函数

    地址:https://arxiv.org/pdf/2409.10959


105. 幻觉早期检测优化扩散模型的资源消耗

    标题:Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection

    机构:特兰托大学、意大利比萨大学、摩德纳和雷焦埃米利亚大学

    关键词:扩散模型、幻觉早期检测、资源消耗、多对象组合

    地址:https://arxiv.org/pdf/2409.10597


106. RenderWorld:基于自监督3D标签的世界模型

    标题:RenderWorld: World Model with Self-Supervised 3D Label

    关键词:RenderWorld、自监督、高斯摊铺技术、AM-VAE编码方式

    地址:https://arxiv.org/pdf/2409.11356


107. Hackphyr:针对网络安全环境的本地微调LLM代理

    标题:Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

    关键词:网络安全、大型语言模型、本地微调、数据集构建

    地址:https://arxiv.org/pdf/2409.11276


108. Bio-Inspired Mamba:选择性状态空间模型中的时间局部性与生物合理性学习

    标题:Bio-Inspired Mamba: Temporal Locality and Bioplausible Learning in Selective State Space Models

    关键词:Bio-Inspired Mamba模型、选择性状态空间模型、实时递归学习、脉冲时序依赖可塑性、生物合理性学习、语言建模、语音建模、生物医学信号分析

    地址:https://arxiv.org/pdf/2409.11263


109. 基于分数遗忘蒸馏的机器学习模型遗忘技术

    标题:Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models

    关键词:分数遗忘蒸馏、机器学习模型遗忘技术、扩散模型、生成式AI模型

    地址:https://arxiv.org/pdf/2409.11219


110. 扩散策略驱动的3D面部动画

    标题:3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy

    关键词:3D面部动画、情感表达、扩散策略、可变性

    地址:https://arxiv.org/pdf/2409.10848


111. 交互式任务学习中界面设计的改进

    标题:Improving Interface Design in Interactive Task Learning for Hierarchical Tasks based on a Qualitative Study

    机构:乔治亚理工学院

    地址:https://arxiv.org/pdf/2409.10826


112. 探索为向导的网络应用导航:基于功能的web应用导航

    标题:NaviQAte: Functionality-Guided Web Application Navigation

    关键词:网络应用测试、功能导航、大语言模型、多模态输入

    地址:https://arxiv.org/pdf/2409.10741


113. AutoSafeCoder:基于静态分析和模糊测试的多智能体框架保障大模型代码生成的安全性

    标题:AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing

    关键词:LLM代码生成、多智能体框架、静态分析、模糊测试

    地址:https://arxiv.org/pdf/2409.10737


114. 视觉语言模型在理解具有说服力的非典型图像方面的能力

    标题:Benchmarking VLMs' Reasoning About Persuasive Atypical Images

    机构:匹兹堡大学

    关键词:视觉语言模型、非典型图像、推理能力、图像描述

    地址:https://arxiv.org/pdf/2409.10719


115. MusicLIME:可解释的多模态音乐理解

    标题:MusicLIME: Explainable Multimodal Music Understanding

    关键词:多模态音乐模型、特征重要性解释、音频和歌词交互、模型决策透明度

    地址:https://arxiv.org/pdf/2409.10496


116. 自蒸馏在线类增量学习减少灾难性遗忘

    标题:Reducing Catastrophic Forgetting in Online Class Incremental Learning Using Self-Distillation

    关键词:灾难性遗忘、自蒸馏、在线类增量学习、内存更新

    地址:https://arxiv.org/pdf/2409.11329


117. VulnLLMEval框架在软件漏洞检测和补丁自动生成中的大模型性能评估

    标题:VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching

    关键词:大语言模型、软件漏洞检测、补丁生成、性能评估

    地址:https://arxiv.org/pdf/2409.10756


118. CoMamba: 利用状态空间模型实现实时协作感知

    标题:CoMamba: Real-time Cooperative Perception Unlocked with State Space Models

    地址:https://arxiv.org/pdf/2409.10699


119. ExploreSelf:通过大模型的自适应引导促进用户驱动的个人挑战探索和反思

    标题:ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language Models

    地址:https://arxiv.org/pdf/2409.09662


120. 视觉导航基于机器学习的训练数据集生成:应用于卫星交汇与登月场景

    标题:Training Datasets Generation for Machine Learning: Application to Vision Based Navigation

    关键词:视觉导航、机器学习、训练数据集、数据生成

    地址:https://arxiv.org/pdf/2409.11383


121. 面向有偏向性的代理人的连续时间模型

    标题:A Continuous-time Tractable Model for Present-biased Agents

    关键词:有偏向性代理人、连续时间模型、行为干预优化、折扣函数

    地址:https://arxiv.org/pdf/2409.11225


122. 揭示人类运动的秘密:从新的角度探索运动规划

    标题:Uncovering the Secrets of Human-Like Movement: A Fresh Perspective on Motion Planning

    地址:https://arxiv.org/pdf/2409.10747


123. 因果Transform预测自我监督逻辑合成优化

    标题:Logic Synthesis Optimization with Predictive Self-Supervision via Causal Transformers

    关键词:逻辑合成优化、预测自我监督、自动回归Transform、电路性能提升

    地址:https://arxiv.org/pdf/2409.10653


124. HAVANA:分层随机邻域嵌入加速视频标注

    标题:HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions

    关键词:视频标注、分层随机邻域嵌入、多尺度表示、效率提升

    地址:https://arxiv.org/pdf/2409.10641


125. Hugging Face上开放预训练语言模型发布方式的语义化探索

    标题:Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face

    地址:https://arxiv.org/pdf/2409.10472


126. 战略洞察:人类和大模型在猜词游戏中的战术

    标题:Strategic Insights in Human and Large Language Model Tactics at Word Guessing Games

    关键词:大型语言模型、猜词游戏、模型评估

    地址:https://arxiv.org/pdf/2409.11112


127. 基于Transformer的上下文问答模型的稳健性评估

    标题:Contextual Breach: Assessing the Robustness of Transformer-based QA Models

    关键词:Transformer模型、上下文问答模型、稳健性评估、对抗性噪声

    地址:https://arxiv.org/pdf/2409.10997


128. 探索微调生成模型在俄语关键词选择中的应用:一项案例研究

    标题:Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian

    关键词:微调生成模型、俄语关键词选择、科学文本领域、模型评估

    地址:https://arxiv.org/pdf/2409.10640


129. 语言模型和检索增强生成用于自动结构化数据提取的诊断报告

    标题:Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports

    关键词:语言模型、检索增强生成、诊断报告、结构化数据提取

    地址:https://arxiv.org/pdf/2409.10576


130. Kolmogorov-Arnold网络与低数据环境下的多层感知器比较研究

    标题:Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons

    关键词:Kolmogorov-Arnold网络、多层感知器、激活函数、低数据环境

    地址:https://arxiv.org/pdf/2409.10463


131. 评估OpenAlex语言元数据准确性和完整性

    标题:Evaluating the Linguistic Coverage of OpenAlex: An Assessment of Metadata Accuracy and Completeness

    关键词:OpenAlex、语言元数据、准确性、完整性

    地址:https://arxiv.org/pdf/2409.10633


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章