Anthropic最新研究:教学模型如何平衡抵抗与接受说服 | 大模型跨层KV共享研究...

文摘   2024-10-21 21:01   广东  

前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!


1. 技能泛化与动词

  标题:Skill Generalization with Verbs

  机构:Deepmind

  作者:Rachel Ma,  Lyndon Lam,  Benjamin A. Spiegel

  分析:机器人能够理解人类发出的自然语言指令至关重要。这样的指令通常包含动词,表示对给定对象要执行的动作,并且适用于许多对象。该论文提出了一种使用动词来泛化操作技能到新对象的方法。该论文的方法学习了一种概率分类器,确定一个给定的物体轨迹能否由特定的动词来描述。该论文表明,这个分类器在13个新对象类别和14个动词中具有平均76.69%的准确性。然后该论文在物体运动学上进行策略搜索,找到一个最大化分类器预测的动词的新物体轨迹。该论文的方法允许机器人根据一个动词生成新对象的轨迹,然后将其作为运动规划的输入。该论文在实际机器人上展示了该论文的模型可以生成可用的轨迹,用于执行两个不同物体类别上的五个动词命令。

  地址:https://arxiv.org/pdf/2410.14118


2. 教学模型如何平衡抵抗与接受说服

  标题:Teaching Models to Balance Resisting and Accepting Persuasion

  机构:Anthropic

  关键词:大型语言模型(LLM),说服平衡训练(PBT),抵抗对抗性说服,接受有益说服,模型评估

  作者:Elias Stengel-Eskin,  Peter Hase,  Mohit Bansal

  分析:这篇论文关注大型语言模型(LLM)在面对说服时的表现,探讨了模型抵抗和接受说服的平衡问题。论文指出,模型不仅需要防御对抗性的说服,也需要接受有益的说服来改善答案。优化单一方面的表现会导致另一方面性能下降。为此,论文提出了说服平衡训练(PBT)方法,通过多智能体递归对话树创建数据,并通过偏好优化训练模型,在适当的时候接受说服。PBT提高了模型抵抗错误信息的能力,同时保持了最佳的整体性能。

  地址:https://arxiv.org/pdf/2410.14596


3. LLMs  internally 了解它们是否遵循指令吗?

  标题:Do LLMs "know" internally when they follow instructions?

  机构:Apple

  关键词:LLMs、指令遵循、内部状态、输入嵌入空间

  作者:Juyeon Heo,  Christina Heinze-Deml,  Oussama Elachqar

  分析:关于遵循指令对构建具有大型语言模型(LLMs)的人工智能代理至关重要,因为这些模型必须严格遵守用户提供的约束和指南。然而,LLMs 经常无法遵循即使是最简单和最清晰的指令。为了提高遵循指令的行为并防止不希望的输出,需要更深入地了解 LLMs 内部状态与这些结果之间的关系。该论文对 LLMs 内部状态的分析揭示了一个与成功遵循指令相关的输入嵌入空间维度。该论文展示了沿着这个维度修改表示相比随机更改提高了遵循指令的成功率,而不 compromising 响应质量。进一步的调查揭示了这个维度更紧密地与提示的表达方式有关,而与任务的难度或指示的固有性无关。这一发现也提出了为什么 LLMs 有时无法遵循清晰指示的原因,以及为什么提示工程经常有效,即使内容几乎未变。本文为 LLMs 的指令遵循行为提供了见解,为可靠的 LLM 代理指明了道路。

  地址:https://arxiv.org/pdf/2410.14516


4. 大模型跨层KV共享研究

  标题:A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference

  机构:上海科技大学

  关键词:大型语言模型、跨层KV共享、推理效率

  作者:You Wu,  Haoyi Wu,  Kewei Tu

  分析:这篇论文主要探讨了在大型语言模型推理过程中,通过跨层共享关键值缓存(KV)来提高效率的方法。作者提出了一个统一的框架,涵盖了近期的一些方法及其变体,并通过全面的实验比较了各种配置的性能和吞吐量。实验结果表明,当减少KV缓存大小2倍时,大部分配置可以达到甚至超过标准Transformer的表现,但进一步减小缓存大小时,将所有层的查询与上层KV配对可以更好地保持性能,尽管这也会引入额外的训练成本和预填充延迟。希望这项工作可以帮助用户根据需求选择合适的方法,并推动大型语言模型推理加速的研究。

  地址:https://arxiv.org/pdf/2410.14442


5. Harmony:一种本地部署的小型LLM智能家庭助手框架

  标题:Harmony: A Home Agent for Responsive Management and Action Optimization with a Locally Deployed Large Language Model

  机构:东京大学、早稻田大学

  关键词:智能家庭助手、大型语言模型、本地部署、隐私保护

  作者:Ziqi Yin,  Mingxin Zhang,  Daisuke Kawahara

  分析:自GPT-3.5发布以来,基于大型语言模型(LLMs)的智能家庭助手技术取得了重大进展。这些基于高性能LLMs(如GPT-4)的智能家庭助手框架通过在云端进行计算,大大扩展了其功能范围和应用场景,丰富了用户体验和多样性。为了在保持LLMs强大功能的同时优化数据处理的隐私和经济性,该论文提出了Harmony,一种使用本地部署的小型LLM的智能家庭助手框架。Harmony基于易于在消费级PC上部署的开放式LLM Llama3-8b,在运行过程中不会将任何数据发送到互联网,确保了本地计算和隐私安全。基于Llama3-8b的Harmony在与相关文献中使用的基于GPT-4的框架的基准测试中实现了竞争力能。除了解决上述问题外,Harmony还可以根据用户和家庭状态采取行动,即使用户没有发出命令。例如,当用户希望在周末比平时晚起床时,Harmony将在用户起床或回家时仅打开窗帘,而无需用户发出命令。

  地址:https://arxiv.org/pdf/2410.14252


6. 人类行为预测:综述

  标题:Human Action Anticipation: A Survey

  机构:伊利诺伊大学、乔治亚理工学院、UC伯克利分校

  作者:Bolin Lai,  Sam Toyer,  Tushar Nagarajan

  分析:这篇论文主要对计算机视觉中预测未来人类行为的问题进行了综述,包括动作预测、活动预测、意图预测、目标预测等。该综述旨在整合当前这一领域的各种方法和技术,并介绍了一些新的大规模数据集用于模型训练和评估。此外,该综述还总结了不同任务中常用的评估指标,并对现有的方法在11个动作预测数据集上的性能进行了全面比较。这篇综述不仅为当前的动作预测方法提供了参考,同时也为这个不断发展的领域的未来研究方向指明了方向。

  地址:https://arxiv.org/pdf/2410.14045


7. SPFresh: 亿级向量搜索的无缝增量更新方法

  标题:SPFresh: Incremental In-Place Update for Billion-Scale Vector Search

  机构:哈佛大学、微软亚洲研究院、中国科学技术大学

  关键词:亿级向量索引、增量更新、轻量级平衡协议、高效率更新

  作者:Yuming Xu,  Hengyu Liang,  Jin Li

  分析:论文提出了一种名为SPFresh的系统,支持在亿级向量索引中的无缝增量更新。该系统采用了轻量级的增量平衡协议LIRE,通过分裂向量分区并重新分配边界区域的向量,以适应数据分布的变化。这种方法能够减小更新成本,通过仅重新分配边界区域的向量,保持了高搜索准确性和低延迟,同时所需资源非常有限,即使在面对亿级向量索引和每日1%的更新率时也是如此。

  地址:https://arxiv.org/pdf/2410.14452


8. FiTv2:可扩展的改进灵活视觉Transformer用于扩散模型

  标题:FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

  机构:香港大学、清华大学、上海交通大学

  关键词:扩散模型、灵活视觉Transformer、分辨率通用性、创新设计

  作者:ZiDong Wang,  Zeyu Lu,  Di Huang

  分析:该论文提出了FiTv2模型,主要用于改善扩散模型在处理非训练域图像分辨率时的局限性。通过将图像视为动态大小的标记序列,而非传统固定分辨率的网格,实现了灵活的训练策略,促进了分辨率通用性和消除了图像裁剪引入的偏差。FiTv2模型具有未限制的分辨率和长宽比,采纳了多种创新设计,如查询-键向量归一化、AdaLN-LoRA模块、修正流调度器和Logit-Normal采样器,以及精心调整的网络结构,展现了比FiT更快的收敛速度。实验验证了FiTv2在广泛分辨率下的出色性能。

  地址:https://arxiv.org/pdf/2410.13925

  代码:https://github.com/whlzy/FiT


9. 基于零空间的水印防御框架NSmark为预训练语言模型提供黑箱保护

  标题:NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models

  机构:腾讯、上海交通大学

  关键词:预训练语言模型、水印策略、LL-LFEA攻击、NSmark方案

  作者:Haodong Zhao,  Jinming Hu,  Peixuan Li

  分析:预训练语言模型作为关键知识产权资产需要保护。当前水印策略面临线性功能等价攻击威胁。本文分析并提出LL-LFEA攻击场景,发现输出矩阵零空间对抗此攻击不变。基于这一发现,提出NSmark方案,这是一种任务无关的黑箱水印方案,能抵抗LL-LFEA攻击。NSmark包括水印生成、嵌入和验证三个阶段。

  地址:https://arxiv.org/pdf/2410.13907

  代码:https://github.com/dongdongzhaoUP/NSmark


10. MiCEval:揭示多模态思维链的质量通过图像描述和推理步骤

  标题:MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps

  机构:莱斯大学、早稻田大学、爱丁堡大学

  关键词:多模态思维链、MiCEval框架、图像描述、推理步骤

  作者:Xiongtao Zhou,  Jie He,  Lanyu Chen

  分析:这篇论文提出了一种名为MiCEval的框架,用于评估多模态思维链(Multimodal Chain of Thought, MCoT)的质量。MiCEval能够评估图像描述和每个推理步骤的正确性,填补了多模态领域的一个空白。该框架通过精细的标注数据集评估每一步的正确性、相关性和信息量,实验结果证明其比现有的基于余弦相似度或微调的方法更能贴近人类判断。

  地址:https://arxiv.org/pdf/2410.14668

  代码:https://github.com/alenai97/MiCEval


11. SurgeryV2:通过深度表示手术在模型融合与多任务学习之间的桥梁

   标题:SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery

   机构:东北大学、马里兰大学

   关键词:模型融合、多任务学习、深层表示手术、专栏V2

   作者:Enneng Yang,  Li Shen,  Zhenyi Wang

   分析:本文主要探讨了模型融合在多任务学习中的应用和面临的挑战,尤其是't' Fascination模型融合导致的表示不均问题,以及多任务学习传统方法与模型融合之间存在的性能差距。文章提出了一种解决方法,通过深度表示手术(Surgery)和深度表示手术V2(SurgeryV2)来消除模型融合中的各层表示偏差,进而优化整合模型性能,使其接近甚至与个别专家模型或传统多任务学习模型相媲美。研究还提供了一个无监督优化目标,用于优化两种手术模块,实验结果显示,将这些模块整合进前沿模型融合策略中可以显著提高性能。

   地址:https://arxiv.org/pdf/2410.14389

   代码:https://github.com/EnnengYang/SurgeryV2


12. 多语言LLMs的一致性推理中的强健知识表示

   标题:Towards Robust Knowledge Representations in Multilingual LLMs for Equivalence and Inheritance based Consistent Reasoning

   机构:Apple、Amazon

   作者:Gaurav Arora,  Srujana Merugu,  Shreya Jain

   分析:人类智力的核心在于推理和语言技能,这些技能对于解决问题和做出决策至关重要。最近在人工智能领域的突破性发展却突显了巨量语言模型的系统限制。在这项研究中,该论文关注的是LLMs是否具备可用的知识表示,以便使用两个基础关系:等价关系和继承关系进行推理。该论文引入了六个语言的新任务和基准测试数据,并发现当前最先进的LLMs在跨语言的相同问题上的答案经常存在冲突(17.3-57.5%),且多达37.2%的违反继承约束。为了增强跨语言的一致性,该论文提出了一种名为“组合表示”的新方法,即将各个语言中的标记表示为跨越语言的等价标记的组合,从而实现了冲突减少(-4.7%),表明LLM共享表示的可行性。

   地址:https://arxiv.org/pdf/2410.14235


13. 压缩视觉令牌提高视觉语言模型的效率

   标题:Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers

   机构:马里兰大学、Apple

   关键词:视觉语言模型、计算效率、令牌寄存器、模型结构改进

   作者:Yuxin Wen,  Qingqing Cao,  Qichen Fu

   分析:这篇论文提出了一种名为Victor的视觉紧凑令牌寄存器方法,旨在解决当前视觉语言模型(VLMs)在处理视觉令牌时面临的计算效率低下的问题。Victor通过汇总视觉令牌到一个较小的寄存器令牌集合来减少视觉令牌的数量,从而提高训练和推理的计算效率,同时保持模型性能。

   地址:https://arxiv.org/pdf/2410.14072


14. 相关片段间的距离导致长上下文LLM存在偏差

   标题:Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs

   机构:清华大学、Apple、中国人民大学

   关键词:长输入偏见基准、位置偏差、多个相关信息项、模型评估

   作者:Runchu Tian,  Yanghao Li,  Yuepeng Fu

   分析:论文主要探讨了大型语言模型(LLMs)中的位置偏差问题,这一问题阻碍了模型有效处理长输入的能力。尤其提到了“中间丢失”现象,即模型在处理处于输入中间部分的有关信息时出现困难。虽然之前的研究主要关注单个相关信息项,但在现实应用中往往会涉及多个相关信息项。为了弥补这一盲点,论文引入了长输入偏见基准(LongPiBench),用于评估涉及多个相关信息项的位置偏差。通过实验分析了五款商用与六款开源模型的性能,发现大多数模型在处理“中间丢失”问题上表现出色,但存在与相关信息片段间距离相关的显著偏差。这些发现强调了评估和减少位置偏差对于提高LLM能力的重要性。

   地址:https://arxiv.org/pdf/2410.14641


15. 好父母胜过一切 -- 多代理人 LLM 幻觉缓解

   标题:Good Parenting is all you need -- Multi-agentic LLM Hallucination Mitigation

   机构:哈佛大学

   关键词:大型语言模型、幻觉纠正、多代理人、虚构艺术家

   作者:Edward Kwartler,  Matthew Berman,  Alan Aqrawi

   分析:这篇研究探讨了大型语言模型(LLM)代理检测和纠正幻觉在大规模生成的内容中的能力。其中一个代理被要求创建一个关于虚构的丹麦艺术家Flipfloppidy的博客,然后另一个代理对其中的事实错误进行审核。大多数LLM都编造了这个艺术家的存在。在4900次测试运行中,涉及各种主代理和审核代理的组合,先进的人工智能模型如Llama3-70b和GPT-4 variants版本,在识别幻觉方面表现出接近完美的准确性,并且能够对反馈进行修改的案例在85%到100%之间。这些结果强调了先进的人工智能模型在提高生成内容的准确性和可靠性方面具有巨大潜力,为改善AI流程管理提供了一个有希望的方法。

   地址:https://arxiv.org/pdf/2410.14262


16. PTR: 一种预训练语言模型用于轨迹恢复

   标题:PTR: A Pre-trained Language Model for Trajectory Recovery

   机构:南洋理工大学

   作者:Tonglong Wei,  Yan Lin,  Youfang Lin

   分析:时空轨迹数据对于物联网服务和基于web的硬件和平台至关重要。然而,服务中断和网络不稳定常导致稀疏的轨迹数据,导致详细运动数据损失。因此,恢复这些轨迹以补充缺失信息变得至关重要。尽管取得进步,但仍然存在一些未解决的问题。首先,缺乏大规模密集轨迹数据限制了现有深度学习方法的表现,这些方法依赖于大量数据进行有监督训练。其次,当前方法在具有不同采样间隔的稀疏轨迹上泛化困难,需要为每个间隔分别训练,增加了计算成本。第三,对于轨迹恢复至关重要的外部因素尚未充分考虑。为解决这些问题,该论文提出了一种名为PTR的框架。该框架利用预训练语言模型的能力来解决有限密集轨迹数据的问题。PTR包括一个显式轨迹提示,并在具有多个采样间隔的数据集上进行训练,使它可以有效泛化到稀疏轨迹中的不同间隔。为了捕捉外部因素,该论文引入了一个隐式轨迹提示,它通过模拟道路条件提供更多信息,从而丰富轨迹恢复困难的场景。此外,该论文提出了一种轨迹编码器,将轨迹点编码并转换为PLM可理解的形式。在两个公共轨迹数据集(具有三个采样间隔)的实验结果表明了PTR的有效性和可扩展性。

   地址:https://arxiv.org/pdf/2410.14281


17. 实例最优性与I/O高效采样和顺序估算

   标题:Instance-Optimality in I/O-Efficient Sampling and Sequential Estimation

   机构:麻省理工学院

   关键词:实例最优性、I/O高效采样、顺序估计、大模型评估优化

   作者:Shyam Narayanan,  Václav Rozhoň,  Jakub Tětek

   分析:本文探讨了一种在存储0和1的内存中估计1的频率的方法,旨在以成本为单位高效读取每个块的方法(即大批量读取)来优化采样过程,而不仅仅是单个位读取。重点研究了不同输入情况下对于采样策略的依赖,特别是在没有给定特定输入顺序假设的情况下。提出了一组算法,它们在估计的可靠性与批数据的采样之间取得了最优平衡,并证明了这些算法在不求助于输入块顺序知识的情况下实现了实例最优性能。此外,本文还讨论了在实际数据中有效地计算平均值、直方图、分位数以及实累计分布函数等问题的类似优化方案。

   地址:https://arxiv.org/pdf/2410.14643


18. MambaSCI:高效Mamba-UNet用于四拜耳模式的视频快照压缩成像

   标题:MambaSCI: Efficient Mamba-UNet for Quad-Bayer Patterned Video Snapshot Compressive Imaging

   机构:根特大学、哈佛大学、南京大学

   关键词:MambaSCI,四拜耳模式,视频快照压缩成像,模型结构改进

   作者:Zhenghao Pan,  Haijin Zeng,  Jiezhang Cao

   分析:针对现有颜色视频快照压缩成像(SCI)在四拜耳模式下存在的颜色失真和无效解马赛克问题,提出了MambaSCI方法。该方法结合了Mamba和UNet架构,实现高效重建四拜耳模式的视频SCI。首次尝试将Mamba模型应用于该任务,通过自定义Residual-Mamba-Blocks等技术手段实现空间时间依赖性建模,边缘细节重建和通道信息交互补偿等功能。实验表明,MambaSCI在降低计算和内存成本的同时,超越了最先进的方法。

   地址:https://arxiv.org/pdf/2410.14214


19. 重尾部扩散模型

   标题:Heavy-Tailed Diffusion Models

   机构:英伟达、UC尔湾分校

   作者:Kushagra Pandey,  Jaideep Pathak,  Yilun Xu

   分析:扩散模型在许多应用场景中达到了最先进的生成质量,但其在重尾部分布中的罕见或极端事件捕获能力仍然不明确。在该文中,该论文证明了使用标准高斯先验的传统扩散和流匹配模型无法捕获重尾部行为。该论文通过重用扩散框架进行重尾部估计,使用多变量学生t分布来解决这个问题。该论文开发了一个定制的扰动核,并推导了基于向后过程的条件学生t分布的噪声后验。灵感来自重尾部分布的γ不均衡性,该论文推导出重尾部去噪器的训练目标。最终,该论文的框架引入了只使用单个标量超参数的可控制尾部生成,使其可以轻松针对各种真实世界的分布进行调节。作为该论文框架的具体实现,该论文引入了t-EDM和t-Flow,这是现有扩散和流模型的扩展版本,应用了学生t先验。值得注意的是,该论文的方法可以与标准高斯扩散模型无缝兼容,只需要进行最小的代码更改。在实证方面,该论文展示了该论文的t-EDM和t-Flow在重尾部估计方面超过了标准扩散模型,这对生成极 rare 和极端事件的高分辨率天气数据集至关重要。

   地址:https://arxiv.org/pdf/2410.14171


20. 从单独指令到互动鼓励!大模型通过自然语言提示的代码安全生成框架

   标题:From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting

   机构:普林斯顿大学、CSIRO's Data

   关键词:安全代码生成、代码优化、自然语言提示、互动鼓励

   作者:Shigang Liu,  Bushra Sabir,  Seung Ick Jang

   分析:本文主要聚焦于大型语言模型(LLMs)在代码生成领域的卓越表现,推广其在众多技术行业的应用潜能,同时关注安全问题的未解决领域。研究介绍了SecCode框架,该框架采用创新的互动鼓励提示(EP)技术,仅通过自然语言(NL)提示就实现了安全代码的生成。通过三个阶段的操作(代码生成、代码漏洞检测与修复、漏洞交叉检查与代码安全优化),确保代码的持续安全提升。试验结果显示,此框架显著优于对比基准,生成的安全代码具有很高的漏洞修正率。例如,经过5轮自动EP互动迭代的修复成功率超过76%,10轮迭代后则超过89%。这是首次仅使用自然语言提示就实现安全代码生成的系统解决方案。

   地址:https://arxiv.org/pdf/2410.14321


21. Nova:一种增强大模型生成创意新颖度和多样性的规划与搜索方法

   标题:Nova: An Iterative Planning and Search Approach to Enhance Novelty and Diversity of LLM Generated Ideas

   机构:西湖大学、浙江大学、东南大学

   作者:Xiang Hu,  Hongyu Fu,  Jinge Wang

   分析:该论文介绍了一种新的方法,旨在提高大型语言模型(LLM)生成研究想法的创新潜力。现有的大型语言模型由于其在获取外部知识以进行创新方面的能力有限,往往产生简单和重复的建议。为解决这个问题,作者引入了一种增强的规划和搜索方法,通过有意识地计划检索外部知识的过程,逐步用更广泛和深入的理解丰富想法生成。自动化和人工评估的结果表明,该论文的框架大大提升了生成的想法质量,特别是在新颖性和多样性方面。该论文的框架产生的独创新颖想法的数量比不使用它的情况下高出3.4倍。此外,该论文的方法在瑞士锦标赛评估中的表现优于当前最先进的方法,至少生成2.5倍更多基于170篇种子论文的顶级想法。

   地址:https://arxiv.org/pdf/2410.14255


22. 利用Elasticsearch优化检索增强生成式问答系统的研究

   标题:Optimizing Retrieval-Augmented Generation with Elasticsearch for Enhanced Question-Answering Systems

   机构:纽约大学、东北大学、北京大学

   关键词:Elasticsearch、Retrieval Augmented Generation、Question Answering、Language Model Optimization

   作者:Jiajing Chen,  Runyuan Bao,  Hongye Zheng

   分析:该研究旨在通过整合Elasticsearch到检索增强生成(RAG)框架中,提高大规模语言模型(LLM)问答系统的准确性和质量。实验比较了不同检索方法,包括基于关键词匹配或语义相似度计算的传统方法,以及新提出的ES-RAG方案。结果显示,ES-RAG在检索效率和准确性方面有明显优势。此外,Elasticsearch的强大搜索能力和丰富的配置选项使问答系统能更好应对复杂查询,提供更灵活高效的响应。未来研究方向可进一步探索Elasticsearch和LLM之间的交互机制优化,引入更高级别的语义理解和语境意识能力,以实现更智能化、人性化的问答体验。

   地址:https://arxiv.org/pdf/2410.14167


23. Text-to-SQL的元数据无关表示学习

   标题:Learning Metadata-Agnostic Representations for Text-to-SQL In-Context Example Selection

   机构:Amazon

   关键词:文本到SQL、元数据无关表示学习、大模型

   作者:Chuhong Mai,  Ro-ee Tal,  Thahir Mohamed

   分析:这篇论文提出了一种新的方法来学习和表达自然语言问题和SQL查询之间的结构化和语义关联,而不需要过度依赖底层数据库元数据。这种方法可以在共享的嵌入空间中对自然语言问题和SQL查询进行对齐,从而选择对于任务有结构和语义相关性的示例,而不是与某个特定领域或问题措辞相关的示例。在基于问题相似度检索示例的任务上,该方法比通用的嵌入模型表现更好。

   地址:https://arxiv.org/pdf/2410.14049


24. 个性化适应通过上下文偏好学习

   标题:Personalized Adaptation via In-Context Preference Learning

   机构:多伦多大学、斯坦福大学

   关键词:上下文学习、个性化适应、大型语言模型、强化学习

   作者:Allison Lau,  Younwoo Choi,  Vahid Balazadeh

   分析:这篇论文提出了一种新的自适应个人化方法,利用在线用户反馈进行强化学习。该方法名为“偏好预训练Transformer”,利用了Transformer的上下文学习能力来动态适应个体的偏好。该方法分为两个阶段:1)使用历史相关损失函数在离线阶段训练一个单一的政策模型;2)在线阶段,模型通过上下文学习适应用户偏好。在上下文选择任务的设置中,该方法显示出优于现有方法的个性化适应性能,并显著减少了计算成本。这些结果表明,上下文学习对于大型语言模型的可扩展和高效的个性化有潜力。

   地址:https://arxiv.org/pdf/2410.14001


25. 利用自生成标记缩小大模型训练与推理的差距

   标题:Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens

   机构:Amazon、卡内基梅隆大学

   关键词:大语言模型、训练推理差距、自生成标记、批处理调度采样

   作者:Zhepeng Cen,  Yao Liu,  Siliang Zeng

   分析:这篇论文主要讲述了在大语言模型的训练与推理过程中存在的差距,并提出了两种缩小差距的方法。通过批处理调度采样和参考答案校正策略,论文解决了模型推理过程中的不确定性和训练与推理的不一致性问题,从而提高了模型的性能。

   地址:https://arxiv.org/pdf/2410.14655


26. 学习儿童不确定性的多模态线索

   标题:Learning Multimodal Cues of Children's Uncertainty

   机构:匹兹堡大学、哈佛医学院、罗格斯大学

   关键词:不确定性的多模态线索、机器学习模型、数据集构建

   作者:Qi Cheng,  Mert İnan,  Rahma Mbarki

   分析:这篇论文主要探讨了理解不确定性的关键作用,这一理解对于实现认知协同很重要。文章首次展示了与发展心理学家和认知心理学家合作,标注了用于研究不确定性的非语言线索的数据集。通过分析不同情境下的不确定解决方案,如何与任务难度和表现相互影响。最后,论文提出了一种多模态机器学习模型,使用实时视频剪辑来预测参与者所表现出的不确定性,相较于基础多模态变换模型在预测准确性上有了提高。此工作有助于人类与人类之间、人类与人工智能之间的认知协调研究,并对手势理解和生成有广泛影响。数据和代码将在完成相应同意表格和数据表后公开提供。

   地址:https://arxiv.org/pdf/2410.14050


27. 电商搜索高价值查询识别

   标题:Identifying High Consideration E-Commerce Search Queries

   机构:Amazon

   关键词:高价值查询、用户参与度、查询排序

   作者:Zhiyu Chen,  Jason Choi,  Besnik Fetahu

   分析:这篇论文主要探讨了在电商领域中,如何识别出高价值查询。高价值查询通常需要用户进行深思熟虑的决策,并投入大量的研究资源。通过识别这些查询,电商网站可以利用定制的内容如问答小部件来更好地满足用户需求,帮助用户做出购买决定。论文提出了一种基于用户参与度的查询排序方法(Engagement-based Query Ranking,EQR),该方法专注于查询与购物知识内容的相关性,以确定用户的潜在参与度。与之前的趋势预测研究不同,EQR优先考虑与用户行为、财务状况和目录信息相关的查询级别特征,而不是流行度信号。论文介绍了一种准确且可扩展的EQR方法,并通过实验结果展示了其有效性。离线实验结果显示了强大的排序性能。人类评估表明,由模型识别的高价值查询的精确度达到了96%。该模型已商业化部署,并在下游的用户影响方面表现出色,具体表现为参与度,这也是通过参与度来衡量的。

   地址:https://arxiv.org/pdf/2410.13951


28. EvoPress:通过进化搜索实现最优动态模型压缩

   标题:EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

   机构:Neural Magic

   关键词:动态模型压缩、进化搜索、误差单调性、LLM

   作者:Oliver Sieberling,  Denis Kuznedelev,  Eldar Kurtic

   分析:论文提出了一种新的动态模型压缩方法EvoPress,旨在解决大型语言模型(LLM)的高计算成本问题。EvoPress通过进化搜索实现最优动态压缩,调整每个块甚至每层的压缩级别以最小化精度损失,并保证全局压缩阈值。论文还指出当前方法基于误差单调性假设存在的问题,并提出EvoPress框架,具有可证明的收敛性和低样本及评估复杂性。该框架在Lama、Mistral和Phi模型的动态压缩上表现优异,并在结构剪枝、非结构稀疏性和动态位宽量化等方面达到最新结果。

   地址:https://arxiv.org/pdf/2410.14649

   代码:https://github.com/IST-DASLab/EvoPress


29. REEF:用于大模型的表示编码指纹

   标题:REEF: Representation Encoding Fingerprints for Large Language Models

   机构:中国人民大学、上海交通大学、上海AI实验室

   关键词:REEF、大型语言模型、知识产权保护、模型关系识别

   作者:Jie Zhang,  Dongrui Liu,  Chen Qian

   分析:这篇论文提出了一种训练外的方法REEF,用于识别嫌疑模型和受害者模型之间的关系,从而保护大型语言模型的知识产权。通过计算嫌疑模型和受害者模型在相同样本上的中心核对齐相似性,REEF能够判断模型之间的关联性,并且不会对模型的一般能力造成影响。此外,该方法对于顺序微调、修剪、模型合并和排列具有鲁棒性。

   地址:https://arxiv.org/pdf/2410.14273

   代码:https://github.com/tmylla/REEF


30. RA-BLIP:多模态自适应检索增强引导式语言图像预训练模型

   标题:RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training

   机构:阿里巴巴集团

   关键词:RA-BLIP、多模态大型语言模型、检索增强技术、自适应选择知识生成

   作者:Muhe Ding,  Yang Ma,  Pengda Qin

   分析:论文提出了一种多模态自适应检索增强引导式语言图像预训练模型RA-BLIP,针对多模态大型语言模型(MLLMs)面临的挑战展开研究。该模型通过利用检索增强技术,实现了对视觉信息的有效提取和融合,提高了模型的性能。同时,论文还介绍了自适应选择知识生成策略,训练生成器自主判断检索知识的相关性,实现了良好的降噪性能。

   地址:https://arxiv.org/pdf/2410.14154


31. GraspDiffusion:合成真实的全身手部与物体交互场景

   标题:GraspDiffusion: Synthesizing Realistic Whole-body Hand-Object Interaction

   机构:首尔国立大学

   关键词:GraspDiffusion,人类与物体交互,图像合成,生成模型,模型结构改进,数据集构建

   地址:https://arxiv.org/pdf/2410.13911

   代码:https://webtoon.github.io/GraspDiffusion


32. BiGR:利用二进制潜码进行图像生成和改进视觉表示能力

   标题:BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

   机构:香港大学、香港科技大学、香港中文大学

   关键词:图像生成、条件模型、二进制潜码、表示能力

   地址:https://arxiv.org/pdf/2410.14672


33. SIMformer:单层普通Transformer学习自由空间轨迹相似性

   标题:SIMformer: Single-Layer Vanilla Transformer Can Learn Free-Space Trajectory Similarity

   机构:东京大学

   关键词:SIMformer、轨迹相似性计算、Transformer编码器、特征提取

   地址:https://arxiv.org/pdf/2410.14629


34. DRACO-DehazeNet:结合细节恢复和新型对比学习范式的高效图像去雾网络

   标题:DRACO-DehazeNet: An Efficient Image Dehazing Network Combining Detail Recovery and a Novel Contrastive Learning Paradigm

   机构:南洋理工大学

   关键词:图像去雾、细节恢复、对比学习、四重损失

   地址:https://arxiv.org/pdf/2410.14595


35. 视觉语言大模型的精细对齐问题

   标题:Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment

   机构:南洋理工大学、新加坡国立大学

   关键词:视觉语言大模型、对齐问题、自对齐方法、视觉编码器

   地址:https://arxiv.org/pdf/2410.14148


36. 超越蒸馏基本限制的催化剂研究

   标题:Surpassing the fundamental limits of distillation with catalysts

   机构:清华大学、香港中文大学

   关键词:量子计算、蒸馏开销、催化剂技术、魔法状态蒸馏

   地址:https://arxiv.org/pdf/2410.14547


37. Beyond Autoregression:用于复杂推理和计划的分扩散模型

   标题:Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

   机构:香港大学、香港科技大学、诺亚方舟实验室

   地址:https://arxiv.org/pdf/2410.14157


38. MarineGym:利用高保真强化学习模拟加速水下无人艇训练

   标题:MarineGym: Accelerated Training for Underwater Vehicles with High-Fidelity RL Simulation

   机构:浙江大学、爱丁堡大学、赫瑞瓦特大学

   关键词:强化学习、水下无人艇、仿真框架、GPU加速

   地址:https://arxiv.org/pdf/2410.14117


39. 微调预训练语言模型以实现稳健的因果表示学习

   标题:Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning

   机构:伦敦大学、香港科技大学

   关键词:因果表示学习、领域泛化、稳健性

   地址:https://arxiv.org/pdf/2410.14375


40. MetaAlign: 在推理阶段按多样化偏好对大模型进行对齐

   标题:MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time

   机构:复旦大学

   关键词:MetaAlign、多样化偏好、动态对齐、大型语言模型

   地址:https://arxiv.org/pdf/2410.14184


41. ProReason:多模态主动推理与解耦的视野和智慧

   标题:ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom

   机构:香港大学、西安交通大学

   关键词:多模态主动推理、解耦的视野和智慧、大型视觉语言模型、大型语言模型集成

   地址:https://arxiv.org/pdf/2410.14138


42. 大模型的通用性研究

   标题:Generalization for Least Squares Regression With Simple Spiked Covariances

   机构:UC洛杉矶分校

   关键词:大语言模型、尖峰协方差结构、通用性、泛化误差

   地址:https://arxiv.org/pdf/2410.13991


43. 前馈模型中的密度倾向性

   标题:The Propensity for Density in Feed-forward Models

   机构:帝国理工学院

   关键词:神经网络剪枝、模型密度、 előrevezető modellek

   地址:https://arxiv.org/pdf/2410.14461


44. 揭示大模型生成文本:多级精细检测框架

   标题:Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework

   机构:中国人民大学、上海财经大学

   关键词:大型语言模型、生成文本、检测框架、多级精细检测

   地址:https://arxiv.org/pdf/2410.14231


45. 理由蒸馏提升大模型的翻译能力而无需损失通用能力

   标题:Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation

   机构:伊利诺伊大学

   关键词:大型语言模型(LLM)、机器翻译、理由蒸馏(Rationale Distillation)、通用能力保留

   地址:https://arxiv.org/pdf/2410.13944


46. Croc:基于跨模态理解的预训练大型多模态模型

   标题:Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension

   关键词:大型多模态模型、跨模态理解、预训练、匈牙利算法

   地址:https://arxiv.org/pdf/2410.14332

   代码:https://github.com/deepglint/Croc


47. 基于知识图谱增强的大模型推理路径研究

   标题:Paths-over-Graph: Knowledge Graph Enpowered Large Language Model Reasoning

   机构:新南威尔士大学

   关键词:Paths-over-Graph、知识图谱、大型语言模型、推理路径

   地址:https://arxiv.org/pdf/2410.14211


48. 训练方法如何影响视觉模型的利用

   标题:How Do Training Methods Influence the Utilization of Vision Models?

   机构:曼海姆大学

   关键词:训练方法、决定函数、视觉模型、神经网络

   地址:https://arxiv.org/pdf/2410.14470

   代码:https://github.com/paulgavrikov/layer_criticality


49. 游戏理论中的模拟与不确定性

   标题:Game Theory with Simulation in the Presence of Unpredictable Randomisation

   机构:牛津大学、德克萨斯大学

   关键词:游戏理论、不确定性、社会福利、AI代理

   地址:https://arxiv.org/pdf/2410.14311


50. 大模型是过参数化的文本编码器

   标题:Large Language Models Are Overparameterized Text Encoders

   机构:汉堡大学

   关键词:大型语言模型、内存需求、推理时间、预训练

   地址:https://arxiv.org/pdf/2410.14578


51. LLM The Genius Paradox:语言与数学专家在简单的基于文字的计数问题上的挣扎

   标题:LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems

   机构:南加州大学

   关键词:LLM模型评估、预训练、简单计数问题、知识迁移

   地址:https://arxiv.org/pdf/2410.14166


52. MomentumSMoE:动量集成到稀疏混合专家模型中的研究

   标题:MomentumSMoE: Integrating Momentum into Sparse Mixture of Experts

   机构:新加坡国立大学

   关键词:MomentumSMoE、稀疏混合专家模型、动量技术、稳定性

   地址:https://arxiv.org/pdf/2410.14574


53. Montessori-Instruct:为学生学习定制有影响力的训练数据

   标题:Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

   关键词:大型语言模型、数据合成、蒙特梭利指导、学生学习偏好

   地址:https://arxiv.org/pdf/2410.14208

   代码:https://github.com/cxcscmu/Montessori-Instruct


54. MultiOrg:一个多评级组织发现数据集

   标题:MultiOrg: A Multi-rater Organoid-detection Dataset

   机构:苏黎世大学、慕尼黑工业大学、慕尼黑黑尔姆霍兹中心

   关键词:多组织数据集、组织检测、验证不确定性

   地址:https://arxiv.org/pdf/2410.14612


55. 多语言模型是如何记忆的?调查多语言事实回忆机制

   标题:How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms

   机构:瑞士洛桑联邦理工学院

   关键词:多语言模型、记忆机制、事实回忆、语言依赖

   地址:https://arxiv.org/pdf/2410.14387


56. RAG-ConfusionQA:一个用于评估大模型处理混淆问题能力的基准测试

   标题:RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions

   机构:圣克拉拉大学

   关键词:RAG-ConfusionQA、大型语言模型、混淆问题、合成数据生成

   地址:https://arxiv.org/pdf/2410.14567


57. 解开大规模疾病进展之谜:利用最优传输快速推断事件排列

   标题:Unscrambling disease progression at scale: fast inference of event permutations with optimal transport

   机构:伦敦大学

   关键词:疾病进展模型、最优传输理论、事件排列、大规模分析

   地址:https://arxiv.org/pdf/2410.14388


58. 可解释的端到端神经符号强化学习代理

   标题:Interpretable end-to-end Neurosymbolic Reinforcement Learning agents

   机构:德国AI研究中心、达姆斯塔特工业大学

   关键词:神经符号人工智能、强化学习、可解释性、深度强化学习

   地址:https://arxiv.org/pdf/2410.14371


59. Rationale Behind Essay Scores:借助大模型(LLM)进行精细化的多特质作文评分

   标题:Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs

   机构:韩国科学技术高等研究院

   关键词:大型语言模型(LLM)、多特质作文评分、理性分析、微调模型

   地址:https://arxiv.org/pdf/2410.14202


60. 大型多模态模型进行个性化图像生成

   标题:Personalized Image Generation with Large Multimodal Models

   机构:新加坡国立大学

   关键词:个性化图像生成、大型多模态模型、用户偏好捕捉、模型校准

   地址:https://arxiv.org/pdf/2410.14170


61. 利用大模型实现文章自动分类评分与反馈系统

   标题:Automated Genre-Aware Article Scoring and Feedback Using Large Language Models

   机构:纽约大学、普渡大学

   关键词:大型语言模型,文章评分系统,BERT模型,ChatGPT,文本分析,特征评估,教育应用

   地址:https://arxiv.org/pdf/2410.14165


62. 高效从文本描述中检索时间事件序列

   标题:Efficient Retrieval of Temporal Event Sequences from Textual Descriptions

   机构:乔治亚理工学院

   关键词:TPP-LLM-Embedding、大型语言模型、时间事件序列、文本描述检索

   地址:https://arxiv.org/pdf/2410.14043


63. 增强稀疏混合专家模型的泛化能力:在组合任务中增加专家激活的案例分析

   标题:Enhancing Generalization in Sparse Mixture of Experts Models: The Case for Increased Expert Activation in Compositional Tasks

   机构:德克萨斯州奥斯汀大学

   关键词:Sparse Mixture of Experts模型、Transformer模型、泛化能力、组合任务

   地址:https://arxiv.org/pdf/2410.13964


64. 卫星视频流质量体验预测:现实主观数据库和网络级预测模型

   标题:Satellite Streaming Video QoE Prediction: A Real-World Subjective Database and Network-Level Prediction Models

   机构:德克萨斯州奥斯汀大学

   关键词:卫星视频流、QoE预测、主观数据库、网络参数

   地址:https://arxiv.org/pdf/2410.13952


65. Less is More:通过选择性减少CT数据对深度学习模型进行自监督预训练对比学习改进下游分类性能的研究

   标题:Less is More: Selective Reduction of CT Data for Self-Supervised Pre-Training of Deep Learning Models with Contrastive Learning Improves Downstream Classification Performance

   关键词:自监督预训练、对比学习、医疗图像、数据冗余

   地址:https://arxiv.org/pdf/2410.14524


66. Takin-ADA:具有规范性和地标性损失优化的可控情感音频驱动动画

   标题:Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization

   关键词:音频驱动、面部动画、损失函数、表情控制

   地址:https://arxiv.org/pdf/2410.14283


67. 视频语言模型的选择偏差问题

   标题:Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models

   机构:特兰托大学、英国巴斯大学

   关键词:选择偏差、视频语言模型、多选题回答任务

   地址:https://arxiv.org/pdf/2410.14248


68. 大模型的有监督思维链

   标题:Supervised Chain of Thought

   机构:英属哥伦比亚大学

   关键词:大型语言模型、有监督思维链、推理任务、性能提升

   地址:https://arxiv.org/pdf/2410.14198


69. 代码摘要模型的模型级数字水印

   标题:Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models

   机构:悉尼科技大学

   关键词:代码摘要模型、数字水印、跨语言通用性、代码噪声注入

   地址:https://arxiv.org/pdf/2410.14102


70. DiFuseR:面向GPU的分布式草图影响最大化算法

   标题:DiFuseR: A Distributed Sketch-based Influence Maximization Algorithm for GPUs

   关键词:影响力最大化、GPU、分布式算法、模型评估

   地址:https://arxiv.org/pdf/2410.14047


71. 针对逆问题的随机梯度下降抖动训练:缓解精度与稳健性的权衡

   标题:Stochastic Gradient Descent Jittering for Inverse Problems: Alleviating the Accuracy-Robustness Tradeoff

   关键词:逆问题、SGD抖动训练、模型可解释性、泛化性能

   地址:https://arxiv.org/pdf/2410.14667


72. 理解低精度后训练量化大模型的困难

   标题:Understanding the difficulty of low-precision post-training quantization of large language models

   关键词:后训练量化、大型语言模型、低精度、优化不一致

   地址:https://arxiv.org/pdf/2410.14570


73. 数据流融合与全局优化提升大数据环境下的K均值聚类

   标题:Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization

   关键词:K均值聚类、变邻域搜索(VNS)、大数据环境、全局优化

   地址:https://arxiv.org/pdf/2410.14548


你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章