微软发布最新研究:MoE仅提升记忆效果无法提高推理能力!大模型有效上下文长度不足的本质原因是什么?

文摘   2024-10-28 20:37   广东  

前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!


1. Mixture of Parrots:专家提升记忆效果而不提升推理能力

  标题:Mixture of Parrots: Experts improve memorization more than reasoning

  机构:哈佛大学、微软研究院、麻省理工学院

  关键词:混合专家模型、模型架构

  作者:Samy Jelassi,  Clara Mohri,  David Brandfonbrener

  分析:这篇论文研究了Mixture-of-Experts(MoE)架构性能,探讨了与标准密集型Transformer在记忆和推理方面的性能差异。研究发现,随着专家数量的增加,MoE模型在记忆任务上的表现提升,而在推理任务上达到饱和。论文分析了MoE在推理上的理论局限性,并通过实证证明MoE在特定记忆密集型任务上的优越性。

  地址:https://arxiv.org/pdf/2410.19034


2. Ferret-UI 2:跨平台掌握通用用户界面理解

  标题:Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

  机构:Apple、德克萨斯州奥斯汀大学

  关键词:Ferret-UI 2、多模式大型语言模型、用户界面理解、多平台支持

  作者:Zhangheng Li,  Keen You,  Haotian Zhang

  分析:论文介绍了一种名为Ferret-UI 2的多模式大型语言模型,该模型旨在跨多个平台(包括iPhone、Android、iPad、网页和AppleTV)进行通用用户界面理解。它基于Ferret-UI进行了三个关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及使用GPT-4o生成高级任务训练数据。这些进步使Ferret-UI 2能够执行复杂的用户为中心的操作,适应不断变化的平台生态系统。

  地址:https://arxiv.org/pdf/2410.18967


3. CCI3.0-HQ: 大规模高质量中文数据集用于预训练大模型

  标题:CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

  机构:北京AI研究院

  关键词:大规模高质量中文数据集、预训练大型语言模型、双阶段混合过滤流程

  作者:Liangdong Wang,  Bo-Wen Zhang,  Chengwei Wu

  分析:这篇论文介绍了CCI3.0-HQ,一个由500GB高质量中文数据组成的数据集,这个数据集是通过一种新颖的双阶段混合过滤流程开发的,该流程大大增强了数据的质量。为了评估其效果,该论文在各种数据集上从头开始训练了一个0.5B参数的模型,处理了100B的tokens,在零样本设置下,在10个基准测试中与CCI3.0、SkyPile和WanjuanV1相比表现出优越性能。高质量的过滤过程有效地将Qwen2-72B-instruct模型的能力提炼成一个紧凑的0.5B模型,在中文网络数据分类任务上实现了最优的F1分数。该论文认为这个开放获取的数据集将有助于更广泛地获得高质量的语言模型。

  地址:https://arxiv.org/pdf/2410.18505

  代码:https://huggingface.co/datasets/BAAI/CCI3-HQ),; https://huggingface.co/datasets/BAAI/CCI3-HQ),


4. LLM树搜索

  标题:LLM Tree Search

  机构:达特茅斯学院

  关键词:LLM、序列生成、搜索树、模型置信度

  作者:Dylan Wilson

  分析:这篇论文提出了一种受AlphaGo启发的新型序列生成方法,并适应于大型语言模型(LLM)。该方法通过建立搜索树来评估不同可能的文本补全,基于模型置信度进行打分,从而生成多样化且高质量的序列。论文旨在探索这一方法在LLM中的应用,并期望通过这种方法提高输出质量、减少错误和复合错误问题,并允许迭代解决问题和自我训练。此外,该方法还应用于创意文本生成任务和其他自然语言处理领域。

  地址:https://arxiv.org/pdf/2410.19117


5. 大模型有效上下文长度为何不足?

  标题:Why Does the Effective Context Length of LLMs Fall Short?

  机构:香港大学、字节跳动、伊利诺伊大学

  关键词:大型语言模型(LLMs)、有效上下文长度、ShifTed Rotray位置嵌入(STRING)

  作者:Chenxin An,  Jun Zhang,  Ming Zhong

  分析:这篇论文关注大型语言模型(LLMs)有效上下文长度不足的问题。研究发现,尽管分布式训练和高效注意力机制显著扩大了上下文窗口大小,但开源LLMs的有效上下文长度通常不超过其训练长度的一半。论文将此问题归因于LLMs预训练和后续阶段的相对位置左偏的频率分布,这阻碍了它们有效获取远距离信息的能力。为解决这一挑战,论文提出了ShifTed Rotray位置嵌入(STRING)方法。实验结果表明,STRING在不进行额外训练的情况下,显著提高了最新大规模模型(如Llama3.1 70B和Qwen2 72B)在流行长上下文基准测试上的性能,为开源LLMs创造了新的最佳结果。

  地址:https://arxiv.org/pdf/2410.18745


6. Diff-Instruct++:训练一步文本到图像生成器模型以与人类偏好对齐

  标题:Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences

  机构:北京大学

  作者:Weijian Luo

  分析:这篇论文主要研究了如何将一步文本到图像生成器模型与人类偏好对齐的问题。作者受到强化学习中使用人类反馈的成功启发,将对齐问题形式化为最大化预期人类奖励函数,同时添加积分Kullback-Leibler散度项以防止生成器发散。通过克服技术挑战,作者引入了Diff-Instruct++(DI++),这是一种快速收敛且无需图像数据的第一种用于一步文本到图像生成器的人类偏好对齐方法。在实验部分,作者使用DI++对基于UNet的和基于DiT的一步生成器进行了对齐,使用的参考扩散过程为Stable Diffusion 1.5和PixelArt-α。结果表明,DI++是一种强大的人类偏好对齐方法,无论是在美学评分、图像奖励还是人类偏好评分方面,DI++都优于其他开源模型和PixelArt-α。

  地址:https://arxiv.org/pdf/2410.18881


7. OpenWebVoyager:通过迭代现实世界探索、反馈和优化构建多模态网页智能代理

  标题:OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

  机构:浙江大学、西湖大学、腾讯AI实验室

  作者:Hongliang He,  Wenlin Yao,  Kaixin Ma

  分析:本文介绍了如何通过迭代探索、获取反馈以及优化策略来构建一种能够自主进行真实世界环境探索的多模态网页智能代理。首先,通过模仿学习训练基础模型获得基本能力。然后,让代理在开放网络中进行探索并收集对其策略轨迹的反馈。之后,通过另一个通用模型判断良好策略轨迹来进一步改进策略。这样,探索-反馈-优化的循环可以持续进行多次。试验结果显示,每个迭代后,该论文的网页智能代理都能成功地自我改进,并在多个测试集上展现出强大的性能。

  地址:https://arxiv.org/pdf/2410.19609


8. FasterCache:训练-免费视频扩散模型加速

  标题:FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

  机构:香港大学、南洋理工大学、上海AI实验室

  作者:Zhengyao Lv,  Chenyang Si,  Junhao Song

  分析:本论文提出了一种新的无训练方法,FasterCache,用于加速具有高质量生成的视频扩散模型的推理。该论文通过分析现有的基于缓存的方法发现,直接重用相邻步骤的特征会由于丢失细微的变化而降低视频质量。该论文进一步对无监督指导(CFG)的加速潜力进行了探索,并在同一个时间步内发现了条件特征和无条件特征之间的显著冗余。利用这些观察结果,该论文引入了FasterCache,以大大加速基于扩散的视频生成。该论文的关键技术贡献包括一个动态的特征重用策略,该策略既保留了特征差异性,又保持了时间连续性,以及CFG-Cache,它优化了条件的和无条件的输出的重用,以进一步增强推理速度而不牺牲视频质量。该论文在最近的视频扩散模型上进行了FasterCache的实证评估。实验结果表明,FasterCache可以显著加速视频生成(例如,在Vchitect-2.0上的1.67倍速度提升),同时保持与基线相当的视频质量,并且在推理速度和视频质量方面始终优于现有方法。

  地址:https://arxiv.org/pdf/2410.19355


9. 将大模型的视觉推理能力从LLMs提升到MLLMs

  标题:Distill Visual Chart Reasoning Ability from LLMs to MLLMs

  机构:腾讯、复旦大学

  关键词:大型语言模型、视觉推理能力、多模态、数据合成

  作者:Wei He,  Zhiheng Xi,  Wanxu Zhao

  分析:这篇论文主要研究如何通过构建相关训练数据,从多模态的大型语言模型(MLLMs)中提炼出视觉推理能力。这些能力包括从视觉输入中识别关键信息以及对其进行推理。为了达到这个目标,作者提出了一种称为Code-as-Intermediary Translation (CIT)的数据合成方法,该方法利用文本生成技术来构建图表绘图代码,并生成一个包含3000个复杂图表和20000个问题答案对的ReachQA数据集。实验表明,使用这个数据集对模型进行微调可以显著提高模型在图表相关基准测试和一般数学基准测试(如MathVista)上的多模态推理能力。

  地址:https://arxiv.org/pdf/2410.18798

  代码:https://github.com/hewei2001/ReachQA


10. 计算小规模大模型的训练瓶颈

  标题:Computational Bottlenecks of Training Small-scale Large Language Models

  机构:Apple

  作者:Saleh Ashkboos,  Iman Mirzadeh,  Keivan Alizadeh

  分析:这篇论文主要研究了小规模大语言模型(SLMs)的训练行为和计算需求。通过分析各种超参数和配置,包括GPU类型、批处理大小、模型大小、通信协议、注意力类型和GPU数量,以及在流行的云服务上使用损失每美元和令牌每秒等指标评估这些因素。该论文的目标是为低资源AI研究机构更广泛地采用和优化语言模型训练提供支持。

  地址:https://arxiv.org/pdf/2410.19456


11. SkillMimicGen:从少量人类演示中自动生成演示数据集用于高效技能学习与部署

   标题:SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment

   机构:英伟达

   关键词:SkillMimicGen,机器人操作,技能学习,数据生成,自动化演示生成

   作者:Caelan Garrett,  Ajay Mandlekar,  Bowen Wen

   分析:论文提出了一种自动生成演示数据集的系统SkillMimicGen(SkillGen),用于从少量人类演示中进行机器人操作技能学习。该系统能够从人类演示中分割出操作技能,适应新环境,并通过自由空间过渡和转移运动将它们组合在一起。此外,论文还提出了混合技能策略(HSP)框架,用于从SkillGen数据集中学习技能初始化、控制和终止组件,从而在测试时利用运动规划进行技能序列化。相比最新数据生成框架,SkillGen在数据生成和政策学习性能方面表现出色,能够处理大型场景变化和杂乱环境,并提高代理成功率。论文在模拟环境中从仅60个人类演示生成了超过24K个演示,并训练出高效且近乎完美的HSP代理。最后,论文还将SkillGen应用于三个真实世界的操作任务,并在长周期装配任务上实现了zero-shot模拟到现实的迁移。

   地址:https://arxiv.org/pdf/2410.18907

   代码:https://skillgen.github.io


12. 大模型预训练效率提升

   标题:A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs

   机构:谷歌研究院、Google DeepMind

   关键词:大型语言模型、预训练、小语言模型

   作者:Ankit Singh Rawat,  Veeranjaneyulu Sadhanala,  Afshin Rostamizadeh

   分析:这篇论文主要探讨了如何通过利用小的语言模型来提高大型语言模型的预训练效率和质量。具体来说,通过小语言模型提供额外的训练监督和选择有价值的训练样本,有效地将小语言模型的预测分布传输到大型语言模型,同时优先考虑训练数据分布的特定区域。实验结果表明,这种方法可以显著减少大型语言模型的训练时间,同时提高其整体质量。理论上,论文构建了一个统计框架来系统研究小语言模型在使大型语言模型高效且高质量预训练中的效用。

   地址:https://arxiv.org/pdf/2410.18779


13. 概率可发现提取法测量大模型的记忆能力

   标题:Measuring memorization through probabilistic discoverable extraction

   机构:波士顿大学、Google DeepMind

   关键词:大语言模型、记忆能力测量、概率可发现提取法、采样方案

   作者:Jamie Hayes,  Marika Swanberg,  Harsh Chaudhari

   分析:论文介绍了大语言模型(LLM)的记忆能力测量方法。传统方法可能存在低估真实记忆程度的问题。论文引入概率可发现提取法,考虑LLM的概率特性和用户交互模式,更全面地评估记忆能力。实验表明,概率测量方法能揭示更高的记忆率。论文还探讨了不同采样方案对可提取性的影响,为LLM的记忆能力和风险提供更全面评估。

   地址:https://arxiv.org/pdf/2410.19482


14. 快速约束采样在预训练的扩散模型中的实现

   标题:Fast constrained sampling in pre-trained diffusion models

   机构:微软研究院

   关键词:扩散模型、快速约束采样、模型结构改进、预训练优化

   作者:Alexandros Graikos,  Nebojsa Jojic,  Dimitris Samaras

   分析:这篇论文聚焦于扩散模型在大型生成型图像领域的重要应用,如稳定的扩散和DALL-E 3,这些模型通过基于大量图像元素对进行文本条件生成的训练,从而具备了对自然界图像统计的一般知识。然而,在面对条件约束取样任务,如根据已知部分生成图形的另一半时,应用这些模型就得小心翼翼且效率低下,因为常用算法依赖于昂贵的迭代操作,这些操作的执行速度通常比基于文本的推理慢上一个数量级。文章作者提倡以一种新颖的优化视角,下用约束条件下的采样,并通过数值近似先前使用反向传播计算的昂贵梯度,避免了昂贵的反向传播操作,显著提高了速度,从而达到与通过调优获得的顶级模型相媲美的效果。

   地址:https://arxiv.org/pdf/2410.18804


15. Ripple:利用相关性感知神经元管理加速智能手机上的大模型推理

   标题:Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management

   机构:清华大学、微软研究院

   关键词:大型语言模型推理、神经元管理、数据转移效率、优化存储放置

   作者:Tuowei Wang,  Ruwen Fan,  Minxing Huang

   分析:这篇论文提出了一种在智能手机上加速大型语言模型推理的新方法——涟漪。涟漪利用神经元共激活的概念,优化神经元在闪存中的放置,以提高数据转移效率。它采用两阶段解决方案:离线阶段基于共激活模式重新组织神经元放置,在线阶段采用定制的数据访问和缓存策略,以符合硬件特性。评估表明,涟漪与最新技术相比,I/O延迟最多可提高5.93倍。作为优化存储放置下的第一个解决方案,涟漪探索了稀疏驱动算法和存储级系统协同设计在大型语言模型推理中的新优化空间。

   地址:https://arxiv.org/pdf/2410.19274


16. VideoWebArena:基于视频理解的长期语境多模态代理评估基准

   标题:VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

   机构:微软、纽约大学、麻省理工学院

   关键词:VideoWebArena、长期语境、多模态模型、视频理解

   作者:Lawrence Jang,  Yinheng Li,  Charles Ding

   分析:这篇论文提出了一种名为VideoWebArena(VideoWA)的基准测试平台,用于评估长期语境下多模态模型在视频理解方面的能力。该论文旨在填补现有模型忽略的视频理解中的长期语境理解方面的空白,从而加强对模型的评估。

   地址:https://arxiv.org/pdf/2410.19100


17. Not All Heads Matter:基于个体头部评估的键值缓存压缩方法与集成检索推理

   标题:Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning

   机构:微软、威斯康星大学

   关键词:大型语言模型,键值缓存压缩,注意力头部,检索推理,性能提升

   作者:Yu Fu,  Zefan Cai,  Abedelkadir Asi

   分析:本文提出了一种新型的基于注意力头部的键值缓存压缩方法HeadKV,以及结合上下文推理能力评估的HeadKV-R2。该方法旨在解决大型语言模型在处理长文本时的内存压力问题,特别是那些需要检索和推理能力的上下文问答任务。通过针对注意力头部的不同重要性进行评估并选择性保留关键信息,该方法在有限的资源条件下实现了显著的性能提升。

   地址:https://arxiv.org/pdf/2410.19258


18. 可提取符号程序评估数学推理能力

   标题:ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning

   机构:微软研究院、宾夕法尼亚大学、亚利桑那州立大学

   关键词:大型语言模型、数学推理能力、符号程序、自动化评估

   作者:Xiaodong Yu,  Ben Zhou,  Hao Cheng

   分析:这篇论文关注大型语言模型(LLM)的数学推理能力评估问题。现有数学数据集主要通过最终答案或静态示例的推理步骤来评估模型的推理能力,但前者无法揭示模型的捷径和错误推理,后者则难以容纳替代解决方案。为此,论文提出使用符号程序作为自动化评估手段,以检验模型在不同输入下能否持续产生正确的最终答案。研究团队使用GPT4-o提取了GSM8K和MATH等流行数学数据集的符号程序,并生成基于这些程序的新问题来评估LLM。实验结果显示,与使用静态示例相比,新评估方法显著降低了模型的准确率,表明现有LLM的数学推理能力存在脆弱性。

   地址:https://arxiv.org/pdf/2410.19056


19. 人工智能聊天机器人在个性化认知训练中潜力和价值

   标题:The Potential and Value of AI Chatbot in Personalized Cognitive Training

   机构:微软亚洲研究院

   作者:Zilong Wang,  Nan Chen,  Luna K. Qiu

   分析:近年来,全球人口快速老龄化导致认知障碍疾病如阿尔茨海默病的增加,这带来了显著的公共卫生挑战。尽管目前尚无有效方法可逆转阿尔茨海默病,但预防和早期干预,包括认知训练,至关重要。本报告探讨了人工智能聊天机器人在提升个性化认知训练方面的潜力。该论文介绍了ReMe,一个基于网络的框架,用于创建促进认知训练研究的AI聊天机器人,特别是从个人生活日志中提取的情景记忆任务。通过利用大型语言模型,ReMe提供了增强的用户友好、交互式和个性化的训练体验。案例研究展示了ReMe通过生活回顾和开放式语言谜题吸引用户的能力,突显了其改善认知训练设计的可能性。尽管取得了有希望的结果,但需要进一步的研究来验证通过大规模研究包括认知能力评估的训练效果。总的来说,ReMe为个性化认知训练提供了一种有前景的方法,利用AI能力满足认知健康领域对非药物治疗干预不断增长的需求,未来的研究旨在扩大其应用和效力。

   地址:https://arxiv.org/pdf/2410.19733


20. 意念即所需要

   标题:Intention Is All You Need

   机构:剑桥大学、伦敦大学、微软研究院

   关键词:意图同质化、数据集构建、生成AI、机械化趋同

   作者:Advait Sarkar

   分析:本文从两方面对生成人工智能的革命性潜力提出了质疑。首先,研究发现生成AI并非中立的目标履行工具,其能够导致想法的同质化。其次,作者的意图形成过程极其困难,这可能需要利用限制、材料性、抵抗等方面的设计比喻。最终,文章探讨了存在的意图哲学,并提出了一组虚构的编程实践。

   地址:https://arxiv.org/pdf/2410.18851


21. Unbounded:基于生成式无限游戏的角色生命模拟

   标题:Unbounded: A Generative Infinite Game of Character Life Simulation

   机构:Google、北卡罗来纳大学

   关键词:生成无限游戏、角色生命模拟、大型语言模型(LLM)、动态区域图像提示适配器

   作者:Jialu Li,  Yuanzhen Li,  Neal Wadhwa

   分析:论文提出了一种基于生成式无限游戏的角色生命模拟概念,使用生成模型突破了传统有限、硬编码系统的边界。该游戏允许玩家与自主虚拟角色在虚拟世界中互动,并通过大型语言模型(LLM)产生开放式的游戏机制和角色互动。论文还介绍了为开发此游戏所提出的技术创新,包括专门提炼的大型语言模型和动态区域图像提示适配器。系统评估表明,相较于传统方法,此系统在角色生命模拟、用户指令遵循、叙事连贯性和视觉一致性等方面均有显著改善。

   地址:https://arxiv.org/pdf/2410.18975


22. 设计具有个性的LLM-Agent:心理测量方法

   标题:Designing LLM-Agents with Personalities: A Psychometric Approach

   机构:约克大学、Google

   关键词:LLM-Agent、个性赋予、心理测量法、模型评估

   作者:Muhua Huang,  Xijuan Zhang,  Christopher Soto

   分析:这篇论文采用心理测量法为基于大语言模型的智能体(Agent)赋予可量化、可控且经过心理验证的个性。研究旨在克服人类主体研究的局限性,提出智能体可作为社会科学研究的可用工具。通过一系列研究,证明将心理有效的个性特质赋予智能体的可行性,使其能够复制复杂的人类行为。研究还展示了智能体在风险承担和道德困境等场景中复制已知人类个性与决策行为之间的相关性,从而验证了心理测量法设计智能体的有效性及其在社交和行为研究中的应用性。

   地址:https://arxiv.org/pdf/2410.19238


23. 大模型真的如报告所述表现优异吗?标签错误的检测及其对模型性能的影响研究

   标题:Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

   机构:谷歌研究院

   关键词:大型语言模型(LLMs)、标签错误检测、数据集质量、模型性能评估

   作者:Omer Nahum,  Nitay Calderon,  Orgad Keller

   分析:这篇论文关注大型语言模型(LLMs)的性能评估问题,特别是数据标签错误对模型表现的影响。论文通过利用LLMs作为判断工具,对已有数据集进行标签质量分析,发现了大量标签错误。在修正这些错误后,模型性能有了显著提升。论文不仅揭示了标签错误对LLMs性能评估的重要性,还提出了相应的策略来减少这种影响,对提高模型性能具有重要意义。

   地址:https://arxiv.org/pdf/2410.18889


24. 面向开源语言模型的安全水印技术

   标题:Provably Robust Watermarks for Open-Source Language Models

   机构:哥伦比亚大学、Google、UC伯克利分校

   关键词:水印技术、开源语言模型、参数修改、稳健性

   作者:Miranda Christ,  Sam Gunn,  Tal Malkin

   分析:论文介绍了一种面向开源语言模型的水印技术,该技术能够在模型参数公开的情况下,通过修改模型参数嵌入水印,并且仅通过模型输出就能检测出水印。该技术经过实验验证,对令牌替换和模型参数扰动等攻击具有稳健性。

   地址:https://arxiv.org/pdf/2410.18861


25. 从以英语为中心到有效的双语:具有自定义分词器的低资源语言大模型

   标题:From English-Centric to Effective Bilingual: LLMs with Custom Tokenizers for Underrepresented Languages

   机构:Google

   关键词:大型语言模型、双语模型、词汇扩展、公平性

   作者:Artur Kiulian,  Anton Polishko,  Mykola Khandoga

   分析:这篇论文提出了一种无视于特定模型的,成本效益高的方法来开发支持英语和其他目标语言的大型双向语言模型。该方法包括词汇扩展、新嵌入的初始化、模型训练和评估。该论文使用三种非拉丁文字的语言进行实验,分别是乌克兰语、阿拉伯语和格鲁吉亚语。该论文的研究表明,这种方法在提高语言性能的同时减少了计算成本。它减轻了欠发达语言的不公平惩罚,促进了公平性,并最小化了不良现象,如语音切换和破碎的语法。此外,该论文引入了新的指标来评估语言质量,结果表明词汇量对生成文本的质量有显著影响。

   地址:https://arxiv.org/pdf/2410.18836


26. COAT:优化器状态和激活的压缩技术,用于高效的FP8训练

   标题:COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

   机构:英伟达、清华大学、麻省理工学院

   关键词:FP8训练、大模型训练、内存优化、训练速度提升

   作者:Haocheng Xi,  Han Cai,  Ligeng Zhu

   分析:这篇论文提出了一种新型的FP8训练框架COAT,旨在在大模型训练过程中显著降低内存占用。通过动态范围扩展和混合粒度激活量化两种关键技术,COAT能够更紧密地优化训练过程中的内存使用。实验表明,COAT在大型语言模型预训练和微调以及视觉语言模型训练等多种任务中实现了近无损性能的同时,将端到端训练内存占用减少了1.54倍,并提高了1.43倍的训练速度。此外,COAT还促进了大规模模型训练的扩展性,使在较少的GPU上进行全参数训练成为可能。

   地址:https://arxiv.org/pdf/2410.19313

   代码:https://github.com/NVlabs/COAT


27. PixelGaussian:从任意视角进行通用3D高斯重建

   标题:PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views

   机构:清华大学、UC伯克利分校

   关键词:PixelGaussian、3D高斯重建、任意视角、几何复杂性

   作者:Xin Fei,  Wenzhao Zheng,  Yueqi Duan

   分析:该论文提出了一种高效的前馈框架PixelGaussian,用于从任意视角学习通用3D高斯重建。现有的方法大多依赖于均匀像素级高斯表示,不能为更多的输入视图提供良好的泛化。与此不同,PixelGaussian能够根据几何复杂性动态地适应高斯分布和数量,从而提高重建质量。论文引入了级联高斯适配器,根据关键点评分器识别的局部几何复杂性来调整高斯分布。此外,还设计了一个基于迭代高斯细化模块,通过直接图像-高斯交互来优化高斯表示。

   地址:https://arxiv.org/pdf/2410.18979

   代码:https://github.com/Barrybarry-Smith/PixelGaussian


28. SegLLM:多轮互动推理分割

   标题:SegLLM: Multi-round Reasoning Segmentation

   机构:加州大学、斯坦福大学、UC伯克利分校

   关键词:SegLLM、多轮互动推理、多模态分割、对话记忆

   作者:XuDong Wang,  Shaolun Zhang,  Shufan Li

   分析:本文提出了一种创新的多轮互动推理分割模型 SegLLM,它通过利用视觉和文本输出的对话记忆来提升基于大语言模型的分割效果。该模型利用具有掩码意识的多模态大语言模型,将之前的结果重新整合到输入流程中,从而能够根据之前识别的实体(包括位置、互动和层次关系)对多个交互中的对象进行复杂的推理和分割。SegLLM能够以聊天式的方式响应视觉和文本查询,并已在其新构建的MRSeg基准上成功地在多轮互动推理分割方面超越现有方法,性能提升了20%以上。

   地址:https://arxiv.org/pdf/2410.18923


29. Super Gradient Descent:全局优化需要全局梯度

   标题:Super Gradient Descent: Global Optimization requires Global Gradient

   机构:UC伯克利分校

   关键词:超级梯度下降法、全局优化、全局梯度、机器学习

   作者:Seifeddine Achour

   分析:这篇论文介绍了一种新型优化方法——超级梯度下降法,该方法专门针对一维函数设计,可保证在闭区间[a,b]上任何k-Lipschitz函数收敛于全局最小值。该方法解决了传统优化算法易陷入局部最小值的局限,引入了全局梯度的概念,为精确和良好指导的全局优化提供了稳健解决方案。此研究成果为优化理论填补了关键空白,为机器学习等领域中的优化问题提供了新的见解和实际应用进展。

   地址:https://arxiv.org/pdf/2410.19706


30. 肽序列生成模型PeptideGPT的研究与应用

   标题:Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision

   机构:卡内基梅隆大学

   关键词:PeptideGPT、蛋白质序列生成、生成式预训练Transformer模型、生物信息学评估

   作者:Aayush Shah,  Chakradhar Guntuboina,  Amir Barati Farimani

   分析:本文提出了一种基于生成式预训练Transformer模型的肽序列生成模型PeptideGPT,该模型能够根据特定的蛋白质性质生成具有溶血活性、溶解性和防污特性的蛋白质序列。通过生物信息学评估管道对生成的序列进行综合评价,包括基于困惑度的排名、蛋白质结构预测和特定任务分类器的性能评估。实验结果表明,PeptideGPT在蛋白质设计领域具有良好的应用前景,为合成生物学和生物信息学领域的创新和突破提供了新的思路和方法。

   地址:https://arxiv.org/pdf/2410.19222

   代码:https://github.com/aayush-shah14/PeptideGPT


31. 虚构合成数据通过先决学习提高大模型的事实性

   标题:Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

   机构:麻省理工学院、UC圣塔芭芭拉分校

   关键词:先决学习、大语言模型、知识一致性、虚构合成数据

   地址:https://arxiv.org/pdf/2410.19290

   代码:https://github.com/UCSB-NLP-Chang/Prereq_tune.git


32. Link, Synthesize, Retrieve:zero-shot线信息检索的通用文档链接

   标题:Link, Synthesize, Retrieve: Universal Document Linking for Zero-Shot Information Retrieval

   机构:多伦多大学、Amazon、Vector Institute

   关键词:通用文档链接、零射线信息检索、模型蒸馏、命名实体识别

   地址:https://arxiv.org/pdf/2410.18385

   代码:https://github.com/eoduself/UDL


33. ChatSearch:通用对话式图像检索的数据集和生成式检索模型

   标题:ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval

   机构:字节跳动、中国科学院大学

   关键词:对话式图像检索、生成式模型、多模态检索、ChatSearch数据集

   地址:https://arxiv.org/pdf/2410.18715

   代码:https://github.com/joez17/ChatSearch


34. PDL:一种声明式提示编程语言

   标题:PDL: A Declarative Prompt Programming Language

   机构:IBM研究院

   关键词:大型语言模型、PDL、声明式编程、提示编程

   地址:https://arxiv.org/pdf/2410.19135


35. 稳定的一致性调整:理解并改进一致性模型

   标题:Stable Consistency Tuning: Understanding and Improving Consistency Models

   机构:卡内基梅隆大学

   关键词:稳定性一致性调整、去噪过程、一致性模型、马尔可夫决策过程

   地址:https://arxiv.org/pdf/2410.18958


36. Large Spatial Model:端到端的无姿态图像到语义3D重建

   标题:Large Spatial Model: End-to-end Unposed Images to Semantic 3D

   机构:英伟达、加州大学、斯坦福大学

   关键词:大空间模型,语义3D重建,实时重建,图像到语义3D转换

   地址:https://arxiv.org/pdf/2410.18956


37. 多视角生物医学基础模型用于分子-靶点和属性预测

   标题:Multi-view biomedical foundation models for molecule-target and property prediction

   机构:IBM研究院

   关键词:多视角模型、生物分子、药物 discovery、分子表示

   地址:https://arxiv.org/pdf/2410.19704


38. ArterialNet:使用可穿戴脉搏信号重构动脉血压波形,一种队列感知方法

   标题:ArterialNet: Reconstructing Arterial Blood Pressure Waveform with Wearable Pulsatile Signals, a Cohort-Aware Approach

   机构:麻省理工学院、德克萨斯农工大学

   地址:https://arxiv.org/pdf/2410.18895


39. 改进的approximation难度对令牌交换问题的研究

   标题:Improved Hardness-of-Approximation for Token Swapping

   机构:密歇根大学、麻省理工学院

   关键词:令牌交换问题、NP-complete、approximation、hardness of approximation

   地址:https://arxiv.org/pdf/2410.19638


40. 多模态机器人 grasping 策略迁移扩散

   标题:Diffusion for Multi-Embodiment Grasping

   机构:哈佛大学、康奈尔大学、弗莱堡大学

   地址:https://arxiv.org/pdf/2410.18835


41. MotionCLR:基于注意力机制理解的运动生成与免训练编辑研究

   标题:MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

   机构:清华大学、IDEA

   关键词:MotionCLR、注意力机制、运动生成、运动编辑

   地址:https://arxiv.org/pdf/2410.18977


42. Frozen-DETR:利用冻结基础模型增强目标检测中的图像理解能力

   标题:Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models

   机构:中山大学、鹏城实验室、阿里巴巴集团

   关键词:冻结基础模型、目标检测、图像理解、DINO检测器

   地址:https://arxiv.org/pdf/2410.19635


43. 推理时间大模型单域和多域偏好谱的对齐

   标题:Inference time LLM alignment in single and multidomain preference spectrum

   机构:休斯顿大学、AWS AI Labs

   关键词:大语言模型、推理时间对齐、偏好维度编码表示、模型行为调整

   地址:https://arxiv.org/pdf/2410.19206


44. BIFR\"OST:基于语言指令的3D感知图像合成

   标题:BIFR\"OST: 3D-Aware Image compositing with Language Instructions

   机构:复旦大学、香港中文大学、香港科技大学

   关键词:BIFR\"OST、3D感知、语言指令、图像合成

   地址:https://arxiv.org/pdf/2410.19079


45. 信息聚合代理: 一种基于代理的网络信息聚合框架

   标题:Infogent: An Agent-Based Framework for Web Information Aggregation

   机构:伊利诺伊大学

   关键词:信息聚合、代理框架、网络导航、模型性能提升

   地址:https://arxiv.org/pdf/2410.19054


46. SafeBench: 一种多模态大模型安全性评估框架

   标题:SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models

   机构:南洋理工大学、新加坡国立大学、北京航空航天大学

   关键词:多模态、大型语言模型、安全性评估、有害查询

   地址:https://arxiv.org/pdf/2410.18927


47. 我们真的应该编辑语言模型吗?关于编辑语言模型的评估

   标题:Should We Really Edit Language Models? On the Evaluation of Edited Language Models

   机构:香港科技大学、香港浸会大学

   关键词:语言模型编辑、性能下降、知识更新、安全性减弱

   地址:https://arxiv.org/pdf/2410.18785

   代码:https://github.com/lqinfdim/EditingEvaluation


48. 修正扩散引导以实现条件生成

   标题:Rectified Diffusion Guidance for Conditional Generation

   机构:清华大学、上海交通大学、西安交通大学

   关键词:修正扩散引导、条件生成、扩散模型、模型结构改进

   地址:https://arxiv.org/pdf/2410.18737


49. TimeSuite:改进大模型以理解长视频——基于接地调整的方法

   标题:TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

   机构:南京大学、浙江大学、复旦大学

   关键词:大型语言模型,长视频理解,TimeSuite,模型结构改进,视频数据集

   地址:https://arxiv.org/pdf/2410.19702


50. 基于FeFET的高精度模拟内存计算双设计,具有固有移位加法能力

   标题:Energy Efficient Dual Designs of FeFET-Based Analog In-Memory Computing with Inherent Shift-Add Capability

   机构:浙江大学、圣母大学

   关键词:FeFET、模拟内存计算、固有移位加法、高精度

   地址:https://arxiv.org/pdf/2410.19593


51. 对齐语音情感字幕与人类偏好的研究

   标题:AlignCap: Aligning Speech Emotion Captioning to Human Preferences

   机构:中国科学技术大学

   关键词:语音情感字幕、大语言模型、知识蒸馏

   地址:https://arxiv.org/pdf/2410.19134


52. From Imitation to Introspection:探究语言模型的自我意识

   标题:From Imitation to Introspection: Probing Self-Consciousness in Language Models

   机构:复旦大学、上海AI实验室

   关键词:语言模型、自我意识、神经科学、心理学

   地址:https://arxiv.org/pdf/2410.18819

   代码:https://github.com/OpenCausaLab/SelfConsciousness


53. 概率语言图像预训练

   标题:Probabilistic Language-Image Pre-Training

   机构:韩国科学技术院

   关键词:概率语言图像预训练、不确定性估计、多对多关系、零次学习

   地址:https://arxiv.org/pdf/2410.18857

   代码:https://github.com/naver-ai/prolip


54. 大模型在中医学领域的智能理解研究基于提示工程框架

   标题:Intelligent Understanding of Large Language Models in Traditional Chinese Medicine Based on Prompt Engineering Framework

   机构:天津大学

   关键词:大型语言模型、中医药、提示工程、模型性能提升

   地址:https://arxiv.org/pdf/2410.19451


55. 连续人物搜索的提示技术

   标题:Prompting Continual Person Search

   机构:北京航空航天大学、澳大利亚悉尼麦考瑞大学

   关键词:连续人物搜索、提示技术、模型Transformer、域增量提示池

   地址:https://arxiv.org/pdf/2410.19239

   代码:https://github.com/PatrickZad/PoPS


56. BioMistral-NLU:通过指令调整实现更通用化的医疗语言理解

   标题:BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning

   关键词:BioMistral-NLU、指令调整、医疗语言理解、泛化性能

   地址:https://arxiv.org/pdf/2410.18955


57. 深入剖析反转诅咒:大模型能够推广多远?

   标题:Delving into the Reversal Curse: How Far Can Large Language Models Generalize?

   机构:浙江大学

   关键词:大型语言模型(LLM),反转诅咒,知识推广,模型评估,结构依赖

   地址:https://arxiv.org/pdf/2410.18808


58. C^2:无参考自动反馈在基于LLM的图表生成中的应用

   标题:C^2: Scalable Auto-Feedback for LLM-based Chart Generation

   关键词:无参考自动反馈、LLM图表生成、自动反馈提供器、ChartUIE-8K数据集

   地址:https://arxiv.org/pdf/2410.18652


59. 将LoRaWAN与移动自组网集成以增强校园通信

   标题:Integrating LoRaWAN with Mobile Ad-hoc Networks for Enhanced Campus Communication

   机构:IDEA

   关键词:LoRaWAN、移动自组网、校园通信、能量效率

   地址:https://arxiv.org/pdf/2410.19708


60. 推理集设计实现生物数据高效获取

   标题:Efficient Biological Data Acquisition through Inference Set Design

   机构:多伦多大学、曼彻斯特大学

   关键词:高效数据获取、主动学习、药物发现、生物实验

   地址:https://arxiv.org/pdf/2410.19631


61. Initialization Matters:关于具有全可训练层的两层ReLU CNN良性过拟合

   标题:Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers

   机构:浙江大学、香港大学、密歇根大学

   关键词:初始化、良性过拟合、ReLU CNN、全可训练层

   地址:https://arxiv.org/pdf/2410.19139


62. 大模型中视觉依赖关系的再思考:长文本推理中的新方法

   标题:Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models

   机构:澳门科技大学

   关键词:视觉依赖、长文本推理、上下文剪枝、大视觉语言模型

   地址:https://arxiv.org/pdf/2410.19732


63. VARS:基于视觉的系统安全性

   标题:VARS: Vision-based Assessment of Risk in Security Systems

   机构:印度理工学院

   关键词:视频危险评估、机器学习、深度学习、视觉计算

   地址:https://arxiv.org/pdf/2410.19642


64. 基于选择性状态空间模型的多智能体强化学习

   标题:Multi-Agent Reinforcement Learning with Selective State-Space Models

   机构:InstaDeep

   关键词:多智能体强化学习、状态空间模型、模型结构改进、性能匹配

   地址:https://arxiv.org/pdf/2410.19382

   代码:https://sites.google.com/view/multi-agent-mamba


65. Visual Text Matters:利用视觉文本实体知识感知大型多模态助理改进文本KVQA

   标题:Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant

   机构:印度理工学院

   关键词:视觉文本实体链接、多模态模型、知识感知、Text-KVQA

   地址:https://arxiv.org/pdf/2410.19144


66. NeuroClips:从fMRI到视频的高保真平滑重构

   标题:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction

   机构:悉尼科技大学、俄亥俄州立大学

   地址:https://arxiv.org/pdf/2410.19452

   代码:https://github.com/gongzix/NeuroClips


67. Task Calibration:在大规模语言模型推理任务中的校准

   标题:Task Calibration: Calibrating Large Language Models on Inference Tasks

   机构:西湖大学

   关键词:任务校准、大规模语言模型、推理任务、模型校准

   地址:https://arxiv.org/pdf/2410.18764


68. AgentForge: 一种灵活的低代码平台,用于强化学习代理设计

   标题:AgentForge: A Flexible Low-Code Platform for Reinforcement Learning Agent Design

   机构:阿尔托大学

   关键词:强化学习、参数优化、低代码平台、黑箱优化

   地址:https://arxiv.org/pdf/2410.19528


69. Progressive Glimmer:多维尺度中的维度扩展

   标题:Progressive Glimmer: Expanding Dimensionality in Multidimensional Scaling

   机构:斯图加特大学

   关键词:Progressive Glimmer、多维尺度扩展、时空数据、流式数据处理

   地址:https://arxiv.org/pdf/2410.19430


70. MMAU: 大规模多任务音频理解与推理基准

   标题:MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

   机构:马里兰大学

   关键词:MMAU、音频理解、模型评估、多任务处理

   地址:https://arxiv.org/pdf/2410.19168


71. OSCAR操作系统控制通过状态感知推理与再规划的研究

   标题:OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning

   机构:Mila-Quebec AI Institute

   关键词:OSCAR智能体、状态感知推理、任务再规划、自然语言控制

   地址:https://arxiv.org/pdf/2410.18963


72. 揭秘医疗领域大模型:入门指南

   标题:Demystifying Large Language Models for Medicine: A Primer

   关键词:大语言模型、医疗应用、预训练、指令微调

   地址:https://arxiv.org/pdf/2410.18856


73. AGENT-CQ:自动生成和评估澄清问题以提高对话搜索的查询理解和检索性能

   标题:AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs

   机构:阿姆斯特丹大学

   关键词:AGENT-CQ、语言模型、对话搜索、问题生成

   地址:https://arxiv.org/pdf/2410.19692


74. 地理编码Transformer用于大范围植物物种丰富度预测

   标题:Spatioformer: A Geo-encoded Transformer for Large-Scale Plant Species Richness Prediction

   机构:昆士兰科技大学

   关键词:地理编码、Transformer、物种丰富度、大空间尺度

   地址:https://arxiv.org/pdf/2410.19256


75. CoqPilot:基于LLM的证明生成插件

   标题:CoqPilot, a plugin for LLM-based generation of proofs

   关键词:CoqPilot、LLM、证明生成

   地址:https://arxiv.org/pdf/2410.19605

   代码:https://youtu.be/oB1Lx-So9Lo; https://youtu.be/oB1Lx-So9Lo


76. 故事能否帮助大模型进行推理?通过叙事整理信息空间

   标题:Can Stories Help LLMs Reason? Curating Information Space Through Narrative

   机构:皇家墨尔本理工大学

   关键词:叙事元素,大型语言模型,问题求解,信息整理,模型结构改进

   地址:https://arxiv.org/pdf/2410.19221


77. 药物不良反应相关的大模型(LLM)的能力评估

   标题:Lived Experience Not Found: LLMs Struggle to Align with Experts on Addressing Adverse Drug Reactions from Psychiatric Medication Use

   机构:哥伦比亚大学、乔治亚理工学院

   关键词:大型语言模型、精神科药物、不良反应、治疗建议

   地址:https://arxiv.org/pdf/2410.19155


78. A Test of Time:预测在线协作在维基百科中的可持续成功

   标题:A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia

   机构:密歇根大学

   关键词:在线协作、可持续成功、维基百科、机器学习

   地址:https://arxiv.org/pdf/2410.19150


79. 跨云联邦训练大模型的关键技术研究

   标题:Research on Key Technologies for Cross-Cloud Federated Training of Large Language Models

   机构:加州大学、休斯顿大学、Duke University

   关键词:跨云联邦训练、大型语言模型、数据安全和隐私保护、计算资源协同

   地址:https://arxiv.org/pdf/2410.19130


80. 水印大模型及其生成内容:机遇与挑战

   标题:Watermarking Large Language Models and the Generated Content: Opportunities and Challenges

   机构:加利福尼亚大学

   关键词:大型语言模型、水印技术、知识产权保护、信息溯源

   地址:https://arxiv.org/pdf/2410.19096


81. 动态词汇表删减技术在早期退出大模型中的应用研究

   标题:Dynamic Vocabulary Pruning in Early-Exit LLMs

   机构:阿姆斯特丹大学

   关键词:大语言模型、早期退出、动态词汇表删减、性能优化

   地址:https://arxiv.org/pdf/2410.18952


82. 用于多样生物医学任务的双语多模态大模型的解释性

   标题:Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks

   关键词:双语多模态大型语言模型、医学图像、文本指令、区域感知

   地址:https://arxiv.org/pdf/2410.18387

   代码:https://medrega.github.io


83. XR手势识别扩展现实动作与手势事件数据集

   标题:x-RAGE: eXtended Reality -- Action & Gesture Events Dataset

   关键词:XR手势识别、事件相机、egocentric手势数据集、神经形态和低功耗解决方案

   地址:https://arxiv.org/pdf/2410.19486

   代码:https://gitlab.com/NVM_IITD_Research/xrage


84. No Free Lunch:非幻觉生成模型学习的基本限制

   标题:No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models

   机构:普渡大学

   关键词:非幻觉生成模型、学习理论、归纳偏见、模型评估

   地址:https://arxiv.org/pdf/2410.19217


85. From Blind Solvers to Logical Thinkers:在大规模语言模型上评估逻辑完整性处理错误数学问题的方法

   标题:From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems

   机构:宾夕法尼亚州立大学

   关键词:大规模语言模型(LLMs)、逻辑完整性、数学问题的逻辑处理、基准测试数据集

   地址:https://arxiv.org/pdf/2410.18921


86. 基于语言的用户画像推荐系统的端到端训练方法

   标题:End-to-end Training for Recommendation with Language-based User Profiles

   关键词:推荐系统、自然语言处理、语言用户画像、端到端训练

   地址:https://arxiv.org/pdf/2410.18870

   代码:https://github.com/ZhaolinGao/LangPTune


87. Diffusion Attribution Score:评估扩散模型中训练数据的影响

   标题:Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model

   关键词:扩散属性分数、扩散模型、训练样本、数据归属

   地址:https://arxiv.org/pdf/2410.18639


88. Transformers中大规模语言模型的计数能力及其与分词的关系

   标题:Counting Ability of Large Language Models and Impact of Tokenization

   机构:英属哥伦比亚大学

   地址:https://arxiv.org/pdf/2410.19730


89. ChunkRAG:面向RAG系统的新型LLM块过滤方法

   标题:ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems

   关键词:ChunkRAG,大语言模型,RAG系统,信息过滤,语义分块,模型评估

   地址:https://arxiv.org/pdf/2410.19572


90. 基于交互式帧插值的图像过渡技术

   标题:Framer: Interactive Frame Interpolation

   关键词:交互式帧插值、自定义过渡过程、用户交互、模型结构改进

   地址:https://arxiv.org/pdf/2410.18978


91. 对比解码检索头来缓解模型幻想——DeCoRe方法

   标题:DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations

   关键词:大型语言模型,解码策略,检索头,模型幻想,条件熵

   地址:https://arxiv.org/pdf/2410.18860


92. 比特率与体积降低超低比特大模型训练

   标题:TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction

   地址:https://arxiv.org/pdf/2410.19103


93. 进化算法优化炉石传说智能体

   标题:Optimizing Hearthstone Agents using an Evolutionary Algorithm

   关键词:进化算法、炉石传说、人工智能、数据驱动决策机制

   地址:https://arxiv.org/pdf/2410.19681


94. Two are better than one:基于多粒度自注入的上下文窗口扩展

   标题:Two are better than one: Context window extension with multi-grained self-injection

   关键词:SharedLLM、多粒度上下文压缩、查询感知信息检索、上下文窗口扩展

   地址:https://arxiv.org/pdf/2410.19318


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章