大模型中的突变学习现象研究 | 如何区分大模型出现的幻觉属于无知还是真的犯错?批量大小与模型及数据规模的关系研究....

文摘   2024-10-30 16:14   广东  

前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!


1. Transformers中的突变学习现象研究

  标题:Abrupt Learning in Transformers: A Case Study on Matrix Completion

  机构:哈佛大学、密歇根大学

  关键词:Transformers、突然学习、矩阵补全、MLM任务

  作者:Pulkit Gopalani,  Ekdeep Singh Lubana,  Wei Hu

  分析:这篇论文主要研究了Transformer模型在训练过程中出现的突然学习现象,并通过解决低秩矩阵补全问题将其转化为MLM任务进行研究。实验结果表明,可以在BERT模型上实现低错误率的矩阵补全任务,并且在训练过程中出现了损失值突然下降的现象。进一步分析表明,这一现象是由模型从简单复制输入到准确预测被遮罩的条目、注意力头向与任务相关的可解释模式转变,以及嵌入和隐藏状态编码与问题相关信息所导致的。此外,还对模型各部分的训练动态进行了分析,以理解损失值突然下降的原因。

  地址:https://arxiv.org/pdf/2410.22244


2. 区分大模型幻觉中的无知和犯错

  标题:Distinguishing Ignorance from Error in LLM Hallucinations

  机构:谷歌研究院

  关键词:大型语言模型、知识检测、内部状态

  作者:Adi Simhi,  Jonathan Herzig,  Idan Szpektor

  分析:论文主要讨论了大型语言模型回答问题时出现的幻觉问题,并区分了两种情况:一是模型没有掌握正确的知识,而是即使掌握了知识,也由于计算错误导致错误回答。研究旨在通过构建针对特定模型的数据集来解决第二种情况,并对模型的内部状态进行探索,以检测和缓解 hallucinations 问题。

  地址:https://arxiv.org/pdf/2410.22071

  代码:https://github.com/technion-cs-nlp/hallucination-mitigation


3. 临界批量大小在预训练中的尺度如何?

  标题:How Does Critical Batch Size Scale in Pre-training?

  机构:哈佛大学、香港大学、Amazon

  关键词:临界批量大小、预训练、模型规模、数据规模

  作者:Hanlin Zhang,  Depen Morwani,  Nikhil Vyas

  分析:这篇论文研究大规模模型预训练中的临界批量大小尺度问题。通过一系列实验,探究了临界批量大小与模型和数据规模的关系,并发现临界批量大小主要随数据规模而非模型规模而变化。此外,论文还通过神经网络无限宽限的分析和最小二乘回归,为这一发现提供了理论支持。同时,论文强调了在大规模预训练中,常见超参数选择和策略的重要性。

  地址:https://arxiv.org/pdf/2410.21676


4. 思考步骤可能会影响大模型的性能

  标题:Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

  机构:纽约大学、普林斯顿大学

  关键词:Chain-of-thought, 大模型, 模型评估, 思考步骤, 性能降低

  作者:Ryan Liu,  Jiayi Geng,  Addison J. Wu

  分析:这篇论文主要探讨了链式思维(CoT)在大模型中的应用及其影响。研究发现,在某些任务中,链式思维会降低模型的性能。论文通过实验对比了使用链式思维和不使用链式思维时模型的性能差异,并分析了其原因。此外,论文还探讨了哪些任务适合使用链式思维,哪些任务不适合。

  地址:https://arxiv.org/pdf/2410.21333


5. MultiTok:用于高效LLM的变长标记法

  标题:MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression

  作者:Noel Elias,  Homa Esfahanizadeh,  Kaan Kale

  分析:大语言模型通过引入更复杂自然语言处理技术彻底改变了AI的前景。但是,当前训练 such LLM 的方法需要耗用大规模数据、昂贵设备和费时训练等大量资源。为解决此问题,本文提出一种基于通用Lempel-Ziv-Welch压缩的新的标记法,将重复词语压缩为多词标记。使用 MultiTok 作为新标记工具后,该论文发现语言模型可以实现显著更高效的训练,同时保持与压缩较短和训练数据相似的准确率。事实上,该论文的结果表明,MultiTok 的性能与 BERT 标准标记器相当,同时训练速度提高近 2.5 倍,同时使用训练数据减少近 30%。

  地址:https://arxiv.org/pdf/2410.21548


6. MARCO:多智能体实时聊天编排

  标题:MARCO: Multi-Agent Real-time Chat Orchestration

  关键词:大型语言模型、多智能体系统、实时聊天编排、鲁棒性

  作者:Anubhav Shrimal,  Stanley Kanagaraj,  Kriti Biswas

  分析:本文提出了一种名为MARCO的多智能体实时聊天编排框架,旨在利用大型语言模型自动化复杂的多步骤任务。这个框架通过设置稳健的边界条件来引导大型语言模型的行为,验证输出,并从由于输出格式不一致、功能和参数幻觉以及领域知识不足而导致的问题中恢复。通过实验,作者展示了MARCO在处理Digital Restaurant Service Platform和Retail conversations数据集时的优越性能,并报告了边界条件在性能提升中的作用,以及与开源和专有的大语言模型的对比。

  地址:https://arxiv.org/pdf/2410.21784


7. GPT-4o读取眼中的心灵

  标题:GPT-4o reads the mind in the eyes

  机构:普林斯顿大学

  关键词:大型语言模型、心理状态推理、视觉理解、多模态差异化处理

  作者:James W. A. Strachan,  Oriana Pansardi,  Eugenio Scaliti

  分析:研究揭示了大型语言模型(LLMs)在文字之外的能力。尽管LLMs能够从文本中模仿出人类似的人类推理,包括情绪和心理状态的推理,但这些能力是否能够扩展到视觉等其他模式还不得而知。人类对其他人眼神中的心理状态具有高超的直觉能力。该论文的研究表明,GPT-4o在这个方面表现出了超越人类的水平,尤其是在正立的面孔上解读心理状态方面。然而,在倒置的面孔上时,GPT-4o的性能则低于人类。通过阅读心理在眼睛测试以及多种族阅读心理在眼睛测试,该论文的研究发现:GPT-4o在解读正立面孔的心理状态上表现优秀,但在倒置面孔上,则不如人类。相比之下,样本中的人类并没有表现出对白人与非裔人士在面孔识别上差异的敏感度,而GPT-4o则在识别白人面孔时显示出更高的准确性。GPT-4o的一些错误并非随机生成,而是呈现了一种个性化的、错误的处理心理信息模式,对于倒置的面孔与正立的面孔之间,有着显著的质的区别,这一区别与人类处理的模式互相补充,揭示了与人类心理推理共存的还存在着大的差异。

  地址:https://arxiv.org/pdf/2410.22309


8. MotionGPT-2:一种用于动作生成和理解的通用运动语言模型

  标题:MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding

  关键词:MotionGPT-2、运动语言模型、多模态控制、动作生成

  作者:Yuan Wang,  Di Huang,  Yaqi Zhang

  分析:论文提出了一种通用运动语言模型MotionGPT-2,解决了数字人类对动作生成的需求。它结合了多种运动相关任务和多模态控制条件,通过预训练的大型语言模型实现。该模型将文本和单帧姿态等多模态输入量化为离散的可解读令牌,并集成到大型语言模型的词汇表中。此外,该模型适应性强,可以适应挑战性的全身运动生成任务。论文还提出了一种创新的动作离散化框架Part-Aware VQVAE,确保精细的身体和手部运动表示。论文进行了大量实验和可视化验证模型的实用性。

  地址:https://arxiv.org/pdf/2410.21747


9. L3Ms -- 拉格朗日大模型

  标题:L3Ms -- Lagrange Large Language Models

  机构:牛津大学

  关键词:L3Ms、约束优化、指令微调、大语言模型

  作者:Guneet S. Dhillon,  Xingjian Shi,  Yee Whye Teh

  分析:这篇论文提出了一种新的名为拉格朗日大型语言模型(L3Ms)的监督微调(SFT)和模型对齐方法。该方法通过将SFT和对齐问题表述为一个约束优化问题,并在训练过程中通过逻辑障碍来实现约束,使得大型语言模型(LLMs)在完成特定任务的同时满足应用层面的特定要求,而不依赖于启发式选择。实验结果表明,L3Ms可在各种应用中实现定制的对齐。

  地址:https://arxiv.org/pdf/2410.21533


10. ShadowKV:高吞吐量长上下文LLM推理的KV缓存阴影方案

  标题:ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference

  机构:字节跳动、卡内基梅隆大学

  关键词:长上下文LLM、KV缓存、高吞吐量、内存优化

  作者:Hanshi Sun,  Li-Wen Chang,  Wenlei Bao

  分析:这篇论文提出了一种名为ShadowKV的高吞吐量长上下文LLM推理系统。针对长上下文大语言模型(LLM)的推理过程中,KV缓存占用大量内存且访问开销大导致的低吞吐量问题,ShadowKV通过存储低秩键缓存并将值缓存卸载以减少内存足迹,同时采用准确的KV选择策略来最小化解码延迟。实验表明,ShadowKV在多个基准测试模型上表现优异,能够支持更大的批处理规模并显著提升吞吐量,同时保证准确性。

  地址:https://arxiv.org/pdf/2410.21465

  代码:https://github.com/bytedance/ShadowKV


11. OFER:遮挡面部表情重建

   标题:OFER: Occluded Face Expression Reconstruction

   机构:谷歌研究院、微软研究院

   关键词:3D face reconstruction、occlusions、diffusion models、expression coefficients

   作者:Pratheba Selvaraju,  Victoria Fernandez Abrevaya,  Timo Bolkart

   分析:这篇论文介绍了一种从单张图片重建3D面部模型的新方法OFER,该方法能够在存在遮挡的情况下生成可信且多样化的表情。论文解决了重建过程中的多假设性问题,通过训练两个扩散模型来生成面部参数模型的形状和表情系数,以处理输入图像的条件。此外,论文还提出了一种新的排名机制,用于从形状扩散网络的输出中选择最佳匹配项。论文评估了方法的效果,并引入了一个新的协议和数据集CO-545,以评估遮挡条件下的表情准确性。该方法在遮挡处理方面表现出改进,并能针对给定图像生成多种表情。

   地址:https://arxiv.org/pdf/2410.21629


12. 基于Transformer的自回归文本到语音模型的改进:提高鲁棒性和长序列泛化能力

   标题:Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

   机构:Google DeepMind

   关键词:自回归Transformer模型、文本到语音转换、长序列泛化、鲁棒性改进

   作者:Eric Battenberg,  RJ Skerry-Ryan,  Daisy Stanton

   分析:这篇论文主要解决自回归Transformer模型在文本到语音转换领域存在的长序列泛化问题。针对现有模型在处理较长语音序列时出现的掉词、重复词和输出不稳定等问题,提出了改进方案。通过使用相对位置信息的跨注意力对齐机制,提高了模型的鲁棒性和泛化能力。改进后的模型可以更好地处理任意长度的语音序列,且输出的语音更加自然流畅。

   地址:https://arxiv.org/pdf/2410.22179


13. 基于统一基准框架BenchX的医学视觉语言预训练在胸部X射线上的应用

   标题:BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

   机构:山东大学、南洋理工大学、新加坡国立大学

   关键词:医学视觉语言预训练、基准框架、胸部X射线、标准化

   作者:Yang Zhou,  Tan Li Hui Faith,  Yanyu Xu

   分析:这篇论文提出了一种统一的基准框架BenchX,用于评估基于胸部X射线的医学视觉语言预训练方法。通过BenchX框架,可以标准化医学视觉语言预训练的实验环境和方法,从而实现各种预训练方法的横向对比和系统性分析。研究发现,某些早期预训练方法的性能可以通过优化提升超越近期的方法。这为重新审视和发展医学视觉语言预训练领域提供了重要依据。

   地址:https://arxiv.org/pdf/2410.21969

   代码:https://github.com/yangzhou12/BenchX


14. MCPDial:一种面向Minecraft游戏的人物驱动对话数据集

   标题:MCPDial: A Minecraft Persona-driven Dialogue Dataset

   机构:微软研究院、英属哥伦比亚大学、Vector Institute

   关键词:Minecraft游戏、人物驱动对话、大型语言模型、数据集

   作者:Seyed Hossein Alavi,  Sudha Rao,  Ashutosh Adhikari

   分析:这篇论文提出了一种使用大型语言模型(LLM)在游戏玩家和非玩家角色(NPC)之间生成人物驱动对话的新方法。论文引入Minecraft人物驱动对话数据集(MCPDial),并通过专家编写的对话种子生成数百个额外的对话。每个对话都包含玩家和NPC的丰富人物描述,以及深入广泛的交互。MCPDial不仅包含基本的对话,还结合了规范的功能调用,如“在铁矿中寻找资源”。最后,论文对数据集进行了质量评估和分析。

   地址:https://arxiv.org/pdf/2410.21627


15. Flow-DPO:通过在线多Agent学习改进大模型的数学推理

   标题:Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning

   机构:微软研究院、UC洛杉矶分校

   关键词:大型语言模型、数学推理、在线多Agent学习、Flow-DPO

   作者:Yihe Deng,  Paul Mineiro

   分析:这篇论文介绍了一种新的用于大型语言模型微调的生成高质量推理轨迹的方法。该方法使用在线学习中的“流”,通过迭代通信的组件式大型语言模型共同构建解决方案。作者通过在线直接偏好优化(DPO)学习进行训练,使用rollouts生成DPO对,并实时更新模型。作者直接将由其方法生成的推理轨迹的质量与直接模型推断的结果进行比较,证明了其方法在改善大型语言模型在数学推理任务中的表现的有效性。

   地址:https://arxiv.org/pdf/2410.22304


16. 揭示自评估语言模型中的上下文感知标准

   标题:Unveiling Context-Aware Criteria in Self-Assessing LLMs

   机构:微软、北卡罗来纳大学

   关键词:语言模型、自我评估、上下文感知

   作者:Taneesh Gupta,  Shivam Shandilya,  Xuchao Zhang

   分析:这篇论文主要提出了一种新的自我评估语言模型(LLM)框架,该框架将上下文感知标准(SALC)与动态知识相结合,以适应各种评估实例。这种新的方法可以提供有关当前实例的上下文相关的关键标准,从而提高LLM评估器在各种生成任务中的表现。此外,这个新的框架可以自适应不同的任务,而不需要依赖于预定义的人为标准,提供了一个更灵活的评估方法。实验结果表明,该论文的方法在各种数据集上都比现有的基线评估框架有显著的改进,平均提高了4.8%。该论文还利用知识蒸馏技术对较小的语言模型进行了微调,用于标准生成和评估,其性能与较大模型相当,但成本要低得多。此外,该论文的方法在AlpacaEval2领导板上的LC Win-Rate在直接偏好优化(DPO)中用于偏好数据生成时提高了12%,显示出其作为强大和可扩展的评估框架的有效性。

   地址:https://arxiv.org/pdf/2410.21545


17. 局部策略实现零样本长期操作策略模拟

   标题:Local Policies Enable Zero-shot Long-horizon Manipulation

   机构:Apple、卡内基梅隆大学

   关键词:局部策略,sim2real转移,机器人操作模拟,视觉、语言和运动规划

   作者:Murtaza Dalal,  Min Liu,  Walter Talbott

   分析:这篇论文解决了机器人操作模拟中的复杂接触模拟和任务分布生成难题。论文引入了ManipGen和局部策略,该策略具有多种吸引人的属性,包括机器人和物体的姿态、技能排序和全局场景配置的独立性。论文结合了视觉、语言和运动规划的基石模型,并在模拟的Robosuite基准任务中表现出卓越的性能。此外,论文将局部策略从模拟转移到现实,并展示了其在具有显著姿态、物体和场景配置变化的长期操作任务中的有效性。相比其他前沿方法,ManipGen在真实世界的操作任务中表现出更高的性能。

   地址:https://arxiv.org/pdf/2410.22332

   代码:https://mihdalal.github.io/manipgen/


18. SocialGPT:通过贪婪段落优化促进大模型的社会关系推理

   标题:SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

   机构:哈佛大学、清华大学、麻省理工学院

   关键词:SocialGPT、视觉基础模odels、大型语言模odels、策略优化

   作者:Wanhua Li,  Zibin Meng,  Jiawei Zhou

   分析:这篇论文介绍了一种新的框架,名为SocialGPT,用于识别社交关系类别(如朋友、配偶和同事)的图像。该框架结合了视觉基础模odels的感知能力和大型语言模odels的推理能力,同时提供了一个模块化的基础,为社交关系识别提供了强大的基线。它通过指令引导视觉基础模odels生成文本社交故事,并利用大型语言模odels进行文本推理。SocialGPT通过系统地设计原理调整视觉基础模odels和大型语言模odels,同时桥接它们之间的差距。无需额外的模型训练,它在两个数据库上实现了竞争性的零样本结果,同时提供了可解释的回答,因为大型语言模odels可以生成基于语言的解释以支持决策。论文进一步提出了一种自动提示优化方法,通过利用段粒度的梯度信息进行贪婪搜索来解决长格式提示优化问题。实验结果表明,这种方法显著提高了性能,并且还能够适应不同类型的图像风格。提供随论文代码的链接。

   地址:https://arxiv.org/pdf/2410.21411

   代码:https://github.com/Mengzibin/SocialGPT


19. 粒度低秩调整量化弥散模型

   标题:IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

   机构:清华大学、鹏城实验室

   作者:Hang Guo,  Yawei Li,  Tao Dai

   分析:近年来,利用量化弥散模型对大规模文本进行微调以完成各种下游任务已经取得了理想的效果。然而,调优大型模型的繁琐计算过程阻止了个人自定义。为了解决这个问题,本文提出了一种名为IntLoRA的方法,旨在进一步提高效率,使用整数类型(INT)低秩参数调整量化弥散模型。通过在整数算术中工作,IntLoRA提供三个主要优势:(i) 在微调过程中,预训练权重被量化,减少内存使用;(ii) 在存储方面,预训练和低秩权重都使用INT存储,占用更少的空间;(iii) 在推理过程中,IntLoRA权重可以通过有效整数乘法或位移自然合并到量化预训练权重中,从而消除额外的一次量化。大量实验表明,IntLoRA可以达到与或甚至优于原始LoRA的性能,同时伴随显著效率提升。代码可在[https://github.com/csguoh/IntLoRA](https://github.com/csguoh/IntLoRA)。

   地址:https://arxiv.org/pdf/2410.21759

   代码:https://github.com/csguoh/IntLoRA


20. ContextIQ:基于多模态专家的视频检索系统用于上下文广告

   标题:ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising

   机构:麻省理工学院

   关键词:上下文广告、多模态视频检索、语义丰富视频表示

   作者:Ashutosh Chaubey,  Anoubhav Agarwaal,  Sartaki Sinha Roy

   分析:该论文介绍了ContextIQ系统,这是一个为上下文广告设计的多模态视频检索系统。该系统旨在解决如何利用视频中的复杂信息,如视频、音频、字幕和元数据等,进行有效检索,以实现更精确的上下文广告投放。论文显示了该系统在多个基准测试中优于或等同于现有技术,强调了多元模态数据结合的重要性。

   地址:https://arxiv.org/pdf/2410.22233


21. 扩散嵌套自回归合成异质表格数据的研究

   标题:Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data

   机构:伊利诺伊大学、麻省理工学院

   关键词:Diffusion-nested Autoregressive model、Heterogeneous Tabular Data、Column Permutation-invariant、模型结构改进

   作者:Hengrui Zhang,  Liancheng Fang,  Qitian Wu

   分析:论文提出了一种扩散嵌套自回归模型(TabDAR),以解决自回归模型在表格数据应用上的限制。它利用扩散模型对连续特征的条件分布进行参数化,采用带双向注意力的掩码Transformer来模拟列的各种排列组合,从而支持任意生成顺序的表格数据。该模型不仅能处理异质表格数据,还支持灵活的无条件/有条件采样。

   地址:https://arxiv.org/pdf/2410.21523


22. 基于能量的扩散语言模型用于文本生成

   标题:Energy-Based Diffusion Language Models for Text Generation

   机构:英伟达、斯坦福大学

   关键词:能量基扩散语言模型、文本生成、扩散模型、自动回归模型

   作者:Minkai Xu,  Tomas Geffner,  Karsten Kreis

   分析:本文主要探讨了基于能量的扩散语言模型在文本生成方面的应用。针对扩散模型在文本生成中的不足,提出了能量基扩散语言模型(EDLM),该模型在每个扩散步骤中采用全序列级别的能量基模型进行改进。通过引入剩余形式的能量基模型,利用预训练的自动回归模型或双向Transformer通过噪声对比估计进行微调,提高了模型的性能。同时,提出了一种有效的生成算法,通过并行重要采样进行加速。实验表明,该模型在标准语言建模基准测试中表现优异,与最先进扩散模型的性能差距显著,甚至接近自动回归模型的困惑度。

   地址:https://arxiv.org/pdf/2410.21357


23. 利用预训练语言模型进行作者身份认证

   标题:A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution

   机构:马里兰大学、Adobe Research

   关键词:作者身份认证、预训练语言模型、大型语言模型、贝叶斯方法

   作者:Zhengmian Hu,  Tong Zheng,  Heng Huang

   分析:这篇论文主要探讨了如何利用预训练的语言模型,特别是大型语言模型(LLMs),来进行作者身份的自动识别。传统的作者身份鉴定方法严重依赖于人工特征,并且无法捕捉到长距离的相关性,限制了其有效性。然而,最近的研究进展利用了来自预训练语言模型的文本嵌入,这些模型需要在标记数据上进行大量的微调,这在数据依赖性和可解释性方面带来了挑战。LLMs具有深度推理能力以及维持长期文本关联的能力,因此提供了一种有希望的替代方案。本研究探索了利用预训练LLMs进行一次性作者身份鉴定的可能性,具体来说,该论文使用了贝叶斯方法和LLMs的概率输出。该论文的方法计算了一个文本包含一个作者以前作品的概率,反映了对作者身份的更细致的理解。通过仅使用如Llama-3-70B这样的预训练模型,该论文在IMDb和博客数据集上的结果表明,对于十位作者,该论文的一次性作者身份分类准确率高达85%。该论文的发现为使用LLMs进行一次性作者分析设置了新的基线,并扩大了这些模型在法医语言学中的应用范围。此外,该论文的工作还包括了对各种删减研究的详尽评估。

   地址:https://arxiv.org/pdf/2410.21716


24. 基于参考的扩散网络歌唱声音合成研究

   标题:RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis

   机构:腾讯

   关键词:RDSinger、歌唱声音合成、降噪扩散网络、FastSpeech2梅尔频谱图

   作者:Kehan Sui,  Jinxu Xiang,  Fang Jin

   分析:该论文介绍了一种基于参考的降噪扩散网络RDSinger,用于实现高质量的歌唱声音合成。RDSinger利用FastSpeech2的梅尔频谱图作为参考,以解决降噪步骤中的工件问题,并在一定程度上解决现有模型在音高转换时因压缩隐状态信息误导而产生的影响。通过实验验证,RDSinger在公开中文歌唱数据集上的性能优于当前最先进的歌唱声音合成方法。

   地址:https://arxiv.org/pdf/2410.21641


25. 反馈驱动的自适应长短时记忆强化编码优化系统FALCON

   标题:FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system

   机构:多伦多大学、电子科技大学

   关键词:反馈驱动、自适应、长短时记忆、强化学习

   作者:Zeyuan Li,  Yangfan He,  Lewei He

   分析:论文提出反馈驱动的自适应长短时记忆强化编码优化系统FALCON,针对大型语言模型在自动化代码生成中难以符合用户意图的问题,通过长短时记忆和强化学习的方法提高代码生成的质量和适应性。解决了全球和本地两级优化问题,在代码生成任务中表现出卓越性能。

   地址:https://arxiv.org/pdf/2410.21349

   代码:https://github.com/titurte/FALCON


26. 基于LLM的具身对话代理的模拟框架在心理辅导中的应用

   标题:An LLM-based Simulation Framework for Embodied Conversational Agents in Psychological Counseling

   机构:清华大学

   关键词:心理辅导、具身对话代理、大语言模型、模型评估

   作者:Lixiu Wu,  Yuanrong Tang,  Qisen Pan

   分析:本文提出了一种名为ECAs(具身对话代理)的框架,专用于模拟心理辅导中受试者的情绪记忆,此框架融合了具身认知和辅导理论。研究通过深入回顾心理学辅导理论制定了六个设计目标,并利用LLM(大型语言模型)技术,将实际的咨询服务数据扩展到了具身认知记忆空间,从而生成有关辅导高频问题的对话。利用D4数据集,由持证心理顾问进行评估,本文方法在模拟的真实度和必要性方面都显著超过基准方案,显示出其潜力。研究者通过批量模拟创建了一个公共ECAs数据集,以展示框架的可扩展性。本文对今后大语言模型在心理辅导领域以及具身咨询代理人研究中的应用具有很高的价值,为未来的社交模拟研究提供了洞察。

   地址:https://arxiv.org/pdf/2410.22041


27. 利用小型语言模型集成改进上下文学习的研究

   标题:Improving In-Context Learning with Small Language Model Ensembles

   机构:牛津大学

   关键词:小型语言模型集成、上下文学习、自然语言理解基准测试、领域特定任务

   作者:M. Mehdi Mojarradi,  Lingyi Yang,  Robert McCraith

   分析:这篇论文提出了一种利用多个已微调的小型语言模型(SLMs)来增强上下文学习(ICL)的新方法——Ensemble SuperICL。该方法结合了多个SLM的专业知识,实现了多个自然语言理解基准测试的最新结果。同时,作者还在医疗领域的标注任务上测试了该方法,展示了其在实际应用中的优越性。此外,作者还通过消融研究和敏感性分析阐述了Ensemble SuperICL的内在机制。研究满足了日益增长的对大型语言模型(LLMs)进行高效领域专业化的需求。

   地址:https://arxiv.org/pdf/2410.21868


28. 大模型在3D场景编辑中的应用

   标题:Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

   机构:剑桥大学、科隆莱茵应用技术大学

   关键词:大语言模型、3D场景编辑、交互模式、自然语言接口

   作者:Junlong Chen,  Jens Grubert,  Per Ola Kristensson

   分析:这篇论文主要研究了如何利用大语言模型(LLMs)辅助用户进行3D场景的编辑。通过一个包含12名参与者的实证研究,作者收集了定量的使用数据和事后问卷反馈,揭示了LLM在3D场景编辑中的交互模式和潜在障碍。他们发现LLM辅助的交互系统在沉浸式环境中具有生产性,并提出了改进自然语言界面的建议,以指导未来的LLM集成3D内容创作系统的设计。

   地址:https://arxiv.org/pdf/2410.22177


29. ProMoE:基于主动缓存的快速MoE大模型服务

   标题:ProMoE: Fast MoE-based LLM Serving using Proactive Caching

   机构:浙江大学、上海交通大学

   关键词:大语言模型、MoE、主动缓存、性能提升

   作者:Xiaoniu Song,  Zihang Zhong,  Rong Chen

   分析:该论文提出了一种名为ProMoE的主动缓存系统,该系统针对大语言模型在边缘设备上的GPU内存限制问题。通过预测后续参数使用并提前加载专家,ProMoE消除了加载时间,并减少了卸载模型的性能开销。实验结果表明,与现有的卸载方案相比,ProMoE在预填充和解码阶段的平均加速分别达到了2.13倍和2.84倍。

   地址:https://arxiv.org/pdf/2410.22134


30. Not All Languages are Equal:对多语言检索增强生成机制的洞察

   标题:Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation

   机构:厦门大学、阿里巴巴集团

   关键词:多语言检索增强语言模型、Futurepedia基准测试、单语知识提取、印欧语系语言处理

   作者:Suhang Wu,  Jialong Tang,  Baosong Yang

   分析:论文提出未来媒体(Futurepedia)这一基准测试,包含八种代表性语言的平行文本。通过评估六种多语言检索增强语言模型(RALMs)在多语言环境下的挑战,发现高资源语言在单语知识提取中表现突出,印欧语系语言在提供答案时直接从文档中获取信息,减轻跨语言表达挑战。英语受益于模型的选择偏见,在多语言知识选择中更加突出。论文还提出了改进多语言检索增强生成的建议。

   地址:https://arxiv.org/pdf/2410.21970


31. PrefPaint:与人类审美标准对齐图像修复扩散模型

   标题:PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference

   机构:香港城市大学

   地址:https://arxiv.org/pdf/2410.21966

   代码:https://prefpaint.github.io


32. 多任务学习中的模型合并方法

   标题:Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging

   机构:东北大学、中山大学、武汉大学

   关键词:多任务学习、模型合并、权重融合混合专家

   地址:https://arxiv.org/pdf/2410.21804


33. Let's Be Self-generated via Step by Step:一种面向大模型的自动推理的分步学习策略

   标题:Let's Be Self-generated via Step by Step: A Curriculum Learning Approach to Automated Reasoning with Large Language Models

   机构:腾讯、华东师范大学

   关键词:大型语言模型、自动推理、分步学习、代理查询

   地址:https://arxiv.org/pdf/2410.21728


34. 异步工具使用实时代理

   标题:Asynchronous Tool Usage for Real-Time Agents

   机构:Salesforce AI

   关键词:异步工具使用、实时代理、事件驱动、有限状态机

   地址:https://arxiv.org/pdf/2410.21620


35. 中文字幕至多模态问题回答CT2C-QA

   标题:CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart

   机构:复旦大学

   关键词:多模态问题回答、数据集、多智能体系统

   地址:https://arxiv.org/pdf/2410.21414


36. Gnothi Seauton:赋能黑箱模型的忠实自我解释能力

   标题:Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Models

   机构:四川大学、上海交通大学、香港科技大学

   关键词:自我解释模型、黑箱模型、Shapley值解释、参数高效

   地址:https://arxiv.org/pdf/2410.21815


37. 大模型在医疗任务中的基准测试研究

   标题:Large Language Model Benchmarks in Medical Tasks

   机构:康奈尔大学、香港科技大学、德克萨斯大学

   关键词:大型语言模型、医疗任务、基准测试数据集、多模态数据

   地址:https://arxiv.org/pdf/2410.21348


38. FinTeamExperts:角色专精的MOES模型用于金融分析

   标题:FinTeamExperts: Role Specialized MOEs For Financial Analysis

   机构:纽约大学

   关键词:金融科技专家、MOES模型、金融分析、角色专精

   地址:https://arxiv.org/pdf/2410.21338


39. 衣物变换行人再识别

   标题:Discriminative Pedestrian Features and Gated Channel Attention for Clothes-Changing Person Re-Identification

   机构:南京航空航天大学

   地址:https://arxiv.org/pdf/2410.21663


40. SVIP:向可验证的大模型开源推理进军

   标题:SVIP: Towards Verifiable Inference of Open-source Large Language Models

   机构:伊利诺伊大学

   关键词:SVIP协议、大语言模型、中间输出、模型评估

   地址:https://arxiv.org/pdf/2410.22307


41. 基于情绪引导的图片转音乐生成

   标题:Emotion-Guided Image to Music Generation

   机构:印度理工学院

   关键词:情绪引导、图片转音乐、Valence-Arousal、MIDI音乐

   地址:https://arxiv.org/pdf/2410.22299


42. 化学领域中的大模型:ChemFM

   标题:A Foundation Model for Chemical Design and Property Prediction

   机构:乔治亚理工学院

   关键词:大模型、ChemFM、预训练

   地址:https://arxiv.org/pdf/2410.21422


43. MatExpert:通过模仿人类专家分解材料发现

   标题:MatExpert: Decomposing Materials Discovery by Mimicking Human Experts

   机构:Mila-Quebec AI Institute

   关键词:材料发现、大语言模型、对比学习、材料生成

   地址:https://arxiv.org/pdf/2410.21317


44. Senna:连接大型视觉语言模型与端到端自动驾驶技术

   标题:Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

   关键词:Senna系统、视觉语言模型、端到端模型、轨迹预测

   地址:https://arxiv.org/pdf/2410.22313

   代码:https://github.com/hustvl/Senna


45. AmpleGCG-Plus:通过更高的成功率在更少尝试中破解大模型的高级生成模型

   标题:AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts

   机构:俄亥俄州立大学

   关键词:AmpleGCG-Plus、大型语言模型、攻击与防御、对抗性后缀

   地址:https://arxiv.org/pdf/2410.22143


46. ReMix: 混合数据上训练的通用人员重识别方法

   标题:ReMix: Training Generalized Person Re-identification on a Mixture of Data

   关键词:多摄像头数据、单摄像头数据、预训练、泛化能力

   地址:https://arxiv.org/pdf/2410.21938


47. LLM翻译约束来规划长期任务与运动

   标题:CaStL: Constraints as Specifications through LLM Translation for Long-Horizon Task and Motion Planning

   机构:莱斯大学、普渡大学

   关键词:LLM、任务与运动规划、自然语言处理、约束识别

   地址:https://arxiv.org/pdf/2410.22225


48. 检索头来理解合成上下文扩展

   标题:Understanding Synthetic Context Extension via Retrieval Heads

   机构:德克萨斯大学

   关键词:合成上下文扩展、LLM微调、检索头、长期上下文理解

   地址:https://arxiv.org/pdf/2410.22316


49. AdaptGCD:多专家适配器调优的泛化类别发现

   标题:AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

   关键词:泛化类别发现、适配器调优、多专家结构、旧新类别分离

   地址:https://arxiv.org/pdf/2410.21705


50. 大模型生成的改写文本是否可逆?

   标题:Are Paraphrases Generated by Large Language Models Invertible?

   机构:约翰霍普金斯大学、劳伦斯利弗莫尔国家实验室

   关键词:大型语言模型、改写文本、可逆性、抄袭检测

   地址:https://arxiv.org/pdf/2410.21637


51. 大模型生成数据的差异性:重新思考文本分类中的数据加权

   标题:Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification

   机构:瑞士洛桑联邦理工学院

   关键词:大型语言模型、文本分类、数据加权、生成数据

   地址:https://arxiv.org/pdf/2410.21526


52. Causal Interventions on Causal Paths:映射GPT-2的推理从句法到语义

   标题:Causal Interventions on Causal Paths: Mapping GPT-2's Reasoning From Syntax to Semantics

   机构:南加州大学

   关键词:因果推理、LLM、GPT-2

   地址:https://arxiv.org/pdf/2410.21353


53. 快速且高质量的自回归语音合成通过推测性解码

   标题:Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding

   机构:上海交通大学

   关键词:自动回归TTS、推测性解码、草稿头、语音合成

   地址:https://arxiv.org/pdf/2410.21951


54. CFSafety: 综合大模型的安全评估基准

   标题:CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs

   关键词:大型语言模型、安全评估、自然语言生成

   地址:https://arxiv.org/pdf/2410.21695


55. 探究视频扩散模型中的记住问题

   标题:Investigating Memorization in Video Diffusion Models

   机构:中佛罗里达大学

   关键词:视频扩散模型、记忆问题、解决方法、隐私保护

   地址:https://arxiv.org/pdf/2410.21669


56. 探索扩散模型中的局部记忆通过明亮结局注意力

   标题:Exploring Local Memorization in Diffusion Models via Bright Ending Attention

   机构:悉尼大学、中佛罗里达大学

   关键词:扩散模型、局部记忆、明亮结局、注意力机制

   地址:https://arxiv.org/pdf/2410.21665


57. 多任务学习对ReLU神经网络函数影响的研究

   标题:The Effects of Multi-Task Learning on ReLU Neural Network Functions

   机构:威斯康星大学

   关键词:多任务学习、ReLU神经网络、核方法、插值问题

   地址:https://arxiv.org/pdf/2410.21696


58. 大模型生成的合成数据进行个性化的社区问答

   标题:Synthetic Data Generation with Large Language Models for Personalized Community Question Answering

   关键词:大型语言模型、合成数据、个性化、社区问答

   地址:https://arxiv.org/pdf/2410.22182


59. 面向硬件友好型后训练量化的数据生成

   标题:Data Generation for Hardware-Friendly Post-Training Quantization

   关键词:数据生成、硬件友好型量化、零样本量化、批量归一化

   地址:https://arxiv.org/pdf/2410.22110


60. 梯度归一化缓解残差网络中的梯度重叠问题

   标题:Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization

   关键词:残差网络、梯度归一化、梯度重叠、非凸优化

   地址:https://arxiv.org/pdf/2410.21564


61. 视频预测新方法:运动图的发挥

   标题:Motion Graph Unleashed: A Novel Approach to Video Prediction

   地址:https://arxiv.org/pdf/2410.22288


62. 训练两层ReLU神经网络的凸形式

   标题:Convex Formulations for Training Two-Layer ReLU Neural Networks

   地址:https://arxiv.org/pdf/2410.22311


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章