谷歌:代码预训练如何影响语言模型任务性能?提升预训练数据质量:基于困惑度相关性 | 突破规模定律:神经网络的模块化...

文摘   2024-09-10 20:10   广东  

前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。


1. 代码预训练如何影响语言模型任务性能?

  标题:How Does Code Pretraining Affect Language Model Task Performance?

  机构:纽约大学、谷歌研究院

  相关领域:预训练、语言模型

  作者:Jackson Petty,  Sjoerd van Steenkiste,  Tal Linzen

  分析:这篇论文探究了在大语言模型训练中加入源代码对模型性能的影响。研究了在预训练数据集是混合自然语言和代码的情况下,两种不同的预训练混合物——即加法预训练和竞争性预训练——对模型性能的影响。研究涉及在BigBenchbenchmark等多个领域的表现,以及语法结构敏感任务和结构性输出任务的概括能力。研究发现,预训练中代码比例的增加可以提升在结构输出任务中的表现,尤其是在数学相关任务上。然而,过多的代码比例会影响表达语言结构的任务表现,如语法或形态相关的任务。

  地址:https://arxiv.org/pdf/2409.04556


2. Selective Self-Rehearsal:一种提高大模型泛化能力的微调方法

  标题:Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models

  机构:IBM研究院

  相关领域:大型语言模型、精选自我再训练、泛化、微调

  作者:Sonam Gupta,  Yatin Nandwani,  Asaf Yehudai

  分析:这篇论文提出了一种名为Selective Self-Rehearsal(SSR)的新方法,旨在改进大型语言模型在特定任务上的性能,同时减少过度专业化引起的泛化问题。SSR通过在训练阶段利用模型自身的正确响应,减少对任务和训练数据特性的过度依赖。实验表明,与标准的监督微调(SFT)相比,SSR能够保持接近的性能但具有更好的泛化性,尤其是在MMLU和TruthfulQA等基准上减少了约14%的性能下降。

  地址:https://arxiv.org/pdf/2409.04787


3. 提升预训练数据质量:基于困惑度相关性

  标题:Improving Pretraining Data Using Perplexity Correlations

  机构:斯坦福大学

  相关领域:预训练

  作者:Tristan Thrush,  Christopher Potts,  Tatsunori Hashimoto

  分析:论文提出了用于选择高质量预训练数据的框架,旨在解决选择优质预训练数据时高成本问题。主要研究基于简化观察的统计框架,即利用语言模型损失在预训练文本上的表现与下游基准测试性能之间的相关性来进行数据选择。为了实现这一目标,作者选取了从开放式语言模型领导者榜中获取的90个语言模型样本,针对数万个网络领域文本进行数据筛选。实验结果显示,在每项160M参数规模的预训练基准测试中,研究提出的方法均优于DSIR,且在效果上与DataComp-LM手工构建的大词典选择器相匹敌。

  地址:https://arxiv.org/pdf/2409.05816


4. 突破神经网络规模定律的模块化

  标题:Breaking Neural Network Scaling Laws with Modularity

  机构:麻省理工学院

  相关领域:模型结构改进、模型评估、数据集构建

  作者:Akhilan Boopathy,  Sunshine Jiang,  William Yue

  分析:该论文研究了模块化神经网络在解决从视觉问答到机器人等任务上的优越表现。作者通过理论分析,揭示了模块化网络能有效地降低任务样本复杂性,并提高泛化能力。论文提出了一种新的学习规则,以充分利用模块化网络的优势,通过实证展示了在分布内外的高维模块化任务上的泛化改进。

  地址:https://arxiv.org/pdf/2409.05780


5. 统一神经网络尺度定律与尺度时间等效

  标题:Unified Neural Network Scaling Laws and Scale-time Equivalence

  机构:麻省理工学院

  相关领域:模型结构改进、训练优化、性能预测

  作者:Akhilan Boopathy,  Ila Fiete

  分析:随着神经网络规模不断增长,而数据集可能无法同步增长的情况下,理解可以预期的性能提升变得至关重要。因此,神经网络尺度定律的重要性日益凸显,这些定律描述了测试错误随网络规模和数据量变化的情况。然而,目前的尺度定律往往只适用于有限的范围,并且未能充分涉及或预测诸如“双重下降”等众所周知的现象。本论文提供了一个对三个因素如何相互作用以决定深度神经网络性能的新型理论描述,这三因素为:模型规模、训练时间和数据量。首先,该论文建立了尺度和训练时间等效的关系,挑战了当前做法,其中大规模模型的训练时间较短,提出了长期训练更小型模型也可获得等效效果的方法。其次,通过结合尺度时间等效与对双重下降的线性模型分析,该论文获得了一个统一的理论尺度定律,并通过跨视图基准和网络架构进行实验验证。这些定律解释了之前未解释的现象,包括更大模型在数据需求上的降低、过参数化模型对标签噪声的敏感性增强,以及模型规模增加不一定会提高性能的实例。这些发现对神经网络的实际部署具有重大意义,提供了更实用和高效的方法来训练和精细化调整大规模模型。

  地址:https://arxiv.org/pdf/2409.05782


6. MMEvol:赋能多模态大模型的演化指令技术

  标题:MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

  机构:悉尼大学、阿里巴巴集团、中国科学院大学

  相关领域:多模态、数据集构建

  作者:Run Luo,  Haonan Zhang,  Longze Chen

  分析:论文提出MMEvol框架赋能多模态大语言模型,解决其指令数据质量瓶颈问题。通过精细感知演化、认知推理演化和交互演化,生成复杂多样的图像文本指令数据集,提升MLLM性能。使用MMEvol处理初始指令数据,增强指令类型多样性和认知能力,提高图像理解能力和稳健性。在13个视觉语言任务上的实验证明,该方法在平均准确率上提升3.1%,并在9个任务上达到最新水平。

  地址:https://arxiv.org/pdf/2409.05840


7. Untie the Knots:一种有效的长程预训练数据增强策略

  标题:Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models

  机构:华东师范大学

  相关领域:长程预训练

  作者:Junfeng Tian,  Da Zheng,  Yang Cheng

  分析:这篇论文提出了Untie the Knots(UtK)策略,解决大语言模型在长程预训练中面临的挑战,如数据稀缺、短任务性能下降和训练效率问题。通过将文档分段、打乱顺序并创造复杂语义结构,模型需要学习在看似混乱的序列中解扣,关注重要的长句信息。实验证明,这项技术显著增强了模型在RULER任务上的表现,同时也提高了训练效率。

  地址:https://arxiv.org/pdf/2409.04774


8. Mixup数据增强方法及其应用的全面综述

  标题:A Survey on Mixup Augmentations and Beyond

  机构:西湖大学

  相关领域:模型训练技术、数据增强技术

  作者:Xin Jin,  Hongyu Zhu,  Siyuan Li

  分析:论文综述了Mixup及其相关方法的基本原理、应用领域以及对不同任务的性能影响,讨论了其目前的研究现状及限制,同时指出了未来的研究方向。该文重点解决了在没有大规模标注数据的情况下,如何提升模型泛化能力的问题。

  地址:https://arxiv.org/pdf/2409.05202

  代码:https://github.com/Westlake-AI/Awesome-Mixup


9. 大模型的未来发展:Sigmoid和tanh的收敛性研究

  标题:On the Convergence of Sigmoid and tanh Fuzzy General Grey Cognitive Maps

  机构:莫纳什大学、西北工业大学、国防科技大学

  作者:Xudong Gao,  Xiao Guang Gao,  Jia Rong

  分析:本论文主要研究了Sigmoid和tanh激活函数在大语言模型中的收敛性问题。首先,该论文定义了大语言模型的空间度量和向量空间度量,并利用Minkowski不等式证明了这两个空间的完备性。然后,该论文利用Cauchy序列的收敛性质、Banach固定点定理、Browder-Gohde-Kirk固定点定理、拉格朗日中值定理和Cauchy不等式,推导出了在这些条件下,大语言模型在使用Sigmoid和tanh激活函数时可以收敛到一个唯一固定点的充分条件。此外,该论文还单独提供了大语言模型内核和灰度收敛到唯一固定点的充分条件。最后,该论文通过修改权重以适应一般灰度数的方式,设计了具有Sigmoid和tanh激活函数的大语言模型,并通过与FCM和FGCM的收敛定理进行比较,验证了本文提出定理的有效性。本研究对于指导大语言模型的学习算法,特别是设计具有特定固定点的大语言模型,具有重要的理论和实践意义。

  地址:https://arxiv.org/pdf/2409.05565


10. MemoRAG:通过记忆启发式知识发现推进下一代RAG

  标题:MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

  相关领域:大模型、检索增强生成、长时记忆

  作者:Hongjin Qian,  Peitian Zhang,  Zheng Liu

  分析:这篇论文提出了一种新的检索增强生成(RAG)范式,名为MemoRAG。它结合了长时记忆(LSTM)和检索工具,以改进大型语言模型的生成质量。与现有的RAG系统相比,MemoRAG能够处理模糊的信息需求和非结构化的知识,从而在更广泛的任务中表现出优越的性能。该论文的主要目标是提高RAG系统的提示机制和记忆容量,以优化其性能。实验结果表明,MemoRAG在各种评估任务上都取得了优秀的成绩,包括那些传统的RAG无法处理的复杂任务。

  地址:https://arxiv.org/pdf/2409.05591


11. 语言模型总会产生幻觉,我们需要与之共存

   标题:LLMs Will Always Hallucinate, and We Need to Live With This

   相关领域:模型评估、模型结构改进(因讨论LLMs的内在限制而涉及到模型结构的问题)

   作者:Sourav Banerjee,  Ayushi Agarwal,  Saloni Singla

   分析:这篇论文探讨了大型语言模型(LLMs)的内在限制,指出语言模型中的幻觉不仅偶尔出现,而且是这些系统的固有特征。文章分析了语言模型的基本原理和结构,结合计算理论和哥德尔不完全性定理,论证了无法完全消除语言模型幻觉的观点。文章还介绍了结构性幻觉的概念,并指出从语言模型的训练数据编译到事实检索、意图分类和文本生成等各个阶段,都存在产生幻觉的可能性。这一观点挑战了可以完全缓解幻觉的普遍看法。

   地址:https://arxiv.org/pdf/2409.05746


12. Late Chunking:使用长上下文嵌入模型的上下文块嵌入

   标题:Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

   相关领域:模型结构改进、预训练

   作者:Michael Günther,  Isabelle Mohr,  Bo Wang

   分析:这篇论文介绍了一种名为'晚间分块'的新方法,该方法能够在不增加训练的情况下,利用长上下文嵌入模型首先嵌入所有文本中的所有token,然后在变长池化之前进行分块,最后得到一个捕获完整上下文信息的块嵌入。这种方法可以减少块嵌入丢失上下文信息的问题,从而在各种检索任务中获得更好的表现。此外,该方法适用于任何长上下文嵌入模型,无需额外训练。

   地址:https://arxiv.org/pdf/2409.04701


13. 优化超参数法则用于大模型

   标题:Optimization Hyper-parameter Laws for Large Language Models

   相关领域:模型训练优化

   作者:Xingyu Xie,  Kuangyu Ding,  Shuicheng Yan

   分析:这篇论文针对大型语言模型的训练提出了优化超参数法则(Opt-Laws),用于指导如何选择动态超参数,特别是学习率调度,以提高模型训练的效果和效率。该法则通过捕捉超参数与训练结果之间的关系,实现最优调度方案的预选择。该研究有助于减少计算成本,提高模型性能。

   地址:https://arxiv.org/pdf/2409.04777


14. BPE Gets Picky:在分词器训练中进行词汇表优化的有效方法

   标题:BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training

   机构:加利福尼亚大学

   相关领域:模型结构改进

   作者:Pavel Chizhov,  Catherine Arnett,  Elizaveta Korotkova

   分析:这篇论文介绍了一种改进的分词算法,称为Picky BPE。该算法在分词器训练过程中进行词汇表优化,提高了词汇表的效率,解决了传统BPE算法导致的欠训练词元和次优压缩问题。实验表明,该算法不降低下游性能,甚至在某些情况下有所提高。

   地址:https://arxiv.org/pdf/2409.04599


15. 大模型是否具备深度阅读理解能力?——以多跳推理中的潜在干扰因素为研究视角

   标题:Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers?

   机构:曼彻斯特大学、新加坡国立大学

   相关领域:模型评估、多模态

   作者:Neeladri Bhuiya,  Viktor Schlegel,  Stefan Winkler

   分析:本文主要研究大型语言模型(LLM)在多跳推理中的表现。针对现有研究中存在的简化线索问题,探讨LLM是否倾向于利用这些线索来规避推理要求。研究发现,LLM确实存在规避多跳推理的情况,但方式更为隐蔽。为此,研究团队提出了一个具有挑战性的多跳推理基准测试,通过生成看似合理的多跳推理链来评估LLM的推理能力。评估结果显示,LLM在面对这些看似合理的干扰选项时,性能受到较大影响。文章还对LLM的注意力机制进行了深入分析。

   地址:https://arxiv.org/pdf/2409.05197


16. 让医学面向多语言大模型普及化:一种两阶段指令微调方法

   标题:Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach

   相关领域:指令微调、数据集构建

   作者:Meng Zhou,  Surajsinh Parmar,  Anubhav Bhatti

   分析:这篇论文主要讲述了通过引入多语言指令微调方法来优化为医疗领域量身定制的大型语言模型,以适应具有多样语言背景的不同地区的人群。旨在通过将一般性的医学知识注入模型,再通过在特定任务上的多项选择问题微调,达到平衡计算效率与性能的方式,解决在保留通用知识的同时适应多语言环境和医疗特性的挑战。

   地址:https://arxiv.org/pdf/2409.05732

   代码:https://github.com/SpassMed/Med-Llama3


17. CauseJudger:CauseJudger在归纳逻辑推理中的应用

   标题:CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning

   机构:北京航空航天大学

   相关领域:归纳逻辑推理、大语言模型(LLMs)

   作者:Jinwei He,  Feng Lu

   分析:本文提出CauseJudger(CJ),利用大型语言模型(LLMs)解决归纳逻辑推理中的因果判断,通过反向思维转正和消除无关信息来确定因果的真伪。研究构建了 CauseLogics 数据集,包含20万不同推理长度的任务。实验显示,CJ在有效性和案例上表现出色,对于GPT-3.5,正确性提升41%,GPT-4下总体准确率超过90%。

   地址:https://arxiv.org/pdf/2409.05559


18. OneGen:提高自然语言处理模型生成与检索性能的统一框架

   标题:OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

   机构:浙江大学

   相关领域:自然语言处理

   作者:Jintian Zhang,  Cheng Peng,  Mengshu Sun

   分析:尽管最近在大型语言模型(LLM)方面取得了进步,显著提高了各种自然语言处理任务中的生成能力,但LLM在某些检索任务中仍面临直接处理的限制。然而,许多实际应用需求在检索和生成之间实现无缝集成。本论文介绍了一种新颖、高效的统一生成与检索框架(OneGen),旨在提高在需要生成与检索任务的自然语言处理模型上的性能。所提出的框架通过整合检索标记,将生成与检索的传统分开训练方法结合起来。这样,单个LLM可以在一次前向传输中同时处理两项任务。在本实验中,该论文对两种不同的复合任务进行了实验,验证了OneGen在训练和推理中的可移植性、有效性和效率。此外,该论文的结果表明,将生成与检索集成到同一上下文中可以保留LLM的生成能力,同时提高检索性能。据该论文了解,OneGen是第一个使LLM在生成过程中实现向量检索的。

   地址:https://arxiv.org/pdf/2409.05152


19. InstInfer:内存存储注意力卸载技术,实现经济高效的长上下文大模型推理

   标题:InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference

   机构:北京大学、厦门大学、华中科技大学

   相关领域:模型结构改进

   作者:Xiurui Pan,  Endian Li,  Qiao Li

   分析:这篇论文提出了一种新型的大型语言模型推理系统InstInfer,旨在解决离线大型语言模型推理中内存要求过高的问题。该系统将最耗性能的运算和数据部分卸载到计算存储驱动器(CSDs)上,从而最小化巨大的键值(KV)传输开销。通过设计专门的闪存感知内存存储注意力引擎和KV缓存管理机制,InstInfer能够利用CSDs的高内部带宽,同时优化GPU和CSD之间的点对点传输,减少数据迁移开销。实验结果表明,对于使用NVIDIA A6000 GPU的13B模型,InstInfer在长序列推理方面的吞吐量提高了高达11.1倍。

   地址:https://arxiv.org/pdf/2409.04992


20. PdfTable工具包:深度学习在表格提取中的统一应用

   标题:PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction

   机构:武汉大学、中国科学技术大学

   相关领域:数据集构建、模型结构改进

   作者:Lei Sheng,  Shuai-Shuai Xu

   分析:论文介绍了一个名为PdfTable的统一工具包,用于从PDF文件和图像中提取表格信息。该工具包集成了多个开源模型,能够适应不同的应用场景,如处理有线表格、无线表格、数字PDF和图像PDF等。论文强调了目前文档数据以非结构化格式存在的巨大体积,以及从PDF和图像文档中提取信息所面临的挑战。针对这些挑战,PdfTable工具包提供了一种综合解决方案。

   地址:https://arxiv.org/pdf/2409.05125

   代码:https://github.com/CycloneBoy/pdf_table


21. 利用参数高效微调定制大模型生成风格

   标题:Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning

   机构:卡内基梅隆大学

   相关领域:模型结构改进、指令微调、模型评估

   作者:Xinyue Liu,  Harshita Diddee,  Daphne Ippolito

   分析:这篇论文探讨了如何定制大型语言模型(LLM)的生成风格,以适应不同用户和用例的需求。通过使用参数高效微调(PEFT)和低阶适应方法,论文展示了如何将LLaMA-2模型定制成十种不同的作者风格。研究结果表明,定制后的模型在词汇、句法和表面结构上与目标作者风格相符,但在内容记忆方面存在挑战。论文的潜在价值在于支持LLM的用户级定制效率。

   地址:https://arxiv.org/pdf/2409.04574


22. Tele-LLMs:一组专门针对电信领域的大模型

   标题:Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications

   机构:Amazon

   相关领域:模型数据集构建、模型评估

   作者:Ali Maatouk,  Kenny Chirino Ampudia,  Rex Ying

   分析:本文探讨了大型语言模型(LLMs)在电信领域的应用,虽然LLMs在多个领域取得了显著进展,但它们在电信领域的应用仍然相对有限,普遍依赖于通用模型,这些模型缺乏电信领域的专业性强的特性和特质。这会导致在处理电信专业术语及其数学表示时性能不佳。针对这一问题,本文通过构建和公布Tele-Data(一个电信领域材料的全面数据集,来自于相关来源)和Tele-Eval(一个针对电信领域量身定制的大型问答数据集),对LLMs在电信领域的适应性进行了深入的研究。研究涵盖了在多种电信领域特异性方面的跨领域专家能力研究、参数经济的对齐技巧、模型大小在适应过程中的行为变化以及数据集对模型适应的影响。基于这些研究,本文开发并开源了Tele-LLMs,这是专门为电信领域设计的从1B到8B参数的首个语言模型系列,显著优于通用模型在电信领域特定任务上的表现,同时保留了LLMs的原有能力,避免了灾难性遗忘问题。

   地址:https://arxiv.org/pdf/2409.05314


23. BigCodec:极限压缩神经语音编解码器

   标题:BigCodec: Pushing the Limits of Low-Bitrate Neural Speech Codec

   机构:微软、东京大学、庆应义塾大学

   相关领域:模型结构改进

   作者:Detai Xin,  Xu Tan,  Shinnosuke Takamichi

   分析:本论文介绍了一种低比特率神经语音编解码器——BigCodec。在近期的发展中,神经语音编解码器展示了显著的进步,但在低比特率(约1 kbps)下的表现大幅下降。低比特率固然是限制因素,但模型容量等其他因素也阻碍了进一步的优化。为了解决这一问题,论文中提出了采用更大模型规模(159M参数,是常见10M参数模型的大约10倍)的策略。此外,论文将序列模型集成到传统的卷积架构中,用于更好地捕捉时间依赖性,并采用低维向量量化以确保更高的编码利用率。全面的主观和客观评估显示,BigCodec在1.04 kbps的比特率下显著优于现有的多种低比特率编解码器。该编解码器在比特率为4-6倍较高的常见码率时,实现了与传统编解码器类似的目标性能,并且在感知质量上甚至优于真实数据。

   地址:https://arxiv.org/pdf/2409.05377


24. VidLPRO:面向机器人和腹腔镜手术的全新视频语言预训练框架

   标题:VidLPRO: A Video-underlineLanguage underlinePre-training Framework for Robotic and Laparoscopic Surgery

   机构:斯坦福大学

   相关领域:预训练、多模态

   作者:Mohammadmahdi Honarmand,  Muhammad Abdullah Jamal,  Omid Mohareri

   分析:该论文提出了一种全新的视频语言预训练框架VidLPRO,专注于机器人和腹腔镜手术的场景。VidLPRO集成了视频文本对比学习、视频文本匹配和遮罩语言建模目标,以学习丰富的视频语言表示。此外,论文还引入了GenSurg+数据集用于支撑框架的实验验证。实验结果表明,VidLPRO在零样本手术阶段识别任务中取得了最先进的性能,显著优于现有的手术视频语言模型。此外,VidLPRO在准确性上提高了最多达21.5%,并且具有良好的单帧推理性能和计算效率。该论文还通过消融研究探讨了帧采样策略对模型性能和计算效率的影响。

   地址:https://arxiv.org/pdf/2409.04732


25. 改善视觉-语言模型的可负担策略:POINTS

   标题:POINTS: Improving Your Vision-language Model with Affordable Strategies

   机构:腾讯、南京大学、上海交通大学

   相关领域:模型结构改进、预训练、指令微调、多模态

   作者:Yuan Liu,  Zhongyin Zhao,  Ziyuan Zhuang

   分析:本文针对视觉-语言模型在开放式模型架构透明度和预训练数据使用以及微调效果等方面存在的问题,提出了一种新的训练策略。该策略包括构建鲁棒基准模型、使用困惑度过滤预训练数据,以及对调整模型微调时使用模型 Soup 技术。这些策略使模型在保持高效和轻盈的同时,达到了与当前最先进模型相当的性能。

   地址:https://arxiv.org/pdf/2409.04828


26. 重新思考富裕上下文布局到图像生成的训练和评估

   标题:Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation

   机构:Amazon

   作者:Jiaxin Cheng,  Zixu Zhao,  Tong He

   分析:最近在生成模型方面的进步显著提高了它们的图像生成能力,从而使各种应用的出现成为可能,如图像编辑、完成和视频编辑。生成模型内部的一个专门领域是布局到图像(L2I)生成,其中预定义的对象布局引导生成过程。在这项研究中,该论文介绍了一种专门针对富裕上下文布局到图像生成的区域交叉注意力模块。这个模块明显改善了布局区域的表示,特别是在现有方法在与高度复杂和详细的文本描述的斗争中。此外,当前的开放词汇L2I方法是在开放集环境中训练的,但其评估往往是在封闭环境中进行的。为了填补这一差距,该论文提出两种用于评估L2I性能在开放词汇场景中的指标。此外,该论文还进行了一项综合用户研究,以验证这些指标与人类偏好的一致性。

   地址:https://arxiv.org/pdf/2409.04847


27. 向前KL正规化偏好优化对扩散策略的校准

   标题:Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

   机构:清华大学、香港科技大学

   相关领域:模型结构改进、指令微调

   作者:Zhao Shan,  Chenyou Fan,  Shuang Qiu

   分析:本文提出了一种新的框架,通过直接使用偏好数据对扩散策略进行校准,而不依赖于预先定义的奖励函数。该框架首先在没有考虑偏好的情况下训练出一个扩散策略,然后通过正向KL正规化避免生成离散分布的动作来优化偏好。实验在元世界操作和D4RL任务上进行了验证,结果显示该方法在偏好校准上表现出色,超过了以往的先进技术。

   地址:https://arxiv.org/pdf/2409.05622


28. Neural MP:一种通用神经运动规划算法

   标题:Neural MP: A Generalist Neural Motion Planner

   机构:卡内基梅隆大学

   相关领域:模型蒸馏

   作者:Murtaza Dalal,  Jiahui Yang,  Russell Mendonca

   分析:这篇论文提出了一种名为Neural MP的神经运动规划器。它通过在模拟环境中构建大量复杂场景,结合专家知识和轻量级优化,生成一种适用于复杂场景的运动规划策略。该方法在多个运动规划任务中显示出相较于现有方法的显著改进,成功率达到23%,17%和79%。论文针对复杂场景的运动规划问题提供了新的解决方案。

   地址:https://arxiv.org/pdf/2409.05864


29. 潜在三维脑MRI反事实生成研究

   标题:Latent 3D Brain MRI Counterfactual

   机构:斯坦福大学、帝国理工学院

   相关领域:模型结构改进、生成模型

   作者:Wei Peng,  Tian Xia,  Fabio De Sousa Ribeiro

   分析:这篇论文主要研究了在结构性脑MRI研究中样本量不足的问题,通过生成模型学习数据分布并生成高质量MRI。为了解决生成模型在分布外难以产生多样、高质量数据的问题,论文提出了一种两阶段方法,构建潜在空间的结构因果模型,通过集成因果模型生成高质量的三维脑MRI反事实。该方法先通过VQ-VAE学习MRI体积的紧凑嵌入,再在潜在空间中集成因果模型,使用广义线性模型执行三步骤反事实程序。实验证明该方法能有效生成高质量的三维MRI反事实。

   地址:https://arxiv.org/pdf/2409.05585


30. 大模型在药物发现和发展中的应用:从疾病机制到临床试验

   标题:Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials

   机构:哈佛大学、莫纳什大学、哈佛医学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Yizhen Zheng,  Huan Yee Koh,  Maddie Yang

   分析:这篇论文主要探讨了大型语言模型(LLMs)在药物发现和发展领域的应用,包括揭示疾病机制、辅助药物设计、预测疗效和安全性以及优化临床试验过程等方面。LLMs作为一种先进的计算模型,正在改变药物研发的各个阶段,为生物医学、药理学和AI科学等领域的研究者和实践者提供了新的研究方法和工具。通过将LLMs应用于药物发现和开发过程中,研究人员可以更深入地理解疾病与靶点之间的关系,解读复杂的生物医学数据,优化药物分子设计,预测药物的疗效和安全性,并提高临床试验的效率。本文旨在为这些领域的研究者和实践者提供一个关于大型语言模型在药物发现和发展中的潜在变革性影响的全面概述。

   地址:https://arxiv.org/pdf/2409.04481


31. pFedGPA: 扩散模型聚合生成个性化联邦学习中的生成参数

   标题:pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning

   机构:香港中文大学

   相关领域:联邦学习、扩散模型、个性化参数生成

   地址:https://arxiv.org/pdf/2409.05701


32. RexUniNLU:基于显式模式指导的递归方法用于通用自然语言理解

   标题:RexUniNLU: Recursive Method with Explicit Schema Instructor for Universal NLU

   机构:浙江大学、阿里巴巴集团

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2409.05275


33. WaterSeeker:大型文档中高效检测水印段落的方法

   标题:WaterSeeker: Efficient Detection of Watermarked Segments in Large Documents

   机构:清华大学、悉尼大学、香港中文大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2409.05112


34. DreamMapping:高精度的文本到3D生成 via 变分分布映射

   标题:DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping

   机构:香港科技大学、腾讯AI实验室

   相关领域:模型结构改进、文本到3D生成、变分分布映射、蒸馏策略

   地址:https://arxiv.org/pdf/2409.05099


35. NASH:混合乘法减少模型的神经网络架构与加速器搜索研究

   标题:NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models

   机构:南京大学、中山大学

   相关领域:模型结构改进、模型蒸馏

   地址:https://arxiv.org/pdf/2409.04829

   代码:https://github.com/xuyang527/NASH


36. 奖励导向的基于q-Learning的分数型扩散模型

   标题:Reward-Directed Score-Based Diffusion Models via q-Learning

   机构:香港中文大学、哥伦比亚大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2409.04832


37. NLLB-E5:一种可扩展的多语言检索模型

   标题:NLLB-E5: A Scalable Multilingual Retrieval Model

   相关领域:模型蒸馏、多模态、预训练、多语言

   地址:https://arxiv.org/pdf/2409.05401


38. 基于事件缩减增强日志异常检测模型的研究

   标题:Reducing Events to Augment Log-based Anomaly Detection Models: An Empirical Study

   机构:北京大学、阿里巴巴集团

   地址:https://arxiv.org/pdf/2409.04834


39. 大模型在文献综述中的应用:一个自动化的系统性综述

   标题:The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review

   机构:南卡罗来纳大学

   相关领域:模型评估、多模态、模型结构改进(GPT-based模型)

   地址:https://arxiv.org/pdf/2409.04600


40. 运动风格迁移中精细接触控制方法

   标题:Decoupling Contact for Fine-Grained Motion Style Transfer

   机构:腾讯、浙江大学、伦敦大学

   地址:https://arxiv.org/pdf/2409.05387


41. 视觉基础任务的多模态条件适应

   标题:Visual Grounding with Multi-modal Conditional Adaptation

   机构:武汉大学、上海AI实验室

   地址:https://arxiv.org/pdf/2409.04999

   代码:https://github.com/Mr-Bigworth/MMCA


42. 革命化数据库问答的大模型:全面评测与评估

   标题:Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation

   机构:厦门大学、清华大学

   相关领域:模型预训练、模型结构改进、问答评测、数据集构建

   地址:https://arxiv.org/pdf/2409.04475


43. G-NeLF:内存和高效数据处理混合神经网络轻量级光场用于新视图合成

   标题:G-NeLF: Memory- and Data-Efficient Hybrid Neural Light Field for Novel View Synthesis

   机构:香港科技大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.05617


44. DSDFormer:一种用于稳健高精度驾驶分心识别的新型Transformer-Mamba框架

   标题:DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification

   机构:中山大学、华南理工大学、上海交通大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.05587


45. LMGT:利用语言模型指导权衡优化强化学习中的探索与利用平衡

   标题:LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs

   机构:复旦大学

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.04744


46. MuAP:多步自适应提示学习用于视觉-语言模型中的缺失模态处理

   标题:MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality

   机构:电子科技大学

   相关领域:预训练、指令微调、多模态

   地址:https://arxiv.org/pdf/2409.04693


47. 基于多计划探索与反馈驱动的精细化代码生成的成对编程框架

   标题:A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement

   机构:南京大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.05001


48. 端到端可学习的项目令牌化生成推荐方法

   标题:End-to-End Learnable Item Tokenization for Generative Recommendation

   机构:中国人民大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.05546


49. Shaking Up VLMs:比较结构化状态空间模型与视觉语言模型的性能

   标题:Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling

   机构:赫瑞瓦特大学、Alana AI

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.05395


50. 看见即相信?增强 Vision-Language Navigation 使用视觉扰动

   标题:Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations

   机构:合肥工业大学

   相关领域:模型结构改进、视觉导航

   地址:https://arxiv.org/pdf/2409.05552


51. LayeredFlow:一个现实 world 的多层光学流基准

   标题:LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow

   地址:https://arxiv.org/pdf/2409.05688

   代码:https://layeredflow.cs.princeton.edu


52. 自适应混合专家模型:测试时适应异常检测

   标题:Adapted-MoE: Mixture of Experts with Test-Time Adaption for Anomaly Detection

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.05611

   代码:https://github.com/


53. TextToucher:精细文本到触觉的生成

   标题:TextToucher: Fine-Grained Text-to-Touch Generation

   相关领域:多模态、模型结构改进

   地址:https://arxiv.org/pdf/2409.05427

   代码:https://github.com/TtuHamg/TextToucher


54. 基于扩散模型的顺序后验采样

   标题:Sequential Posterior Sampling with Diffusion Models

   机构:埃因霍温科技大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.05399


55. 基于大模型的增强型自动放射学报告生成研究

   标题:KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models

   机构:阿德莱德大学

   相关领域:模型结构改进、预训练、指令微调、模型评估

   地址:https://arxiv.org/pdf/2409.05370


56. QueryBuilder:面向信息检索的人类循环查询开发

   标题:QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2409.04667

   代码:https://vimeo.com/734795835


57. 基于注意力机制的自我监督盲室参数估计

   标题:SS-BRPE: Self-Supervised Blind Room Parameter Estimation Using Attention Mechanisms

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2409.05212

   代码:https://github.com/bjut-chunxiwang/SS-BRPE


58. ActionFlow:不变性准确高效的策略,具有空间对称性流匹配

   标题:ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching

   地址:https://arxiv.org/pdf/2409.04576

   代码:https://flowbasedpolicies.github.io/


59. 未学习或掩盖:对扩散模型中未学习现象的关键分析与评估指标

   标题:Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models

   相关领域:模型评估、评估指标

   地址:https://arxiv.org/pdf/2409.05668

   代码:https://respailab.github.io/unlearning-or-concealment


60. 语音大模型在口语对话中识别和理解说话者的能力

   标题:Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue

   机构:华盛顿大学、伊利诺伊大学、哥伦比亚大学

   地址:https://arxiv.org/pdf/2409.04927


61. 预测与优化联合模型的 learning 研究

   标题:Learning Joint Models of Prediction and Optimization

   机构:乔治亚理工学院

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2409.04898


62. forester:R语言中的树基AutoML工具

   标题:forester: A Tree-Based AutoML Tool in R

   相关领域:树基AutoML, R, 机器学习预处理, 模型训练, 调优, 结果评估

   地址:https://arxiv.org/pdf/2409.04789


63. Adaptative Context Normalization:提升深度学习在图像处理中的性能

   标题:Adaptative Context Normalization: A Boost for Deep Learning in Image Processing

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2409.04759


64. 学习通过非自回归神经网络解决正线性约束下的组合优化问题

   标题:Learning to Solve Combinatorial Optimization under Positive Linear Constraints via Non-Autoregressive Neural Networks

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.04495

   代码:https://github.com/Thinklab-SJTU/NAR-CO-Solver


65. DFabric:使用CXL-Ethernet混合互联技术扩展数据并行应用

   标题:DFabric: Scaling Out Data Parallel Applications with CXL-Ethernet Hybrid Interconnects

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.05404


66. 面向O-RAN的AI/ML驱动SMO框架的研究:场景、解决方案和挑战(中文版)

   标题:Towards an AI/ML-driven SMO Framework in O-RAN: Scenarios, Solutions, and Challenges

   机构:凯泽斯劳滕大学、德国AI研究中心

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2409.05092


67. 联邦学习中模型校准的潜力解锁

   标题:Unlocking the Potential of Model Calibration in Federated Learning

   机构:普渡大学

   地址:https://arxiv.org/pdf/2409.04901


68. 利用LLM、图和对象层次结构进行大规模环境中的任务规划

   标题:Leveraging LLMs, Graphs and Object Hierarchies for Task Planning in Large-Scale Environments

   相关领域:人工智能

   地址:https://arxiv.org/pdf/2409.04775

   代码:https://youtu.be/6ro2UOtOQS4)


69. 显式互信息最大化自监督学习

   标题:Explicit Mutual Information Maximization for Self-Supervised Learning

   机构:上海交通大学

   相关领域:自监督学习

   地址:https://arxiv.org/pdf/2409.04747


70. 大规模复杂长视频目标分割挑战报告

   标题:LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation

   地址:https://arxiv.org/pdf/2409.05847

   代码:https://lsvos.github.io/


71. MANA-Net:通过新闻加权缓解聚合情感同质化问题,提高市场预测能力

   标题:MANA-Net: Mitigating Aggregated Sentiment Homogenization with News Weighting for Enhanced Market Prediction

   地址:https://arxiv.org/pdf/2409.05698


72. 从fMRI证据看大模型存在两个阶段的抽象过程

   标题:Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models

   地址:https://arxiv.org/pdf/2409.05771


73. 音频视频 Speaker 划分:当前数据库、方法与挑战

   标题:Audio-Visual Speaker Diarization: Current Databases, Approaches and Challenges

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2409.05659


74. RegNLP in Action:通过自动化信息检索和答案生成促进合规性

   标题:RegNLP in Action: Facilitating Compliance Through Automated Information Retrieval and Answer Generation

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.05677


75. BAMDP Shaping:内在动机和奖励塑造的统一理论框架

   标题:BAMDP Shaping: a Unified Theoretical Framework for Intrinsic Motivation and Reward Shaping

   相关领域:模型结构改进、奖励模型

   地址:https://arxiv.org/pdf/2409.05358


76. Driving with Prior Maps:统一向量先验编码用于自动驾驶车辆定位

   标题:Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping

   地址:https://arxiv.org/pdf/2409.05352


77. 基于神经增强的全景HDR拼接

   标题:Neural Augmentation Based Panoramic High Dynamic Range Stitching

   地址:https://arxiv.org/pdf/2409.04679


78. 稀疏奖励在对话模型自训练中的应用

   标题:Sparse Rewards Can Self-Train Dialogue Agents

   相关领域:模型结构改进、奖励模型

   地址:https://arxiv.org/pdf/2409.04617


79. The Future of Software Testing:AI支持测试用例生成与验证

   标题:The Future of Software Testing: AI-Powered Test Case Generation and Validation

   相关领域:软件工程

   地址:https://arxiv.org/pdf/2409.05808


80. 一种使用结构化对话人工智能(CAI)系统的创新概念生成工具

   标题:A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System

   相关领域:模型结构改进、模型评估、评估指标、多模态

   地址:https://arxiv.org/pdf/2409.05747


81. 实时转录使用端到端ASR模型的评估

   标题:Evaluation of real-time transcriptions using end-to-end ASR models

   地址:https://arxiv.org/pdf/2409.05674


82. 构建鲁棒的知识密集型问答模型

   标题:Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2409.05385


83. 基于自然语言处理的蛋白质序列分类研究

   标题:Protein sequence classification using natural language processing techniques

   地址:https://arxiv.org/pdf/2409.04491


84. 实时优化高维参数化系统的深度学习降阶模型

   标题:Real-time optimal control of high-dimensional parametrized systems by deep learning-based reduced order models

   地址:https://arxiv.org/pdf/2409.05709


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章