大模型在逻辑推理中是否依赖记忆力?SciPIP: 基于大模型的科学论文创意生成器....

文摘   2024-10-31 19:43   广东  

前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!


1. 大模型在逻辑推理中是否依赖记忆力?

  标题:On Memorization of Large Language Models in Logical Reasoning

  机构:Google、伊利诺伊大学、普林斯顿大学

  相关领域:模型结构和预训练、指令微调和奖励模型、逻辑推理

  作者:Chulin Xie,  Yangsibo Huang,  Chiyuan Zhang

  分析:这篇论文探讨了大型语言模型在逻辑推理任务中是否主要依赖于记忆(memorization)而非真正理解(reasoning)的问题。通过分析模型对一个动态生成的基于Knights and Knaves(K&K)谜题逻辑推理 benchmark 的性能,研究者发现虽然模型在经过微调后能在训练数据上取得接近完美的准确率,但在数据稍有变动的推理问题上表现出不足。研究还表明,虽然微调导致模型大量依赖于记忆,但也能增强模型的泛化能力。此外,研究人员通过分析模型对样本记忆的评分,揭示了模型在解逻辑谜题时如何在没有真正推理的情况下切换到记忆模式。

  地址:https://arxiv.org/pdf/2410.23123

  代码:https://memkklogic.github.io


2. TokenFormer: 重新思考Transform规模化与token化模型参数

  标题:TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

  机构:北京大学、Google、马克斯·普朗克计算机科学研究所

  相关领域:模型结构改进、tokenized模型参数、注意力机制、预训练

  作者:Haiyang Wang,  Yue Fan,  Muhammad Ferjad Naeem

  分析:Transformer已经成为基础模型中的主导架构,因其优异的性能而广受欢迎。然而,这些模型的规模化成本是一个显著的问题。主要问题来自于它们对线性投影中固定数量的参数的依赖。当结构修改(例如通道维度)被引入时,整个模型通常需要从头开始重新训练。随着模型尺寸的不断增长,这种策略导致计算成本的不断增加,最终变得不可持续。TokenFormer是为了克服这个问题而引入的一种原生可扩展架构。它不仅利用注意力机制对输入令牌之间的计算进行优化,还引入了对令牌与模型参数之间的交互,以此增强架构的灵活性。通过将模型参数视为令牌,该论文用该论文的token-parameter注意力层取代了Transformer中的所有线性投影。令牌作为查询,模型参数作为键值对。这种重新表述允许渐进式和高效的扩展,而无需从头开始重新训练。该论文的模型通过在关键值对上逐层添加新对来扩展,从124M到1.4B参数,实现了与从头开始训练的Transformer相当的性能,同时大大降低了训练成本。

  地址:https://arxiv.org/pdf/2410.23168

  代码:https://github.com/Haiyang-W/TokenFormer


3.  SciPIP: 基于大模型的科学论文创意生成器

  标题:SciPIP: An LLM-based Scientific Paper Idea Proposer

  机构:浙江大学

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Wenxiao Wang,  Lihui Gu,  Liye Zhang

  分析:这篇论文提出了一种基于大语言模型的科学论文创意生成器(SciPIP),旨在帮助科研人员应对知识爆炸和跨学科研究复杂性的挑战,尤其是在信息过载和探索新思想方面。SciPIP首先根据研究人员提供的研究背景从文献数据库中检索相关论文,并利用大型语言模型生成更原创和可行的新想法。该系统分为两个阶段:一是使用语义、实体和引用共同出现的方法,从多个角度搜索相关文献;二是采用双重路径的创意生成策略,一部分从检索到的文献中推断解决方案,另一部分通过模型生成独特的想法。最后,将两部分创意融合,以平衡可行性和原创性。实验表明,SciPIP能够从现有顶级会议论文中找到相似的引用,并生成大量符合预期的创意。此外,还通过大语言模型评估了其他创意的新颖性,进一步验证了SciPIP的有效性。论文代码和数据库已发布在GitHub上。

  地址:https://arxiv.org/pdf/2410.23166

  代码:https://github.com/cheerss/SciPIP


4. COMAL: 一种一致元算法,用于与一般偏好对齐的大模型

  标题:COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences

  机构:艾伦AI研究所

  相关领域:模型评估

  作者:Yixin Liu,  Argyris Oikonomou,  Weiqiang Zheng

  分析:论文探讨了现有的对齐方法,如从人工反馈的强化学习(RLHF),它们依赖于布雷顿-泰勒奖励假设,这种假设不足以捕捉人类偏好的全部范围。作者提出将对齐问题建模为两个玩家之间的零和游戏,其中纳什均衡策略保证了在对抗任何其他策略时的50%胜率。然而,之前的方法在简单的人工设置中也经常无法达到这一胜率保证,因为它们要么发散要么在修改后的游戏中收敛。作者提出了一种基于博弈论的元算法COMAL,旨在解决使用一般偏好对齐语言模型的问题。理论研究表明,这种方法在最后迭代中收敛到精确的纳什策略。COMAL算法既简单又易于与许多现有的大语言模型对齐方法结合使用。实验结果表明,该方法结合现有的偏好策略优化技术时表现卓越。

  地址:https://arxiv.org/pdf/2410.23223


5. 大模型预训练中细粒度标签的作用

  标题:Why Fine-grained Labels in Pretraining Benefit Generalization?

  机构:英伟达、普渡大学、谷歌研究院

  相关领域:模型结构改进、预训练

  作者:Guan Zhe Hong,  Yin Cui,  Ariel Fuxman

  分析:该论文主要探讨了预训练深度神经网络时,使用细粒度标签数据进行预训练,然后在粗粒度标签数据上进行微调,相较于仅使用粗粒度标签数据预训练的方法,如何更好地提升泛化性能。通过引入“分层多视图”结构来限制输入数据分布,证明了细粒度预训练可以学习到稀有特征并提高对下游任务的准确率。

  地址:https://arxiv.org/pdf/2410.23129


6. 慢-快学习用于动作驱动的长视频生成

  标题:SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

  机构:加州大学、微软研究院

  相关领域:模型结构改进、数据集构建

  作者:Yining Hong,  Beide Liu,  Maxine Wu

  分析:这篇论文提出了一种名为SlowFast-VGen的新模型,用于动作驱动的长视频生成。该模型结合了慢速学习和快速学习,解决了一般在前馈的视频生成模型中存在的问题。这些问题主要涉及模型在处理长视频时,由于上下文窗口限制而无法有效存储和回忆记忆,从而导致视频生成的不一致性。SlowFast-VGen通过整合慢学习的全条件视频扩散模型和快速学习策略,以及一个集成到慢速度学习循环中的快速学习循环算法,有效地提高了视频生成的质量和一致性。

  地址:https://arxiv.org/pdf/2410.23277


7. 基于强化学习的尝试性检索以提升大模型的性能

  标题:Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

  机构:斯坦福大学、Google DeepMind

  相关领域:模型评估、RLHF

  作者:Sheryl Hsu,  Omar Khattab,  Chelsea Finn

  分析:这篇论文关注大型语言模型在信息检索方面的问题,尤其是在处理复杂或间接话题时难以提出恰当的搜索查询的问题。论文提出了一种新的强化学习框架——尝试性检索(LeReT),该框架通过探索搜索查询并使用基于偏好的优化来提高查询质量。实验表明,LeReT可以提高检索准确率达29%,并提升下游生成器评价达17%。其灵活性和简单性使得它可以应用于任意的现成检索器,并有望成为改进通用大型语言模型管道的有前途的技术。

  地址:https://arxiv.org/pdf/2410.23214


8. A Large Recurrent Action Model:xLSTM实现机器人任务快速推理

  标题:A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

  机构:Google DeepMind

  相关领域:

  作者:Thomas Schmied,  Thomas Adler,  Vihang Patil

  分析:近年来,强化学习领域(RL)的一个趋势是大规模在线行动模型的训练,通过序列建模在大型数据集上进行离线训练。现有模型主要基于Transformer架构,这使得智能代理的性能强大。然而,由于推理速度慢,基于Transformer的方法在实时应用中不实际,如机器人。最近,现代循环架构,如xLSTM和Mamba,提出,在类似Transformer的训练架构的优势下,而提供了快速的推理。文中,该论文研究这些现代循环架构在大规模行动模型的适应性。因此,该论文提出一个名为大语言模型(LRAM)的系统,该系统中有一个基于xLSTM的单元,并具有线性推理复杂度和自然序列长度外推能力。实验数据显示:LRAM在性能和速度上优于Transformer。

  地址:https://arxiv.org/pdf/2410.22391


9. 深度学习内部工作原理

  标题:Decoupling Semantic Similarity from Spatial Alignment for Neural Networks

  机构:Google DeepMind

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Tassilo Wald,  Constantin Ulrich,  Gregor Köhler

  分析:这篇论文主要探讨了深度学习内部工作原理的问题,提出了一种新的方法来衡量神经网络的相似性。通过定义语义RSMs,使得其对空间排列具有不变性,从而解决了现有相似度计算方法对空间对齐敏感的问题。该方法通过形式化的方式来度量输入响应之间的语义相似性,并通过图像检索和类别预测的相似性比较来验证其优越性。

  地址:https://arxiv.org/pdf/2410.23107


10. Attribute-to-Delete:高效去除遗忘集对预训练机器学习模型影响的机器遗忘

  标题:Attribute-to-Delete: Machine Unlearning via Datamodel Matching

  机构:斯坦福大学、微软研究院、麻省理工学院

  作者:Kristian Georgiev,  Roy Rinberg,  Sung Min Park

  分析:通过对训练数据的影响及其对模型输出的变化进行预测,从而实现对预训练模型的遗忘。该算法首先是使用数据 attribution 预测模型在所有除了遗忘集之外的训练数据上的输出;然后在该预测输出的基础上,对预训练的模型进行微调,以达到与预测输出的输出相匹配的效果。

  地址:https://arxiv.org/pdf/2410.23232


11. Project MPG:通用的性能基准测试方法 for LLM capabilities

   标题:Project MPG: towards a generalized performance benchmark for LLM capabilities

   机构:谷歌研究院、麻省理工学院、UC伯克利分校

   相关领域:模型评估

   作者:Lucas Spangher,  Tianle Li,  William F. Arnold

   分析:这篇论文提出了一种新的性能基准测试方法,称为M路径和G数,旨在将各种LLM(语言模型)基准测试任务归为一个可以简单理解的数字。M路径和G数是一种非Elo基的聚合方法,它可以节省时间和成本。它创建了两个数字:一个是好数(回答准确性),另一个是快的数(成本或每秒查询数)。这些数字用来给模型之间进行比较,并在通用和子域基准测试中给出排名。研究发现,M路径和G数的分数与Chatbot Arena和其他现有基准测试的分数有较高的一致性。

   地址:https://arxiv.org/pdf/2410.22368


12. DexGraspNet 2.0:在大型合成杂乱场景中学习生成灵巧抓取

   标题:DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes

   机构:北京大学、UC伯克利分校、北京AI研究院

   相关领域:模型结构改进、数据集构建

   作者:Jialiang Zhang,  Haoran Liu,  Danshi Li

   分析:这篇论文解决的是灵巧手在杂乱场景中的抓取问题,通过构建一个大型合成基准测试,使用扩散模型并结合局部几何条件,提出一种新颖的两阶段抓取方法。该方法在仿真实验中表现优异,并实现了零样本模拟到现实的迁移,在真实世界的杂乱场景中达到了90.7%的灵巧抓取成功率。

   地址:https://arxiv.org/pdf/2410.23004


13. Image2Struct:评估视觉语言模型结构提取的基准

   标题:Image2Struct: Benchmarking Structure Extraction for Vision-Language Models

   机构:斯坦福大学

   相关领域:模型评估、数据集构建、评估指标、多模态

   作者:Josselin Somerville Roberts,  Tony Lee,  Chi Heem Wong

   分析:这篇论文介绍了一个新的基准Image2Struct,用于评估视觉语言模型在从图像中提取结构上的能力。这个基准包括了真实世界用例, automático y no requiere juicio humano, 基于可更新的数据流。VLMs被提示从输入图像中(例如,网页截图)生成底层结构(例如,LaTeX代码或HTML)。然后将结构渲染成输出图像(例如,渲染的网页),与输入图像进行比较以产生相似度分数。这种往返评估使该论文能够定量评估VLMs在具有多种有效结构的任务上的表现。作者创建了一个管道,从执行时下载新鲜的数据,并无需人工干预来评估VLMs。论文介绍了三个领域(网页、LaTeX和音乐乐谱)和五个图像度量(像素相似度、Inception向量的余弦相似度、学习感知图像块相似度、结构相似性指数和地球迁移相似度),这些度量可以有效地在两个图像之间进行自动比较。这篇论文在14个著名的VLM上进行了评估,并发现分数差异很大,这表明Image2Struct可以区分不同VLM的表现。此外,最佳分数在不同领域之间差异很大(例如,乐谱上的0.402与LaTeX方程式上的0.830),这表明Image2Struct包含了难度各异的任务。

   地址:https://arxiv.org/pdf/2410.22456

   代码:https://crfm.stanford.edu/helm/image2struct/v1.0.1/


14. EvoCodeBench的演进:面向特定领域的代码生成基准测试

   标题:EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations

   机构:北京大学、字节跳动、阿里巴巴集团

   相关领域:模型评估、数据集构建

   作者:Jia Li,  Ge Li,  Xuanming Zhang

   分析:该文提出了一种新的代码生成基准测试——EvoCodeBench,旨在解决大语言模型在代码生成方面的评估问题。该基准测试包含动态更新的数据和面向特定编程领域的评估。首先,它通过动态更新数据避免数据泄露问题;其次,引入编程领域分类,并为每个样本标注领域标签;最后,进行特定领域的评估,以更准确地衡量大语言模型在不同领域的表现。文章还对一些流行的语言模型进行了评估,并给出了一些见解。

   地址:https://arxiv.org/pdf/2410.22821


15. ProTransformer:通过即插即用模式增强Transformer的稳健性

   标题:ProTransformer: Robustify Transformers via Plug-and-Play Paradigm

   机构:卡内基梅隆大学

   相关领域:模型结构改进

   作者:Zhichao Hou,  Weizhi Gao,  Yuchen Shen

   分析:论文介绍了一种新型的稳健注意力机制,旨在增强基于Transformer的架构的稳健性。该机制可作为即插即用层集成到现有Transformer中,无需额外的训练或微调即可提高稳健性。实验表明,ProTransformer显著提高了Transformer模型在各种预测任务、攻击机制、主干架构和数据领域的稳健性。

   地址:https://arxiv.org/pdf/2410.23182


16. MutaPLM:蛋白质语言建模用于突变解释与工程研究

   标题:MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering

   机构:清华大学

   相关领域:模型结构改进、数据集构建

   作者:Yizhen Luo,  Zikun Nie,  Massimo Hong

   分析:该研究提出了一种名为MutaPLM的统一框架,用于解释和导航蛋白质突变。该框架使用蛋白质语言模型建立了蛋白质突变的显式表示,并通过跨模态监督信号和蛋白质变异知识来强化模型的性能。通过一系列实验验证,MutaPLM在解释突变影响和优先筛选具有理想特性的新突变方面表现出卓越的能力。

   地址:https://arxiv.org/pdf/2410.22949

   代码:https://github.com/PharMolix/MutaPLM


17. Prune and Repaint:任意比例内容自适应图像重新调整

   标题:Prune and Repaint: Content-Aware Image Retargeting for any Ratio

   机构:东南大学、阿里巴巴集团

   相关领域:模型结构改进、内容自适应

   作者:Feihong Shen,  Chao Li,  Yifeng Geng

   分析:这篇论文提出了一种名为PruneRepaint的内容自适应图像重新调整方法。该方法旨在保持图像的主要语义同时调整其比例,以适应不同的显示设备和展示环境。该方法通过集成每个像素的语义重要程度来指导剪枝或保留区域的选择,以维护关键语义。同时,它引入了一个自适应的重新绘制模块,根据剪枝像素的分布和前景大小与目标比例的比例来选择重新绘制的图像区域,实现剪枝后的局部平滑。实验表明,该方法优于先前的方法,在保持语义和美学的同时,提供了更好的跨不同比例的适应性。

   地址:https://arxiv.org/pdf/2410.22865

   代码:https://github.com/fhshen2022/PruneRepaint


18. 文本到图像模型的样本多样性量化研究

   标题:GRADE: Quantifying Sample Diversity in Text-to-Image Models

   机构:华盛顿大学、艾伦AI研究所

   相关领域:模型评估、多模态

   作者:Royi Rassin,  Aviv Slobodkin,  Shauli Ravfogel

   分析:这篇论文主要研究了文本到图像(T2I)模型的样本多样性问题。针对文本提示的固有不明确性,提出一种自动测量样本多样性的方法——GRADE(粒级属性多样性评估)。该方法利用大型语言模型和视觉问答系统中的世界知识,识别相关概念特定的属性多样性轴,然后估计概念及其属性的频率分布,并使用(归一化)熵来量化多样性。研究发现,所有被测试的T2I模型在多样性方面都有局限,且存在默认行为现象。论文还指出,训练数据中的不明确描述是导致低多样性的关键原因。总之,该研究提供了一种新的语义驱动方法来测量样本多样性,并揭示了T2I模型输出的惊人同质性。

   地址:https://arxiv.org/pdf/2410.22592


19. VisualPredicator:利用神经符号谓词学习抽象世界模型以进行机器人规划

   标题:VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning

   机构:剑桥大学、牛津大学、康奈尔大学

   相关领域:模型评估、多模态

   作者:Yichao Liang,  Nishanth Kumar,  Hao Tang

   分析:本文提出了一种名为神经符号谓词的一阶抽象语言,结合了符号和神经知识表示的优势。该语言旨在帮助智能体形成针对特定任务的抽象,选择性地表露任务的关键要素,同时简化原始感应运动环境的复杂性。论文详细描述了一种在线算法,用于发明这样的谓词并学习抽象世界模型。并通过五个模拟机器人领域的任务,将方法与分层强化学习、视觉语言模型规划和符号谓词发明方法进行了比较。结果表明,该方法在样本复杂度、出样本分布泛化能力和可解释性方面都有显著优势。

   地址:https://arxiv.org/pdf/2410.23156


20. FuseAnyPart:基于多重参考图像的扩散驱动面部部分互换

   标题:FuseAnyPart: Diffusion-Driven Facial Parts Swapping via Multiple Reference Images

   机构:北京大学、上海交通大学、阿里巴巴集团

   相关领域:深度学习

   作者:Zheng Yu,  Yaohua Wang,  Siying Cui

   分析:面部部分互换旨在从源图像选择性地将感兴趣的区域转移到目标图像,同时保持目标图像的其他部分不变。目前针对全脸互换的大量研究都无法或显著限制单个面部部分互换,这阻碍了细粒度及定制化角色设计。为了解决这个问题,本文提出了一种名为FuseAnyPart的方法,可以实现面部部分的任意部分“融合任意部分”的定制化。在FuseAnyPart中,来自不同人的面部部分在Mask-based Fusion Module的潜在空间中组装成一个完整的面部。然后,整合特征被传递到基于增量的注入模块,在扩散模型的UNet中进行融合,以创建新角色。大量的实验结果证明了FuseAnyPart在质量和稳健性方面的优越性。

   地址:https://arxiv.org/pdf/2410.22771

   代码:https://github.com/Thomas-wyh/FuseAnyPart


21. AAAR-1.0: 评估AI在助力科学研究中的潜力

   标题:AAAR-1.0: Assessing AI's Potential to Assist Research

   机构:复旦大学、浙江大学、伊利诺伊大学

   相关领域:科研

   作者:Renze Lou,  Hanzi Xu,  Sijia Wang

   分析:大量研究已经评估了大型语言模型(LLMs)在促进日常任务,如电子邮件写作,问题回答和创意内容生成方面的能力。然而,研究人员在使用LLMs进行他们自己的工作时面临着独特的挑战和机会,如头脑风暴研究想法,设计实验和撰写或审核论文等。在这项研究中,该论文介绍了AAAR-1.0,这是一个设计用于评估LLM在三个基本且专业知识密集的研究任务中的表现的基准数据集:等式推理,基于论文提交中的上下文信息评估等式正确性;实验设计,设计实验以验证研究想法和解决方案;论文弱点,识别论文提交中的弱点;评论检查,识别人评每个段落中的缺陷或不足之处。AAAR-1.0与先前的基准数据集有两个关键的区别:首先,它明确以研究为导向,需要深度的领域专业知识;其次,它以研究者为导向,反映了 researchers 每天主要参与的活动。对开源和专有LLMs的评价揭示了它们在执行复杂研究任务中的潜力以及限制。该论文将继续不断迭代AAAR-1.0开发新版本。

   地址:https://arxiv.org/pdf/2410.22394


22. 序列预测中的校准不确定性估计

   标题:A Monte Carlo Framework for Calibrated Uncertainty Estimation in Sequence Prediction

   机构:纽约大学、麻省理工学院、伊利诺伊大学

   作者:Qidong Yang,  Weicheng Zhu,  Joseph Keslin

   分析:从图像和其他高维数据中进行序列预测是一个关键挑战,特别是在风险敏感的应用中。在这些设置中,通常希望量化与预测相关的不确定性(而不是只确定最可能的序列,如语言建模)。本文提出了一种蒙特卡洛框架来估计离散序列分布的概率和置信区间。该论文的框架使用一个作为自回归训练的神经网络的蒙特卡洛模拟器来对图像输入进行条件采样以生成序列。然后该论文使用这些样本来估计概率和置信区间。在合成数据和真实数据上的实验表明,该框架产生了准确的判别预测,但可能会出现校准错误。为了解决这一问题,该论文提出了一种时间依赖的正则化方法,该方法已被证明可以产生校准的预测。

   地址:https://arxiv.org/pdf/2410.23272


23. OS-ATLAS:通用GUI代理的基础行动模型

   标题:OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

   机构:香港大学、上海交通大学、麻省理工学院

   相关领域:模型结构改进、数据集构建

   作者:Zhiyong Wu,  Zhenyu Wu,  Fangzhi Xu

   分析:这篇论文主要提出了一种名为OS-ATLAS的基础GUI行动模型,该模型在GUI接地和OOD代理任务方面表现出色。通过数据合成和模型训练的创新,该模型能够理解GUI截图并推广到未见过的界面。论文还介绍了最大的开源跨平台GUI接地语料库,包含超过1300万个GUI元素。

   地址:https://arxiv.org/pdf/2410.23218


24. 长文本检索增强生成(Long^2RAG):评估长文本检索与生成式查询的关键点回忆

   标题:\textsc{Long^2RAG}: Evaluating Long-Context \& Long-Form Retrieval-Augmented Generation with Key Point Recall

   机构:清华大学、剑桥大学、西湖大学

   相关领域:医疗保健、体育、教育、娱乐

   作者:Zehan Qi,  Rongwu Xu,  Zhijiang Guo

   分析:长文本检索增强生成(RAG)是一种有前景的方法,用来解决大型语言模型(LLM)的固定知识局限性。然而,当前用于评估RAG系统的基准存在两个关键缺陷:(1) 由于缺乏反映检索文档特征的数据集,它们无法恰当地衡量LLM在处理长语境检索方面的能力;(2) 它们缺乏一种全面评估LLM生成长文本回复能力的方法,这种方法能有效地利用检索信息。为了解决这些问题,该论文提出了长^2RAG基准和关键点回忆(KPR)指标。长^2RAG包括280个问题,涵盖10个领域和8个问题类别,每个问题类别都与5个检索到的文档相关,这些文档平均长度为2444个词。KPR评估LLM从检索到的文档中提取关键点并将其整合到生成回复中的程度,提供了对LLM利用检索信息进行有效生成的更细微的评估。该论文的数据集和脚本可以在https://github.com/QZH-777/longrag。

   地址:https://arxiv.org/pdf/2410.23000

   代码:https://github.com/QZH-777/longrag


25. MAMMAL——分子对齐多模态架构与语言模型

   标题:MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language

   机构:IBM研究院

   相关领域:多模态

   作者:Yoel Shoshan,  Moshiko Raboh,  Michal Ozery-Flato

   分析:该论文提出了一种名为MAMMAL的模型,这是一种多模态架构与语言模型,用于处理大规模生物数据集。该模型可以学习不同模态(蛋白质、小分子和基因)的数据,并处理分类、回归和生成任务。该模型在药物发现流程中的多个任务上取得了优异性能,使用统一架构实现了多个任务的性能,达到了新的状态水平。

   地址:https://arxiv.org/pdf/2410.22367


26. 多学生扩散蒸馏用于更好的一步生成器

   标题:Multi-student Diffusion Distillation for Better One-step Generators

   机构:英伟达、哈佛大学、Vector Institute

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Yanke Song,  Jonathan Lorraine,  Weili Nie

   分析:这篇论文主要研究了如何通过扩散蒸馏技术,将条件教师扩散模型蒸馏成多个单步生成器。每个学生生成器负责一部分条件数据,从而在相同的容量下获得更高的生成质量。MSD训练多个蒸馏学生,允许更小的尺寸和因此更快的推理。此外,MSD还通过分布匹配和对抗性蒸馏技术提供了比相同架构的单个学生蒸馏更轻量级的品质提升。通过在单步蒸馏上使用分布匹配和对抗性蒸馏技术,训练多个相同大小或更小的学生,MSD与更快的推理速度竞争。使用4个相同大小的学生,MSD在ImageNet-64x64上实现了1.20的FID和在zero-shot COCO2014上实现了8.20的FID,达到了最新的一步图像生成水平。

   地址:https://arxiv.org/pdf/2410.23274


27. 利用小对抗训练集教学语言模型区分相似细节的研究

   标题:Teaching a Language Model to Distinguish Between Similar Details using a Small Adversarial Training Set

   机构:斯坦福大学、德克萨斯大学

   相关领域:模型评估、数据集构建

   作者:Chris Achard

   分析:论文关注语言模型在自然语言任务如自然语言推理(NLI)上的表现,特别是在对抗样本上的性能。通过微调模型,使其能够学习区分数据中的相似词汇和短语,从而提高在对抗测试集上的准确率,同时保持原NLI任务的性能。此外,论文还展示了在SNLI测试集上最相似矛盾点的准确率提升。

   地址:https://arxiv.org/pdf/2410.23118


28. 多模态结构保留学习

   标题:Multimodal Structure Preservation Learning

   机构:匹兹堡大学、卡内基梅隆大学

   作者:Chang Liu,  Jieshi Chen,  Lee H. Harrison

   分析:这篇论文提出了一种新的学习方法——多模态结构保留学习(MSPL),该方法利用一种数据模态的聚类结构来提高另一种数据模态的效用。研究者在合成时间序列数据、全基因组测序和质谱数据支持的传染病应用中,通过实践证明了MSPL在揭示潜在结构和恢复集群方面的有效性。

   地址:https://arxiv.org/pdf/2410.22520


29. From Babble to Words:使用连续音素流预训练语言模型

   标题:From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes

   机构:剑桥大学

   相关领域:预训练, 语言理解

   作者:Zébulon Goriely,  Richard Diehl Martinez,  Andrew Caines

   分析:这篇论文主要探讨了将文本数据集转换为连续音素流的挑战,并提出了一种解决方法。这种方法可以用于预训练和评估基于音素输入表示的语言模型。虽然这种方法在传统语言理解任务上的表现略有下降,但它提供了独特的分析和实用优势。

   地址:https://arxiv.org/pdf/2410.22906


30. OpenSatMap:用于大规模地图构建的精细高分辨率卫星数据集

   标题:OpenSatMap: A Fine-grained High-resolution Satellite Dataset for Large-scale Map Construction

   机构:腾讯、北京邮电大学、中国科学院大学

   相关领域:数据集构建

   作者:Hongbo Zhao,  Lue Fan,  Yuntao Chen

   分析:这篇论文提出了一个名为OpenSatMap的精细高分辨率卫星数据集,用于大规模地图构建。该数据集具有实例级别的精细标注、高分辨率图像、大规模数据量和高多样性等特点,可支持卫星地图构建和自动驾驶等下游任务。论文解决了现有卫星数据集分辨率低、标注粗糙等问题,为相关领域的发展提供了高质量的数据集和基准测试。

   地址:https://arxiv.org/pdf/2410.23278


31. Kinetix:通过基于物理控制的开放端任务探究通用智能体的训练

   标题:Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

   机构:牛津大学

   相关领域:模型结构改进、预训练、RLHF、模型评估

   地址:https://arxiv.org/pdf/2410.23208


32. 多语言沙盒 for LLMs

   标题:Multi-Programming Language Sandbox for LLMs

   机构:复旦大学、北京大学、南洋理工大学

   相关领域:LLM代码分析、代码安全与稳定、代码生成与优化

   地址:https://arxiv.org/pdf/2410.23074


33. Neural Attention Field:3D场景中新颖点相关性的端到端灵活抓取

   标题:Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping

   机构:北京大学、斯坦福大学

   地址:https://arxiv.org/pdf/2410.23039


34. VisAidMath:视觉辅助数学推理的基准测试

   标题:VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning

   机构:阿里巴巴集团达摩院

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2410.22995


35. Conflux-PSRO:策略空间响应预言的有效整合策略优势

   标题:Conflux-PSRO: Effectively Leveraging Collective Advantages in Policy Space Response Oracles

   机构:北京大学、上海交通大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.22776


36. FlowDCN:探索DCN类架构实现快速任意分辨率图像生成

   标题:FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution

   机构:南京大学、阿里巴巴集团

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.22655


37. 大模型的关系幻觉评估

   标题:Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models

   机构:香港科技大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.23114

   代码:https://github.com/wujunjie1998/Tri-HE


38. CopRA:一种渐进式LoRA训练策略

   标题:CopRA: A Progressive LoRA Training Strategy

   机构:浙江大学、香港城市大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.22911


39. HijackRAG:针对大规模语言模型的检索性增强型攻击

   标题:HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models

   机构:浙江大学

   地址:https://arxiv.org/pdf/2410.22832


40. 知识的知觉和遗忘的逻辑动态

   标题:Epistemic Skills: Logical Dynamics of Knowing and Forgetting

   机构:山西大学、中山大学

   相关领域:

   地址:https://arxiv.org/pdf/2410.22763


41. 演示选择算法的比较分析对大模型上下文学习的应用

   标题:Comparative Analysis of Demonstration Selection Algorithms for LLM In-Context Learning

   机构:西北大学

   相关领域:模型评估、指令微调

   地址:https://arxiv.org/pdf/2410.23099

   代码:https://github.com/Tizzzzy/Demonstration_Selection_Overview


42. 极端多标签文本分类的迁移学习

   标题:Don't Just Pay Attention, PLANT It: Transfer L2R Models to Fine-tune Attention in Extreme Multi-Label Text Classification

   机构:东北大学、美国东北大学

   地址:https://arxiv.org/pdf/2410.23066


43. Less is More:代码生成中的DocString压缩

   标题:Less is More: DocString Compression in Code Generation

   机构:香港城市大学、国防科技大学、南京航空航天大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.22793


44. FilterViT和DropoutViT:轻量级视觉Transformer模型用于高效注意力机制

   标题:FilterViT and DropoutViT: Lightweight Vision Transformer Models for Efficient Attention Mechanisms

   机构:电子科技大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.22709


45. SimpsonsVQA:利用定制数据集增强基于探究的学习

   标题:SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset

   机构:迪肯大学、新南威尔士大学、阿布扎比科技创新研究所

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2410.22648

   代码:https://simpsonsvqa.org)


46. FairSkin:皮肤疾病图像生成的公平扩散模型

   标题:FairSkin: Fair Diffusion for Skin Disease Image Generation

   机构:匹兹堡大学、北卡罗来纳大学、密歇根州立大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2410.22551


47. 资源受限下的预训练模型训练:10万步与百日权衡

   标题:100K or 100 Days: Trade-offs when Pre-Training with Academic Resources

   相关领域:预训练、模型评估

   地址:https://arxiv.org/pdf/2410.23261

   代码:https://github.com/apoorvkh/academic-pretraining


48. 下一个集合推荐的通用集级优化框架

   标题:A Universal Sets-level Optimization Framework for Next Set Recommendation

   机构:澳大利亚国立大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.23023


49. Enhancing binary classification:一种利用计算几何的新堆叠方法

   标题:Enhancing binary classification: A new stacking method via leveraging computational geometry

   机构:新加坡国立大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.22722


50. 重新思考代码优化:学习判断代码效率

   标题:Rethinking Code Refinement: Learning to Judge Code Efficiency

   机构:韩国科学技术院

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.22375


51. Orb:一种快速、可扩展的神经网络势

   标题:Orb: A Fast, Scalable Neural Network Potential

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.22570


52. Emotional RAG:通过情感检索增强角色扮演代理

   标题:Emotional RAG: Enhancing Role-Playing Agents through Emotional Retrieval

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2410.23041


53. EMMA:端到端的自动驾驶多模态模型

   标题:EMMA: End-to-End Multimodal Model for Autonomous Driving

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.23262


54. CrossEarth:CrossEarth模型

   标题:CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation

   地址:https://arxiv.org/pdf/2410.22629


55. 基于合成数据的多领域分类器训练分析

   标题:Analysis of Classifier Training on Synthetic Data for Cross-Domain Datasets

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.22748


56. 一致性扩散桥模型研究

   标题:Consistency Diffusion Bridge Models

   相关领域:模型结构改进、模型蒸馏

   地址:https://arxiv.org/pdf/2410.22637


今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章