前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 上下文表示能够编码多远距离的上下文?
标题:How much do contextualized representations encode long-range context?
机构:英伟达
相关领域:模型评估
作者:Simeng Sun, Cheng-Ping Hsieh
分析:这篇论文研究了神经自回归语言模型中的上下文表示,重点分析了跨越数千个标记的长距离上下文。通过扰动设置和“各向异性校准余弦相似度”指标,研究从表示几何学的角度捕捉长距离模式上下文化的程度。研究发现,在标准解码器仅Transformer上,具有相似难度指标的模型在下游任务上的表现差异显著,这可以归因于对长距离内容上下文化程度的差异。此外,还分析了其他模型,包括最新的新型架构设计和各种训练配置。层次化结果表明,在高复杂性序列(即较难压缩的序列)方面,各种架构的表示能力有所下降;完全循环模型严重依赖于局部上下文,而混合模型更有效地编码整个序列结构。最后,对模型大小和训练配置在编码长距离上下文方面的初步分析,为改进现有的语言模型提供了潜在的方向。
地址:https://arxiv.org/pdf/2410.12292
2. 大模型的实用部署技术研究:走向全4位精度服务
标题:COMET: Towards Partical W4A4KV4 LLMs Serving
相关领域:模型评估、模型蒸馏
作者:Lian Liu, Haimeng Ren, Long Cheng
分析:本文主要研究大型语言模型(LLM)的部署技术,特别是针对终端设备和云数据中心。为了解决现有量化方法的不足,特别是针对低精度激活(例如4位)的支持不足,提出了实用全4位精度服务的新思路。通过实现精细混合精度量化算法(FMPQ),将大部分激活压缩到4位而几乎不损失精度。同时,为了支持混合精度矩阵乘法,优化了W4Ax内核。此外,论文还介绍了新的混合精度数据布局和GPU软件管道的使用,以提高访问速度和加速反量化过程。通过精细的流处理器调度,实现了负载均衡。整合优化的W4Ax内核到COMET推理框架,并支持LLaMA家族模型等流行的大型语言模型。评估显示,COMET在单A100-80G-SMX4上实现了对cuBLAS的2.88倍内核加速和端到端框架TensorRT-LLM的2.02倍吞吐量提升。
地址:https://arxiv.org/pdf/2410.12168
3. 含有冲突上下文下的开放域问答研究
标题:Open Domain Question Answering with Conflicting Contexts
机构:宾夕法尼亚大学
相关领域:模型评估、数据集构建
作者:Siyi Liu, Qiang Ning, Kishaloy Halder
分析:这篇论文关注开放域问答系统在处理含有冲突信息的上下文时面临的挑战。作者们收集了一个标注数据集QACC,用于评估大型语言模型在面临冲突上下文时的表现。研究发现,高达25%的无歧义开放域问题在使用谷歌搜索检索时会遇到冲突上下文。此外,论文还探讨了如何通过微调大型语言模型以更好地处理冲突信息,并引入更丰富信息来指导模型在冲突上下文中的推理过程。
地址:https://arxiv.org/pdf/2410.12311
4. 大模型压缩后训练权重量化的大模型扩展能力规律
标题:Scaling laws for post-training quantized large language models
作者:Zifei Xu, Alexander Lan, Wanzin Yazar
分析:本研究通过实证研究了多个量化后的大语言模型(LLMs)的性能,这些LLMs采用了多种权重量化技术,包括多项式,整数,浮点数等。该论文通过分析局部损失景观的特征,识别出影响量化后LLM表现的关键扩展因子,并通过统计模型预测量化LLM的表现。该论文发现在压缩比例为40%,80%和120%时,模型的性能下降较为显著。这篇论文为该论文理解如何优化和量化大语言模型提供了重要参考。
地址:https://arxiv.org/pdf/2410.12119
5. Sabiá-3技术报告
标题:Sabi\'a-3 Technical Report
相关领域:模型结构改进、预训练、模型评估
作者:Hugo Abonizio, Thales Sales Almeida, Thiago Laitz
分析:这篇论文介绍了一款面向巴西的大型语言模型Sabiá-3,该模型在多种专业和学术基准测试中表现出强大的性能,特别是在处理葡萄牙语和巴西相关任务时表现优异。相比之前的模型Sabiá-2 Medium,Sabiá-3在需要大量推理的任务中表现出显著提升。其平均性能与前沿的大型语言模型相当,且成本降低了三到四倍每token,这进一步凸显了专业领域特定的优势。
地址:https://arxiv.org/pdf/2410.12049
6. FALCON:定位并缓解大规模混合并行训练中的拖慢问题
标题:FALCON: Pinpointing and Mitigating Stragglers for Large-Scale Hybrid-Parallel Training
机构:香港科技大学、阿里巴巴集团
相关领域:模型训练优化
作者:Tianyuan Wu, Wei Wang, Yinghao Yu
分析:这篇论文关注大规模混合并行训练中的拖慢问题,这些问题由CPU/GPU计算和跨节点网络问题引起,影响训练效率。论文提出猎鹰框架,能自动检测并处理这些问题,通过多层缓解机制有效解决,无需人工干预。研究内容包括生产集群上的实际应用和效果评估。
地址:https://arxiv.org/pdf/2410.12588
7. 评估大模型的形态学组合泛化能力
标题:Evaluating Morphological Compositional Generalization in Large Language Models
机构:剑桥大学、纽约大学、慕尼黑大学
相关领域:模型评估
作者:Mete Ismayilzada, Defne Circi, Jonne Sälevä
分析:本文通过系统的实验方法,检验了大型语言模型在形态学泛化能力方面的能力。尽管大型语言模型在各种自然语言生成和理解任务上取得了显著进展,但它们在语言生成和理解上的通用化能力仍然存在疑问。人类在语言使用中展现出了组合通用性和语言创造力,而模型是否能够复制这些能力,尤其是在形态学层面,目前研究不足。文章提出了一套生成和判别任务,用于评估大型语言模型的形态学产出能力和系统性,特别关注土耳其语和芬兰语等黏着性语言。文章中分析了几种最先进的多语言模型,包括GPT-4和Gemini,模型在对新颖词根进行形态学组合时表现不佳,随着形态结构的复杂性增加,性能急剧下降。尽管模型在识别单个形态组合方面优于随机预测,但其表现缺乏系统性,导致与人类的准确性存在显著差距。
地址:https://arxiv.org/pdf/2410.12656
8. 大模型在法律领域的预训练与微调
标题:Impacts of Continued Legal Pre-Training and IFT on LLMs' Latent Representations of Human-Defined Legal Concepts
机构:卡内基梅隆大学
相关领域:模型结构改进、预训练、指令微调
作者:Shaun Ho
分析:这篇论文主要探讨了继续对大型语言模型进行法律预训练和指令微调是否以及如何提高它们在开发全球上下文表示输入序列时对人类定义的法律概念的利用。通过比较三种模型:Mistral 7B,SaulLM-7B-Base(在法律语料库上继续预训练的Mistral 7B)和SaulLM-7B-Instruct(进一步的指令微调),作者评估了七个来自AI&法律文献的不同文本序列,每个都包含一个人类定义的法律概念。研究发现,(1)法律训练的影响在各种人类定义的法律概念中分布不均;(2)法律训练期间学习的上下文法律知识表示与人类定义的法律概念的结构不一致。
地址:https://arxiv.org/pdf/2410.12001
9. Divide-Verify-Refine:使LLM响应与复杂指令对齐
标题:Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions
机构:Amazon、宾夕法尼亚州立大学
相关领域:模型蒸馏、指令微调
作者:Xianren Zhang, Xianfeng Tang, Hui Liu
分析:该论文旨在解决LLM难以遵循包含多个约束的复杂指令的问题。通过创建一个名为Divide-Verify-Refine(DVR)的框架,该框架包含三个步骤:将复杂指令分解为单个约束并进行准备、验证响应并提供可靠的反馈、以及从过去的经验中学习并应用到未来的案例中,以此来改进LLM对复杂指令的响应。
地址:https://arxiv.org/pdf/2410.12207
10. 模型平衡有助于低数据训练和微调
标题:Model Balancing Helps Low-data Training and Fine-tuning
机构:达特茅斯学院、UC伯克利分校、加利福尼亚大学
相关领域:模型结构改进、预训练、微调
作者:Zihang Liu, Yuanzhe Hu, Tianyu Pang
分析:这篇论文关注于基础模型在特定领域的小数据集上如何进行有效训练和微调的问题。它受到自然语言处理和科学机器学习的启发,分析了模型训练中的不平衡问题,并引入了一种新的方法TempBalance,通过平衡不同模型层的训练质量来提高低数据训练和微调的性能。实验证明,随着可用微调数据的减少,TempBalance的性能提升更加明显。
地址:https://arxiv.org/pdf/2410.12178
11. OmnixR: 评估多模态语言模型的原因推理跨模态性能
标题:OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities
机构:马里兰大学、Google、Google DeepMind
相关领域:模型评估、多模态
作者:Lichang Chen, Hexiang Hu, Mingda Zhang
分析:OmnixR介绍了一种评估多模态语言模型(如GPT-4o和Gemini)的方案,该方案可以测试它们在不同模态之间的综合理解和推理能力。传统的评估工具仅限于单一或双模态任务,而OmnixR提供了两个评估版本:一个合成版本(由文本自动转换成音频、图片、视频和混合格式)和一个现实世界版本(由专家手工制作和注释的真实世界数据集)。OmnixR提供了一个独特的跨模态推理测试平台,这是任何现有评估工具所不具备的。研究显示,所有先进的OLMs在面对需要整合多模态信息的问题时都存在困难,这揭示了多模态AI对齐的挑战。
地址:https://arxiv.org/pdf/2410.12219
12. 学习型神经物理仿真用于三维人体姿态重建
标题:Learned Neural Physics Simulation for Articulated 3D Human Pose Reconstruction
机构:Anthropic、Google DeepMind
作者:Mykhaylo Andriluka, Baruch Tabanpour, C. Daniel Freeman
分析:本论文提出了一种新颖的神经网络方法,LARP(学习型关节刚体物理),用于模拟带有接触的动态人体运动。该论文的目标是开发一种比传统物理模拟器更快、更方便的方法,用于计算机视觉任务,如从视频中重建人体运动。为此,该论文引入了一个训练过程和模型组件,支持构建循环神经网络架构以准确模拟带接触的刚体动力学。该论文的神经架构支持传统物理模拟器中常见的特征,如关节马达建模、身体部分的可变尺寸、身体部分与物体之间的接触等,并且在并行运行多个模拟时的速度是传统系统的数千倍。为了证明LARP的价值,该论文在现有的基于视频的重建框架中将其作为成熟的非可微仿真器的替代品,并展示了相对或更好的三维人体姿态重建精度。
地址:https://arxiv.org/pdf/2410.12023
13. 捷径模型实现一步扩散
标题:One Step Diffusion via Shortcut Models
机构:UC伯克利分校
相关领域:模型结构改进
作者:Kevin Frans, Danijar Hafner, Sergey Levine
分析:这篇论文提出了一种新的生成模型——捷径模型,用于加速扩散模型的采样过程。该模型使用一个单一的网络和训练阶段,在一步或多步采样过程中产生高质量样本。捷径模型通过条件化网络,不仅关注当前噪声水平,还关注所需的步长,从而跳过生成过程中的某些步骤。与先前的加速采样方法相比,捷径模型在广泛的采样步长预算范围内始终产生更高质量的样本。
地址:https://arxiv.org/pdf/2410.12557
14. 基于上下文中学习的小型语言模型在机器人动作预测中的应用
标题:In-Context Learning Enables Robot Action Prediction in LLMs
机构:UC伯克利分校
相关领域:模型结构改进、预训练、指令微调、机器人动作预测
作者:Yida Yin, Zekai Wang, Yuvan Sharma
分析:最近,小型语言模型(LLMs)在语言处理领域的基于上下文中学习(ICL)表现出色。然而,将LLMs中的ICL能力直接应用于预测机器人动作并行研究不足。本文提出RoboPrompt框架,它可以通过构建ICL模版,不改变LLM训练状况直接预测机器人动作。该框架首先识别关键帧,这些关键帧描述了程序中的一个重要阶段。接下来,提取关键帧中的末端执行机构动作以及初始物体姿态,并将这些动作转换成文本描述。然后,构建一个结构化的ICL演示模板,其中包括任务命令和文本描述。从而使LLM能够直接在测试时预测机器人动作。实验和分析表明,RoboPrompt在仿真和现实世界中的表现优于零射线和ICL基准性能。
地址:https://arxiv.org/pdf/2410.12782
15. nvTorchCam:一个开放源码的无需相机构模型的可微分几何视觉库
标题:nvTorchCam: An Open-source Library for Camera-Agnostic Differentiable Geometric Vision
机构:英伟达、马里兰大学
相关领域:模型蒸馏、多模态
作者:Daniel Lichy, Hang Su, Abhishek Badki
分析:这篇论文介绍了一个名为nvTorchCam的开放源码库,该库旨在使深度学习算法相机构模型无关。nvTorchCam通过抽象关键相机操作,如投影和逆投影,允许开发者在一次实现中应用算法于多种相机模型,包括针孔相机、鱼眼相机和360度等圆切法全景相机,这些在汽车和房地产领域应用广泛。此库基于PyTorch,支持GPU加速和批处理,使得计算更加高效。此外,针对某一相机类型训练的深度学习模型可以直接用于其他相机类型,无需额外调整。
地址:https://arxiv.org/pdf/2410.12074
代码:https://github.com/NVlabs/nvTorchCam
16. HumanEval-V: 通过编程任务评估大型多模态模型在视觉理解和推理方面的能力
标题:HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
机构:武汉大学、清华大学、浙江大学
相关领域:模型评估、数据集构建、多模态
作者:Fengji Zhang, Linquan Wu, Huiyu Bai
分析:本文介绍了一个旨在评估大型多模态模型在视觉理解和推理方面能力的编程任务基准,名为HumanEval-V。该基准从代码挑战和Stack Overflow等平台中精心挑选出108个入门级Python编程任务,并对这些任务进行了修改,以包含视觉元素。实验结果表明,当前的大型多模态模型在视觉推理和编程能力方面存在显著不足,揭示了未来研究需要改进的关键领域。
地址:https://arxiv.org/pdf/2410.12381
代码:https://github.com/HumanEval-V/HumanEval-V-Benchmark
17. MFC-EQ: 对协作自动驾驶车辆阵列的明场控制与Q学习研究
标题:MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation
机构:麻省理工学院
相关领域:模型结构改进、多模态
作者:Qiushi Lin, Hang Ma
分析:本文探索了协作自动驾驶车辆阵列(MAiF)的分散式版本,以此为多智能体路径规划问题的一个变体。MAiF旨在为多个智能体规划无碰撞路径,旨在快速达到目标同时保持所需阵列形态。针对智能体的局部观察和有限通信,它们必须在不完整信息情况下平衡上述目标。随着智能体数量增加,维护阵列状态所需维度呈指数增长,导致学习过程变得不可行。另外,设想一个单一政策能够处理对这两个目标的不同线性偏好模式,构成了一项巨大挑战。本文提出了一种名为'Mean-Field Control with Envelope Q-learning (MFC-EQ)'的规模化且适应性强的学习框架。利用平均场理论近似所有智能体的动态,并通过 envelop Q-learning 学习一个对偏好不敏感的通用政策。该研究结果表明MFC-EQ在多个实例中的性能优于现有的集中式MAiF基准。此外,MFC-EQ成功处理动态变化的阵列形态,这是现有MAiF规划器无法解决的问题。
地址:https://arxiv.org/pdf/2410.12062
18. WorldMedQA-V:一个用于多模态语言模型评估的多语种医学考试数据集
标题:WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation
机构:麻省理工学院
相关领域:数据集构建、多模态
作者:João Matos, Shan Chen, Siena Placino
分析:这篇论文介绍了一个更新的多语种、多模态基准数据集WorldMedQA-V,用于评估医疗保健中的多模态语言模型。该数据集包含来自四个国家的医学图像和相应的标签,旨在更好地匹配AI系统在各种医疗保健环境中的应用,促进更公平、有效和代表性的应用。
地址:https://arxiv.org/pdf/2410.12722
19. SELF-BART:基于SELFIES的分子表示模型
标题:SELF-BART : A Transformer-based Molecular Representation Model using SELFIES
机构:IBM研究院
相关领域:分子数据处理、大模型
作者:Indra Priyadarsini, Seiji Takeda, Lisa Hamada
分析:这篇论文主要介绍了一种基于Transformer的分子表示模型,该模型使用BART作为编码器-解码器结构,并通过训练在分子字符串表示(SELFIES)上进行优化。这种新的分子表示方法可以用于药物发现、化学建模和材料设计等应用中,从而提高对分子数据的分析和操作效率。
地址:https://arxiv.org/pdf/2410.12348
20. 语言模型代理在推荐系统中的道德案例
标题:The Moral Case for Using Language Model Agents for Recommendation
机构:麻省理工学院
相关领域:自然语言处理,推荐系统
作者:Seth Lazar, Luke Thorburn, Tian Jin
分析:该论文生活的信息传播环境并未达到网络全球交流可能达到的理想状态。分析其病态原因并非易事,但现有的推荐系统很可能对此起到了推动作用。在这篇论文中,该论文运用计算哲学的规范性工具,结合自然语言处理和推荐系统领域的实证和技术见解,为一种替代方法做出道德辩护。该论文主张现有的推荐系统会鼓励大规模监控、集中权力、中毒于狭隘的行为主义,并降低用户代理权。不应只是尝试完全避免算法,或对现有范式进行逐步改进,研究人员和工程师应探索一种新的范式:使用语言模型(LM)代理来为其用户偏好和价值观搜集和编辑内容。使用LM代理进行推荐存在一些挑战,包括候选序列生成、计算效率、偏好建模和提示注入等。然而,如果实施成功,LM代理可能会:引导该论文在不依赖大规模监控的情况下浏览数字公共领域;将权力从平台转移到用户手中;优化真正重要的东西,而不仅仅是行为代理;并架构该论文的代理,而不是破坏它。
地址:https://arxiv.org/pdf/2410.12123
21. 基于大模型的通用零次规划精细化编程规划研究
标题:Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming
机构:麻省理工学院
相关领域:模型结构改进
作者:Yilun Hao, Yang Zhang, Chuchu Fan
分析:该文利用大语言模型进行零次规划的精细化编程规划研究。主要解决传统框架无法有效处理复杂规划问题的问题,通过通用大语言模型,将规划问题转化为优化问题,无需特定任务示例即可解决各种规划问题。
地址:https://arxiv.org/pdf/2410.12112
22. DH-VTON: 深度文本驱动的虚拟试穿,基于混合注意力学习策略
标题:DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning
机构:清华大学
相关领域:模型结构改进、预训练
作者:Jiabao Wei, Zhiyuan Ma
分析:本文介绍了一种深度文本驱动的虚拟试穿模型DH-VTON,旨在生成特定人物图像穿着给定衣物。该模型通过混合注意力学习策略和深度服装语义保存模块来解决深度估计过程中对给定参考衣物的微妙语义提取的挑战以及将衣物合成和转换到人体时有效纹理保存的问题。通过充分利用预训练的“按照个人示例绘画”(PBE)方法构建良好的基础,本文首次展示了DH-VTON的处理过程。具体而言,为了提取衣物的深层语义,采用的InternViT-6B作为精细特征学习器,可训练以与具有深度文本语义的大规模固有知识(如“领口”或“腰带”)相匹配,弥补了通常采用的CLIP编码器的不足。此外,文章引入了Garment-Feature ControlNet Plus(GFC+)模块,并提出了一种新的混合注意力策略进行训练,该策略能够适应性地将衣物的细腻特征融入到VTON模型的各个层次中,实现多尺度特征保护效果。在几个代表性数据集上的实验结果表明,本文的方法优于之前的基于扩散和GAN的方法,证明了其在保留衣物细节和生成真实人类图像方面的竞争力。
地址:https://arxiv.org/pdf/2410.12501
23. HerO在AVeriTeC:验证现实世界声明的公共大模型的群
标题:HerO at AVeriTeC: The Herd of Open Large Language Models for Verifying Real-World Claims
机构:Adobe Research
相关领域:多模态, 模型评估, 数据集构建
作者:Yejun Yoon, Jaeyoon Jung, Seunghyun Yoon
分析:本论文探讨了一个系统,该系统仅使用公开可用的大型语言模型(LLMs)来进行自动化事实检查的每个步骤,名为验证现实世界声明的公共大型语言模型的群(HerO)。HerO在每个自动化事实检查步骤中采用多个LLMs。在证据检索环节,使用语言模型增强查询,生成假设事实检查文档。通过结合检索的上下文示例,为预训练和微调的LLMs进行问题生成和可信度预测的提示。使用AVeriTeC共享任务的FeVER-24平台,HerO在领英榜上获得了第二名,得分0.57,这表明了公共LLMs在验证现实世界声明方面的潜力。将该系统代码公开发布在https://github.com/ssu-humane/HerO.
地址:https://arxiv.org/pdf/2410.12377
代码:https://github.com/ssu-humane/HerO
24. 多维数据上的迁移学习:神经网络基元建模的新颖方法
标题:Transfer Learning on Multi-Dimensional Data: A Novel Approach to Neural Network-Based Surrogate Modeling
机构:斯坦福大学
作者:Adrienne M. Propp, Daniel M. Tartakovsky
分析:该论文提出了一种新的基于神经网络的模型替代方法,用于高效地生成复杂的、多尺度的系统-系统的部分微分方程(PDE)的替代品。由于卷积神经网络(CNNs)在捕获高维输入输出映射方面成功,并且前向传播的成本可以忽略不计,因此它们被看作是构建此类替代模型的基础。然而,由于生成训练数据(通常通过经典的数值求解器来实现)的高昂成本,这些模型是否值得追求,以及是否有更简单、有明确理论基础的替代方案(如蒙特卡洛方法)的问题引起了关注。为了降低数据生成的成本,作者提出利用数值解和其近似之间的效率优势,在两者的数据上训练一个全卷积的编码解码CNN。在一个多相流测试问题上,作者使用迁移学习来训练一个密集的全卷积编码解码CNN。从一个样本的不确定性量化任务中得到的数值结果表明,这种替代模型比蒙特卡洛方法的表现要好得多,而且所需的数据生成预算要低几个数量级。
地址:https://arxiv.org/pdf/2410.12241
25. DISP-LLM: 维度独立结构剪枝 for Large Language Models
标题:DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
机构:三星美国研究院、佛罗里达州立大学
相关领域:模型结构改进
作者:Shangqian Gao, Chi-Heng Lin, Ting Hua
分析:这篇论文提出了一种名为DISP-LLM的维度独立结构剪枝方法,旨在减少大型语言模型(LLMs)的计算内存和能耗,同时保持模型性能。与传统的结构剪枝方法不同,该方法消除了对结构之间依赖性的限制,允许不同部分使用不同的特征子集,并且增强了结构剪枝的灵活性。实验证明,该方法在保持较高准确性的同时,比半结构剪枝方法首次实现了与结构剪枝相当的精度。
地址:https://arxiv.org/pdf/2410.11988
26. 基于RosePO的大模型推荐器与人类价值观对齐研究
标题:RosePO: Aligning LLM-based Recommenders with Human Values
机构:腾讯
相关领域:模型结构改进、预训练、模型评估
作者:Jiayi Liao, Xiangnan He, Ruobing Xie
分析:论文提出了一种名为RosePO的通用框架,用于构建与人类价值观对齐的大型语言模型(LLM)推荐器。在训练后期阶段融入个性化偏好优化机制,设计拒绝采样策略增强推荐的有用性,同时采用两种策略减少偏见以促进无害性。引入个性化平滑因子应对自动构建偏好数据中的不确定标签问题。通过三个真实数据集评估表明,该框架不仅提高了推荐性能,还缓解了语义幻觉和热门偏见。
地址:https://arxiv.org/pdf/2410.12519
27. 揭示语言代理在规划中的障碍
标题:Revealing the Barriers of Language Agents in Planning
机构:复旦大学、字节跳动、卡内基梅隆大学
相关领域:语言模型
作者:Jian Xie, Kexun Zhang, Jiangjie Chen
分析:自人工智能诞生以来,自主规划便一直在进行中。早期的问题解决者可以根据特定任务提供精确的解决方案,但缺乏概括性。大型语言模型的出现及强大的推理能力再次点燃了自动驾驶规划的兴趣,通过自动生成合理的解决方案来应对给定的任务。然而,现有的语言代理仍然无法达到人类级别的规划能力。即使是目前最先进的推理模型,OpenAI o1,在复杂的实际规划基准测试中也只取得了15.6%。这突显了一个关键问题:什么阻碍了语言代理实现人类级别的规划能力?尽管已有研究关注到代理规划性能的不足,但潜在的深层次问题和提出解决这些问题的策略和机制仍未充分理解。在这项工作中,该论文应用特征归因研究,确定了两个阻碍代理规划的关键因素:约束作用的有限性和问题的影响减弱。该论文还发现,尽管现有策略有助于缓解这些挑战,但它们并未完全解决这些问题,这表明代理仍需进一步提高智力,以达到人类级别。
地址:https://arxiv.org/pdf/2410.12409
28. 异构教师与学生知识蒸馏的辅助模型
标题:TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
机构:腾讯、武汉大学
相关领域:大语言模型
作者:Guopeng Li, Qiang Wang, Ke Yan
分析:本文旨在提出一种在大语言模型中应用的辅助模型,以缓解异构教师和学生在知识蒸馏过程中的特征匹配问题。该方法引入了一种辅助模型,可以有效地将异构教师的知识迁移到任意学生上。该辅助模型将学生的卷积和注意力模块与教师的模块相结合,以此来融合跨架构的归纳偏差和模块功能。同时,该方法解决了异构特征在空间上分布不同的问题,从而提高了特征对齐的有效性。本文的方法在CIFAR-100和ImageNet-1K上分别得到了11.47%和3.67%的最大改进。
地址:https://arxiv.org/pdf/2410.12342
29. DaDiff:具备领域意识的扩散模型用于夜间无人机跟踪
标题:DaDiff: Domain-aware Diffusion Model for Nighttime UAV Tracking
机构:香港大学
相关领域:模型结构改进、数据集构建
作者:Haobo Zuo, Changhong Fu, Guangze Zheng
分析:这篇论文提出了一种解决无人机夜间跟踪中白天/夜间图像特征不匹配问题的领域适应方法,尤其是应对了夜间从无人机视角观测到的低分辨率物体所带来的模糊边缘轮廓和有限细节信息的挑战。它还解决了在夜间噪声干扰下难以识别低分辨率物体的问题。论文提出了一种新型的逐步对齐框架,即领域意识扩散模型(DaDiff),通过逐步稳定生成的方式来将夜间低分辨率物体特征对齐到日间的特征中。该模型包含了增强夜间低分辨率物体细节的对齐编码器、专门设计用于与跟踪任务紧密协作的跟踪导向层以及在每个扩散时间步骤中依次区分不同特征分布的连续分布鉴别器。此外,论文构建了一个针对夜间目标的低分辨率无人机跟踪数据集(NUT-LR),包括100个标注的序列,进行了详尽的实验证明了该模型的强大对齐能力和鲁棒性。
地址:https://arxiv.org/pdf/2410.12270
代码:https://github.com/vision4robotics/DaDiff
30. 密度感知训练后权重唯一量化技术(DAQ)在大模型中的应用
标题:DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs
机构:浙江大学
相关领域:模型评估、模型结构改进
作者:Yingsong Luo, Ling Chen
分析:论文提出一种名为密度感知训练后权重唯一量化(DAQ)的技术,用于解决大语言模型(LLMs)部署时的硬件限制问题。该技术分为两个阶段:第一阶段是密度中心对齐,识别高密度权重的中心并将动态范围与此点对齐,以将高密度权重区域与浮点高精度区域对齐;第二阶段是可学习动态范围调整,通过优化量化参数(即比例尺和零点)来调整动态范围,根据权重对模型输出的影响来确定这些参数。实验表明,DAQ在LLaMA和LLaMA-2上的表现均优于最佳基线方法,平均减少了困惑度损失。
地址:https://arxiv.org/pdf/2410.12187
代码:https://anonymous.4open.science/r/DAQ-E747
31. 表格语言模型专家Table-LLM-Specialist:利用迭代生成器验证器微调针对表格任务的模型
标题:Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning
相关领域:模型评估、指令微调
地址:https://arxiv.org/pdf/2410.12164
代码:https://github.com/microsoft/Table-LLM-Specialist
32. MoE-Pruner:基于路由提示的专家混合大模型的剪枝方法
标题:MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router
机构:东北大学、字节跳动
相关领域:模型结构改进、模型蒸馏
地址:https://arxiv.org/pdf/2410.12013
33. ConLUX: 基于概念的局部统一解释
标题:ConLUX: Concept-Based Local Unified Explanations
机构:北京大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.12439
34. 大模型提示压缩:综述
标题:Prompt Compression for Large Language Models: A Survey
机构:剑桥大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.12388
35. 基于提示的知识图谱基础模型用于通用上下文推理
标题:A Prompt-Based Knowledge Graph Foundation Model for Universal In-Context Reasoning
机构:南京大学
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2410.12288
代码:https://github.com/nju-websoft/KG-ICL
36. CoFE-RAG:检索增强生成全链式评估框架:增强数据多样性的全面评估方法
标题:CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity
机构:中国科学院大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.12248
37. 理解大模型在多模态评估基准中的角色
标题:Understanding the Role of LLMs in Multimodal Evaluation Benchmarks
机构:复旦大学、香港大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.12329
38. 探索模型亲缘关系以合并大模型
标题:Exploring Model Kinship for Merging Large Language Models
机构:浙江大学、新加坡国立大学
相关领域:模型亲缘性、模型理解、模型合并结果
地址:https://arxiv.org/pdf/2410.12613
代码:https://github.com/zjunlp/ModelKinship
39. Yama:基于精确指令码的数据流分析,用于检测PHP应用程序漏洞
标题:Yama: Precise Opcode-based Data Flow Analysis for Detecting PHP Applications Vulnerabilities
机构:国防科技大学
地址:https://arxiv.org/pdf/2410.12351
40. MambaBEV:基于Mamba2的高效3D检测模型
标题:MambaBEV: An efficient 3D detection model with Mamba2
机构:东南大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.12673
41. 缓解无意改变来塑造稳定的视频,为概念增强视频编辑塑造一致性
标题:Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing
机构:浙江大学、合肥工业大学
相关领域:['模型结构改进', '预训练', '指令微调', '奖励模型', 'RLHF', '模型评估', '数据集构建', '评估指标', '模型蒸馏', '多模态']
地址:https://arxiv.org/pdf/2410.12526
42. 利用大型视觉语言模型进行更好的自动Web GUI测试
标题:Leveraging Large Vision Language Model For Better Automatic Web GUI Testing
机构:香港科技大学
相关领域:大模型、视觉语言模型、网络测试
地址:https://arxiv.org/pdf/2410.12157
43. mRNA语言建模的层次编码研究
标题:HELM: Hierarchical Encoding for mRNA Language Modeling
机构:中佛罗里达大学
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2410.12459
44. StyleDistance:用合成平行示例训练更强的内容独立的风格嵌入
标题:StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples
机构:哥伦比亚大学、宾夕法尼亚大学
相关领域:自然语言处理
地址:https://arxiv.org/pdf/2410.12757
代码:https://huggingface.co/StyleDistance/styledistance
45. Devil in the Tail:一种用于长尾区别的多模态药物相互作用预测框架
标题:Devil in the Tail: A Multi-Modal Framework for Drug-Drug Interaction Prediction in Long Tail Distinction
机构:阿德莱德大学
相关领域:模型结构改进、数据集构建、评估指标
地址:https://arxiv.org/pdf/2410.12249
代码:https://github.com/IcurasLW/TFMD_Longtailed_DDI.git
46. CVAL: 一种新颖的跨模态关联学习框架用于视觉语言预训练
标题:CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training
机构:华中科技大学
相关领域:模型结构改进、预训练、跨模态学习
地址:https://arxiv.org/pdf/2410.12595
47. 基于大模型的对学生认知误解的建模研究
标题:Towards LLM-based Cognitive Models of Students with Misconceptions
机构:莱斯大学、苏黎世联邦理工学院
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2410.12294
48. 不是所有投票都有效!程序验证提高语言模型数学推理的自身一致性
标题:Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning
机构:新加坡科技与设计大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.12608
代码:https://github.com/declare-lab/prove
49. 事实主观性感知推理增强LLM交易性能
标题:Enhancing LLM Trading Performance with Fact-Subjectivity Aware Reasoning
机构:新加坡国立大学
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2410.12464
代码:https://anonymous.4open.science/r/FS-ReasoningAgent-B55F/
50. EmotionCaps: 增强音频字幕通过情感增强数据生成
标题:EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2410.12028
51. CREAM:一致性正则化的自奖励语言模型
标题:CREAM: Consistency Regularized Self-Rewarding Language Models
相关领域:奖励模型,RLHF,模型评估
地址:https://arxiv.org/pdf/2410.12735
代码:https://github.com/Raibows/CREAM
52. VividMed:医学视觉语言模型与多功能视觉定位
标题:VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.12694
代码:https://github.com/function2-llx/MMMM
53. 深度驱动分离式实例合成:用于文本到图像生成的研究
标题:3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.12669
代码:https://github.com/limuloo/3DIS
54. DocLayout-YOLO:通过多样合成数据和全局到局部自适应感知的增强
标题:DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
相关领域:模型结构改进、预训练、数据集构建
地址:https://arxiv.org/pdf/2410.12628
代码:https://github.com/opendatalab/DocLayout-YOLO
55. STRUX: 一种带有结构化解释的LLM决策框架
标题:STRUX: An LLM for Decision-Making with Structured Explanations
机构:埃默里大学、中佛罗里达大学
相关领域:模型结构改进、指令微调、模型评估、评估指标
地址:https://arxiv.org/pdf/2410.12583
56. OMCAT:全方位上下文感知Transformer
标题:OMCAT: Omni Context Aware Transformer
机构:英伟达
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.12109
代码:https://om-cat.github.io
57. 可控图像文本合成用于数据高效的 multimodal 学习
标题:CtrlSynth: Controllable Image Text Synthesis for Data-Efficient Multimodal Learning
机构:Apple
相关领域:模型结构改进、预训练、指令微调、可控合成
地址:https://arxiv.org/pdf/2410.11963
58. Reversal of Thought:以偏好引导的逆向推理热身策略提升大模型的逻辑能力
标题:Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up
机构:华东师范大学、澳大利亚悉尼麦考瑞大学
相关领域:模型结构改进、模型评估
地址:https://arxiv.org/pdf/2410.12323
59. 利用大模型推理能力推断法律信息检索中的隐含概念
标题:Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval
机构:皇家墨尔本理工大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.12154
60. 深度表格学习的研究综述
标题:A Survey on Deep Tabular Learning
相关领域:模型结构改进、预训练、多模态(结合表格数据和语言模型的应用)
地址:https://arxiv.org/pdf/2410.12034
61. 我们可以逆转上下文知识编辑吗?
标题:Can We Reverse In-Context Knowledge Edits?
机构:曼海姆大学、谢菲尔德大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.12586
62. Layer-of-Thoughts Prompting (LoT):利用基于LLM的检索与约束层次过滤
标题:Layer-of-Thoughts Prompting (LoT): Leveraging LLM-Based Retrieval with Constraint Hierarchies
相关领域:模型检索、模型应用
地址:https://arxiv.org/pdf/2410.12153
63. 逻辑结构树提升大模型中的逻辑谬误推理
标题:Boosting Logical Fallacy Reasoning in LLMs via Logical Structure Tree
机构:德克萨斯农工大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.12048
64. Weak-to-Strong Generalization beyond Accuracy:在安全性、毒性与法律推理方面的初步研究
标题:Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning
相关领域:模型评估、评估指标
地址:https://arxiv.org/pdf/2410.12621
代码:https://github.com/yeruimeng/WTS.git
65. 一个用于长答案验证的主张分解基准
标题:A Claim Decomposition Benchmark for Long-form Answer Verification
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.12558
代码:https://github.com/FBzzh/CACDD
66. 约束编程解决并行批处理调度中的不兼容作业家族问题
标题:Parallel Batch Scheduling With Incompatible Job Families Via Constraint Programming
机构:乔治亚理工学院
地址:https://arxiv.org/pdf/2410.11981
67. Beyond Sequence:几何上下文对RNA属性预测的影响
标题:Beyond Sequence: Impact of Geometric Context for RNA Property Prediction
机构:宾夕法尼亚州立大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.11933
68. SAFREE:无需训练的文本到图像和视频安全生成卫士
标题:SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2410.12761
69. WorldCuisines:一种大规模多语言多文化的视觉问题回答基准
标题:WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.12705
70. 云计算深度学习系统在多源数据预测中的应用
标题:Optimization and Application of Cloud-based Deep Learning Architecture for Multi-Source Data Prediction
机构:加州大学、波士顿大学、乔治亚理工学院
地址:https://arxiv.org/pdf/2410.12642
71. MedAide:面向医疗的多代理协作大模型
标题:MedAide: Towards an Omni Medical Aide via Specialized LLM-based Multi-Agent Collaboration
相关领域:医疗、大型语言模型
地址:https://arxiv.org/pdf/2410.12532
72. KcMF:无需特定微调的大模型的知识适配框架用于模式和实体匹配
标题:KcMF: A Knowledge-compliant Framework for Schema and Entity Matching with Fine-tuning-free LLMs
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2410.12480
73. Triple Modality Fusion:利用大模型对齐视觉、文本和图数据的多行为推荐
标题:Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations
相关领域:多模态、模型结构改进(因为使用大型语言模型进行对齐和三模态融合)
地址:https://arxiv.org/pdf/2410.12228
74. 负激励导向的生成式语言模型对齐
标题:Negative-Prompt-driven Alignment for Generative Language Model
机构:东南大学
相关领域:模型结构改进、预训练、对齐方法
地址:https://arxiv.org/pdf/2410.12194
75. DocETL:面向复杂文档处理的查询重写与评估系统
标题:DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing
机构:哥伦比亚大学、UC伯克利分校
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2410.12189
76. Iter-AHMCL:通过迭代模型级对比学习缓解大模型的幻觉问题
标题:Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2410.12130
77. 技能提取专用语言模型:通用大模型的复用
标题:Skill-LLM: Repurposing General-Purpose LLMs for Skill Extraction
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.12052
78. Toolken+:通过重排序和拒绝选项提升LLM工具使用效率
标题:Toolken+: Improving LLM Tool Usage with Reranking and a Reject Option
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2410.12004
79. 高效的线性对抗训练优化算法
标题:Efficient Optimization Algorithms for Linear Adversarial Training
相关领域:模型结构改进、优化算法
地址:https://arxiv.org/pdf/2410.12677
80. SeQuiFi:在语音情感识别中通过顺序类微调缓解灾难性遗忘
标题:SeQuiFi: Mitigating Catastrophic Forgetting in Speech Emotion Recognition with Sequential Class-Finetuning
相关领域:模型蒸馏
地址:https://arxiv.org/pdf/2410.12567
81. Expand and Compress:探索持续时空图预测调优原则
标题:Expand and Compress: Exploring Tuning Principles for Continual Spatio-Temporal Graph Forecasting
地址:https://arxiv.org/pdf/2410.12593
82. SF-Speech:小规模数据集上的直线路径flow
标题:SF-Speech: Straightened Flow for Zero-Shot Voice Clone on Small-Scale Dataset
相关领域:模型结构改进、上下文学习、模型评估
地址:https://arxiv.org/pdf/2410.12399
83. Pyramid-Driven Alignment:金字塔原则指导大模型与知识图谱的集成
标题:Pyramid-Driven Alignment: Pyramid Principle Guided Integration of Large Language Models and Knowledge Graphs
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.12298
84. Consistency Calibration:通过扰动邻居之间的一致性改进不确定性校准
标题:Consistency Calibration: Improving Uncertainty Calibration via Consistency among Perturbed Neighbors
机构:香港城市大学
地址:https://arxiv.org/pdf/2410.12295
85. 复杂查询回答真的复杂吗?
标题:Is Complex Query Answering Really Complex?
机构:爱丁堡大学、斯图加特大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.12537
86. FiRST: Transformer层选择性微调方法以实现输入自适应的延迟降低
标题:FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction
机构:Adobe Research
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.12513
87. 端到端规划训练用于语言建模
标题:End-to-end Planner Training for Language Modeling
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.12492
88. Insights from the Inverse:通过逆向强化学习重建大模型的训练目标
标题:Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL
相关领域:奖励模型、RLHF
地址:https://arxiv.org/pdf/2410.12491
89. 基于经验回放的大模型代码生成优化策略
标题:Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay
机构:西北大学、武汉大学
相关领域:模型评估、大模型的改进优化领域(非子研究领域细化)
地址:https://arxiv.org/pdf/2410.12236
90. 大规模文本数据中数据库操作的全面推理:以长语境语言模型为基准的基准测试
标题:Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data
相关领域:模型评估
地址:https://arxiv.org/pdf/2410.11996
91. FLARE:逻辑辅助的推理与探索
标题:FLARE: Faithful Logic-Aided Reasoning and Exploration
相关领域:模型结构改进、预训练、指令微调
地址:https://arxiv.org/pdf/2410.11900
92. Building Better:数据稀缺时避免开发语言资源的陷阱
标题:Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce
相关领域:数据集构建
地址:https://arxiv.org/pdf/2410.12691
93. Decline Now:一种组合模型的算法集体行动
标题:Decline Now: A Combinatorial Model for Algorithmic Collective Action
相关领域:模型结构改进、模型评估、集体行动、劳动力供应
地址:https://arxiv.org/pdf/2410.12633
94. 无位置编码情况下Transformer对层次语言识别与生成的理论分析
标题:Theoretical Analysis of Hierarchical Language Recognition and Generation by Transformers without Positional Encoding
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2410.12413
95. 大规模填空评估揭示了标记预测任务既不词汇上对齐,也不在语义上对齐
标题:Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2410.12057
96. Pixology:探究像素级语言模型的语言和视觉能力
标题:Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models
相关领域:语言模型, 视觉语言
地址:https://arxiv.org/pdf/2410.12011
97. EEG-To-Text Decoder中激活函数的作用
标题:On the Role of Activation Functions in EEG-To-Text Decoder
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2410.12572
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~