前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。
1. Training Data Attribution:我的模型是否秘密使用了你的数据?
标题:Training Data Attribution: Was Your Model Secretly Trained On Data Created By Mine?
相关领域:模型评估、数据集构建
作者:Likun Zhang, Hao Wu, Lingcui Zhang
分析:这篇论文关注文本生成图像模型的训练数据归属问题,探讨如何验证某个模型的训练数据是否来源于特定的源模型。论文提出了一种无需注入的源模型训练数据归属方法,通过挖掘文本生成图像模型的记忆特性,识别出侵权模型的训练数据来源。该方法无需对源模型进行额外修改,具有较高的准确性和实用性。
地址:https://arxiv.org/pdf/2409.15781
2. 上下文学习可能无法激发可信推理:预训练语言模型中的A-Not-B错误
标题:In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models
机构:加州理工学院、伊利诺伊大学
相关领域:模型评估
作者:Pengrui Han, Peiyang Song, Haofei Yu
分析:论文探讨预训练语言模型(LLM)在上下文学习(ICL)中遇到的信任问题。通过设计类似A-Not-B实验的多项选择题场景,系统性测试LLM的抑制控制能力。研究发现,尽管LLM在ICL中表现良好,但当上下文发生微小变化时,它们在推理任务中的错误率高达83.3%,显示出与婴儿相似的抑制控制能力缺陷,无法抑制先前建立的响应模式。
地址:https://arxiv.org/pdf/2409.15454
3. 大模型微调:如果校准,那么微调就是好的
标题:Fine-Tuning is Fine, if Calibrated
机构:俄亥俄州立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Zheda Mai, Arpita Chowdhury, Ping Zhang
分析:这篇论文探讨了微调预训练模型的问题。虽然微调是将预训练模型适应特定任务最直接的方式,但是可能会丧失预训练模型学到的宝贵知识。例如,将可以识别大量类别的预训练分类器微调以掌握手头的少数类别,会显著降低其在之前学习的其他类别上的准确性。然而,该论文发现微调后的模型并没有忘记其他类别之间的关系,也没有降低识别这些类别的特征,反而往往为这些其他类别生成了更有区分度的特征。实际上,影响准确率的是微调类别之间的不一致的logit尺度,这意味着简单的后处理校准就可以恢复预训练模型的能力,同时揭示了所有类别上的特征改进。该论文的研究结果经过了广泛的实证检验,并提供了初步的理论解释,为未来的理论研究指明了新的方向。
地址:https://arxiv.org/pdf/2409.16223
代码:https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated
4. 针对问答任务微调大型语言模型的实证见解
标题:Empirical Insights on Fine-Tuning Large Language Models for Question-Answering
机构:复旦大学
相关领域:自然语言处理、问答系统、模型微调
作者:Junjie Ye, Yuming Yang, Qi Zhang
分析:大模型语言理解在大的语言模型产出中扮演着重要角色。这些模型在预训练阶段就学习到了大量的语言知识,并可以将这些知识编码在模型中。当这些模型用于问答任务时,只需要进行微调就可以快速有效地解决问题。不同的模型在微调过程中需要的数据量也不同,这就是本研究要解决的问题。本研究的实验结果发现,即使只需要60个数据点,也可以激活模型在预训练阶段所学到的知识,从而让模型完成问答任务。同时,实验还发现,不同的模型在微调阶段对不同数据量的敏感性也不同,这是通过实验所得到的一个新的发现。
地址:https://arxiv.org/pdf/2409.15825
5. 时间序列混合专家模型Time-MoE:百亿级时间序列基础模型的构建与预训练
标题:Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
机构:普林斯顿大学
相关领域:模型结构改进、预训练
作者:Xiaoming Shi, Shiyu Wang, Yuqi Nie
分析:这篇论文针对时间序列预测领域面临的挑战,提出了一种可扩展的统一架构Time-MoE。该架构采用稀疏的混合专家(MoE)设计,提高了计算效率,降低了预测成本,并能有效地处理大规模时间序列数据。论文通过引入新的大规模数据集Time-300B进行预训练,成功将时间序列基础模型扩展到超过2.4亿参数,显著提高了预测精度。
地址:https://arxiv.org/pdf/2409.16040
6. ControlMath: 可控数据生成促进数学全才模型
标题:ControlMath: Controllable Data Generation Promotes Math Generalist Models
机构:微软、香港科技大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Nuo Chen, Ning Wu, Jianhui Chang
分析:这篇论文提出了一种名为ControlMath的方法,该方法结合了大型语言模型(LLMs)进行数据增强以提高数学推理能力。然而,这种方法在问题多样性方面面临限制,可能仅限于特定领域或分布的数据生成。为了解决这个问题,ControlMath使用一个方程生成器模块和两个基于LLM的代理。方程生成器模块产生多样化的方程式,然后由Problem-Crafter代理转换为数学字谜问题。Reverse-Agent过滤器并选择高质量的数据,遵循“少即是多”的原则,使用较少的数据点获得更好的结果。这种方法能够生成多样化的数学问题,而不局限于特定的领域或分布。因此,该论文收集了ControlMathQA,其中包含190k个数学字谜问题。大量的实验结果证明,将该论文的数据集与域内数据集(如GSM8K)相结合,可以帮助提高模型的数学泛化能力,从而在特定领域之外和内部都提高性能。
地址:https://arxiv.org/pdf/2409.15376
7. 循环Transformers用于长度泛化
标题:Looped Transformers for Length Generalization
机构:威斯康星大学、麻省理工学院、UC伯克利分校
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
作者:Ying Fan, Yilun Du, Kannan Ramchandran
分析:这篇论文主要探讨了如何通过改进Transformer模型来提高其在处理长度不同输入数据时的泛化能力。作者提出了一种名为“循环Transformers”的新型模型,该模型具有自适应步数的能力,可以有效地解决长度泛化问题。具体来说,作者针对具有已知迭代解的问题进行了研究,这些问题涉及到一个名为RASP-L的操作,这是一个可以被有限大小的Transformer表示的长度泛化操作。通过使用提出的学习算法,循环Transformers能够学习到适用于各种任务的高度泛化解决方案。
地址:https://arxiv.org/pdf/2409.15647
8. 智谱AI发布全球首款芯片级混合架构实现设备端70B参数大模型推理
标题:Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inference of 70B LLM
机构:北京大学、中国科学院大学、中国科学技术大学
相关领域:大模型
作者:Zhongkai Yu, Shengwen Liang, Tianyun Ma
分析:智谱AI公司发布了全球首款芯片级混合架构——Cambricon-LLM,该架构集成了NPU(神经处理单元)和专用的NAND闪存芯片,可实现设备端的70B参数大语言模型推理。这一混合架构实现了芯片的高效运算能力和NAND闪存的数据容量的高效利用,同时提出了创新的硬件分割策略,以最小化NPU与NAND闪存芯片之间的数据传输开销。具体来说,NAND闪存芯片通过智谱AI的创新计算技术和内嵌错误纠正技术实现轻量级的内嵌处理,与此同时,NPU与闪存芯片合作进行矩阵运算,并处理闪存在内嵌处理能力之外的特殊函数计算。总体而言,Cambricon-LLM架构实现了在设备端以3.44个令牌/秒的速度实现70B参数大语言模型推理,以36.34个令牌/秒的速度实现7B参数大语言模型推理,这是现有闪存卸载技术的22倍至45倍,展示了在边缘设备上部署强大大语言模型的潜力。
地址:https://arxiv.org/pdf/2409.15654
9. Approximated Orthogonal Projection Unit:利用自然梯度稳定回归网络训练
标题:Approximated Orthogonal Projection Unit: Stabilizing Regression Network Training Using Natural Gradient
机构:浙江大学
作者:Shaoqi Wang, Chunjie Yang, Siwei Lou
分析:这篇论文提出了一种名为近似正交投影单元(AOPU)的新型神经网络,该网络具有坚实的数学基础,并呈现出优越的训练稳定性。它通过截断梯度反向传播,优化参数更新,增强训练稳健性,实现了网络训练过程的稳定。在软传感器领域的工业在线优化中,具有重要应用价值。
地址:https://arxiv.org/pdf/2409.15393
10. Small Language Models:综述、测量与洞察
标题:Small Language Models: Survey, Measurements, and Insights
相关领域:模型结构改进、数据集构建
作者:Zhenyan Lu, Xiang Li, Dongqi Cai
分析:这篇论文关注了较小规模的语言模型(SLMs),虽然这些模型在现代智能设备中得到了广泛采用,但在学术上涉及的深度和广度远不如在数据中心和云环境中部署的大规模语言模型(LLMs)。该研究旨在探索让机器智能更加普及、经济实惠且适用于日常任务的途径。论文主要集中于具有100M-5B参数的转换单聚言模型,从架构、训练数据集和训练算法三个维度全面调研了59个先进的开源小语言模型,并对其在常识推理、上下文学习、数学与编程等不同领域的能力进行了评估。此外,通过对比模型的推理延迟和内存占用量,论文深入探索了这些模型在设备上的运行成本。基于复杂的数据分析,论文为该领域的未来研究提供了有价值的见解。
地址:https://arxiv.org/pdf/2409.15790
11. Supervised Fine-Tuning:注意力头激活模式优化过程
标题:Supervised Fine-Tuning: An Activation Pattern Optimization Process for Attention Heads
相关领域:模型蒸馏,预训练,指令微调
作者:Yang Zhao, Li Du, Xiao Ding
分析:该论文研究了在监督式微调过程中,大型语言模型的注意力头激活模式的变化。发现模型在微调阶段会专门激活与任务相关的注意力头,对于复杂任务的激活模式是由基本任务的激活模式组合而成,微调时少数参数的变化可能导致激活模式显著变化。论文通过实验验证了这些发现是否能提高监督式微调的效率和效果,特别是在处理复杂任务时和资源稀缺的情况下。这篇论文揭示了大型语言模型快速学习和泛化机制背后的原因,并为解决复杂和专业任务的数据挑战提供了实际解决方案。
地址:https://arxiv.org/pdf/2409.15820
12. Beyond Turn-Based Interfaces:同步大模型作为全双工对话代理
标题:Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents
相关领域:模型结构改进、预训练、数据集构建、模型评估
作者:Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
分析:这篇论文提出了一种名为同步大型语言模型(Synchronous LLMs)的新机制,用于全双工对话建模。由于预先训练的大型语言模型缺乏“时间”的概念,该机制旨在通过整合时间信息,使得模型能够以同步方式运行,模拟人类对话的全双工特性。论文中介绍了一种使用合成对话数据进行训练的方法,并在不同数据集上训练的模型之间模拟了全双工交互,展示了模型在对话意义和自然性方面的优越表现。
地址:https://arxiv.org/pdf/2409.15594
代码:https://syncllm.cs.washington.edu/
13. DataGpt-SQL-7B:一个用于文本到SQL转换的开源语言模型
标题:DataGpt-SQL-7B: An Open-Source Language Model for Text-to-SQL
相关领域:模型结构改进、数据集构建
作者:Lixia Wu, Peng Li, Junhong Lou
分析:这篇论文提出了一种用于文本到SQL转换的开源语言模型DataGpt-sql,该模型通过构建超过20K的样本数据集以及偏好数据集,提高了SQL生成领域的效率。为了确保生成的代码有效性,该模型还集成了一个代码修正器。实验结果表明,该模型在蜘蛛开发数据集上达到了87.2%的准确率,展示了其在文本到SQL转换任务中的有效性。
地址:https://arxiv.org/pdf/2409.15985
代码:https://github.com/CainiaoTechAi/datagpt-sql-7b
14. Eagle:高效的无训练多大模型路由器
标题:Eagle: Efficient Training-Free Router for Multi-LLM Inference
相关领域:模型评估、多模态
作者:Zesen Zhao, Shuowei Jin, Z. Morley Mao
分析:这篇论文提出了一种名为Eagle的新颖路由方法,旨在解决多大型语言模型(LLM)下的高效模型选择问题。Eagle通过结合全局和本地ELO排名模块,动态地根据任务需求和预算约束来选择最合适的模型。它解决了现有路由器在可扩展性和实时适应性方面的问题,特别适用于高流量的在线环境。实验表明,Eagle在多项指标上优于基线方法,提高了模型选择的效率和质量。
地址:https://arxiv.org/pdf/2409.15518
15. 仅推理引擎在设备上实现LLMs的细粒度调整的资源效率提升研究
标题:Enabling Resource-Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines
机构:南加州大学
相关领域:模型结构改进、模型评估、模型蒸馏
作者:Lei Gao, Amir Ziashahabi, Yue Niu
分析:这篇论文主要解决大型语言模型(LLMs)在资源受限的边缘设备上部署和微调的问题。论文提出了一种资源高效的方法,通过并行随机梯度估计(P-RGE)技术,降低LLMs在受限环境中的微调门槛。该方法实现了显著的运行时间加速和内存节省,同时保持微调精度,为LLMs在实时、设备端应用中的实用部署铺平了道路。
地址:https://arxiv.org/pdf/2409.15520
16. SEAL: 评估LLM API使用能力的工具集
标题:SEAL: Suite for Evaluating API-use of LLMs
机构:康奈尔大学
相关领域:模型评估
作者:Woojeong Kim, Ashish Jagmohan, Aditya Vempaty
分析:论文介绍了SEAL,一个用于评估LLM在真实世界场景中API使用能力的测试平台。该平台解决了现有评估工具普遍存在的局限性,如缺乏广泛性、缺乏多步推理覆盖以及因实时API波动导致的稳定性问题。SEAL通过标准化现有测试工具、集成代理系统和引入基于GPT-4的API模拟器来提供可靠的评估流程,覆盖API检索、调用和最终响应等多个方面。
地址:https://arxiv.org/pdf/2409.15523
17. Persona-L has Entered the Chat:利用大模型和能力框架为具有复杂需求的人创建人物角色
标题:Persona-L has Entered the Chat: Leveraging LLM and Ability-based Framework for Personas of People with Complex Needs
机构:东北大学
相关领域:模型结构改进、多模态
作者:Lipeipei Sun, Tianzi Qin, Anran Hu
分析:该论文提出了一种使用大型语言模型和能力框架创建人物角色的新方法,旨在改善对具有复杂需求用户的表示。传统的人物角色创建方法往往无法准确描述复杂需求的动态和多样性,导致简化或刻板的人物角色。论文介绍了一种通过聊天接口创建和与人物角色交互的方法,并通过对用户体验设计师的访谈评估了其有效性。研究发现,该方法在反映具有复杂需求的真实生活经历方面具有潜力,同时指出了人物角色创建中数据透明度的需求、语言和语气的作用以及平衡表现能力和约束的必要性。
地址:https://arxiv.org/pdf/2409.15604
18. MaskBit:基于位令牌的无嵌入图像生成
标题:MaskBit: Embedding-free Image Generation via Bit Tokens
机构:字节跳动、卡内基梅隆大学
相关领域:模型结构改进、模型评估
作者:Mark Weber, Lijun Yu, Qihang Yu
分析:论文主要介绍了基于掩码转换模型的类条件图像生成方法,通过对VQGAN模型现代化改造,提出了一种新的无嵌入图像生成网络,该网络直接作用于位令牌上,实现了在ImageNet 256x256基准测试上的最新 state-of-the-art 性能。解决了在图像生成领域中,生成高质量图像和高效模型参数使用之间的平衡问题。
地址:https://arxiv.org/pdf/2409.16211
19. 视觉语言模型助力长尾数据挖掘(VLMine)
标题:VLMine: Long-Tail Data Mining with Vision Language Models
相关领域:长尾数据挖掘、大语言模型、图像、识别
作者:Mao Ye, Gregory P. Meyer, Zaiwei Zhang
分析:本文研究了如何利用大语言模型(VLM)解决长尾数据的识别问题,通过关键词频率分析来区分罕见样本。实验在2D图像分类和3D对象检测任务上取得显著提升,验证了VLM对识别长尾数据的独特优势。
地址:https://arxiv.org/pdf/2409.15486
20. Seeing Faces in Things:一个模型和物体中人脸检测的dataset研究
标题:Seeing Faces in Things: A Model and Dataset for Pareidolia
机构:微软、英伟达、麻省理工学院
相关领域:模型结构改进、数据集构建
作者:Mark Hamilton, Simon Stent, Vasha DuTell
分析:研究从一个计算机视觉的角度分析人类视觉系统对各种形状和大小脸的检测能力,并在五个千张网络上进行了有效测试。结果表明,与人类相比,机器在检测动物脸和其他事物的脸上有明显差距。此外,提出了一个简单统计模型来解释这种现象,并确认了模型提出的某些图像条件可能增强人工智脸检测的预测结果。
地址:https://arxiv.org/pdf/2409.16143
代码:https://aka.ms/faces-in-things
21. 利用双向LSTM和注意力机制优化新闻文本分类的效率数据处理
标题:Optimizing News Text Classification with Bi-LSTM and Attention Mechanism for Efficient Data Processing
机构:北京大学、卡内基梅隆大学、UC伯克利分校
作者:Bingyao Liu, Jiajing Chen, Rui Wang
分析:这篇论文提出了一种基于深度学习自动新闻文本分类方案。该解决方案通过引入先进机器学习算法,特别是结合了双向长短期记忆网络(Bi-LSTM)和注意力机制的优化模型,来提高新闻文本的分类效率和管理。实验结果表明,这种方法不仅可以显著提高分类的准确性和时效性,还能大幅减少人工干预的需求。该方案对于新闻行业信息处理能力的提升和信息流加速具有重要实际意义。此外,该方案通过多模型比较分析证明了其实效性和先进性,为未来新闻文本分类研究奠定了坚实基础。
地址:https://arxiv.org/pdf/2409.15576
22. 因果表示学习用于人类行为分析
标题:CauSkelNet: Causal Representation Learning for Human Behaviour Analysis
机构:伦敦大学、清华大学、剑桥大学
相关领域:模型结构改进、因果推断、人类行为分析
作者:Xingrui Gu, Chuyi Jiang, Erte Wang
分析:这篇论文提出了一个基于因果推断的全新表示学习方法,旨在更好地理解人类关节动力学和复杂行为。该方法是一个两阶段的框架,结合了彼得-克拉克(PC)算法和KL散度来识别和量化关节之间的因果关系。该研究有效捕捉了相互作用并产生了可解释的、鲁棒的表示。在EmoPain数据集上的实验结果表明,该因果GCN在准确性和F1分数上 outperformed传统GCNs,尤其是在检测保护行为方面表现尤其出色。模型还很高程度地抵御了数据尺度变化的影响,增强了其在实际应用中的可靠性和可靠性。这种方法推动了人类运动分析的发展,并为更适应的智能健康解决方案铺平了道路。
地址:https://arxiv.org/pdf/2409.15564
23. StyleSinger 2: 在无样例情况下,通过风格转移和多级风格控制的即兴歌声合成
标题:StyleSinger 2: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
机构:浙江大学
相关领域:模型结构改进、指令微调、风格转移
作者:Yu Zhang, Ziyue Jiang, Ruiqi Li
分析:这篇论文主要探讨了在音乐领域中,在没有实际样例的情况下,如何通过文本提示生成高质量的歌声,涉及声音风格的风格转移和多级风格控制。论文中提出了解决音乐风格多样性和风格微差不足的难题,通过把风格信息稳定地压缩到紧凑的潜空间,设计了一种同时预测风格信息和音素持续时间的语言模型,以文本标注为基础解决歌声合成难题。最终提出的StyleSinger 2模型在合成质量和歌手相似性方面优于所有基线模型,并且在零样例风格转移、多级风格控制、跨语言风格转移和语音转歌声风格转移任务中表现优异。
地址:https://arxiv.org/pdf/2409.15977
代码:https://stylesinger2.github.io/
24. Synatra: 大规模将间接知识转化为数字代理的具体示范
标题:Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale
机构:Amazon、卡内基梅隆大学
相关领域:模型评估
作者:Tianyue Ou, Frank F. Xu, Aman Madaan
分析:本文探讨了如何通过让大型语言模型(LLMs)与数字环境进行交互并完成特定目标(例如,安排在线会议)来创造自主代理。尽管取得了一定进展,但准确性仍不及人意,主要原因是缺少满足不同场景需求的直接展示数据。人类提供的监督数据成本高昂,而通过探索或强化学习自动化收集数据则依赖于对复杂环境和内容的设置,使得收集到的数据库无法覆盖各种情况。相反,文中提到,大量间接知识可能有助于任务完成,例如为人类用户准备的在线教程。为此,该论文提出Synatra,这是一种在规模上有效地将间接知识转化为直接监督的方法。该论文定义了不同类型的间接知识,并深入研究了获取其来源、直接演示的结构编码方法以及将间接知识转化为直接展示的策略。最终,通过使用100,000个合成生成的演示进行微调,该论文发现构建的代理在三个web上端任务指标Mind2Web,MiniWoB++和WebArena中超越了所有相同大小的模型,也包括GPT-3.5的WebArena和Mind2Web性能。此外,合成演示的成本只有人力演示的3%(每条31美分),证明了它们在受限领域收集的人力演示方面更加有效。
地址:https://arxiv.org/pdf/2409.15637
25. 定向和自动化的虚假信息传播:个性化和大模型的未来发展
标题:LLM Echo Chamber: personalized and automated disinformation
机构:帝国理工学院
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Tony Ma
分析:这篇论文探讨了大型语言模型(LLMs)如GPT-4和Llama2在技术领域的表现,尤其是在信息处理方面。尽管这些模型在信息总结、翻译和审查方面表现出色,但它们也引发了关于LLMs传播具有说服力、人化的虚假信息的担忧。研究人员构建了一个模拟社交媒体的数字环境——LLM回音室,以研究误导性信息在其中的传播情况。通过分析恶意机器人传播信息的模式,研究人员试图理解回音室效应是如何加深人们信念的。此外,论文还对当前LLMs进行了评估,探索了误导信息的潜在风险,并应用了当时最佳的微调技术。实验使用微软的phi2模型,并且通过一个自定义数据集进行微调,以创建回音室环境。GPT-4被用来评估生成的内容的说服力和有害性,从而揭示了在大语言模型中处理虚假信息的伦理挑战,并强调了更强有力的防范措施的必要性。
地址:https://arxiv.org/pdf/2409.16241
26. MCTrack: 自动驾驶的统一3D多目标跟踪框架
标题:MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving
机构:四川大学、旷视科技、国防科技大学
相关领域:多目标跟踪
作者:Xiyang Wang, Shouzheng Qi, Jieyou Zhao
分析:本文介绍了一种新的3D多目标跟踪方法MCTrack,它可以在KITTI、nuScenes和Waymo数据集上实现最先进的性能。该方法解决了现有跟踪范式中的一个问题,即它们在特定的数据集上表现出色,但缺乏泛化性。MCTrack提供了一种统一的解决方案。该论文还统一了各种数据集的感知结果格式,称为BaseVersion,以帮助多目标跟踪领域的研究人员专注于核心算法开发,而不必承担数据预处理的繁琐任务。最后,认识到现有评估指标的局限性,该论文提出了一种新的评估指标,用于评估运动信息输出,如速度和加速度,这对下游任务至关重要。
地址:https://arxiv.org/pdf/2409.16149
代码:https://github.com/megvii-research/MCTrack
27. WeSep: 一个可伸缩且灵活的目标说话者提取工具包
标题:WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction
机构:香港中文大学、上海交通大学、腾讯AI实验室
相关领域:模型蒸馏
作者:Shuai Wang, Ke Zhang, Shaoxiong Lin
分析:该工具包旨在针对多说话者重叠语音中的目标说话者进行分离,解决混合多说话者语音中的特定目标说话者声音识别问题,包括用户定制界面和助听器等应用。
地址:https://arxiv.org/pdf/2409.15799
代码:https://github.com/wenet-e2e/WeSep
28. HelloBench:评估大模型的长文本生成能力
标题:HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
机构:北京大学、南京大学、上海AI实验室
相关领域:模型评估、数据集构建
作者:Haoran Que, Feiyu Duan, Liqun He
分析:论文介绍了一个评估大语言模型长文本生成能力的新基准HelloBench。它包含五个子任务,旨在全面评估LLM在长文本生成方面的性能。论文还提出了一种新的评估方法HelloEval,与人类评估的相关性高且减少评估时间和成本。实验表明,当前LLM在长文本生成方面存在局限性,如生成文本长度不足和质量下降等问题。论文还公开了相关代码。
地址:https://arxiv.org/pdf/2409.16191
代码:https://github.com/Quehry/HelloBench
29. HLB:评估大模型在语言使用中的拟人程度
标题:HLB: Benchmarking LLMs' Humanlikeness in Language Use
机构:香港中文大学
相关领域:模型评估
作者:Xufeng Duan, Bei Xiao, Xuemei Tang
分析:这篇论文关注大型语言模型在语言使用中的拟人程度评估。随着合成数据在训练语言模型中的普及,尤其是通过生成对话,存在模型可能偏离真实人类语言模式的担忧。论文提出一个全面评估大型语言模型拟人程度(HLB)的基准测试,通过10项心理语言学实验,探究声音、词汇、语法、语义和话语等核心语言方面。论文还收集了超过2000名人类的响应,与LLM的输出进行比较,通过分布相似性量化拟人程度。
地址:https://arxiv.org/pdf/2409.15890
代码:https://huggingface.co/spaces/XufengDuan/HumanLikeness)
30. ImPoster:基于扩散模型的主体驱动动作个性化图像生成
标题:ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models
机构:马里兰大学、Adobe Research
相关领域:模型结构改进、预训练、指令微调
作者:Divya Kothandaraman, Kuldeep Kulkarni, Sumit Shekhar
分析:该论文提出了一种名为ImPoster的新型算法,旨在根据目标主体的动作需求生成对应的图像。算法接受源图像、驱动图像以及两者的文本描述作为输入,通过微调预训练的文本到图像潜伏扩散模型来生成目标图像。在推理过程中,该算法采用逐步文本提示,通过结合源图像和驱动图像的特征,以及目标图像的文本描述,生成符合需求的图像。论文还提出了一种新的扩散指导形式——图像频率指导,以引导生成过程更好地贴近源主体和驱动动作。通过广泛的实验评估,该算法在多种源-驱动图像对上表现出优越性能,是首个同时实现主体和动作驱动图像个性化的方法。
地址:https://arxiv.org/pdf/2409.15650
代码:https://github.com/divyakraman/ImPosterDiffusion2024
31. 定性洞察工具(QualIT):LLM增强型主题建模
标题:Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
机构:Amazon、哥伦比亚大学
相关领域:模型结构改进、预训练、模型评估
地址:https://arxiv.org/pdf/2409.15626
32. 基于检索增强多角色多专家协作的文科教育聊天机器人RAM2C
标题:RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration
机构:清华大学
相关领域:数据集构建、模型评估
地址:https://arxiv.org/pdf/2409.15461
代码:https://github.com/ram2c/ram2c
33. NavRL:动态环境中安全飞行的学习
标题:NavRL: Learning Safe Flight in Dynamic Environments
机构:匹兹堡大学、卡内基梅隆大学
地址:https://arxiv.org/pdf/2409.15634
34. 模块化自组装水下机器人ModCube的研究
标题:ModCube: Modular, Self-Assembling Cubic Underwater Robot
机构:浙江大学、西湖大学、马里兰大学
地址:https://arxiv.org/pdf/2409.15627
35. MapEx:室内结构探索
标题:MapEx: Indoor Structure Exploration with Probabilistic Information Gain from Global Map Predictions
机构:卡内基梅隆大学
地址:https://arxiv.org/pdf/2409.15590
36. ESPnet-Codec:神经网络编解码器在音频、音乐和语音方面的综合训练与评估
标题:ESPnet-Codec: Comprehensive Training and Evaluation of Neural Codecs for Audio, Music, and Speech
机构:复旦大学、中国人民大学、南洋理工大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2409.15897
37. TFG:无需训练的统一引导扩散模型
标题:TFG: Unified Training-Free Guidance for Diffusion Models
机构:北京大学、清华大学、斯坦福大学
相关领域:模型结构改进、训练策略
地址:https://arxiv.org/pdf/2409.15761
38. ReLEP: 一种新颖的面向真实世界长期嵌体规划框架
标题:ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning
机构:北京大学、AI国家级重点实验室
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2409.15658
39. Beyond Humanoid Prosthetic Hands:提高用户表现的模块化终端设备
标题:Beyond Humanoid Prosthetic Hands: Modular Terminal Devices That Improve User Performance
机构:哈佛大学、剑桥大学、帝国理工学院
地址:https://arxiv.org/pdf/2409.15589
40. 探究结合多模态反馈与连续控制在假肢手部中的物理和心理影响
标题:Examining the physical and psychological effects of combining multimodal feedback with continuous control in prosthetic hands
机构:牛津大学、伦敦大学、帝国理工学院
地址:https://arxiv.org/pdf/2409.15578
41. 基于情感特定提示和ASR误差修正的大模型情感识别研究
标题:Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction
机构:英伟达、麻省理工学院
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2409.15551
42. 全身末端效应器 pose 跟踪
标题:Whole-body end-effector pose tracking
机构:英伟达、苏黎世联邦理工学院
地址:https://arxiv.org/pdf/2409.16048
43. Federated Large Language Models:当前进展与未来方向
标题:Federated Large Language Models: Current Progress and Future Directions
机构:加州大学、马里兰大学、卡内基梅隆大学
相关领域:联邦学习、大型语言模型
地址:https://arxiv.org/pdf/2409.15723
44. 对话问答中的检索增强生成模型研究
标题:Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA
机构:Amazon
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2409.15515
45. Bridging Speech and Text:通过拼音到汉字的预训练增强大模型在自动语音识别任务中的表现
标题:Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
机构:南洋理工大学
相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态
地址:https://arxiv.org/pdf/2409.16005
46. LLMCount:借助多模态大模型增强静止毫米波检测
标题:LLMCount: Enhancing Stationary mmWave Detection with Multimodal-LLM
机构:浙江大学、香港中文大学、北京邮电大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.16209
47. CJEval:利用初中考试数据评估大模型的基准测试
标题:CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data
机构:腾讯、北京大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2409.16202
48. 基于真实世界的医学影像与综合评估的专家级视觉-语言基础模型
标题:Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation
机构:中山大学、北京大学、北京邮电大学
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2409.16183
49. 自动模型选择器AutoCE:用于学习基数估算的精准高效模型顾问
标题:AutoCE: An Accurate and Efficient Model Advisor for Learned Cardinality Estimation
机构:清华大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2409.16027
50. XTRUST:大模型的多语言可信度研究
标题:XTRUST: On the Multilingual Trustworthiness of Large Language Models
机构:吉林大学、香港科技大学
相关领域:模型评估、多模态(多语言处理)
地址:https://arxiv.org/pdf/2409.15762
代码:https://github.com/LluckyYH/XTRUST
51. VisioPhysioENet:基于视觉和生理信号的多模式参与程度检测
标题:VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals
机构:浙江大学
相关领域:多模态
地址:https://arxiv.org/pdf/2409.16126
代码:https://github.com/MIntelligence-Group/VisioPhysioENet
52. 合并LoRAs就像玩乐高:通过等级聚类比LoRA推向极致
标题:Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering
机构:浙江大学、字节跳动
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2409.16167
53. 专家混合模型助力可靠语义通信,为6G网络打造信任基石
标题:Toward Mixture-of-Experts Enabled Trustworthy Semantic Communication for 6G Networks
机构:滑铁卢大学、南洋理工大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2409.15695
54. 微调大模型以进行比较评估任务
标题:Finetuning LLMs for Comparative Assessment Tasks
机构:剑桥大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2409.15979
55. 领域数据库知识注入增强大模型的文本到SQL能力
标题:Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection
机构:鹏城实验室、华中科技大学、武汉AI研究院
相关领域:模型结构改进、预训练
地址:https://arxiv.org/pdf/2409.15907
56. CUTE:测量大模型对代币的理解程度
标题:CUTE: Measuring LLMs' Understanding of Their Tokens
机构:慕尼黑大学、慕尼黑工业大学、慕尼黑机器学习中心
相关领域:模型评估
地址:https://arxiv.org/pdf/2409.15452
57. dnaGrinder:dnaGrinder
标题:dnaGrinder: a lightweight and high-capacity genomic foundation model
机构:香港理工大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2409.15697
58. GPT-4作为家庭作业辅导人可改进学生参与度和学习成果
标题:GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes
相关领域:教育教育领域为目的
地址:https://arxiv.org/pdf/2409.15981
59. MM-CamObj:一个综合多模态藏匿物体场景的大型数据集
标题:MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios
相关领域:模型训练数据集、视觉语言模型、藏匿场景、指令微调
地址:https://arxiv.org/pdf/2409.16084
代码:https://github.com/JCruan519/MM-CamObj
60. STEM领域中多模态答案表的自动评估
标题:Automated Assessment of Multimodal Answer Sheets in the STEM domain
机构:印度理工学院、印度Pune计算机学院
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2409.15749
61. TiM4Rec:基于时序结构化状态空间对偶模型的高效序列推荐模型
标题:TiM4Rec: An Efficient Sequential Recommendation Model Based on Time-Aware Structured State Space Duality Model
相关领域:序列推荐
地址:https://arxiv.org/pdf/2409.16182
代码:https://github.com/AlwaysFHao/TiM4Rec
62. 基于LLM的多路径文本视频对齐的动作指令视频定位学习
标题:Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment
机构:罗格斯大学、密歇根州立大学、NEC Labs America
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.16145
63. RTAGrasp:基于视频检索、迁移和对齐学习面向任务抓取技术
标题:RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2409.16033
代码:https://sites.google.com/view/rtagrasp/home
64. DepMamba:多模态抑郁症检测的渐进式融合Mamba
标题:DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection
相关领域:多模态
地址:https://arxiv.org/pdf/2409.15936
代码:https://github.com/Jiaxin-Ye/DepMamba
65. CHBench:评估大模型健康领域的首个中文数据集
标题:CHBench: A Chinese Dataset for Evaluating Health in Large Language Models
相关领域:模型评估、数据集构建、健康信息处理
地址:https://arxiv.org/pdf/2409.15766
代码:https://github.com/TracyGuo2001/CHBench
66. GEM-RAG: 图形主成分记忆增强检索生成
标题:GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation
相关领域:模型结构改进、检索增强生成方法
地址:https://arxiv.org/pdf/2409.15566
67. CANDERE-COACH:强化学习从噪音反馈学习
标题:CANDERE-COACH: Reinforcement Learning from Noisy Feedback
机构:密歇根大学、阿尔伯塔大学
相关领域:奖励模型, RLHF
地址:https://arxiv.org/pdf/2409.15521
68. 基于语法树的LLM提示压缩方法
标题:Parse Trees Guided LLM Prompt Compression
机构:香港城市大学
相关领域:模型压缩, LLM, 语法树, 提示压缩
地址:https://arxiv.org/pdf/2409.15395
69. 高保真对比语言状态预训练:用于智能体状态表示的CLSP方法
标题:CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation
相关领域:模型结构改进、预训练、多模态
地址:https://arxiv.org/pdf/2409.15806
70. PRESTO:使用关键配置环境表示的扩散模型进行快速轨迹规划
标题:PRESTO: Fast motion planning using diffusion models based on key-configuration environment representation
相关领域:模型结构改进、学习引导、预训练、指令微调
地址:https://arxiv.org/pdf/2409.16012
代码:https://kiwi-sherbet.github.io/PRESTO
71. EvAlignUX:通过LLM支持的评估指标探索提升用户体验研究
标题:EvAlignUX: Advancing UX Research through LLM-Supported Exploration of Evaluation Metrics
机构:伊利诺伊大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2409.15471
72. BeSimulator:基于大模型owered文本行为模拟器
标题:BeSimulator: A Large Language Model Powered Text-based Behavior Simulator
相关领域:预训练、指令微调、模型评估
地址:https://arxiv.org/pdf/2409.15865
73. CDChat:用于遥感变化描述的大型多模态模型
标题:CDChat: A Large Multimodal Model for Remote Sensing Change Description
机构:MBZUAI大学、澳大利亚国立大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.16261
74. Tag Map:基于大模型的空间推理和导航
标题:Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models
机构:苏黎世联邦理工学院
相关领域:模型结构改进、预训练、地图构建
地址:https://arxiv.org/pdf/2409.15451
75. SWARM:快速实现分散内存数据的复制
标题:SWARM: Replicating Shared Disaggregated-Memory Data in No Time
地址:https://arxiv.org/pdf/2409.16258
76. MOSS:面向AI代理的代码驱动进化与上下文管理
标题:MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents
相关领域:模型结构改进、上下文管理
地址:https://arxiv.org/pdf/2409.16120
77. TabEBM:基于不同类别特定能量模型的数据增强方法处理表格数据
标题:TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models
相关领域:模型结构改进、数据集构建
地址:https://arxiv.org/pdf/2409.16118
78. Konstruktor:简单知识图谱问答的强劲基线
标题:Konstruktor: A Strong Baseline for Simple Knowledge Graph Question Answering
相关领域:模型结构改进、知识图谱
地址:https://arxiv.org/pdf/2409.15902
79. SYNERGAI:实现人机协作的感知对齐系统
标题:SYNERGAI: Perception Alignment for Human-Robot Collaboration
相关领域:模型结构改进、指令微调
地址:https://arxiv.org/pdf/2409.15684
80. MMPT:用于零样本指令学习的多任务优化
标题:MMPT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.15657
81. MediConfusion:你能信任你的医疗AI吗?探究多模态医疗基础模型的可靠性
标题:MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models
相关领域:多模态、模型评估、数据集构建
地址:https://arxiv.org/pdf/2409.15477
82. 东北材料数据库 (NEMAD): 实现高转变温度磁性材料的发现
标题:Northeast Materials Database (NEMAD): Enabling Discovery of High Transition Temperature Magnetic Compounds
相关领域:大模型
地址:https://arxiv.org/pdf/2409.15675
83. 基于上下文集成改进视频语言模型,实现对人类演示中低级工作流程理解的自动化
标题:In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2409.15867
84. 天然气需求预测的通用基础模型
标题:Towards Universal Large-Scale Foundational Model for Natural Gas Demand Forecasting
相关领域:大模型
地址:https://arxiv.org/pdf/2409.15794
85. Adaptive Learn-then-Test:统计有效且高效的超参数选择
标题:Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection
地址:https://arxiv.org/pdf/2409.15844
86. Learning To Help:为物理设备训练模型以协助遗留设备
标题:Learning To Help: Training Models to Assist Legacy Devices
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2409.16253
87. 实时规划最小时间轨迹的敏捷无人机飞行
标题:Real-time Planning of Minimum-time Trajectories for Agile UAV Flight
地址:https://arxiv.org/pdf/2409.16074
88. 自动测试生成以评估工具增强的LLM作为会话AI代理人
标题:Automated test generation to evaluate tool-augmented LLMs as conversational AI agents
相关领域:模型评估、测试生成、数据集构建
地址:https://arxiv.org/pdf/2409.15934
89. 克服指导强化学习中的奖励模型噪声
标题:Overcoming Reward Model Noise in Instruction-Guided Reinforcement Learning
相关领域:奖励模型、多模态
地址:https://arxiv.org/pdf/2409.15922
90. Whisper in Medusa's Ear:多头高效的解码transformer为基础的ASR
标题:Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR
地址:https://arxiv.org/pdf/2409.15869
91. Efficient Motion Prediction:轻量级且准确的轨迹预测模型,具有快速训练和推理速度
标题:Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed
地址:https://arxiv.org/pdf/2409.16154
92. 多模态推荐系统的大规模基准测试
标题:Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation
地址:https://arxiv.org/pdf/2409.15857
93. NER-Luxury: 时尚与奢侈品领域名词实体识别研究
标题:NER-Luxury: Named entity recognition for the fashion and luxury domain
地址:https://arxiv.org/pdf/2409.15804
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~