前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!
1. Neural-Symbolic Collaborative Distillation:推进小语言模型对复杂推理任务的能力
标题:Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
机构:中国科学院大学、中国科学院自动化研究所
关键词:神经符号协同蒸馏,小语言模型
作者:Huanxuan Liao, Shizhu He, Yao Xu
分析:论文提出了一种新的知识蒸馏方法——神经符号协同蒸馏(NesyCD),用于提高小语言模型(SLM)对复杂推理任务的能力。论文指出复杂推理任务不仅需要一般认知能力,还需要特殊知识,这对于基于神经的SLM来说往往难以捕捉。NesyCD通过将大语言模型(LLM)中的一般能力和特殊知识蒸馏到SLM中,来应对这一问题。此外,NeSyCD通过结合参数化的神经网络和符号知识库(KB)来实现成本效益更高的性能。
地址:https://arxiv.org/pdf/2409.13203
代码:https://github.com/Xnhyacinth/NesyCD
2. RLHFuse:基于互学和内阶段融合的高效大模型RLHF训练
标题:RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion
机构:北京大学
关键词:RLHF、大型语言模型、训练优化、GPU利用率
作者:Yinmin Zhong, Zili Zhang, Bingyang Wu
分析:论文提出了一种新的基于强化学习的人类反馈(RLHF)训练方法,旨在提高大型语言模型(LLM)与人类偏好的一致性。该方法通过拆分任务为更细粒度的子任务,实现了阶段融合,提高了GPU利用率。同时解决了RLHF训练中数据倾斜和训练阶段管道气泡的问题。论文通过实验结果展示了RLHFuse在提高训练吞吐量方面的优势。
地址:https://arxiv.org/pdf/2409.13221
3. 探索大模型训练中本地SGD的缩放规律
标题:Exploring Scaling Laws for Local SGD in Large Language Model Training
作者:Qiaozhi He, Xiaomin Zhuang, Zhihua Wu
分析:这篇论文主要研究了大型语言模型训练中的本地SGD算法,通过大量实验发现,在参数、数据集和计算资源相同的情况下,本地SGD与传统方法相比具有竞争力。此外,论文还探讨了本地SGD在实际应用场景中的作用,包括多集群设置和边缘计算环境。研究结果揭示了进行有效的多集群大型语言模型训练所需的条件,并评估了利用边缘计算资源进行大型语言模型训练的潜力和局限性。这表明本地SGD作为一种替代单大型集群训练的方法具有可行性。
地址:https://arxiv.org/pdf/2409.13198
4. LLM虽能计划未来走向仍有限制,那么LRM可以吗?一个关于OpenAI o1在PlanBench上的初步评估
标题:LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
关键词:LLM计划能力评估、新模型o1的表现、模型评估指标
作者:Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati
分析:本文主要探讨了LLM与新兴模型LRM的计划能力。在人工智能发展早期,计划能力被视为智能主体的核心能力。尽管LLM出现后引发了广泛关注,但在计划能力方面进展缓慢。文章利用PlanBench评估了OpenAI的o1模型在计划能力上的表现,发现其相较于其他模型有显著提升但仍未达到顶峰。此进步引发对准确度、效率和保障的关注。本文主要解决如何评价新模型计划能力的问题。
地址:https://arxiv.org/pdf/2409.13373
5. LLM Surgery:大模型中高效的知识卸载与编辑
标题:LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models
机构:纽约大学
关键词:LLM外科, 大型语言模型, 知识卸载, 知识编辑, 模型改进, 数据集构建
作者:Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das
分析:这篇论文针对大型语言模型(LLM)提出一种名为LLM外科的框架,用于高效修改LLM的行为。该框架通过优化包含三个组件的目标函数来实现对LLM的修改,旨在去除过时或问题知识,并有效融入新知识,同时避免从头开始重新训练。具体通过反向梯度作用于遗忘数据集、梯度下降作用于更新数据集以及最小化保留数据集的KL散度,实现模型的改进。文章还介绍了新数据集和评估基准的编制情况,并通过实验验证了LLM外科的有效性。
地址:https://arxiv.org/pdf/2409.13054
6. SKIntern:将符号知识内化以提炼更好的推理能力至小型语言模型
标题:\textit{SKIntern}: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models
关键词:小型语言模型,符号知识内化,推理能力,课程学习
作者:Huanxuan Liao, Shizhu He, Yupu Hao
分析:这篇论文提出了一种新的方法SKIntern,该方法旨在将大型语言模型中的符号知识内化到小型语言模型中,并通过逐步精细调整来提升小型语言模型的推理能力。SKIntern方法通过引入课程学习中的预设线性衰减调度来指导知识内化的过程,并减少计算开销,加快推理过程。该方法在域内和域外任务中都优于现有技术基准,同时降低了推理成本。
地址:https://arxiv.org/pdf/2409.13183
代码:https://github.com/Xnhyacinth/SKIntern
7. ChemDFM-X:迈向化学领域的大型多模态模型
标题:ChemDFM-X: Towards Large Multimodal Model for Chemistry
机构:上海交通大学
关键词:ChemDFM-X、多模态模型、化学数据、跨模态知识理解
作者:Zihan Zhao, Bo Chen, Jingpiao Li
分析:这篇论文提出了一种跨模态化学通用智能系统ChemDFM-X,它是基于大型多模态模型(LMM)构建的。该系统通过生成多样化的多模态数据,创建了一个包含7.6M数据的指令微调数据集。经过指令微调后,ChemDFM-X在多种化学任务和数据模态上进行了广泛实验,展示了其在多模态和跨模态知识理解方面的能力。该论文标志着化学领域所有模态对齐的重要里程碑,朝着化学通用智能(CGI)迈出了重要的一步。
地址:https://arxiv.org/pdf/2409.13194
8. 鲁棒奖励模型训练缓解奖励黑客攻击
标题:RRM: Robust Reward Model Training Mitigates Reward Hacking
机构:马里兰大学、伊利诺伊大学、Google DeepMind
关键词:奖励模型、大语言模型、鲁棒性训练、数据增强
作者:Tianqi Liu, Wei Xiong, Jie Ren
分析:论文关注奖励模型在大语言模型中的重要性及其面临的挑战。传统的奖励模型训练方法依赖于特定的提示和回应对,难以区分上下文信号和无关因素。为此,论文提出一种因果框架和新的数据增强技术来消除这些干扰因素,从而训练出更鲁棒的奖励模型(RRM)。RRM在Gemma-2-9b-it的奖励模型训练中提高了性能,并且在多个实验中验证了其有效性。
地址:https://arxiv.org/pdf/2409.13156
9. 计算笔记本中的上下文化数据整理代码生成
标题:Contextualized Data-Wrangling Code Generation in Computational Notebooks
机构:微软研究院、香港中文大学、微软亚洲研究院
关键词:数据整理自动化、上下文信息、数据集构建、代码生成
作者:Junjie Huang, Daya Guo, Chenglong Wang
分析:这篇论文主要研究了数据整理(Data Wrangling)的自动化问题,这是数据科学中一个关键且耗时的步骤。论文提出了一种自动化方法,通过构建数据集和模型,将用户意图转化为可执行的代码,从而减轻分析师的负担。研究内容主要涉及计算笔记本中数据整理代码的生成,通过考虑笔记本中的丰富上下文信息,如文本、代码和数据上下文,来精确生成数据整理代码。
地址:https://arxiv.org/pdf/2409.13551
10. Time and Tokens:端到端的语音流畅性检测基准测试
标题:Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection
机构:浙江大学、UC伯克利分校
关键词:语音流畅性检测、标记化、自动语音识别、基准测试
作者:Xuanru Zhou, Jiachen Lian, Cheol Jun Cho
分析:这篇论文从新的角度重新审视了语音流畅性建模问题,即将流畅性检测问题建模为基于标记的自动语音识别(ASR)问题。论文提出了基于规则的语音和文本流畅性模拟器,开发了VCTK-token基准测试集,并使用类似Whisper的seq2seq架构取得了良好的性能。此外,论文还将所提出的基于标记的方法与时间基准方法进行了系统比较,并提议建立统一的基准测试以促进未来的研究。这些资源已开源供更广泛的科学界使用。
地址:https://arxiv.org/pdf/2409.13582
代码:https://rorizzz.github.io/
11. MuCodec:超低码率音乐编解码器的研究
标题:MuCodec: Ultra Low-Bitrate Music Codec
机构:腾讯、香港中文大学、腾讯AI实验室
关键词:MuCodec、音乐编解码器、超低码率压缩、语音和语义特征提取
作者:Yaoxun Xu, Hangting Chen, Jianwei Yu
分析:该论文针对音乐编解码器进行研究,特别是在超低码率压缩方面。为解决音乐背景和歌声的复杂性,提出MuCodec系统,该系统能够在超低码率下同时重建音乐和背景声音。采用MuEncoder提取声音和语义特征,并使用RVQ进行离散化,再通过流匹配获取Mel-VAE特征,最终使用预训练的MEL-VAE解码器和HiFi-GAN进行音乐重建。该系统可在超低码率(0.35kbps)或高码率(1.35kbps)下重建高质量音乐,并在主观和客观指标上取得最佳结果。
地址:https://arxiv.org/pdf/2409.13216
代码:https://xuyaoxun.github.io/MuCodec_demo/
12. DiffSound:基于物理的模态声音渲染与逆向渲染的可微差分技术,用于多种推断任务
标题:DiffSound: Differentiable Modal Sound Rendering and Inverse Rendering for Diverse Inference Tasks
机构:北京大学、马里兰大学、斯坦福大学
关键词:DiffSound框架、物理属性估计
作者:Xutong Jin, Chenxi Xu, Ruohan Gao
分析:这篇论文提出了一种基于物理的模态声音合成可微差分框架DiffSound,解决了准确估计和模拟现实世界声音记录中的物体物理属性的问题。该框架能够解决一系列逆向问题,包括物理参数估计、几何形状推理和冲击位置预测等。
地址:https://arxiv.org/pdf/2409.13486
13. 基于扩散的语音合成数据集DiffSSD的研究
标题:DiffSSD: A Diffusion-Based Dataset For Speech Forensics
机构:普渡大学、麻省理工学院
关键词:扩散模型、语音合成检测、语音生成器、数据集构建
作者:Kratika Bhagtani, Amit Kumar Singh Yadav, Paolo Bestagini
分析:这篇论文指出了现有的语音合成检测器对于基于扩散的语音合成方法的检测效果不佳的问题。为此,论文提出了一个新的数据集DiffSSD,该数据集包含了约200小时的标记语音,包括由8个开源和2个商业的基于扩散的语音生成器生成的合成语音。论文还研究了现有语音合成检测器在DiffSSD上的封闭集和开放集场景的性能表现。
地址:https://arxiv.org/pdf/2409.13049
14. MaPPER:多模态先验引导参数高效的调参方法
标题:MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension
机构:清华大学、国防科技大学、合肥工业大学
关键词:多模态、预训练、参数高效、调参方法
作者:Ting Liu, Zunnan Xu, Yue Hu
分析:该论文主要研究了如何有效地解决Referring Expression Comprehension(REC)任务,这是一个需要进行多模态对齐的任务。传统的全微调方法虽然能够迁移视觉/语言知识,但在预训练过程中会破坏丰富的先验知识,并且计算成本高。因此,作者提出了一种新的框架,即Multimodal Prior-guided Parameter Efficient Tuning(MaPPER)。这种方法结合了动态先验适配器、局部卷积适配器和先验引导文本模块,能够在保持参数可调性的同时,提高视觉感知的精确度。实验结果表明,MaPPER在三个常用的基准测试上取得了最佳的性能。
地址:https://arxiv.org/pdf/2409.13609
15. 糖尿病大模型在糖尿病护理中的应用
标题:An adapted large language model facilitates multiple medical tasks in diabetes care
机构:复旦大学、上海交通大学
作者:Lai Wei, Zhen Ying, Muyang He
分析:糖尿病是一种慢性疾病,对全球健康构成重大威胁,优化糖尿病管理需要多方合作。大语言模型(LLMs)在各种医疗场景中表现出潜力,但其在多样化的糖尿病任务中的有效性仍有待验证。本研究引入了一个框架来训练和验证糖尿病特定的LLMs。该论文首先开发了一个全面的数据处理流程,包括数据收集、过滤、增强和细化。这个方法有助于创建一个高质量的、糖尿病特定的数据集,并从头开始创建几个完全独立的评估基准。利用收集到的训练数据集,该论文微调了一个在理解和处理各种糖尿病任务方面与其它LLMs相比表现出色的糖尿病特定LLM家族。此外,临床研究表明了该论文的模型在糖尿病护理中的潜在应用,包括提供个性化的医疗保健、协助医学教育以及简化临床任务。总之,本研究介绍了一种开发和评估糖尿病特定LLM家族的框架,并突出了其在临床实践中增强和提供基于数据的糖尿病支持以应对不同用户的优势。
地址:https://arxiv.org/pdf/2409.13191
代码:https://github.com/waltonfuture/Diabetica
16. Prithvi WxC: 天气和气候基础模型
标题:Prithvi WxC: Foundation Model for Weather and Climate
机构:斯坦福大学、IBM研究院、阿拉巴马大学
关键词:天气和气候基础模型、MERRA-2
作者:Johannes Schmude, Sujit Roy, Will Trojak
分析:这篇论文介绍了Prithvi WxC,一个2.3亿参数的天气和气候基础模型。它采用160个变量来自Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2)。该模型采用编码器-解码器架构,结合了各种Transformer模型的概念,能够有效捕获输入数据的区域和全球依赖关系。Prithvi WxC在以下挑战性下游任务上进行测试:自动递归滚动预测、下栅格、重力波通量参数化、和极端事件估计。预训练模型和相关微调流程已作为开源贡献通过Hugging Face发布。
地址:https://arxiv.org/pdf/2409.13598
17. 基于自回归模型的视频音频时间对齐技术研究
标题:Temporally Aligned Audio for Video with Autoregression
机构:牛津大学
关键词:视频音频时间对齐、自回归模型、视觉特征提取器、跨模态融合
作者:Ilpo Viertola, Vladimir Iashin, Esa Rahtu
分析:论文提出了一种名为V-AURA的自回归模型,实现了视频到音频生成的高时间对齐和相关性。它通过高帧率视觉特征提取器和跨模态视听特征融合策略,捕捉精细粒度的视觉运动事件,确保精确的时间对齐。此外,论文还介绍了基于VGGSound视频数据集构建的VisualSound基准数据集,去除了听觉事件与视觉事件不匹配的样本。V-AURA模型在时间上对齐和语义相关性方面优于当前最先进模型,同时保持相当的音频质量。
地址:https://arxiv.org/pdf/2409.13689
代码:https://v-aura.notion.site
18. HMD^2:基于单一头戴设备的环境感知动作生成研究
标题:HMD^2: Environment-aware Motion Generation from Single Egocentric Head-Mounted Device
机构:斯坦福大学、南洋理工大学、马克斯·普朗克计算机科学研究所
关键词:HM²D系统、动作重建与生成、多模态条件运动扩散模型
作者:Vladimir Guzov, Yifeng Jiang, Fangzhou Hong
分析:该研究使用头戴设备中的外向彩色相机进行实时动作捕捉与生成。提出HM²D系统,结合重建与生成技术,通过相机流提取头部运动、SLAM点云和图像嵌入等特征,并采用多模态条件运动扩散模型进行动作生成,旨在保持动作的时间连贯性并实现在线动作推理。
地址:https://arxiv.org/pdf/2409.13426
19. 指导的作用是什么?简单环境下的精细分析
标题:What does guidance do? A fine-grained analysis in a simple setting
机构:哈佛大学、麻省理工学院、约翰霍普金斯大学
关键词:扩散模型、得分估计误差、模型结构
作者:Muthu Chidambaram, Khashayar Gatmiry, Sitan Chen
分析:这篇论文主要对扩散模型中的指导进行了深入分析,澄清了一些关于指导的误解。论文证明了指导并不能按照预期从倾斜的数据分布中进行采样,而是通过理论分析和实验验证,对指导在混合支持分布和高斯分布两种情况下的动态进行了精细刻画。此外,论文还探讨了指导参数增加时模型的采样行为,以及得分估计误差对采样结果的影响。最后,论文的这些理论洞察为实际部署提供了有益的指导。
地址:https://arxiv.org/pdf/2409.13074
20. 基于正确构造数据的Verilog代码模型合成数据生成方法
标题:CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair
机构:英伟达
关键词:Verilog代码生成、非文本表示处理、错误注入、代码修复训练
作者:Mingjie Liu, Yun-Da Tsai, Wenfei Zhou
分析:针对现有语言模型在硬件描述语言如Verilog上生成代码的局限性,如非文本表示的难以处理和训练过程中的小错误频发,本文提出一种正确构造的非文本表示合成数据生成方法,并通过自动化框架注入错误进行代码修复训练。最终,使用改进后的模型在Verilog代码生成上实现了超越现有水平的性能提升。
地址:https://arxiv.org/pdf/2409.12993
21. 文本定位用于场景文本去除的文本感知遮罩图像建模
标题:Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling
机构:中国科学技术大学
关键词:文本定位、场景文本去除、遮罩图像建模、预训练
作者:Zixiao Wang, Hongtao Xie, YuXin Wang
分析:这篇论文的主要目标是解决场景文本去除(STR)任务由于昂贵的像素级标签而导致训练数据不足的问题。通过引入一种名为文本感知遮罩图像建模(TMIM)的算法,该论文提出了一种新的预训练方法,可以在低成本的文本检测标签(如文本边界框)上对STR模型进行预训练。与之前只使用间接辅助任务增强隐式特征提取能力的预训练方法不同,TMIM首先使STR任务能够在弱监督下直接进行训练,从而有效地探索STR知识。在TMIM中,首先构建一个背景建模流来通过恢复遮盖的非文本区域来学习背景生成规则,并在遮盖的文本区域上提供伪STR标签。然后,提出一个用于从伪标签中学习并使模型具备端到端STR能力的文本擦除流。得益于这两个协作流,该论文的STR模型仅需使用公开的文本检测数据集就能实现令人印象深刻的性能,大大减轻了高昂的STR标签带来的限制。实验证明,该论文的方法优于其他预训练方法,并在SCUT-EnsText上实现了最先进的性能(37.35 PSNR)。
地址:https://arxiv.org/pdf/2409.13431
代码:https://github.com/wzx99/TMIM
22. 生成以角色为核心的视觉故事
标题:Generating Visual Stories with Grounded and Coreferent Characters
机构:爱丁堡大学、麻省理工学院
关键词:视觉故事生成、角色为中心、模型微调
作者:Danyang Liu, Mirella Lapata, Frank Keller
分析:这篇论文主要介绍了一种新的任务——角色为中心的故事生成,旨在改进现有的视觉故事生成方法中缺乏特定角色、角色提及模糊或不正确等问题。作者提出了一种模型,该模型能够预测出具有一致且更一致的角色提及的视觉故事。他们的模型在VIST基准数据集上进行了微调,并开发了一种自动流程来丰富VIST中的视觉和文本角色共指链。作者还提出了新的评估指标来衡量故事中角色的丰富性和共指程度。实验结果表明,他们的模型能够生成具有重复角色的故事,这些角色在更大程度上是一致且更一致的,比基线和最先进的系统都要好。
地址:https://arxiv.org/pdf/2409.13555
23. Sketching With Your Voice:通过语音模仿实现“非真实感”声音渲染
标题:Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation
机构:麻省理工学院
关键词:语音模仿、非真实渲染、发声器官模拟、沟通认知理论
作者:Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
分析:这篇论文提出了一种自动产生人类语音模仿的方法,即通过模拟人类发声器官来合成与特定目标声音匹配的语音模仿。该研究考虑了语音特征和心理声学要素,并且采用了沟通认知理论来优化模拟效果。该方法允许通过语音模仿实现声音的非真实渲染,类似于计算机图形中的草图概念。实验和用户研究证明,当结合沟通认知理论时,该方法更符合人类直觉。
地址:https://arxiv.org/pdf/2409.13507
24. 受限制的推理链增强大模型的理论认知能力
标题:Constrained Reasoning Chains for Enhancing Theory-of-Mind in Large Language Models
机构:香港科技大学、Amazon
关键词:受限制的推理链、大型语言模型、理论认知能力、推理任务
作者:Zizheng Lin, Chunkit Chan, Yangqiu Song
分析:该论文提出了一种名为受限制的推理链增强大型语言模型的理论认知能力的方法。这种方法利用领域知识和推理链的因果关系来改进大型语言模型在理论认知任务中的表现,包括在复杂的推理任务和非叙述性上下文中的性能。该方法通过引导大型语言模型推断相关的理论认知维度(如信念)并根据生成的相关理论认知维度和相应的因果关系推断查询的理论认知维度。此外,该方法还自适应地对提示施加约束以引入归纳偏见并提高理论认知维度之间的一致性。除了叙述性文本,该方法还可以处理非叙述性的对话场景。实验结果表明,该方法在所有大型语言模型和使用的数据集上都表现出了显著的优势。
地址:https://arxiv.org/pdf/2409.13490
25. DiffEditor:增强语音编辑的语义丰富性和声学一致性
标题:DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency
机构:浙江大学
关键词:语音编辑、语义丰富性、声学一致性、预训练语言模型
作者:Yang Chen, Yuhang Jia, Shiwan Zhao
分析:这篇论文提出了一种名为DiffEditor的新型语音编辑模型,旨在通过语义丰富性和声学一致性来增强在处理领域外(OOD)文本时的性能。为了提高编辑后的语音的可懂度,该模型通过将从预训练语言模型中提取的词嵌入集成到音素嵌入的语义信息中来进行语义丰富化。此外,该模型强调了帧间平滑性对于声学一致性的重要性,并提出了一种一阶损失函数来促进在编辑边界处更平滑的过渡,从而提高编辑后语音的整体流畅性。实验结果表明,该模型在域内和域外文本场景下都达到了最先进的性能。
地址:https://arxiv.org/pdf/2409.12992
26. 基于通用大模型的多级分割与描述指导
标题:Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model
机构:鹏城实验室、阿里巴巴集团、香港理工大学
关键词:多级分割、指令指导、多模态模型、MGLMM
作者:Li Zhou, Xu Yuan, Zenghui Sun
分析:论文阐述了如何通过大型多模态模型构建一种具有多级分割和描述能力的框架——多级分割与描述指导模型(MGLMM),它能根据用户指令灵活调整从全景理解到细节分割的粒度。MGLMM在多任务训练中引入了一种统一的分割和描述数据格式,解决了多模态研究中的概念与视觉特征关联问题。实验结果显示,MGLMM在多下游任务和MGSC细分任务中表现出色,凸显了其在多模态领域的广泛潜力。
地址:https://arxiv.org/pdf/2409.13407
27. RingMo-Aerial:一个空中遥感基础模型——通过仿射变换对比学习
标题:RingMo-Aerial: An Aerial Remote Sensing Foundation Model With A Affine Transformation Contrastive Learning
机构:清华大学、中国科学院大学
关键词:RingMo-Aerial模型、空中遥感视觉、频率增强多头自注意力机制、仿射变换对比学习
作者:Wenhui Diao, Haichen Yu, Kaiyue Kang
分析:这篇论文提出了一种新的空中遥感基础模型RingMo-Aerial,该模型通过引入频率增强多头自注意力机制和基于仿射变换的对比学习方法,解决了因空中遥感视角的特殊性带来的检测问题,特别是提高了对小目标的检测能力。该模型还具有很好的适应性和灵活性,能够高效适应各种空中遥感视觉任务。
地址:https://arxiv.org/pdf/2409.13366
28. 用于胸部X光报告自动化的小型语言和视觉助手
标题:SLaVA-CXR: Small Language and Vision Assistant for Chest X-ray Report Automation
机构:伦敦大学、牛津大学、苏格兰大学
关键词:SLaVA-CXR、Re$^3$Training、RADEX、医疗领域
作者:Jinge Wu, Yunsoo Kim, Daqian Shi
分析:论文提出了一种用于胸部X光报告自动化的开源小型语言和视觉助手(SLaVA-CXR)。为了有效地训练小型助手,提出了Re$^3$Training方法,模拟了医生的认知发展过程,以识别、推理和报告的方式进行模型优化。此外,还介绍了一种数据合成方法RADEX,能够生成符合隐私规定的高质量、多样化的训练语料库。实验表明,基于2.7B骨干的SLaVA-CXR不仅性能优于以前的最先进的大型模型,而且推理效率提高了6倍。
地址:https://arxiv.org/pdf/2409.13321
29. 大模型中的工具学习技术
标题:CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance
机构:中国科学院大学、中国科学院自动化研究所
关键词:工具学习、大语言模型、工具使用能力、通用性能
作者:Yupu Hao, Pengfei Cao, Zhuoran Jin
分析:这篇论文主要探讨了如何提高大型语言模型(LLMs)的工具使用能力,同时保持其通用性能。工具学习是一种让大型语言模型能够与外部环境互动的技术,通过调用工具来增强模型的准确性和功能范围。然而,之前的工作主要集中在提高模型的工具使用精度和泛化新未见过工具的能力上,过度强调了让模型调整特定工具调用模式,而没有考虑到这对模型通用性能的影响。为了解决这个问题,作者通过分析模型隐藏表示的变化和梯度基函数的重要性评分,提出了一种基于组件重要性的工具使用能力注入方法(CITI)。根据不同组件的梯度基函数重要性评分,该方法通过为重要组件应用混合LoRA(MOLoRA)策略,以及微调LLM骨干网络中较少重要的组件参数,同时冻结其他参数,来缓解由微调过程引起的能力冲突。实验结果表明,CITI能够在不严重损害模型通用性能的情况下有效提高模型的工具使用能力。
地址:https://arxiv.org/pdf/2409.13202
30. 系统性评估大型代码模型在API推荐中的使用、选择和用法
标题:A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How
机构:香港中文大学
关键词:系统性评估、大型代码模型、API推荐、第三方API
作者:Chaozheng Wang, Shuzheng Gao, Cuiyun Gao
分析:这篇论文主要探讨了API建议这一软件开发过程中的重要任务,它通过预测和推荐第三方的API,来帮助程序员。随着大型代码模型的进步,它们在这些建议任务中的能力有所提升。但是,这些模型主要关注于推荐哪些API来使用,忽略了 programmers 在实际使用API时可能需要的更多帮助,包括何时以及如何使用建议的API。为了弥补这一不足,论文进行了系统的评估大型代码模型在API建议任务中的表现。为此,该论文建立了一个包含广泛代码片段的基准,这些片段覆盖了176个Java项目中使用的API。该论文考虑了API建议任务中的三个情景进行评估,分别是:(1)何时使用API;(2)从给定库中选择合适的API;以及(3)预测给定API的参数。这三个情景让该论文能够全面评估大型代码模型在为开发者提供API建议方面的能力。在评估过程中,该论文选择了9个流行的LCMs,大小不同,用于这三种情景。该论文还分析了上下文选择对模型性能的影响。论文所研究的内容与大型代码模型相关,主要聚焦于API推荐的子研究领域。这篇论文的价值性较高,新颖度、工业应用价值、可复现程度和影响面都很好。综合这些因素,我认为该论文的价值评分可以给到90分。
地址:https://arxiv.org/pdf/2409.13178
31. 基于多模态先验的肖像视频编辑
标题:Portrait Video Editing Empowered by Multimodal Generative Priors
机构:中国科学技术大学
关键词:肖像视频编辑、多模态提示、3D高斯场、神经高斯纹理机制
地址:https://arxiv.org/pdf/2409.13591
代码:https://ustc3dv.github.io/PortraitGen/
32. From Cognition to Precognition:面向社会导航的未来感知框架
标题:From Cognition to Precognition: A Future-Aware Framework for Social Navigation
机构:香港科技大学
关键词:社会意识导航、预测人类轨迹、强化学习、基准测试
地址:https://arxiv.org/pdf/2409.13244
代码:https://zeying-gong.github.io/projects/falcon/
33. 信息泄露度量指标的渐近行为
标题:The Asymptotic Behaviour of Information Leakage Metrics
机构:牛津大学
关键词:信息泄露度量、渐近行为、隐私保护、信息泄露
地址:https://arxiv.org/pdf/2409.13003
34. YesBut:用于评估视觉语言模型讽刺理解能力的高质量多模态数据集
标题:YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
机构:印度理工学院
关键词:YesBut数据集、讽刺理解、视觉语言模型、多模态任务
地址:https://arxiv.org/pdf/2409.13592
代码:https://github.com/abhi1nandy2/yesbut_dataset
35. 第二感知测试挑战中多选视频问答赛道的首个优胜解决方案
标题:First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge
机构:东南大学、复旦大学
关键词:QwenVL2、多选视频问答、模型微调、Test Time Augmentation
地址:https://arxiv.org/pdf/2409.13538
36. UniTabNet:桥接视觉和语言模型以增强表格结构识别
标题:UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition
机构:中国科学技术大学
关键词:UniTabNet、表格结构解析、图文模型、视觉指导器
地址:https://arxiv.org/pdf/2409.13148
37. G-Fuzz:面向gVisor的有向模糊测试框架
标题:G-Fuzz: A Directed Fuzzing Framework for gVisor
机构:浙江大学、国防科技大学
关键词:gVisor、模糊测试、系统内核安全、漏洞检测
地址:https://arxiv.org/pdf/2409.13139
38. 全anno: 一个用于增强多模态大模型图像理解的引擎
标题:FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs
机构:香港大学、南京大学
关键词:全anno、多模态大型语言模型、图像注释、大规模
地址:https://arxiv.org/pdf/2409.13540
39. 大模型中情感认知的最新进展
标题:Recent Advancement of Emotion Cognition in Large Language Models
机构:复旦大学
关键词:大型语言模型、情感认知、最新进展、挑战与方向
地址:https://arxiv.org/pdf/2409.13354
40. The FIX Benchmark:提取专家可解释的特征
标题:The FIX Benchmark: Extracting Features Interpretable to eXperts
机构:多伦多大学、宾夕法尼亚大学
关键词:特征解释、专家知识、FIX基准测试、模型可解释性
地址:https://arxiv.org/pdf/2409.13684
41. 大模型在学术界的影响:从写作到口语
标题:The Impact of Large Language Models in Academia: from Writing to Speaking
机构:华盛顿大学、华中科技大学
关键词:大语言模型、学术界影响、文本信息、写作与口语
地址:https://arxiv.org/pdf/2409.13686
42. 日本生物医学大模型评估基准(JMedBench)的提出
标题:JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
关键词:日本生物医学大模型、评估基准、模型性能、领域适应性
地址:https://arxiv.org/pdf/2409.13317
代码:https://huggingface.co/datasets/Coldog2333/JMedBench
43. JoyHallo:针对普通话的数字人类模型
标题:JoyHallo: Digital human model for Mandarin
关键词:JoyHallo、普通话视频生成、Jdh-Hallo数据集、中文wav2vec2
地址:https://arxiv.org/pdf/2409.13268
代码:https://jdh-algo.github.io/JoyHallo
44. AQA:基于上下文的多 Armed Bandit 自适应问答在大模型社会中的应用
标题:AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit
机构:阿姆斯特丹大学
关键词:自适应问答、上下文多臂 bandit、多模型协作、问答系统优化
地址:https://arxiv.org/pdf/2409.13447
45. Beyond Skip Connection:池化与反池化设计以消除奇异值
标题:Beyond Skip Connection: Pooling and Unpooling Design for Elimination Singularities
机构:佛罗里达大学
关键词:池化与反池化、奇异值消除、Convolutional Neural Networks、Pool Skip
地址:https://arxiv.org/pdf/2409.13154
46. HUT:基于阿达玛变换的模型精细化调整研究
标题:HUT: A More Computation Efficient Fine-Tuning Method With Hadamard Updated Transformation
关键词:参数高效微调、阿达玛更新变换、预训练语言模型、模型精细化调整
地址:https://arxiv.org/pdf/2409.13501
47. ChainBuddy:一个用于生成LLM管道的AI代理系统
标题:ChainBuddy: An AI Agent System for Generating LLM Pipelines
机构:蒙特利尔大学
关键词:大型语言模型、行为评估、AI辅助工具
地址:https://arxiv.org/pdf/2409.13588
48. T2M-X:从部分标注数据中学习表现力文本到动作生成
标题:T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data
机构:宾夕法尼亚州立大学
关键词:文本到动作生成、模型结构改进、数据集构建、面部和手部动作生成
地址:https://arxiv.org/pdf/2409.13251
49. 利用先进预训练架构提升联邦域泛化性能的研究
标题:Boosting Federated Domain Generalization: The Role of Advanced Pre-Trained Architectures
关键词:先进预训练架构、联邦域泛化、自监督技术、模型性能提升
地址:https://arxiv.org/pdf/2409.13527
50. 基于Kolmogorov-Arnold网络的计算机视觉持续学习初步研究
标题:A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks
关键词:Kolmogorov-Arnold Networks、计算机视觉、持续学习、模型结构改进
地址:https://arxiv.org/pdf/2409.13550
代码:https://github.com/MrPio/KAN-Continual_Learning_tests
51. Imagine yourself:无需调优的个性化图像生成
标题:Imagine yourself: Tuning-Free Personalized Image Generation
关键词:个性化图像生成、图像多样性、文本匹配、多阶段微调
地址:https://arxiv.org/pdf/2409.13346
52. RepoGenReflex:结合语言强化与检索增强生成提高仓库级代码补全能力
标题:RepoGenReflex: Enhancing Repository-Level Code Completion with Verbal Reinforcement and Retrieval-Augmented Generation
关键词:RepoGenReflex、代码补全、检索增强生成、语言强化学习
地址:https://arxiv.org/pdf/2409.13122
53. Multi-Agent Vulcan:一种信息驱动的多代理路径规划方法
标题:Multi-Agent Vulcan: An Information-Driven Multi-Agent Path Finding Approach
关键词:多代理商、路径规划、信息增益、自适应采样
地址:https://arxiv.org/pdf/2409.13065
54. 大模型在论文评分上的表现
标题:Are Large Language Models Good Essay Graders?
地址:https://arxiv.org/pdf/2409.13120
55. 大模型中遗忘事实知识的反向偏好优化研究
标题:Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models
关键词:大语言模型、遗忘事实知识、反向偏好优化、负面反馈
地址:https://arxiv.org/pdf/2409.13474
56. 选择LLM与学习搜索:高等教育学生的视角
标题:Choosing Between an LLM versus Search for Learning: A HigherEd Student Perspective
关键词:大型语言模型(LLMs)、学习新主题、搜索引擎、学习动态
地址:https://arxiv.org/pdf/2409.13051
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^