斯坦福发布合成连续预训练方法!解决少样本学习特定事实问题 | 多模态模型的规模定律假设 | 复旦发布FuXi-2.0天气预报模型

文摘   2024-09-14 14:09   广东  

前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!


1. 合成连续预训练

  标题:Synthetic continued pretraining

  机构:斯坦福大学

  关键词:合成连续预训练、EntiGraph、领域特定文档、数据扩充

  作者:Zitong Yang,  Neil Band,  Shuangping Li

  分析:本文讨论了通过在大规模、无结构的互联网文本上进行预训练,大型语言模型能够获取大量关于世界知识的情况。然而,这种知识获取的方式存在数据效率低下的问题,即为了学习一个特定的事实,模型必须被训练在数百到数千种不同表现形式中。在对领域特定的文档进行微调时,面对每个事实可能出现的少频甚至单次问题,本文提出了合成连续预训练的解决方案。该方案使用较小的领域特定文档集合来合成一个更便于学习的大规模数据集,并在合成后对数据进行连续预训练。具体而言,通过定义一个名为EntiGraph的数据扩充算法,可以从源文档中提取中心实体,进而通过构建实体之间的多样连接生成多样文本。合成连续预训练与EntiGraph结合使语言模型在不接触源文档的情况下,能够回答相关问题和跟踪通用指令。如果源文档在推理阶段可获得,通过结合检索增强生成,可以进一步提高知识的积累和利用效率。为了更深入理解EntiGraph的工作原理,本文构建了一个简单的数学模型,并展示了数据扩充如何通过重新排序知识来实现更高效的数据学习。

  地址:https://arxiv.org/pdf/2409.07431


2. 半监督奖励建模通过迭代自我训练

  标题:Semi-Supervised Reward Modeling via Iterative Self-Training

  机构:伊利诺伊大学、Amazon

  关键词:奖励建模、半监督、自我训练、强化学习

  作者:Yifei He,  Haoxiang Wang,  Ziyan Jiang

  分析:这篇论文提出了一种名为“半监督奖励建模(Semi-Supervised Reward Modeling,SSRM)”的方法,用于改进基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)。传统的奖励模型训练依赖大量的人工标注数据,这在可扩展性和成本方面存在挑战。为了克服这些限制,SSRM利用未标记的数据进行训练。具体来说,给定一个未标记的数据集,SSRM包括三个关键的迭代步骤:伪标签未标记的例子、通过置信度阈值选择高置信度的例子,以及在精细的数据集上进行监督微调。经过大量模型配置的实验验证,SSRM在各种模型配置下都能显著提高奖励模型的性能,且无需增加额外的标注成本。值得注意的是,SSRM能够达到完全依赖于同等量已标记数据的模型的性能。总体而言,SSRM大大减少了对大量人工标注数据的需求,从而降低了训练有效奖励模型的总成本和时间。

  地址:https://arxiv.org/pdf/2409.06903


3. 多模态模型的规模定律假设

  标题:Scaling Law Hypothesis for Multimodal Model

  机构:麻省理工学院

  关键词:多模态模型,规模定律假设,性能预测,多模态数据处理

  作者:Qingyun Sun,  Zhen Guo

  分析:论文提出了多模态模型的规模定律假设,研究在共享令牌和嵌入空间内处理文本、音频、图像和视频的多模态模型。框架基于模态特定的压缩和令牌化效率来预测模型性能,将已建立的文本解码模型的规模定律扩展到混合模态系统。同时探索利用多模态的更多训练数据是否可以减小多模态模型的大小,从而实现资源受限设备上的高效部署。

  地址:https://arxiv.org/pdf/2409.06754


4. FuXi-2.0:提升实用型机器学习天气预报模型

  标题:FuXi-2.0: Advancing machine learning weather forecasting model for practical applications

  机构:复旦大学

  关键词:机器学习天气预报、 FuXi-2.0、1小时预报、气象变量

  作者:Xiaohui Zhong,  Lei Chen,  Xu Fan

  分析:本文提出了FuXi-2.0,一款高级机器学习天气预报模型,能提供每小时全球天气预报,并包含大量气象变量,适用于风能、航空、海洋交通等多个领域。通过与欧洲中期天气预报中心的高分辨率预报进行比较,结果显示,夫子2.0在关键气象变量预测上显著优于ECMWF,尤其在风力预测上。此外,它还实现了大气和海洋的耦合,预示着未来气候模型的重大进步。该研究具有高工业应用价值和创新性,我为其推荐指数打分为85。

  地址:https://arxiv.org/pdf/2409.07188


5. 在RLHF中使用政策过滤改进LLM代码生成

  标题:Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

  关键词:RLHF、政策过滤、代码生成、奖励模型准确性提升

  作者:Wei Shen,  Chuheng Zhang

  分析:论文探讨了在RLHF中使用政策过滤(Policy Filtration, PF-PPO)来提升大型语言模型在代码生成任务中的性能。RLHF依赖于奖励模型,但奖励不准确性在复杂任务中成为挑战。PF-PPO通过过滤不可靠奖励来提高学习的信号质量。实验展示了PF-PPO在HumanEval、MBPP和新型LeetCode Contest上的有效性,尤其在7亿参数模型上达到新纪录。

  地址:https://arxiv.org/pdf/2409.06957


6. Explanation, Debate, Align:一种从弱到强的框架,用于语言模型的一般化

  标题:Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization

  关键词:弱至强、模型评估

  作者:Mehrdad Zakershahrak,  Samira Ghodratnama

  分析:本论文探讨了人机协同与多代理系统中,确保AI系统与人类价值观、意图和伦理标准保持一致的挑战,这是人工智能系统性能超越人类在复杂问题上的表现后面临的重大问题。它建立在生成人类代理对齐解释的先前工作基础上,提出了一个基于弱至强一般化的新型建模对齐框架,特别针对语言模型。通过设计一项促进功能,该方法允许从高级模型到低能力模型的能力转移,不直接依赖大量训练数据。研究结果表明,这种促进方法不仅可以提升模型性能,还能洞察模型对齐的本质,并有望实现对人工智能系统的可扩展监护。

  地址:https://arxiv.org/pdf/2409.07335


7. MVLLaVA:一个用于统一和灵活新颖视图合成的智能代理

  标题:MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis

  关键词:MVLLaVA、新颖视图合成、多模态模型、任务特定指令模板

  作者:Hanyu Jiang,  Jian Xue,  Xing Lan

  分析:这篇论文介绍了一个用于新颖视图合成任务的智能代理MVLLaVA。它集成了多个多视图扩散模型和一个大型多模态模型LLaVA,能够高效地处理各种任务。MVLLaVA适应不同的输入类型,如单张图像、描述性标题或特定的方位角变化,根据语言指令生成视点。通过精心设计的任务特定指令模板微调LLaVA,MVLLaVA能够基于用户指令生成新颖视图图像,展示其在不同任务中的灵活性和通用性。实验验证了MVLLaVA的有效性,表明其在应对各种新颖视图合成挑战方面的稳健性能和通用性。

  地址:https://arxiv.org/pdf/2409.07129


8. TinyML设备上使用数据集蒸馏和模型大小自适应的连续增量学习方案

  标题:A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption

  机构:科隆莱茵应用技术大学

  关键词:TinyML、增量学习、模型蒸馏、嵌入式设备

  作者:Marcus Rüb,  Philipp Tuchel,  Axel Sikora

  分析:这篇论文提出了一种针对TinyML(微型机器学习)的增量学习新算法,适用于低性能、高能效的嵌入式设备。该算法解决了在资源受限环境中模型训练时遇到的灾难性遗忘问题,通过使用知识蒸馏创建小型蒸馏数据集来应对挑战。其新颖之处在于可以动态调整模型大小,以适应任务的要求。实验结果表明,该算法在嵌入式设备上的TinyML增量学习具有广阔的发展前景,测试了包括CIFAR10等在内的五个数据集,即使仅使用较少的浮点运算次数,精度损失也很小。

  地址:https://arxiv.org/pdf/2409.07114


9. ProteinBench:蛋白质基础模型的全面评估

  标题:ProteinBench: A Holistic Evaluation of Protein Foundation Models

  机构:字节跳动

  关键词:ProteinBench、蛋白质基础模型、评估框架、模型性能

  作者:Fei Ye,  Zaixiang Zheng,  Dongyu Xue

  分析:论文提出了一种名为ProteinBench的蛋白质基础模型全面评估框架,该框架旨在增强蛋白质基础模型的透明度并对其进行标准化评估。论文通过三个关键组件构建评估框架,包括任务的分类、多指标评估方法和深入的用户目标分析。该框架能够评估蛋白质基础模型在质量、新颖性、多样性和稳健性等方面的性能,揭示模型的当前能力和局限性。论文还发布了评估数据集、代码和公共排行榜,以促进透明度和进一步研究。

  地址:https://arxiv.org/pdf/2409.06744


10. Hi3D:追求高清晰度图像到三维生成的技术突破

  标题:Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

  机构:复旦大学、新加坡管理大学

  关键词:Hi3D模型,视频扩散模型,三维感知先验,多视角图像生成,高分辨率纹理细节

  作者:Haibo Yang,  Yang Chen,  Yingwei Pan

  分析:这篇论文提出了一种新的视频扩散模型Hi3D,该模型能够生成高清晰度、多视角一致的三维图像。它通过引入三维感知先验和细化网络,实现了从单张图像到多视角图像的高分辨率三维感知序列图像生成。解决了现有方法难以生成高分辨率纹理细节和多视角一致图像的问题。

  地址:https://arxiv.org/pdf/2409.07452

  代码:https://github.com/yanghb22-fdu/Hi3D-Official


11. VMAS:基于语义对齐的网页音乐视频视频到音乐生成

   标题:VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

   机构:字节跳动

   关键词:视频-音乐生成、语义对齐、大规模数据集、Transformer

   作者:Yan-Bo Lin,  Yu Tian,  Linjie Yang

   分析:本文提出了一种从视频输入中学习生成背景音乐的框架。该方法不依赖于有限的符号音乐标注,而是利用与背景音乐配套的大规模网络视频,使模型学会生成真实和多样化的音乐。论文中,作者开发了一种新型的生成性视频-音乐Transformer,通过创新的语义视频-音乐对齐方案来实现这一目的。模型采用联合自回归和对比学习目标,鼓励生成与高级视频内容对齐的音乐。此外,还引入了新的视频节奏对齐方案,以匹配生成的音乐节奏与视频中的低级运动。最后,为了捕捉用于生成真实背景音乐的细粒度视觉线索,引入了一种新的时序视频编码架构,使其能够高效处理包含许多密集采样帧的视频。该框架在新的DISCO-MV数据集上训练,包含220万个视频-音乐样本,比以往用于视频音乐生成的数据集大得多。实验结果表明,该方法在DISCO-MV和MusicCaps数据集上的音乐生成评估指标上优于现有方法。

   地址:https://arxiv.org/pdf/2409.07450

   代码:https://genjib.github.io/project_page/VMAs/index.html


12. Translating Step-by-Step:分解长文本翻译过程以提高翻译质量

   标题:Translating Step-by-Step: Decomposing the Translation Process for Improved Translation Quality of Long-Form Texts

   机构:Google

   关键词:长文本翻译、机器翻译、逐步方法、翻译质量

   作者:Eleftheria Briakou,  Jiaming Luo,  Colin Cherry

   分析:该论文提出了一种针对长文本翻译的逐步方法,借鉴了翻译研究中的成熟流程。不再将机器翻译视为单一的、不可分割的任务,而是提出了一种框架,涉及语料库模型的多轮交互,包括预翻译研究、草稿、精炼和校对,从而逐步提高翻译质量。在十个语言对中使用了Gemini 1.5 Pro进行广泛的自动评估,结果显示,逐步翻译相较于传统的零样本提示和早期的人类基线策略,在WMT2024上实现了最先进的翻译效果。

   地址:https://arxiv.org/pdf/2409.06790


13. Demo:基于大模型的代码安全生成系统研究

   标题:Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code

   机构:微软

   关键词:大型语言模型、代码安全生成、提示优化、PromSec方法

   作者:Khiem Ton,  Nhi Nguyen,  Mahmoud Nazzal

   分析:该论文介绍了一种灵活的提示优化系统SGCode,旨在利用大型语言模型生成安全的代码。该系统可以生成无漏洞的代码,并通过前端和后端API进行访问,用户可以使用该系统进行代码安全分析并轻松切换不同的提示优化方法。此外,该系统还提供了对模型和系统性能的洞察。论文采用PromSec方法对提示进行优化,该方法结合了大型语言模型和轻量级生成对抗图神经网络来检测和修复生成代码中的安全漏洞。

   地址:https://arxiv.org/pdf/2409.07368


14. TopoMap++:更快更高效的高维数据可视化技术

   标题:TopoMap++: A faster and more space efficient technique to compute projections with topological guarantees

   机构:纽约大学、微软研究院

   关键词:TopoMap++、高维数据可视化、PCA、UMAP

   作者:Vitoria Guardieiro,  Felipe Inagaki de Oliveira,  Harish Doraiswamy

   分析:这篇论文主要介绍了一种名为TopoMap的可视化技术,该技术能够将高维数据映射到低维空间,同时保留数据的重要关系。然而,原始的TopoMap算法在处理大型和复杂的数据集时可能会比较慢,布局也可能会过于稀疏。为了解决这些问题,作者提出了TopoMap++,它包括三个改进:更高效的布局、更快的实现以及基于树形结构的新的表示方式。这些改进使得TopoMap++成为了一个更强大、更适合可视化高维数据的工具。

   地址:https://arxiv.org/pdf/2409.07257


15. 生成式层次材料搜索

   标题:Generative Hierarchical Materials Search

   机构:Google DeepMind

   关键词:生成式模型、晶体结构、多模态数据、材料科学

   作者:Sherry Yang,  Simon Batzner,  Ruiqi Gao

   分析:这篇论文主要研究如何利用生成式模型在大规模上进行晶体结构的生成。通过将语言模型与扩散模型和图神经网络结合,实现了从自然语言描述直接生成晶体结构的目标,并在材料科学领域具有潜在的应用价值。

   地址:https://arxiv.org/pdf/2409.06762


16. 增强跨域预训练决策Transform的自适应注意力机制

   标题:Enhancing Cross-domain Pre-Trained Decision Transformers with Adaptive Attention

   机构:中国人民大学、微软亚洲研究院、伦敦玛丽女王大学

   关键词:决策变压器,跨域预训练,自适应注意力

   作者:Wenhao Zhao,  Qiushui Xu,  Linjie Xu

   分析:这篇论文主要研究了决策Transform(DT)的跨域预训练问题。针对短期和长期规划能力不同的环境,论文分析了预训练对微调阶段的影响,并指出预训练在某些环境下会阻碍远期信息的提取。为解决这一问题,论文提出了GPT-DTMA方法,通过混合注意力(MoA)机制使预训练的DT具有自适应学习能力,满足不同环境下的注意力需求。实验证明,GPT-DTMA在短期环境性能优越,在需要长期规划的环境中也能有效缓解Markov矩阵的负面影响。

   地址:https://arxiv.org/pdf/2409.06985


17. 自适应元域迁移学习(AMDTL):人工智能中知识迁移的新型方法

   标题:Adaptive Meta-Domain Transfer Learning (AMDTL): A Novel Approach for Knowledge Transfer in AI

   机构:牛津大学、悉尼大学、清华大学

   关键词:自适应元域迁移学习、元学习、领域适应、迁移学习

   作者:Michele Laurelli

   分析:这篇论文提出了一种新的迁移学习方法——自适应元域迁移学习(AMDTL)。它通过结合元学习和领域特定的适应性原则,增强了人工智能模型在不同和未知领域之间的可迁移性。AMDTL旨在解决迁移学习的三大挑战:领域不匹配、负迁移和灾难性遗忘。它通过一个混合框架实现,该框架强调通用性和上下文专业化,包括元学习者在多样化任务分布上的训练、领域特征分布的对抗性训练技术和基于上下文域嵌入的动态特征调节机制。实验结果表明,AMDTL在基准数据集上的准确性、适应效率和稳健性方面优于现有的迁移学习方法。

   地址:https://arxiv.org/pdf/2409.06800


18. 预测与优化任务之间距离的正确认知

   标题:What is the Right Notion of Distance between Predict-then-Optimize Tasks?

   机构:哈佛大学、微软研究院、乔治亚理工学院

   关键词:Predict-then-Optimize框架、数据集距离、下游决策、迁移能力

   作者:Paula Rodriguez-Diaz,  Lingkai Kong,  Kai Wang

   分析:本文研究预测与优化任务之间的距离问题。传统的数据集距离主要关注特征维度和标签维度,但在预测优化框架中缺乏实用性。因此,本文提出了一种新的数据集距离,它能够整合下游决策的影响,为预测优化任务提供准确的性能评估和理论框架。在三项不同任务中进行的实证结果表明,新提出的数据集距离可以准确预测迁移能力。

   地址:https://arxiv.org/pdf/2409.06997


19. Muskits-ESPnet:一个全面的声乐合成工具包在新范式

   标题:Muskits-ESPnet: A Comprehensive Toolkit for Singing Voice Synthesis in New Paradigm

   机构:中国人民大学、卡内基梅隆大学、乔治亚理工学院

   关键词:声乐合成、模型结构、预训练、离散表示

   作者:Yuning Wu,  Jiatong Shi,  Yifeng Yu

   分析:研究提出了Muskits-ESPnet,一个多功能的工具包,通过在连续和离散方法中应用预先训练的音频模型,在声乐合成(SVS)中引入了新的范式。具体来说,该论文探索了自监督学习模型和音频编码器提供的离散表示的优势,提供了在灵活性和智能性方面的显著优势,支持多种格式输入和适应各种SVS模型的数据处理流程。工具包还提供了自动音乐分数错误检测和修正功能,以及一个模仿人类主观评分评估的自动评价模块。Muskits-ESPnet可以在github的espnet仓库中找到。

   地址:https://arxiv.org/pdf/2409.07226

   代码:https://github.com/espnet/espnet


20. 物理驱动的单图像快速四维内容生成

   标题:Phy124: Fast Physics-Driven 4D Content Generation from a Single Image

   机构:厦门大学、香港理工大学

   关键词:物理驱动、四维内容生成、单一图像、物理模拟

   作者:Jiajing Lin,  Zhenzhong Wang,  Yongjie Hou

   分析:这篇论文提出了一种新的四维内容生成方法,它能够从单一图像快速生成遵循物理规律的动态三维对象。该方法通过集成物理模拟直接生成四维内容,确保了生成内容符合自然物理定律。同时,它摒弃了扩散模型,显著加速了生成过程,并允许通过操纵外部力量来控制四维动态。

   地址:https://arxiv.org/pdf/2409.07179

   代码:https://anonymous.4open.science/r/BBF2/


21. LIME-M:多模态大模型评估的精简方法

   标题:LIME-M: Less Is More for Evaluation of MLLMs

   机构:浙江大学、曼彻斯特大学、南洋理工大学

   关键词:LIME-M、多模态大型语言模型评估、精简评估方法、半自动筛选

   作者:Kang Zhu,  Qianbo Zang,  Shian Jia

   分析:针对多模态大型语言模型(MLLMs)的评估问题,论文提出了一种精简的评估方法。通过半自动筛选过程和消除答案泄露的模块,对现有评估基准进行优化,构建了LIME-M轻量级多模态基准。该基准使用更少的样本和时间,更有效地评估不同模型的性能,并消除了答案泄露问题。此外,论文还指出了当前自动度量指标的不足,并提出了在总体得分计算中去除描述任务分数的建议。

   地址:https://arxiv.org/pdf/2409.06851

   代码:https://github.com/kangreen0210/LIME-M


22. Beyond designer's knowledge:通过大模型生成材料设计假设

   标题:Beyond designer's knowledge: Generating materials design hypotheses via large language models

   机构:威斯康星大学、麻省理工学院

   关键词:大型语言模型,材料设计,假设生成,模型结构改进,预训练

   作者:Quanliang Liu,  Maciej P. Polak,  So Yeon Kim

   分析:这篇论文展示了大型语言模型(LLM)在材料设计中的应用。通过结合提示工程,LLM能够整合各种来源的科学原理,生成非平凡的材料假设,这些假设不需要人类专家的明确指导。该论文介绍了高熵合金和卤化物固体电解质的设计思想,这些思想已经通过实验验证并发表在2023年的高影响力出版物上。此外,论文还使用材料系统图来编码加工-结构-性质关系,使LLM更有效地整合关键信息,评估和分类多个假设,以支持人类认知。该论文展示了LLM在材料发现中的潜力,能够超越设计师的直接知识,加速设计,民主化创新并扩展能力。

   地址:https://arxiv.org/pdf/2409.06756


23. Online Decision MetaMorphFormer:基于transformer的通用实体智能随意强化学习框架

   标题:Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence

   机构:阿里巴巴集团

   关键词:统一模型、自我意识、环境识别、行动规划

   作者:Luo Ji,  Runji Lin

   分析:这篇论文提出了一个名为Online Decision MetaMorphFormer(ODM)的强化学习框架,旨在通过统一的结构实现自我意识、环境识别和行动规划。ODM框架旨在解决传统的离线训练管道限制,允许探索和新知识吸收,同时也解决了通用环境和多任务适应的问题。该框架通过认知和行为心理学的启发,允许学习者学习他人、认识世界、并通过自身经验实践。它还可以应用于任何具有多关节体的异构环境,使用不同类型任务的广泛预训练数据集进行训练。实验和测试表明,ODM具有良好的性能和泛化能力。

   地址:https://arxiv.org/pdf/2409.07341

   代码:https://rlodm.github.io/odm/


24. Awaking the Slides:通过语言模型协调实现无调优和受知识调节的人工智能 Tutoring 系统

   标题:Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination

   机构:清华大学

   关键词:人工智能教育、语言模型、幻灯片互动、无调优

   作者:Daniel Zhang-Li,  Zheyuan Zhang,  Jifan Yu

   分析:大量的原始幻灯片充分丰富了课程知识。然而,要有效地利用幻灯片服务学生却很困难,因为幻灯片内容的多种模态性质和混合教学行动。该论文研究了将输入幻灯片转换为互动讲座的有效设计问题。该论文开发了 Slide2Lecture,一个无需配置即可运行并提供人工智能辅导系统的系统,它能:(1)有效地将输入的幻灯片转换为一个包含一组异构教学行动的结构性教学大纲;(2)创建和管理一个互动 lecture,它根据学生的学习需求生成响应互动,同时调节相互作用以遵循教学行动。Slide2Lecture 包含学习者获取互动课堂体验以学习幻灯片的完整管道。对于教师和开发人员,Slide2Lecture 实现了定制以满足个性化需求。评估结果显示 Slide2Lecture 有效地超越了其他实施方案。Slide2Lecture 的在线部署在 3K 讲演中与学生产生了超过 200K 的互动。

   地址:https://arxiv.org/pdf/2409.07372

   代码:https://anonymous.4open.science/r/slide2lecture-4210/


25. 基于研究仓库的任务设置与执行的智能体评估系统SUPER介绍

   标题:SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories

   机构:华盛顿大学、艾伦AI研究所

   关键词:LLM、任务设置与执行、研究仓库、SUPER系统

   作者:Ben Bogin,  Kejuan Yang,  Shashank Gupta

   分析:本文主要介绍了一个名为SUPER的智能体评估系统,该系统旨在评估大型语言模型(LLM)从研究仓库中设置和执行任务的能力。文章首先介绍了研究的背景和目标,随后详细描述了SUPER系统的设计和实施,包括其包含的三个不同的问题集和评估方法。通过实证分析,文章展示了当前先进技术面临的挑战,并强调了SUPER系统作为社区资源的重要性和潜力。

   地址:https://arxiv.org/pdf/2409.07440


26. 线性时间复杂度遵从者与SummaryMixing总结混合技术在流式语音识别中的应用

   标题:Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition

   机构:三星AI中心

   关键词:AutoSpeechRecognition、ConformerTransducer

   作者:Titouan Parcollet,  Rogier van Dalen,  Shucong Zhang

   分析:这篇论文探讨了自动语音识别(ASR)技术在包含自我注意力机制的编码器中的实现方式,特别是针对流式和非流式的两种实现。传统上,ASR技术的时间复杂度为语音片段长度的二次方,这延长了训练和解码的时间,增加了成本,并限制了在有限资源设备上的应用。"SummaryMixing"就是一种可能解决这一问题的线性时间复杂度替代技术,尤其针对非流式语音识别,它首次避免了与自我注意力模型相比在准确性上的损失。然而,原始的"SummaryMixing"定义并不适用于流式语音识别。此研究将"SummaryMixing"扩展为一个能够在流式和离线模式下工作的"Conformer Transducer"编码器,证明了这种新的线性时间复杂度ASR编码器在两种场景中均优于自我注意力,且在训练和解码过程中需求更少的计算和内存资源。

   地址:https://arxiv.org/pdf/2409.07165


27. 人类动作合成_A扩散方法用于动作缝合和内部

   标题:Human Motion Synthesis_ A Diffusion Approach for Motion Stitching and In-Betweening

   机构:斯坦福大学

   作者:Michael Adewole,  Oluwaseyi Giwa,  Favour Nerrise

   分析:在本文中,该论文解决了运动缝合和内部的问题。目前的方法要么需要手动努力,要么无法处理更长的序列。为了解决这些挑战,该论文提出了一种具有Transform基消噪器的扩散模型来生成真实的人类运动。该论文的方法在生成内部序列方面表现出强大的性能,将可变数量的输入姿势转换为每秒15帧的75帧平滑和逼真的运动序列,总持续时间为5秒。该论文使用定量指标如Frechet Inception Distance(FID)、多样性和多模态,以及生成的输出的视觉评估来评估该论文的方法。

   地址:https://arxiv.org/pdf/2409.06791


28. 竞态复杂性研究大模型

   标题:The Competition Complexity of Prophet Inequalities with Correlations

   机构:哈佛大学、特拉维夫大学

   作者:Tomer Ezra,  Tamar Garbuz

   分析:本文研究了在具有相关奖励值的场景下,大语言模型(prophet不等式)的需求复杂性。该论文的目标是确定在线算法需要多少额外的奖励才能逼近原始实例的最大值。与独立奖励情况下的已有理解不同,当存在奖励相关性时,所需的额外奖励数量取决于原始奖励的数量,而且当相关性存在时,最优的独立情况下的块阈值算法可能需要无穷多的额外奖励。该论文开发的渐近最优算法分别处理了以下三种情况:(1) 奖励按不同的原始实例块发送;(2) 所有副本上的奖励任意洗牌;(3) 奖励按不同的原始实例块发送,且每个块内的值是成对的独立而不是完全相关。

   地址:https://arxiv.org/pdf/2409.06868


29. 神经符号自然语言导航规划器

   标题:NSP: A Neuro-Symbolic Natural Language Navigational Planner

   机构:麻省理工学院、佛罗里达大学

   关键词:神经符号、自然语言、导航规划器、大型语言模型

   作者:William English,  Dominic Simon,  Rickard Ewetz

   分析:神经符号自然语言导航规划器是一种结合了神经推理和符号方法的新型路径规划算法。该算法利用预训练的大型语言模型(LLM)来理解和生成自然语言指令,并将其转化为可执行的符号路径规划。通过反馈循环,该算法能够自我纠正语法错误,并满足执行时间限制。实验结果表明,该算法在路径规划问题上的表现优于当前的神经方法,具有很高的实用价值。

   地址:https://arxiv.org/pdf/2409.06859


30. 生成式人工智能在需求工程中的应用:系统性文献综述的综述

   标题:Generative AI for Requirements Engineering: A Systematic Literature Review

   机构:早稻田大学

   关键词:生成式人工智能、需求工程、大型语言模型、应用现状

   作者:Haowei Cheng,  Jati H. Husen,  Sien Reeve Peralta

   分析:这篇论文对生成式人工智能(GenAI)在需求工程(RE)中的应用进行了全面的系统性文献综述。它深入探讨了GenAI在RE中的应用现状和创新性提议,同时识别了此领域的关键挑战和机遇。论文重点关注了GenAI在RE流程中的使用,特别是在早期阶段的用户需求挖掘和分析。此外,论文还指出了当前研究的一些主要趋势和挑战,如大型语言模型的应用和AI生成输出的领域特定性和可解释性挑战。

   地址:https://arxiv.org/pdf/2409.06741


31. ART:用于重建无噪声多通道脑电图信号的无杂质去除Transform

   标题:ART: Artifact Removal Transformer for Reconstructing Noise-Free Multichannel Electroencephalographic Signals

   机构:清华大学、国立阳明交通大学

   关键词:脑电图、伪迹去除、Transformer、去噪模型

   地址:https://arxiv.org/pdf/2409.07326


32. 音频异常检测

   标题:Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models

   机构:清华大学、上海交通大学

   地址:https://arxiv.org/pdf/2409.07016


33. PanAdapter:基于空间光谱先验的两阶段微调进行全色融合

   标题:PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for Pansharpening

   机构:电子科技大学

   关键词:全色融合、预训练、空间光谱先验

   地址:https://arxiv.org/pdf/2409.06980


34. 知识库生成模型ClassLoader手册:基于生成器和复用信息

   标题:Agent Workflow Memory

   机构:麻省理工学院、卡内基梅隆大学

   关键词:内存自动生成、IMD方法、希尔统计逆编码

   地址:https://arxiv.org/pdf/2409.07429


35. 基于门控插槽注意力的高效线性时间序列建模研究

   标题:Gated Slot Attention for Efficient Linear-Time Sequence Modeling

   机构:滑铁卢大学、麻省理工学院、腾讯AI实验室

   关键词:门控插槽注意力(GSA)、线性注意力Transformer、模型结构改进

   地址:https://arxiv.org/pdf/2409.07146


36. DreamMesh:联合操控和纹理化三角网格实现文本到3D生成

   标题:DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

   机构:复旦大学

   关键词:文本到3D生成、DreamMesh、三角网格、纹理化

   地址:https://arxiv.org/pdf/2409.07454

   代码:https://dreammesh.github.io


37. MiniDrive:基于多层次二维特征文本标记的自动驾驶视觉语言模型

   标题:MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving

   机构:中国科学院大学

   关键词:MiniDrive框架、视觉语言模型、特征工程混合专家模块、动态指令适配器

   地址:https://arxiv.org/pdf/2409.07267


38. 跨方言文字转换语音合成 Incorporating Multi-Dialect Phoneme-Level BERT

   标题:Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT

   机构:东京大学

   关键词:跨方言、文本到语音合成、多方言、phoneme-level BERT

   地址:https://arxiv.org/pdf/2409.07265


39. Mamba Policy:面向高效三维扩散策略的混合选择性状态模型

   标题:Mamba Policy: Towards Efficient 3D Diffusion Policy with Hybrid Selective State Models

   机构:浙江大学、香港科技大学

   关键词:曼巴策略、混合选择性状态模型、三维操控、扩散模型

   地址:https://arxiv.org/pdf/2409.07163

   代码:https://andycao1125.github.io/mamba_policy/


40. SoftShadow:利用半影感知软掩码进行阴影去除

   标题:SoftShadow: Leveraging Penumbra-Aware Soft Masks for Shadow Removal

   机构:南洋理工大学、德克萨斯大学

   关键词:软阴影、端到端、阴影去除、物理约束

   地址:https://arxiv.org/pdf/2409.07041


41. EasyST:一种用于时空预测的简单框架

   标题:EasyST: A Simple Framework for Spatio-Temporal Prediction

   机构:香港大学、香港科技大学

   关键词:时空预测、模型蒸馏、知识提炼、信息瓶颈

   地址:https://arxiv.org/pdf/2409.06748

   代码:https://github.com/HKUDS/EasyST


42. "My Grade is Wrong!":一款竞赛性AI框架,用于互动式反馈的学生作文评估

   标题:"My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays

   机构:南洋理工大学

   关键词:互动式反馈、CAELF、大型语言模型

   地址:https://arxiv.org/pdf/2409.07453


43. Decomposition of surprisal:构建人类语言处理过程的统一计算模型

   标题:Decomposition of surprisal: Unified computational model of ERP components in language processing

   机构:UC尔湾分校

   关键词:语言处理、信息理论模型、启发式惊奇、差异信号

   地址:https://arxiv.org/pdf/2409.06803


44. ARIM-mdx数据系统:推进全国范围内材料科学的数据平台

   标题:ARIM-mdx Data System: Towards a Nationwide Data Platform for Materials Science

   机构:东京大学

   关键词:ARIM-mdx、数据平台、材料科学、数据管理

   地址:https://arxiv.org/pdf/2409.06734


45. Recent Trends of Multimodal Affective Computing:从NLP视角的最新趋势

   标题:Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

   机构:南京大学、香港大学、北京大学

   关键词:多模态情感计算、NLP视角、最新趋势、情感分析

   地址:https://arxiv.org/pdf/2409.07388


46. 神经算法推理与多解

   标题:Neural Algorithmic Reasoning with Multiple Correct Solutions

   机构:东北大学、剑桥大学

   关键词:神经算法、最短路径

   地址:https://arxiv.org/pdf/2409.06953


47. PiTe:像素时序对齐在大型视频语言模型中的应用

   标题:PiTe: Pixel-Temporal Alignment for Large Video-Language Model

   机构:西湖大学

   关键词:像素时序对齐、大型视频语言模型、多模态、预训练

   地址:https://arxiv.org/pdf/2409.07239


48. FreeEnhance:无微调图像增强技术——基于内容一致的噪声与去噪过程

   标题:FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process

   机构:复旦大学

   关键词:FreeEnhance、图像增强、扩散模型、噪声与去噪过程

   地址:https://arxiv.org/pdf/2409.07451


49. 单一大模型优化语义令牌化和生成推荐

   标题:STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM

   机构:浙江大学

   关键词:语义令牌化、生成推荐、大型语言模型、模型结构改进

   地址:https://arxiv.org/pdf/2409.07276


50. Retinex-RAWMamba: 修复低光RAW图像的多阶段方法

   标题:Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement

   机构:西北工业大学、中国科学技术大学

   关键词:低光图像增强、RAW图像处理、Retinex分解、ISP pipeline

   地址:https://arxiv.org/pdf/2409.07040


51. 视觉Transformers中的脑启发分块合并技术

   标题:Brain-Inspired Stepwise Patch Merging for Vision Transformers

   机构:中国科学院大学

   关键词:视觉Transformers、逐步分块合并、大脑启发、注意力机制

   地址:https://arxiv.org/pdf/2409.06963


52. 超越独立同分布: 从指令交互与依赖的角度优化指令学习

   标题:Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency

   机构:北京AI研究院

   关键词:指令交互、指令依赖、大型语言模型、优化学习

   地址:https://arxiv.org/pdf/2409.07045


53. 基于语义挖掘和神经网络的电子商务网页推荐方案

   标题:E-commerce Webpage Recommendation Scheme Base on Semantic Mining and Neural Networks

   机构:加州大学、乔治亚理工学院、中国科学技术大学

   关键词:电子商务网页推荐、语义挖掘、BP神经网络、特征提取

   地址:https://arxiv.org/pdf/2409.07033


54. Think Together and Work Better:结合人类的和LLM的TA方法进行有效文本评价

   标题:Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation

   机构:韩国科学技术高等研究院

   关键词:共同思维、有效文本评价、Think-Aloud、InteractEval

   地址:https://arxiv.org/pdf/2409.07355

   代码:https://github.com/BBeeChu/InteractEval.git


55. EMOdiffhead:基于扩散模型实现说话人头部情绪的连续控制

   标题:EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion

   机构:华南理工大学

   关键词:EMOdiffhead、情感化说话人头部生成、扩散模型、DECA方法

   地址:https://arxiv.org/pdf/2409.07255


56. 模块自适应对抗训练在端到端自动驾驶中的应用

   标题:Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving

   机构:新加坡国立大学、北京航空航天大学

   关键词:端到端自动驾驶、模块自适应对抗训练、噪声注入、动态权重累积适应

   地址:https://arxiv.org/pdf/2409.07321


57. 大模型时代小模型的作用:一个调查

   标题:What is the Role of Small Models in the LLM Era: A Survey

   关键词:小模型、LLMs、机制研究、协作与竞争

   地址:https://arxiv.org/pdf/2409.06857

   代码:https://github.com/tigerchen52/role_of_small_models


58. 利用非结构化文本数据进行联邦指令调整大模型的调优

   标题:Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models

   机构:上海交通大学、上海AI实验室

   关键词:联邦指令调整、大型语言模型、非结构化文本数据、结构化数据

   地址:https://arxiv.org/pdf/2409.07136


59. 理解L大模型中的知识漂移通过错误信息

   标题:Understanding Knowledge Drift in LLMs through Misinformation

   机构:慕尼黑工业大学

   关键词:知识漂移、大型语言模型、模型评估、不确定性

   地址:https://arxiv.org/pdf/2409.07085

   代码:https://github.com/afastowski/knowledge_drift


60. DetailCLIP:针对细粒度任务的细节导向型 CLIP

   标题:DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

   关键词:细节导向型CLIP、对比学习、视觉与语言模型、细粒度任务处理

   地址:https://arxiv.org/pdf/2409.06809

   代码:https://github.com/KishoreP1/DetailCLIP


61. 弱形式比你想的更强大

   标题:The Weak Form Is Stronger Than You Think

   关键词:weak form、数学工具、计算机科学、应用数学

   地址:https://arxiv.org/pdf/2409.06751

   代码:https://github.com/MathBioCU


62. 3DGCQA:用于评估3D人工智能生成内容的品质

   标题:3DGCQA: A Quality Assessment Database for 3D AI-Generated Contents

   关键词:3D人工智能生成内容,质量评估,数据集构建,模型评估

   地址:https://arxiv.org/pdf/2409.07236

   代码:https://github.com/zyj-2000/3DGCQA


63. 表示调优

   标题:Representation Tuning

   地址:https://arxiv.org/pdf/2409.06927

   代码:https://github.com/cma1114/representation_tuning;; https://github.com/cma1114/representation_tuning;


64. 基于无本体通用领域知识图谱到文本生成数据集合成的论文

   标题:Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model

   关键词:知识图谱到文本生成、大规模数据集、预训练语言模型

   地址:https://arxiv.org/pdf/2409.07088


65. 两种团队的独立对手多队互相作用游戏的复杂性研究

   标题:The Complexity of Two-Team Polymatrix Games with Independent Adversaries

   机构:瑞士洛桑联邦理工学院

   关键词:多队互相作用游戏、纳什均衡、独立对手、复杂性研究

   地址:https://arxiv.org/pdf/2409.07398


66. CPSample: 分类器保护采样防止训练数据在扩散模型中复制的做法

   标题:CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion

   关键词:分类器保护采样、训练数据复制、扩散模型、图像质量保护

   地址:https://arxiv.org/pdf/2409.07025


67. 基于高度差改进的按需滴落3D打印高度轮廓模型研究

   标题:An Improved Height Difference Based Model of Height Profile for Drop-on-Demand 3D Printing With UV Curable Ink

   机构:普渡大学

   关键词:高度轮廓模型、UV固化油墨、按需滴落三维打印、体积守恒

   地址:https://arxiv.org/pdf/2409.07021


68. Identify Design Problems Through Questioning:探索与大模型的角色扮演互动以培养学生提问的设计质疑能力

   标题:Identify Design Problems Through Questioning: Exploring Role-playing Interactions with Large Language Models to Foster Design Questioning Skills

   机构:韩国科学技术院

   关键词:大型语言模型,角色扮演互动,设计质疑能力,应用探索

   地址:https://arxiv.org/pdf/2409.07178


69. 语言生成的大模型再排序问题

   标题:Reranking Laws for Language Generation: A Communication-Theoretic Perspective

   机构:UKP Lab

   关键词:大型语言模型、再排序策略、通信理论、可靠性

   地址:https://arxiv.org/pdf/2409.07131


70. AdaCAD:自适应解码以平衡上下文知识与参数知识间的冲突

   标题:AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge

   关键词:AdaCAD,大型语言模型,上下文知识,参数知识,解码

   地址:https://arxiv.org/pdf/2409.07394


71. MEDIC:全面评估大模型在临床应用中的表现

   标题:MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications

   关键词:LLMs, 临床应用, 评估框架, 医疗领域, 全面发展

   地址:https://arxiv.org/pdf/2409.07314


72. Multi-Type Preference Learning:通过相等偏好增强基于偏好的强化学习

   标题:Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

   关键词:偏好学习、强化学习、相等偏好、多类型偏好

   地址:https://arxiv.org/pdf/2409.07268


73. Dot Product is All You Need:连接项目推荐和链预测的差距

   标题:Dot Product is All You Need: Bridging the Gap Between Item Recommendation and Link Prediction

   关键词:链预测、推荐系统、知识图谱

   地址:https://arxiv.org/pdf/2409.07433


74. ManaTTS Persian数据集:创建波斯语TTS数据集的配方

   标题:ManaTTS Persian: a recipe for creating TTS datasets for lower resource languages

   关键词:波斯语TTS数据集、低资源语言、数据集构建、模型评估

   地址:https://arxiv.org/pdf/2409.07259


75. PingPong:基于用户模拟与多模型评估的角色扮演语言模型基准测试

   标题:PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

   关键词:语言模型评估、角色扮演、用户模拟、多轮对话

   地址:https://arxiv.org/pdf/2409.06820


76. 智能体能否自发形成社会?引入一种新型生成多智能体架构以激发社会涌现

   标题:Can Agents Spontaneously Form a Society? Introducing a Novel Architecture for Generative Multi-Agents to Elicit Social Emergence

   关键词:生成智能体架构、社交互动框架、社会涌现、沙盒环境模拟

   地址:https://arxiv.org/pdf/2409.06750


77. 高效一步扩散细化法用于快照压缩成像

   标题:Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging

   关键词:快照压缩成像、自监督、扩散细化、一步模型

   地址:https://arxiv.org/pdf/2409.07417


78. 扩散模型对齐:基础、挑战与未来

   标题:Alignment of Diffusion Models: Fundamentals, Challenges, and Future

   地址:https://arxiv.org/pdf/2409.07253


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章