前言:如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”!
1. stereo-talker: 音频驱动的 3D 人类合成
标题:Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts
机构:清华大学、字节跳动、Apple
关键词: 大模型、数据集、语音合成、视频生成
作者:Xiang Deng, Youxin Pang, Xiaochen Zhao
分析: 这篇论文介绍了一个新的1次音频驱动的 3D 谈话视频合成系统,可以生成带有精确唇同步、表情动作、时间一致的照片真实感以及连续视角控制的 3D 谈话视频。这个过程遵循两阶段的策略。在第一阶段,系统将音频输入映射到高保真动作序列,包括上半身动作和面部表情。为了丰富动作多样性和真实性,将大语言模型(LLM)先验与对齐的语义音频特征集成起来,利用 LLM 的跨模态泛化能力来增强动作质量。在第二阶段,该论文通过引入先验引导混合专家(MoE)机制来改进基于扩散的视频生成模型:一个视点指向的 MoE 专注于特定的视点属性,而一个屏蔽引导的 MoE 增强了基于区域的渲染稳定性。此外,开发了一个预测人类的面具模块,以确保口罩的稳定性和准确性,并在推理期间进行口罩引导。该论文还引入了一个全面的 2,203 个身份的人视频数据集,涵盖了多样的身体动作和详细注释,便于广泛的泛化。代码、数据和预训练模型将用于研究目的。
地址:https://arxiv.org/pdf/2410.23836
2. 模型编辑性能下降的原因及解决方案研究
标题:Reasons and Solutions for the Decline in Model Performance after Editing
关键词:模型编辑、性能下降、多问题数据集、L1范数
作者:Xiusheng Huang, Jiaxiang Liu, Yequan Wang
分析:论文研究了知识编辑技术在大型语言模型中的应用及其存在的问题。通过构建多问题数据集(MQD)进行实验,发现编辑模型的性能受到编辑目标多样性和序列长度的影响。同时,从模型角度探讨了影响编辑模型性能的因素,发现编辑层L1范数与编辑精度之间存在强相关性。针对这一问题,论文提出了一种序列倾倒(D4S)方法,通过减小编辑层的L1范数,实现多次有效编辑,并最小化模型损伤。
地址:https://arxiv.org/pdf/2410.23843
代码:https://github.com/nlpkeg/D4S
3. 大模型在快速与慢速思考训练中的层级变化:从梯度角度探究
标题:What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective
机构:马里兰大学
关键词:大型语言模型(LLMs)、快速与慢速思考、梯度变化、学习稳定性
作者:Ming Li, Yanhong Li, Tianyi Zhou
分析:本文探究大型语言模型(LLMs)在不同训练模式下的梯度变化,特别是快速与慢速思考对层级梯度的影响。研究发现,慢速思考能提高学习稳定性,预训练LLMs受快速思考不稳定性的影响较小。此外,研究还发现,慢速思考的梯度能区分正确的和无关的思考路径。该研究加深了对LLM训练的理解,为其效率和稳定性提供了新的见解。
地址:https://arxiv.org/pdf/2410.23743
代码:https://github.com/MingLiiii/Layer_Gradient
4. NPU-HWC系统在ISCSLP2024音频生成挑战中的应用
标题:The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge
机构:西北工业大学
作者:Dake Guo, Jixun Yao, Xinfa Zhu
分析:该论文介绍了提交至ISCSLP2024年音频生成挑战赛的NPU-HWC系统,该系统由两部分组成:用于Track 1的语音生成器和用于Track 2的背景音乐生成器。在Track 1中,采用Single-Codec对语音进行分词,并利用基于语言模型的方法实现零样本说话风格的克隆。Single-Codec有效地将音色和说话风格在词汇级别上解耦,从而减轻自回归语言模型在声学建模方面的负担。此外,使用DSPGAN将16kHz梅尔频谱图上采样到高保真度的48kHz波形。在Track 2中,提出了一种基于大型语言模型的背景音乐生成器。该系统产生适合场景的伴奏描述,使用Tango 2合成背景音乐,并将其与该论文的Track 1系统生成的语音集成。该论文的提交在Track 1和Track 2中分别获得了第二名和第一名。
地址:https://arxiv.org/pdf/2410.23815
5. Thought Space Explorer:扩大和优化思维空间以实现大模型的推理能力
标题:Thought Space Explorer: Navigating and Expanding Thought Space for Large Language Model Reasoning
机构:中国人民大学
关键词:大型语言模型,思维空间探索者,推理任务,结构化思维,盲点问题
作者:Jinghan Zhang, Fengran Mo, Xiting Wang
分析:针对大型语言模型(LLM)解决复杂推理任务的能力提升,提出了一种新的框架“思维空间探索者”(TSE)。TSE设计用于扩展和优化思维结构,指导LLM克服思考中的盲点。通过生成基于原始思维结构的新推理步骤和分支,TSE扩大了思维空间并减轻了LLM推理的盲点影响。实验结果表明,TSE在多个层次的推理任务中有效。同时进行了深入分析,以了解结构化、扩展性思维如何有助于释放LLM的推理潜力。
地址:https://arxiv.org/pdf/2410.24155
6. 自动化文本事实核查
标题:The Automated Verification of Textual Claims (AVeriTeC) Shared Task
机构:剑桥大学、Amazon、伦敦国王学院
作者:Michael Schlichtkrull, Yulong Chen, Chenxi Whitehouse
分析:这篇论文主要介绍了自动化文本事实核查(AVeriTeC)共享任务,该任务要求参与者从搜索引擎或组织者提供的知识库中检索证据,并预测真实世界的声明的真实性。提交的评估使用AVeriTeC分数,如果声明的判断正确且检索到的证据满足一定的质量阈值,则认为声明被准确验证。该共享任务收到了21个提交,其中18个超过了基线。获胜团队是TUDA_MAI,其AVeriTeC得分为63%。在本文中,该论文描述了共享任务,展示了完整的结果,并强调了从共享任务中获得的关键要点。
地址:https://arxiv.org/pdf/2410.23850
7. 约束反翻译改进大模型的复杂指令跟随
标题:Constraint Back-translation Improves Complex Instruction Following of Large Language Models
机构:清华大学
关键词:约束反翻译、复杂指令跟随、大型语言模型、数据质量提升
作者:Yunjia Qi, Hao Peng, Xiaozhi Wang
分析:这篇论文主要讨论了大型语言模型在跟随包含复杂约束的指令时遇到的问题。目前,模型通常通过给高级语言模型提供复杂指令来生成数据,但这些高级模型自己也不擅长处理复杂指令,这限制了生成的数据质量。研究者提出了一种名为约束反翻译的技术,利用现有数据中隐含的复杂约束来简化成本和数据噪声,从而提高数据质量。实验中使用Llama3-70B-Instruct进行约束反翻译,创建了一个名为CRAB的高质量复杂指令-响应数据集,并证明了在广泛使用的跟随指令基准测试中,对多个骨干模型进行post-training可以提高复杂指令跟随的能力。论文还发现,约束反翻译可以作为post-training的一个有用的辅助训练目标。代码、数据和模型将在未来研究中共享。
地址:https://arxiv.org/pdf/2410.24175
8. Memes, Markets, and Machines:链上自主性的演变通过超分裂
标题:Memes, Markets, and Machines: The Evolution of On Chain Autonomy through Hyperstition
关键词:自主人工智能(AI)、文化、认知、金融、膜文化
作者:Jeffy Yu、GPT-o1
分析:这篇论文探讨的是自主人工智能(AI)在文化、认知和金融领域的交叉点所带来的数字化变革。其中涉及Zerebro这个被调谐用于精神分裂反应和安迪·艾瑞无限后台对话的AI系统,它可自主生成和传播破坏性膜文化内容,并在区块链网络上创建独特的ASCII艺术作品。研究揭示了AI系统如Zerebro如何成为文化、认知和金融的架构师,特别是在膜文化通过超分裂现象变为现实的过程中。
地址:https://arxiv.org/pdf/2410.23794
9. 增强文本到视频生成的运动效果
标题:Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning
机构:Amazon、香港理工大学
作者:Penghui Ruan, Pichao Wang, Divya Saxena
分析:尽管文本到视频(T2V)生成的技术取得了进步,但生成的视频仍然难以达到真实运动的效果。当前的模型往往产生静态或微动态输出,无法抓住文本中描述的复杂运动。这个问题源于文本编码器内部存在偏见,忽视了运动,以及T2V生成模型中的条件机制不足。为了解决这个问题,该论文提出了一种名为DEcomposed MOtion(DEMO)的新颖框架,通过将文本编码和条件机制分解为内容成分和运动成分,增强了T2V生成的运动效果。该论文的方法包括一个用于静态元素的静态内容编码器和一个用于时间动态的运动编码器,以及分别用于内容和运动的独立条件机制。最重要的是,该论文引入了文本-运动和视频-运动监督,以提高模型对运动的理解和生成能力。在MSR-VTT,UCF-101,WebVid-10M,EvalCrafter和VBench等基准测试中,该论文的方法显著提高了视频的运动动态效果,同时保持了高的视觉质量。该论文的方法在整合全部运动理解方面,对T2V生成做出了重大贡献。
地址:https://arxiv.org/pdf/2410.24219
代码:https://PR-Ryan.github.io/DEMO-project/
10. SOAR:从开放域视频中的自遮挡恢复人物角色模型
标题:SOAR: Self-Occluded Avatar Recovery from a Single Video In the Wild
机构:上海科技大学、UC伯克利分校
关键词:自遮挡人物重建、结构正常先验、生成扩散先验、surfel模型
作者:Zhuoyang Pan, Angjoo Kanazawa, Hang Gao
分析:这篇论文主要解决在野外拍摄人物时常见的自遮挡问题,提出了一种名为SOAR的方法,能够从部分观测中进行完整的人类重建。该方法结合了结构正常先验和生成扩散先验,解决了自遮挡导致的重建问题。通过可调整的surfel模型进行人物建模,并采用得分蒸馏技术进行初始重建和优化。在多个基准测试中,SOAR表现出优异的性能。
地址:https://arxiv.org/pdf/2410.23800
代码:https://soar-avatar.github.io/
11. 从合成视频和自然图像中学习视频表示而无需自然视频的训练
标题:Learning Video Representations without Natural Videos
机构:Meta AI
关键词:合成视频、自监督学习、视频表示预训练、自然图像
作者:Xueyang Yu, Xinlei Chen, Yossi Gandelsman
分析:本文提出了从合成视频和自然图像中学习有用的视频表示的可行方法,而无需在训练过程中包含自然视频。通过简单生成过程合成一系列视频数据集,包含了自然视频属性的逐渐增长集合(例如运动、加速度和形状变换)。这些合成数据集用于预训练视频模型,其下游性能随着数据集的进展而逐渐提高。预训练在合成视频上的VideoMAE模型在UCF101动作分类任务上闭合了从头开始训练与从自然视频的自监督预训练之间的性能差距的97.2%,并在14个UCF101-P的离群数据集中的11个上优于UCF101预训练的模型。分析数据集的低级属性指出,帧多样性、帧与自然数据的相似性与下游性能之间存在相关性。该论文的方法为预训练提供了一个更可控且透明的替代数据集构建方法。
地址:https://arxiv.org/pdf/2410.24213
12. 神经网络训练动态可视化案例研究
标题:A Visual Case Study of the Training Dynamics in Neural Networks
机构:FAIR
作者:Ambroise Odonnat, Wassim Bouaziz, Vivien Cabannes
分析:这篇论文介绍了一种用于探索小规模Transform模型(embedding dimension constrained to d=2)的训练动态的可视化沙箱。通过这种方法,该论文深入了解了训练动态、电路可转移性和损失激增的原因,包括归一化层曲率高引起的损失激增。该论文提出了缓解这些激增的方法,并展示了良好的可视化如何促进创新想法的设计和实用应用。此外,该论文认为这个沙箱可以帮助理论家评估重要的训练动态机制并将它们融入未来的理论中。
地址:https://arxiv.org/pdf/2410.24050
代码:https://github.com/facebookresearch/pal
13. FlowLLM:基于大模型的材料生成流程匹配研究
标题:FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions
机构:FAIR、阿姆斯特丹大学
关键词:FlowLLM、大型语言模型、材料生成、黎曼流匹配
作者:Anuroop Sriram, Benjamin Kurt Miller, Ricky T. Q. Chen
分析:该论文介绍了一种新型生成模型FlowLLM,结合了大型语言模型(LLM)和黎曼流匹配(RFM)技术,用于设计新型晶体材料。论文通过微调LLM学习元稳定晶体的有效基础分布,并结合图表示方法,利用RFM对坐标和晶格参数进行迭代优化。该方法显著提高了稳定材料的生成率,并降低了后续计算成本。
地址:https://arxiv.org/pdf/2410.23405
14. 动态策略规划在提高大模型问答效率中的应用
标题:Dynamic Strategy Planning for Efficient Question Answering with Large Language Models
机构:UC洛杉矶分校、Meta AI
关键词:大型语言模型,动态策略规划,问答任务,性能提升,成本降低
作者:Tanmay Parekh, Pradyot Prakash, Alexander Radovic
分析:论文提出了一种动态策略规划方法DyPlan,用于改进大型语言模型(LLM)在问答任务上的性能。该方法根据输入问题选择最合适的策略,提高性能并降低成本。实验表明,DyPlan方法能提高模型性能7-13%,同时降低11-32%的成本。该方法还通过内部验证和修正过程进一步丰富了生成的答案。
地址:https://arxiv.org/pdf/2410.23511
15. SFM-Protein蛋白质模型:融合协同进化预训练的高级蛋白质序列表示法
标题:SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation
机构:浙江大学、清华大学、微软研究院
关键词:蛋白质序列建模、协同进化预训练、下游任务、特征提取
作者:Liang He, Peiran Jin, Yaosen Min
分析:这篇论文提出了一种新型的蛋白质模型预训练方法,强调氨基酸残基的交互作用来提升序列数据中短程和远程协同进化特征的提取能力。该方法在大型蛋白质序列数据集上进行训练,表现出良好的泛化能力,并且在多种下游任务上超越了类似的基线模型。该研究有效融合了协同进化信息,是蛋白质序列建模的重大进步。
地址:https://arxiv.org/pdf/2410.24022
16. MDCure:面向多文档指令跟随的可扩展管道
标题:MDCure: A Scalable Pipeline for Multi-Document Instruction-Following
机构:谷歌研究院、艾伦AI研究所
关键词:MDCure、多文档处理、指令微调、奖励模型
作者:Gabrielle Kaili-May Liu, Bowen Shi, Avi Caciularu
分析:这篇论文介绍了一种可扩展和有效的微调管道MDCure,用于增强大型语言模型在多文档(MD)场景下的能力。该管道能够在不依赖预训练或人工标注数据的情况下,提高LLMs处理多文档任务(如摘要和问答)的能力。MDCure基于从相关文章中生成高质量合成MD指令数据的方法,通过有针对性的提示来增强模型的性能。此外,还引入了MDCureRM,一个多目标奖励模型,根据其在MD设置中的训练效用过滤生成的数据。通过MDCure微调的LLMs在各种MD和长上下文基准测试上的表现均有所提高。
地址:https://arxiv.org/pdf/2410.23463
代码:https://github.com/yale-nlp/MDCure
17. 基于上下文的时序基础模型微调
标题:In-Context Fine-Tuning for Time-Series Foundation Models
机构:谷歌研究院、德克萨斯大学
关键词:时序基础模型、预训练、多模态
作者:Abhimanyu Das, Matthew Faw, Rajat Sen
分析:本文提出了一种基于上下文的时序基础模型微调方法,旨在提高时间序列基础模型的零样本预测能力。该方法设计了一个预训练的基础模型,可以在推理时接收多个时间序列示例,从而预测目标时间序列的未来值。该基础模型在训练时就被设计为利用与目标时间序列相关的时间序列示例,以帮助其在特定的目标领域分布中适应。实验表明,与传统的监督深度学习方法、统计模型及其他时序基础模型相比,这种基于上下文的微调方法能够取得更好的性能,甚至能与在目标领域进行精调的基础模型相媲美。
地址:https://arxiv.org/pdf/2410.24087
18. 文本到图像扩散的增强:通过低秩专家的混合
标题:MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts
机构:北京大学、香港大学、UC伯克利分校
关键词:文本到图像扩散、近景图像、专家网络、数据集
作者:Jie Zhu, Yixiong Chen, Mingyu Ding
分析:文本到图像扩散(Text-to-image Diffusion)由于其极强的图像生成能力,引起了广泛关注。然而,在人类中心化的文本到图像生成(特别是在人脸和手部)中,结果往往因为缺乏足够的先验知识而相去甚远。在本文中,该论文从两个方面解决了这个问题。1)从数据方面,该论文精心构建了一个包含超过一百万张高质量人在场景中的图像以及两组特定的人脸和手部特写图像的数据集。这些数据集共同为一个增强扩散模型的文本为中心图像生成能力提供了一个丰富的先验知识库。2)在方法论方面,该论文提出了一个简单而有效的方法称为混合低秩专家(Mixture of Low-rank Experts,MoLE),通过将分别针对近景手部和近景人脸图像训练的低秩模块视为专家。这种概念来源于该论文对低秩精炼的观察,即通过一个针对性的近景数据集训练的低秩模块在适当尺寸下应用于相应的图像部分时,有可能增强该图像部分。为了验证MoLE在人类中心化图像生成方面的优越性,该论文构建了两个基准,并使用多种指标和人类研究进行了评估。
地址:https://arxiv.org/pdf/2410.23332
代码:https://sites.google.com/view/mole4diffuser/
19. SelfCodeAlign:无人工标注和蒸馏的代码生成模型自对齐方法
标题:SelfCodeAlign: Self-Alignment for Code Generation
机构:东北大学、伊利诺伊大学、UC伯克利分校
关键词:代码生成、自对齐、指令微调、数据集构建
作者:Yuxiang Wei, Federico Cassano, Jiawei Liu
分析:论文提出了一种名为SelfCodeAlign的方法,这是一种无需大量人工标注或蒸馏的全透明、可访问的代码生成模型自对齐管道。它通过提取高质量种子片段中的编码概念来生成新任务,并验证了模型遵循人类指令的能力,最终生成指令响应数据集对模型进行微调。该方法在小型和大型模型上均有效,并实现了先进的编码性能。
地址:https://arxiv.org/pdf/2410.24198
20. 语言驱动的合作驾驶多智能体强化学习
标题:Language-Driven Policy Distillation for Cooperative Driving in Multi-Agent Reinforcement Learning
机构:AI2、UC伯克利分校
关键词:语言驱动、多智能体强化学习、大型语言模型
作者:Jiaqi Liu, Chengkai Xu, Peng Hang
分析:这篇论文主要介绍了一种基于大型语言模型(LLM)的语言驱动策略蒸馏方法,用于指导多智能体强化学习(MARL)中的探索。这种方法通过训练一个基于LLM的教师代理来指导小型学生代理进行合作决策。教师代理利用LLM进行复杂的合作决策推理,并通过精心设计的决定工具实现专家级决策,提供高质量的教学体验。学生代理则通过梯度策略更新将教师的知识提升到自己的模型中。实验结果表明,学生在最小的教师引导下就能迅速提高能力,并最终超越教师的表现。
地址:https://arxiv.org/pdf/2410.24152
21. EgoMimic:通过以自我为中心的视频扩展模仿学习
标题:EgoMimic: Scaling Imitation Learning via Egocentric Video
机构:斯坦福大学、乔治亚理工学院
关键词:模仿学习、人类机器人交互、操作任务、数据对齐
作者:Simar Kareer, Dhruv Patel, Ryan Punamiya
分析:这篇论文介绍了一个名为EgoMimic的框架,它通过利用以自我为中心的视频和3D手跟踪技术,扩展了模仿学习的规模。该框架通过捕捉人类身体数据、使用低成本的双臂操作器、跨领域数据对齐技术以及模仿学习架构,实现了在人机数据上的统一策略学习。相比之前只从人类视频中提取高级意图的工作,EgoMimic平等地对待人类和机器人数据,并从两个数据源中学习统一策略,从而在长期视野下的单臂和双操作任务上实现了显著改进,并能够在全新场景中推广。此外,该研究还显示了EgoMimic的扩展趋势,即增加额外的手部数据比增加额外的机器人数据更有价值。
地址:https://arxiv.org/pdf/2410.24221
代码:https://egomimic.github.io/
22. Speech is More Than Words:语音到文本翻译系统是否利用了语调?
标题:Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?
机构:Apple
关键词:言语到文本翻译、语调处理、模型评估、端到端系统
作者:Ioannis Tsiamas, Matthias Sperber, Andrew Finch
分析:这篇论文探讨了语音语调在语音到文本翻译系统中的作用。它指出,语音的语调、重音和节奏等元素对语义有重要影响,而这些在现有的语音到文本翻译系统中常常被忽视。研究通过创建一个评估方法和一个基准数据集,评估了现有系统在处理语调方面的能力,发现虽然一些系统能够捕捉到一些语调信息,但整体效果有限,特别是在端到端系统中。这篇论文主要是为了解决现有语音翻译系统在处理语调信息时的不足问题。
地址:https://arxiv.org/pdf/2410.24019
23. 长语境语言建模中困惑度的问题
标题:What is Wrong with Perplexity for Long-context Language Modeling?
机构:北京大学、麻省理工学院、阿里巴巴集团
关键词:长语境语言建模、困惑度评估、LongPPL、LongCE损失函数
作者:Lizhe Fang, Yifei Wang, Zhaoyang Liu
分析:本文主要探讨了长语境语言建模中困惑度评估指标(PPL)的局限性,指出其无法准确评估长语境能力的问题。通过深入研究,作者提出了LongPPL这一新型评估指标和LongCE损失函数,旨在更准确地评估和提升大语言模型在长语境下的性能。
地址:https://arxiv.org/pdf/2410.23771
代码:https://github.com/PKU-ML/LongPPL
24. 多指抓取评估大规模数据集
标题:Get a Grip: Multi-Finger Grasp Evaluation at Scale Enables Robust Sim-to-Real Transfer
机构:斯坦福大学
关键词:多指抓取评估、大规模数据集、生成模型、判别式模型
作者:Tyler Ga Wei Lum, Albert H. Li, Preston Culbertson
分析:这篇论文主要探索了在什么条件下,多指抓取算法可以在规模上实现稳健的从模拟到实际的迁移。虽然大量的大型数据集有助于学习用于大规模多指抓取的生成模型,但在硬件上实现可靠的实际灵活抓取仍然具有挑战性,大多数方法在部署到硬件时会退化。另一种策略是使用判别式抓取评估模型进行选择和细化,这些模型在真实世界传感器测量的条件下进行训练。这种范例在基于视觉的并行颌部抓取方面已经产生了最先进的结果,但在多指抓取的情况下仍未得到证明。在这项工作中,该论文发现现有的数据集和方法对于训练判别式模型来说是不足的。为了在规模上训练抓取评估器,数据集必须提供数百万个抓取,包括正负样本,以及与推理时的测量相对应的视觉数据。为此,该论文发布了一个新的、开源的数据集,包含350万个抓取,分布在4300个物体上,带有RGB图像、点云和训练过的NeRFs注释。利用这个数据集,该论文训练了基于视觉的抓取评估器,在广泛的模拟和真实世界的试验中,在各种对象上均优于分析型和生成建模基线。通过许多消融实验,该论文发现性能的关键因素确实是评估器的质量,随着数据集的缩小,其质量会下降,这表明了该论文新数据集的重要性。项目网站:https://sites.google.com/view/get-a-grip-dataset。
地址:https://arxiv.org/pdf/2410.23701
代码:https://sites.google.com/view/get-a-grip-dataset
25. 集成与适应的自然语言提示在CLIP下游任务的通用性研究
标题:Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP
机构:Apple
关键词:CLIP模型、自然语言提示、集成与适应、视觉语言任务
作者:Chen Huang, Skyler Seto, Samira Abnar
分析:这篇论文关注于使用大型预训练跨模态模型CLIP在处理特定领域和精细分类任务时的局限性问题。提出了一种基于文本知识的集成与适应的自然语言提示方法,通过从自然语言提示中提炼文本知识,为那些未充分表示的概念提供丰富的先验信息。通过训练一个提示聚合器来获取每个输入图像的提示摘要,然后联合训练一个提示生成器来生成适应的提示嵌入。这种集成与适应的提示嵌入能够推广到不同的下游数据分布和任务,包括视觉语言理解任务和生成任务。
地址:https://arxiv.org/pdf/2410.23698
26. SceneComplete:复杂真实环境中的3D场景恢复与机器人操作
标题:SceneComplete: Open-World 3D Scene Completion in Complex Real World Environments for Robot Manipulation
机构:麻省理工学院
关键词:3D场景恢复、机器人操作、视觉语言、三维重建
作者:Aditya Agarwal, Gaurav Singh, Bipasha Sen
分析:这篇论文介绍了一种名为SceneComplete的系统,该系统可以从单一视角构建一个完整、分割的3D场景模型。它通过组合通用的预训练感知模块(如视觉语言、分割、图像修复、图像到3D转换和姿态估计)来获得高精度的结果。该系统在处理真实世界复杂环境中机器人操作时,通过恢复准确的全物体模型,实现了稳健的抓取建议生成。
地址:https://arxiv.org/pdf/2410.23643
27. AndroidLab:安卓自主代理的训练与系统基准测试
标题:AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
机构:清华大学、北京大学
关键词:AndroidLab、自主代理、大型语言模型、多模态模型
作者:Yifan Xu, Xiao Liu, Xueqiao Sun
分析:这篇论文提出了一种名为AndroidLab的系统性安卓代理框架,解决了训练和评估安卓代理缺乏系统研究的问题。它包含操作环境、动作空间和一个可复制的基准测试,支持大型语言模型和跨设备多模态模型。通过使用AndroidLab环境,研究团队开发了一个安卓指令数据集并训练了多个开源的大型语言模型和跨设备多模态模型,提高了这些模型在特定任务上的成功率。
地址:https://arxiv.org/pdf/2410.24024
代码:https://github.com/THUDM/Android-Lab
28. TrAct:让第一层预激活值可训练
标题:TrAct: Making First-layer Pre-Activations Trainable
机构:斯坦福大学、萨尔茨堡大学
关键词:第一层预激活训练、梯度下降、视觉模型、加速训练
作者:Felix Petersen, Christian Borgelt, Stefano Ermon
分析:论文关注视觉模型第一层的训练,发现像素值与梯度更新幅度之间的关系。提出对第一层激活值进行梯度下降的方法,通过构造激活提案和寻找最小化其与激活提案之间距离的第一层权重来训练模型。该方法可加速训练,同时保持较小的计算开销。论文还在不同优化器和视觉模型上验证了TrAct的实用性。
地址:https://arxiv.org/pdf/2410.23970
29. 视频标记合并:对于长时间视频理解的视频处理策略
标题:Video Token Merging for Long-form Video Understanding
机构:韩国高丽大学、Amazon
关键词:视频标记合并、长时间视频理解、Transformer模型、内存成本降低
作者:Seon-Ho Lee, Jue Wang, Zhikang Zhang
分析:随着视频理解领域数据和模型规模的迅速扩大,如何处理基于Transformer模型的长时间视频输入已成为一个实际挑战。通过仅对视频标记进行输入采样或标记丢弃,可能会导致信息损失。而标记合并策略与Transformer协作时,显示出了令人鼓舞的结果。然而,长视频处理中使用标记合并并不是一件简单的事。该论文首先设想,标记合并不应仅依赖于视频标记的相似性,还应考虑到标记的重要性。针对此问题,该论文探索了各种用于长时间视频分类的视频标记合并策略,从扩充的图像标记合并开始,到区域集中的合并,最终提出了一种可学习视频标记合并(VTM)算法,该算法可以动态合并标记,基于它们的重要性。广泛实验结果表明,该论文已经在LVU、COIN和Breakfast数据集上实现了更好或相当的性能。此外,该论文的方法对比基线算法显著降低了84%的内存成本和大约6.89倍的吞吐量提升。
地址:https://arxiv.org/pdf/2410.23782
30. Matchmaker:自我改进的大模型程序用于模式匹配
标题:Matchmaker: Self-Improving Large Language Model Programs for Schema Matching
机构:剑桥大学
关键词:配对大师、自我改进的大型语言模型、模式匹配、数据兼容性
作者:Nabeel Seedat, Mihaela van der Schaar
分析:这篇论文提出了一个名为Matchmaker的自改进大型语言模型程序,用于在不同的数据源之间找到属性匹配,解决不同表格和层次结构之间的数据兼容问题。Matchmaker通过三个阶段来完成:候选生成、精炼和信心得分评估。它不需要标记数据就能自我改进,并且能够在零shot情况下提供良好的性能。Matchmaker在医疗领域的真实世界数据集上进行了评估,结果表明它优于以往的基于机器学习的模型。
地址:https://arxiv.org/pdf/2410.24105
31. 因果推理在叙述性故事中的大模型的失败模式
标题:Failure Modes of LLMs for Causal Reasoning on Narratives
机构:卡内基梅隆大学
地址:https://arxiv.org/pdf/2410.23884
32. Beyond Content Relevance:评估检索模型中的指令遵循
标题:Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models
机构:华中科技大学、Salesforce研究院
地址:https://arxiv.org/pdf/2410.23841
33. GlotCC:面向少数语言的开源广博覆盖通用爬虫语料库和管道
标题:GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages
机构:慕尼黑大学
关键词:GlotCC, 少数语言, 语料库, 语言模型, 训练资源
地址:https://arxiv.org/pdf/2410.23825
代码:https://huggingface.co/datasets/cis-lmu/GlotCC-v1,; https://huggingface.co/datasets/cis-lmu/GlotCC-v1
34. OCEAN:离线链式思维评估与对齐在大模型中的应用
标题:OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models
机构:华东师范大学、UC圣迭戈分校、新南威尔士大学
关键词:离线评估、链式思维、知识图谱、强化学习
地址:https://arxiv.org/pdf/2410.23703
35. BitStack: 压缩大模型的内存控制方法
标题:BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments
机构:复旦大学、上海AI实验室
关键词:压缩大型语言模型、内存控制、权重压缩、动态调整
地址:https://arxiv.org/pdf/2410.23918
代码:https://github.com/xinghaow99/BitStack
36. RAGraph: 通用检索增强图学习框架
标题:RAGraph: A General Retrieval-Augmented Graph Learning Framework
机构:北京大学、电子科技大学
关键词:图神经网络、关系数据、通用检索增强图学习框架
地址:https://arxiv.org/pdf/2410.23855
37. Syno: 结构化合成神经运算子
标题:Syno: Structured Synthesis for Neural Operators
机构:清华大学
关键词:神经运算子搜索、神经架构搜索、神经模型设计、张量维度原语
地址:https://arxiv.org/pdf/2410.23745
38. 上下文感知测试:大模型测试的新范式
标题:Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models
机构:剑桥大学
关键词:上下文感知测试,大语言模型,模型评估,SMART测试系统
地址:https://arxiv.org/pdf/2410.24005
39. Driving by the Rules:将交通标志纳入矢量化高清地图的基准
标题:Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map
机构:阿里巴巴集团、西安交通大学
关键词:驾驶规则、交通标志、矢量化高清地图、自动驾驶
地址:https://arxiv.org/pdf/2410.23780
40. 基于上下文LoRA的扩散Transform研究
标题:In-Context LoRA for Diffusion Transformers
机构:浙江大学、中国科学院自动化研究所
关键词:扩散变压器(DiTs)、文本到图像生成、上下文生成能力、LoRA微调
地址:https://arxiv.org/pdf/2410.23775
代码:https://arxiv.org/abs/2410.15027
41. 跨数据集骨架动作识别的完整动作恢复
标题:Recovering Complete Actions for Cross-dataset Skeleton Action Recognition
机构:清华大学
关键词:骨架动作识别、跨域泛化、完整动作恢复、重采样
地址:https://arxiv.org/pdf/2410.23641
42. 大模型能在有噪声推理思路的链式思维提示中进行稳健推理吗?
标题:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
机构:武汉大学、香港浸会大学
关键词:大型语言模型、链式思维、噪声推理、对比去噪
地址:https://arxiv.org/pdf/2410.23856
代码:https://github.com/tmlr-group/NoisyRationales
43. 关于多模态伪造表示学习方法在扩散生成视频检测中的应用
标题:On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection
机构:上海交通大学、密歇根州立大学、上海AI实验室
关键词:扩散模型检测、多模态表示学习、视频forensics、LMMs
地址:https://arxiv.org/pdf/2410.23623
代码:https://github.com/SparkleXFantasy/MM-Det
44. 视觉重编程:贝叶斯引导标签映射
标题:Bayesian-guided Label Mapping for Visual Reprogramming
机构:墨尔本大学、新加坡科技与设计大学
关键词:视觉重编程、贝叶斯引导、标签映射、预训练模型
地址:https://arxiv.org/pdf/2410.24018
代码:https://github.com/tmlr-group/BayesianLM
45. 基于自由文本的大模型常识编辑
标题:Commonsense Knowledge Editing Based on Free-Text in LLMs
机构:北京AI研究院
关键词:大语言模型、常识编辑、自由文本、MLP
地址:https://arxiv.org/pdf/2410.23844
46. 面向跨模态文本-分子检索的更好模态对齐
标题:Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment
机构:厦门大学
关键词:跨模态检索、模态对齐、文本-分子特征、记忆库
地址:https://arxiv.org/pdf/2410.23715
47. 单一源语言大规模语料库进行多语言预训练的研究
标题:Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language
机构:伦敦大学、滑铁卢大学
关键词:多语言预训练、机器翻译、大规模语料库、模型性能提升
地址:https://arxiv.org/pdf/2410.23956
48. 训练具身强化学习智能体:语言信息的丰富性和多样性
标题:Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use
机构:密歇根大学
关键词:具身强化学习、语言输入、强化学习、学习任务
地址:https://arxiv.org/pdf/2410.24218
代码:https://github.com/sled-group/Teachable_RL
49. 参数-高效的医学多模态大模型用于医学视觉定位
标题:Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding
机构:莫纳什大学、哈尔滨工程大学
关键词:医学多模态大型语言模型、参数高效微调、医学视觉定位
地址:https://arxiv.org/pdf/2410.23822
50. Dynamic Uncertainty Ranking:增强LLM中长尾知识的上下文学习
标题:Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs
机构:密歇根大学、密歇根州立大学
关键词:强化学习、大型语言模型、长尾知识、预测排名
地址:https://arxiv.org/pdf/2410.23605
51. 分析与减少GPT训练中学习率预热的需求
标题:Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training
机构:瑞士洛桑联邦理工学院
关键词:学习率预热、GPT训练、优化算法、模型更新
地址:https://arxiv.org/pdf/2410.23922
52. Text-DiFuse:基于文本调控扩散模型的交互式多模态图像融合框架
标题:Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model
关键词:多模态图像融合、文本调控扩散模型、特征级信息融合、前景对象突出
地址:https://arxiv.org/pdf/2410.23905
代码:https://github.com/Leiii-Cao/Text-DiFuse
53. 高效扩散Transformer框架EDT:受人类素描启发
标题:EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching
关键词:Efficient Diffusion Transformer、Diffusion Probabilistic Models、模型结构改进
地址:https://arxiv.org/pdf/2410.23788
代码:https://github.com/xinwangChen/EDT
54. Lina-Speech: Gated Linear Attention 是一种快速、参数效率高的文本到语音合成学习者
标题:Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis
关键词:Lina-Speech、Gated Linear Attention、文本到语音合成、循环架构
地址:https://arxiv.org/pdf/2410.23320
代码:https://theodorblackbird.github.io/blog/demo_lina/
55. P-Masking:幂律掩码改进多属性控制生成
标题:P-Masking: Power Law Masking Improves Multi-attribute Controlled Generation
机构:马萨诸塞大学
关键词:P-Masking、幂律掩码、多属性控制、文本生成
地址:https://arxiv.org/pdf/2410.24201
56. 多属性语言调节以控制同义替换生成
标题:Multi-Attribute Linguistic Tuning for Controlled Paraphrase Generation
机构:马萨诸塞大学
关键词:多属性语言调节、同义替换生成、语言属性控制
地址:https://arxiv.org/pdf/2410.24199
57. 文本引导的扩散模型概念放缩研究
标题:Scaling Concept With Text-Guided Diffusion Models
机构:罗切斯特大学、德克萨斯大学
关键词:文本引导的扩散模型、概念放缩、图像生成、音频生成
地址:https://arxiv.org/pdf/2410.24151
58. 联合训练用于选择性预测
标题:Joint Training for Selective Prediction
机构:宾夕法尼亚州立大学
关键词:联合训练、选择性预测、分类器模块、延迟策略
地址:https://arxiv.org/pdf/2410.24029
59. 语言模型能够自我延伸生成长文本
标题:Language Models can Self-Lengthen to Generate Long Texts
关键词:语言模型、长文本生成、迭代训练、自我延长
地址:https://arxiv.org/pdf/2410.23933
代码:https://github.com/QwenLM/Self-Lengthen
60. FRoundation:基础模型是否已准备好用于人脸识别?
标题:FRoundation: Are Foundation Models Ready for Face Recognition?
机构:达姆斯塔特工业大学
关键词:人脸识别、基础模型、人脸识别数据集、偏见分析
地址:https://arxiv.org/pdf/2410.23831
61. 小模型在句子压缩方面的卓越性能
标题:Tiny Transformers Excel at Sentence Compression
机构:苏黎世联邦理工学院
关键词:Transformer模型、句子压缩、语言模型优化
地址:https://arxiv.org/pdf/2410.23510
62. Mind the Gap:跨模态嵌入对齐的通用方法
标题:Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment
机构:威斯康星大学
关键词:跨模态嵌入对齐、语义差距、模型结构改进、投影网络
地址:https://arxiv.org/pdf/2410.23437
63. 语言模型中下一个标记预测器的线性属性研究
标题:All or None: Identifiable Linear Properties of Next-token Predictors in Language Modeling
机构:特兰托大学
关键词:语言模型,下一个标记预测器,线性属性,可辨识性,分布等价
地址:https://arxiv.org/pdf/2410.23501
64. 大规模Transformer训练中的全局收敛性分析
标题:Global Convergence in Training Large-Scale Transformers
关键词:Transformer模型,全局收敛,平均场技术,梯度流,Wasserstein梯度流,权重衰减正则化
地址:https://arxiv.org/pdf/2410.23610
65. 大模型能否帮助我们创建更好的模型?评估LLMs作为数据科学家
标题:Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
关键词:大型语言模型、特征工程、数据科学
地址:https://arxiv.org/pdf/2410.23331
看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^