前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 重新思考MLLMs中的token缩减:朝向训练免费加速的统一范式
标题:Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration
机构:四川大学、西湖大学、西北工业大学
相关领域:模型结构改进
作者:Yuhang Han, Xuyang Liu, Pengxiang Ding
分析:该研究重新考虑了无训练token减少研究领域,发现在现有方法的关键组件之间存在紧密联系,但它们的相互影响和效果尚不清楚,提出了一个统一的'过滤-相关性-压缩'范式,将token减少分为三个阶段,保持设计目标和元素的一致性,同时允许独特的实现。实验结果表明,在10个基准测试中,提出的概念可以实现高达82.4%的FLOPs减少,同时对性能影响最小,超过现有技术水平。
地址:https://arxiv.org/pdf/2411.17686
代码:https://ficoco-accelerate.github.io/
2. 新概念学习、旧知识保留:概念瓶颈模型的持续学习新研究
标题:Learning New Concepts, Remembering the Old: A Novel Continual Learning
机构:山东大学、香港科技大学
相关领域:模型结构改进、模型评估
作者:Songning Lai, Mingqian Liao, Zhangyi Hu
分析:论文关注概念瓶颈模型(CBMs)的持续发展,解决了其无法适应持续变化数据流的问题。提出新概念增量和类别增量的持续学习任务,使CBMs能够在积累新概念和类别的同时保留旧知识。通过概念连续增量学习(CONCIL)框架实现,无需基于梯度的更新,仅通过递归矩阵操作,有效防止灾难性遗忘。实验证明,CONCIL在概念增量和类别增量环境下表现优异,为CBMs的持续发展设定了新的基准。
地址:https://arxiv.org/pdf/2411.17471
3. Path-RAG: 知识导向关键区域检索
标题:Path-RAG: Knowledge-Guided Key Region Retrieval for Open-ended Pathology Visual Question Answering
机构:麻省理工学院、UC洛杉矶分校、亚利桑那州立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Awais Naeem, Tianhao Li, Huang-Ru Liao
分析:精确的诊断和预后辅助病理图像对于癌症治疗选择和规划至关重要。尽管深度学习方法近年来被用于分析复杂病理图像,但它们往往忽略了领域专家对组织结构和细胞成分的理解。在这项工作中,该论文专注于一个具有挑战性的开放式病理VQA(PathVQA-Open)任务,并提出了一个名为Path-RAG的新框架,该框架利用HistoCartography从病理图像中检索相关域知识,显著提高了性能。鉴于病理图像分析的复杂性,Path-RAG采用以人为本的AI方法,通过HistoCartography检索域知识来从病理图像中选择相关片段。该论文的实验表明,域指导可以显著提高LLAVA-Med的准确性,从38%提高到47%,对H&E染色病理图像在PathVQA-Open数据集上获得了28%的显著提升。对于较长的问题和答案对,该论文的模型在ARCH-Open PubMed上实现了32.5%的显著改进,在ARCH-Open Books上实现了30.6%的改进。
地址:https://arxiv.org/pdf/2411.17073
代码:https://github.com/embedded-robotics/path-rag
4. D^2-World: 一种高效的世界模型
标题:D^2-World: An Efficient World Model through Decoupled Dynamic Flow
机构:香港中文大学、诺亚方舟实验室
作者:Haiming Zhang, Xu Yan, Ying Xue
分析:这篇技术报告总结了该论文参与在CVPR-2024 工作组自动系统基础模型挑战的预测世界模型竞赛的第二名解决方案——D^2-World。D^2-World 是一种全新的世界模型,有效地通过解耦动态流预测未来的点云。具体来说,通过现有的占用网络(如BEVDet)获得过去语义占用,然后将这些占用结果作为单阶段世界模型的输入,以非自回归方式生成未来占用。为了进一步简化任务,世界模型在动态体块解耦。通过体块流,模型生成未来动态体块,而静态体块则可以通过姿态变换轻松获得。因此,该论文的方法在 OpenScene 预测世界模型基准测试上实现了最先进的表现,获得第二名,并比基准模型训练了300%以上。
地址:https://arxiv.org/pdf/2411.17027
代码:https://github.com/zhanghm1995/D2-World
5. 神经网络数据缩减与更好泛化的训练
标题:Training a neural netwok for data reduction and better generalization
机构:国防科技大学
相关领域:模型结构改进
作者:Sylvain Sardy, Maxime van Cutsem, Xiaoyu Ma
分析:这篇论文提出了一种通过训练神经网络实现数据缩减并提升泛化能力的方法。它利用稀疏学习器压缩输入特征,通过选择有助于良好泛化的特征来达到这一目的。论文提出了一种新的正则化方法,通过选择正则化参数λ,在不需要交叉验证或验证集的情况下,在成本函数中创建一个局部最小值,从而更有效地识别并忽略无关特征。这种方法可以应用于从浅层到深层的人工神经网络等复杂模型,支持各种成本函数和稀疏性促进惩罚项。论文还展示了该方法在检索相关特征概率方面的显著阶段转变,以及由于λ的选择、非凸惩罚项和所开发优化方案而实现的良好泛化能力。该方法可视为复杂模型的压缩感知,能够将高维数据提炼成紧凑、可解释的有意义特征子集。
地址:https://arxiv.org/pdf/2411.17180
6. TED-VITON:扩散模型赋能的Transformer虚拟试衣技术
标题:TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On
机构:悉尼大学、墨尔本大学、MBZUAI大学
相关领域:模型结构改进、多模态
作者:Zhenchen Wan, Yanwu Xu, Zhaoqing Wang
分析:这篇论文针对虚拟试衣(VTO)技术,提出了一种基于扩散模型的Transformer赋能框架TED-VITON。该框架旨在解决现有VTO技术的局限和挑战,包括渲染文本与衣物贴合度不高以及细节失真等问题。通过使用Garment Semantic Adapter和Text Preservation Loss等技术,TED-VITON能够生成更真实、细节更丰富的衣物图像。此外,它还结合了大型语言模型(LLM)进行优化提示生成,进一步提高了虚拟试衣的效果。
地址:https://arxiv.org/pdf/2411.17017
7. VideoDirector:通过文本到视频模型实现精确视频编辑
标题:VideoDirector: Precise Video Editing via Text-to-Video Models
机构:中山大学、清华大学、国防科技大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
作者:Yukun Wang, Longguang Wang, Zhiyuan Ma
分析:尽管传统的T2I模型使用文本-图像(T2I)模型取得了令人鼓舞的成果,但直接将其扩展到文本到视频(T2V)模型时仍面临严重问题,如颜色闪烁和内容失真。因此,目前的视频编辑方法主要依赖于T2I模型,这些模型本质上缺乏时序一致性生成能力,往往导致编辑结果不佳。本文提出,这种典型的编辑范式失败的原因包括:1) 紧致时空耦合。传统的基于pivotal的反转策略难以分离视频扩散模型中的时空信息;2) 复杂时空布局。标准的跨注意力控制不足以保留未编辑内容。为了解决这些问题,该论文提出了一个时空解耦指导(STDG)和多帧无文本优化策略,为关键时间线索提供更精确的反转。此外,该论文还引入了自注意力控制策略,以保持对精确部分内容的高保真度编辑。实验结果表明,该论文的方法(称为VideoDirector)有效地利用了T2V模型强大的时序生成能力,在准确性、运动平滑性、逼真度和与未编辑内容的真实性方面表现出色。
地址:https://arxiv.org/pdf/2411.17592
8. 低精度量化对未训练充分的大模型的偏好:量化大模型的缩放定律
标题:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
机构:腾讯AI实验室
相关领域:模型评估、数据集构建
作者:Xu Ouyang, Tao Ge, Thomas Hartvigsen
分析:论文研究低精度量化对大型语言模型的影响,发现未训练充分的大型语言模型在量化时表现更好。论文通过大量实验推导了量化诱导退化(QiD)与训练令牌数量、模型大小和位宽之间的缩放定律,并利用这些定律评估模型训练水平,预测不同大小模型的量化性能。研究揭示了低精度量化在未来模型训练中的潜在挑战,强调了评估时需考虑模型的训练水平。
地址:https://arxiv.org/pdf/2411.17691
代码:https://huggingface.co/Xu-Ouyang
9. Star Attention:在长序列上的高效大模型推理
标题:Star Attention: Efficient LLM Inference over Long Sequences
机构:英伟达
相关领域:模型结构改进
作者:Shantanu Acharya, Fei Jia, Boris Ginsburg
分析:论文提出了一种名为星型注意力的新方法,用于在长序列上提高基于Transformer的大型语言模型(LLM)的计算效率。该方法通过分块稀疏近似,在多个主机上分片注意力,以最小化通信开销,从而提高推理效率。星型注意力包含两个阶段,首先是在主机间并行处理上下文,采用块局部注意力;其次是查询和响应令牌通过序列全局注意力关注所有先前的缓存令牌。星型注意力与大多数经过全局注意力训练的Transformer-based LLM无缝集成,可在保持95-100%准确率的同时,减少内存需求和推理时间。
地址:https://arxiv.org/pdf/2411.17116
10. Visatronic:一种用于语音合成的多模态仅解码模型
标题:Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
机构:Apple
相关领域:多模态
作者:Akshita Gupta, Tatiana Likhomanenko, Karren Dai Yang
分析:论文提出了一种新的任务——从人物视频及其文本字幕生成语音(VTTS),以推动多模态语音生成技术。Visatronic模型将视觉、文本和语音嵌入到transformer模型的公共子空间中,通过自回归损失学习离散化的梅尔频谱图的生成模型。与仅使用文本或视频作为输入的模型相比,该模型在嵌入所有模态到公共子空间后,可以获得更好的效果。此外,它还提供了简化的多模态语音生成方法。
地址:https://arxiv.org/pdf/2411.17690
11. ShowUI:一种视觉-语言-动作的GUI代理模型
标题:ShowUI: One Vision-Language-Action Model for GUI Visual Agent
机构:微软、新加坡国立大学
作者:Kevin Qinghong Lin, Linjie Li, Difei Gao
分析:ShowUI是一种用于GUI视觉代理的模型,通过创新的设计解决了传统GUI视觉代理在感知界面视觉方面的局限性。该模型采用UI引导的视觉标记选择、交叉视域下的视觉语言行动流和小规模高质量GUI指导跟随数据集,实现了零样本截图定位和导航实验验证了其有效性和潜力。
地址:https://arxiv.org/pdf/2411.17465
代码:https://github.com/showlab/ShowUI
12. Toward High-Performance LLM Serving:基于模拟方法识别最优并行执行计划
标题:Toward High-Performance LLM Serving: A Simulation-Based Approach for Identifying Optimal Parallelism
机构:微软、南加州大学、UC伯克利分校
相关领域:大规模语言模型
作者:Yi-Chien Lin, Woosuk Kwon, Ronald Pineda
分析:本文主要内容天啊,导入了一种名为APEX的LLM服务系统模拟器,有效地识别了最优并行执行计划。APEX以其快速查找最优并行执行计划的特点和模拟并行技术在并发切换、数据恢复等服务上的优势,得到了广泛的应用。此外,APEX还提供了诸如时间每输出令牌和第一次令牌时间等实用指标,为LLM服务系统的研究人员提供了重要的数据支持。虽然通过实际部署搜索最优策略是行不通的,但使用APEX仿真器进行高效模拟可以节省大量时间和资源,这大大提高了大语言模型服务的效率和效果豌。
另外,本论文还介绍了如何通过APEX来进行大规模语言模型服务的仿真并行,提到了仿真并行的复杂性和并行执行策略的选择,这对于大规模语言模型领域的研究和应用具有一定的参考价值。
地址:https://arxiv.org/pdf/2411.17651
13. 基于参考指引的条件文本到图像生成
标题:Conditional Text-to-Image Generation with Reference Guidance
机构:微软、普渡大学
相关领域:模型结构改进、多模态
作者:Taewook Kim, Ze Wang, Zhengyuan Yang
分析:这篇论文主要探讨了基于参考指引的条件文本到图像生成的问题。针对文本到图像扩散模型在精确渲染主题(如文本拼写)方面的挑战,论文提出使用额外的图像条件提供视觉指引,以增强模型在特定主题上的渲染能力。此外,这种参考条件还能使模型具备文本分词器词汇无法充分表达的能力,并进一步扩大模型的泛化能力,例如生成非英文文本拼写。论文开发了几种小型专家插件,通过辅助网络和定制的损失函数,使稳定扩散模型能够应对不同参考条件。这些插件在英语场景文本生成、多语言场景文本生成和标志图像生成等任务上表现出卓越的性能,而且只需要28.55M的可训练参数。
地址:https://arxiv.org/pdf/2411.16713
14. 基于阶段信息的工具分割技术在微创白内障手术中的应用
标题:Phase-Informed Tool Segmentation for Manual Small-Incision Cataract Surgery
机构:微软研究院
相关领域:数据集构建、模型评估
作者:Bhuvan Sachdeva, Naren Akash, Tajamul Ashraf
分析:论文介绍了白内障手术的重要性以及手术视频分析在眼科手术中的有限应用。论文重点关注于低成本、快速的手动小切口白内障手术(MSICS),但缺乏相关数据集。因此,论文创建了第一个包含53个手术视频和3,527帧像素级标注的数据集Cataract-MSICS。论文提出了ToolSeg框架,通过引入阶段条件解码器和利用基础模型的伪标签的半监督设置,提高了工具分割的性能。论文在公开数据集上的表现也验证了该方法的推广能力和有效性。
地址:https://arxiv.org/pdf/2411.16794
15. Attamba:关注多令牌状态
标题:Attamba: Attending To Multi-Token States
机构:康奈尔大学、Google
相关领域:模型结构改进
作者:Yash Akhauri, Safeen Huda, Mohamed S. Abdelfattah
分析:这篇论文介绍了一种新型架构Attamba,它结合了状态空间模型(SSM)和Transformer(transformer)的优点。Attamba通过状态空间模型压缩令牌序列,然后在这些压缩的关键值表示上应用注意力。这种方法在提高模型质量的同时,还实现了灵活的令牌分块,提高了效率。该论文解决了Transformer在计算注意力时面临的计算效率低下的问题,通过结合状态空间模型实现了更高效的令牌处理。
地址:https://arxiv.org/pdf/2411.17685
16. 基于熵的动态规划实现高效车辆停车
标题:Entropy-Based Dynamic Programming for Efficient Vehicle Parking
机构:UC伯克利分校
相关领域:模型结构改进
作者:Jean-Luc Lupien, Abdullah Alhadlaq, Yuhan Tang
分析:论文提出了一种基于熵模型的方法来解决城市停车问题。通过预测多层停车库的停车位分布,采用动态编程框架引导车辆到达最佳停车位。提出的温度知情停车策略(TIPP)能预测停车位可用性,并在实时中动态调整停车分配,优化车辆停放并减少搜索时间。
地址:https://arxiv.org/pdf/2411.17014
17. Learn2Synth:利用超梯度学习最优数据合成策略
标题:Learn2Synth: Learning Optimal Data Synthesis Using Hypergradients
机构:伦敦大学、麻省总医院、麻省理工学院
相关领域:数据集构建
作者:Xiaoling Hu, Oula Puonti, Juan Eugenio Iglesias
分析:这篇论文提出了一种名为Learn2Synth的新型数据合成策略学习方法。该方法通过最小化合成图像与真实图像之间的差异来优化合成参数,进而提高分割网络在真实数据上的性能。论文解决了传统数据合成方法需要大量手动调整超参数的问题,实现了利用少量真实标记数据自动学习合成策略的目标。同时,论文还提出了参数和非参数两种增强合成图像的策略,进一步提升了分割网络的性能。实验结果表明,该方法在合成和真实数据集上均表现出优异的性能。
地址:https://arxiv.org/pdf/2411.16719
代码:https://github.com/HuXiaoling/Learn2Synth
18. RealTraj:面向真实世界行人轨迹预测的研究
标题:RealTraj: Towards Real-World Pedestrian Trajectory Forecasting
机构:英伟达、庆应义塾大学
相关领域:模型结构改进、预训练、数据集构建
作者:Ryo Fujii, Hideo Saito, Ryo Hachiuma
分析:这篇论文解决了传统行人轨迹预测中的三个关键问题:行人感知误差、真实世界数据收集成本和人身份标注成本。论文提出了RealTraj框架,提高了轨迹预测在真实世界中的应用性。通过自监督预训练和弱监督微调,减少了数据收集工作。同时,通过模型设计和训练目标提高对抗真实世界误差的稳健性。此外,论文还介绍了Det2TrajFormer模型,该模型利用过去检测结果作为输入,保持对跟踪噪声的不变性。通过使用多个前序任务进行模型预训练,增强了稳健性并提高了仅基于检测数据的预测性能。
地址:https://arxiv.org/pdf/2411.17376
19. SketchAgent: 语言驱动的序列草图生成
标题:SketchAgent: Language-Driven Sequential Sketch Generation
机构:斯坦福大学、麻省理工学院
相关领域:模型结构改进、预训练、指令微调、对话引导生成
作者:Yael Vinker, Tamar Rott Shaham, Kristine Zheng
分析:这篇论文提出了一种基于语言的草图生成方法,SketchAgent,它允许用户通过对话式的交互创建、修改和细化草图。该方法不需要训练或微调,而是利用现有的大型语言模型(LLMs)的序列性和丰富先验知识。研究者引入了一个直觉草图语言,通过示例让模型学会绘画。这种方法可以将字符串操作转换为向量图形,然后在像素画布上创建草图,可以反复访问以进行后续任务。
地址:https://arxiv.org/pdf/2411.17673
20. WF-VAE: 改进视频变分自动编码器以提升低维空间的编码效率
标题:WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
机构:北京大学、鹏城实验室
相关领域:模型结构改进、预训练
作者:Zongjian Li, Bin Lin, Yang Ye
分析:WF-VAE通过采用多级小波变换,优化了视频变分自动编码器的编码过程,提高了处理长视频时的计算效率。该模型利用小波变换将视频分解为多个频域组件,并促进低频能量流向低维表示。同时,引入了因果缓存机制,确保在块级推断过程中保持低维空间的连续性。与现有技术相比,WF-VAE在PSNR和L-PIPS指标上表现出色,具有更高的吞吐量和更低的内存需求,但保持了良好的重建质量。代码和模型可在https://github.com/PKU-YuanGroup/WF-VAE获取。
地址:https://arxiv.org/pdf/2411.17459
代码:https://github.com/PKU-YuanGroup/WF-VAE
21. Grounding-IQA: 多模态语言模型在图像质量评估中的应用
标题:Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment
机构:西湖大学、上海交通大学、诺亚方舟实验室
作者:Zheng Chen, Xun Zhang, Wenbo Li
分析:该论文介绍了一种新的图像质量评估任务范式,即基于多模态的语言模型的图像质量评估(Grounding-IQA)。这种范式通过结合多模态的参考和定位与图像质量评估,实现了更精细的质量感知。具体来说,Grounding-IQA包括两个子任务:描述性地定位(GIQA-DES)和针对局部区域的质量问题回答(GIQA-VQA)。为了实现这一任务,作者构建了一个相应的数据集GIQA-160K,并开发了一个全面评估模型性能的基准集GIQA-Bench。实验结果表明,提出的任务范式、数据集和基准集有助于实现更精细的图像质量评估应用。
地址:https://arxiv.org/pdf/2411.17237
代码:https://github.com/zhengchen1999/Grounding-IQA
22. 视频引导的Foley声效果生成与多模态控制
标题:Video-Guided Foley Sound Generation with Multimodal Controls
机构:密歇根大学、Adobe Research
相关领域:模型结构改进、多模态声音生成
作者:Ziyang Chen, Prem Seetharaman, Bryan Russell
分析:这篇论文介绍了一种名为MultiFoley的多模态声音生成模型,该模型用于为视频生成声效果,支持文字、音频和视频的多模态条件生成。用户可以基于给定的视频静音和文本提示,创造既干净又奇幻的声音效果。MultiFoley采取了一种新颖的训练方法,它能够在具有低质量音频的互联网视频数据集和专业声效库之间进行联合训练,提供高质量、无频宽限制的音频生成。实验证明,MultiFoley能够产生在各种条件输入下同步高质量声音的效果,并优于现有的方法。
地址:https://arxiv.org/pdf/2411.17698
代码:https://ificl.github.io/MultiFoley/
23. COBRA:基于持续学习的方法实现视觉-大脑理解
标题:COBRA: A Continual Learning Approach to Vision-Brain Understanding
机构:麻省理工学院
相关领域:模型结构改进
作者:Xuan-Bac Nguyen, Arabinda Kumar Choudhary, Pawan Sinha
分析:这篇论文研究的是视觉-大脑理解(VBU)领域中的持续学习问题,旨在通过功能磁共振成像(fMRI)记录的大脑活动来提取人类感知的视觉信息。文章主要解决的是灾难性遗忘的问题,即模型在适应新数据时会丢失先前的知识。为了应对这一问题,论文提出了一种名为COBRA的新框架,该框架包含三个创新模块:主题共性(SC)模块、基于提示的主题特定(PSS)模块和基于transformer的fMRI模块(MRIFormer)。通过这些模块,模型能够在保持已有知识的基础上,学习和适应新的主题,从而避免了灾难性遗忘。
地址:https://arxiv.org/pdf/2411.17475
24. AnchorCrafter:通过人类-对象交互生成销售您产品的动画网络锚点的2D视频
标题:AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
机构:腾讯、中国科学院计算技术研究所
相关领域:模型结构改进、多模态
作者:Ziyi Xu, Ziyao Huang, Juan Cao
分析:本文介绍了一项利用扩散技术生成2D视频的新型系统,视频包含目标人类和自定义对象,具有高度的可视化精确性和可控的交互。文章指出,人类-对象交互(HOI)的整合是针对基于姿态的人体视频生成面临的重大挑战。为此,他们提出了两个主要创新:HOI-appearance perception,改进了在任意多视角中对物体外观的识别,并分离了对象和人类外观的识别;HOI-motion injection,通过解决对象轨迹条件和遮挡管理的挑战,实现了复杂的人类-对象交互。此外,他们引入了HOI-region reweighting loss作为训练目标,增强对物体细节的把握。实验结果表明,他们的系统在保留物体外观和形状意识的同时,还能在人体外观和动作保持一致性的基础上,超越现有方法。
地址:https://arxiv.org/pdf/2411.17383
代码:https://cangcz.github.io/Anchor-Crafter/
25. Buffer Anytime:基于图像先验的视频深度与法线零样本估计
标题:Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors
机构:斯坦福大学、麻省理工学院、Adobe Research
相关领域:模型结构改进、数据集构建
作者:Zhengfei Kuang, Tianyuan Zhang, Kai Zhang
分析:这篇论文提出了一种名为Buffer Anytime的框架,用于从视频中估计深度图和法线图(称为几何缓冲区)。该框架消除了对配对视频深度和数据集以及视频法线训练数据的需求。通过利用单张图像先验和时序一致性约束,该论文展示了高质量的视频缓冲区估计。该论文的零样本训练策略结合了基于光学流平滑度的最先进的图像估计模型,通过混合损失函数实现,并通过轻量级的时序注意力架构进行应用。与领先的图像模型(如Depth Anything V2和Marigold-E2E-FT)相结合,该论文的方法在提高时序一致性的同时保持了准确性。实验表明,尽管该论文没有使用任何配对视频数据,但该论文的方法不仅优于基于图像的方法,而且其成果与那些在大型配对视频数据集上训练的先进视频模型相当。
地址:https://arxiv.org/pdf/2411.17249
26. 人类运动指令调优
标题:Human Motion Instruction Tuning
机构:山东大学、清华大学、华盛顿大学
相关领域:模型结构改进、指令微调、多模态
作者:Lei Li, Sen Jia, Wang Jianhao
分析:这篇论文介绍了LLaMo模型,它是一个多模态框架,用于人类运动指令的调整。与以往将非语言输入(如视频或运动序列)转换为语言标记的指令调优方法不同,LLaMo保留了运动在原始形式,以助于模型更准确地理解复杂的人类行为。该模型同时处理视频和运动数据,以及文本输入,从而实现灵活和以人为中心的分析。实验表明,LLaMo能够有效捕获特定领域的知识,并在密集运动场景中增强理解和预测能力。
地址:https://arxiv.org/pdf/2411.16805
代码:https://github.com/ILGLJ/LLaMo
27. 梯度-指导参数掩码在恶劣天气下多场景图像恢复
标题:Gradient-Guided Parameter Mask for Multi-Scenario Image Restoration Under Adverse Weather
机构:清华大学
作者:Jilong Guo, Haobo Yang, Mo Zhou
分析:移除恶劣天气条件,如雨、雨滴和雪,对于各种实际应用至关重要,包括自动驾驶、监控和遥感。然而,现有的多任务方法通常通过增加额外的参数来处理多个场景。虽然这使模型能够处理多样化的任务,但引入额外参数显著复杂了其实际应用的部署。在本研究中,该论文提出了一种新颖的梯度-指导参数掩码,用于在恶劣天气条件下有效处理多种天气条件,无需额外参数。该论文的方法是通过评估训练过程中每个特定天气条件的梯度变化强度来将模型参数分成通用和特定组件。这允许模型精确且自适应地学习每个天气场景的相关特征,提高效率和效果,而不会牺牲性能。该方法基于梯度波动构建特定的掩码以隔离受其他任务影响的参数,确保模型在所有场景下都能实现强劲表现,同时不增加额外参数。该论文通过广泛的实验在多个基准数据集上展示了该论文框架的前沿性能。具体来说,该论文的方法在Raindrop数据集上达到了29.22的PSNR得分,在Rain数据集上为30.76,在Snow100K数据集上为29.56。代码可在:https://github.com/AierLab/MultiTask 获取。
地址:https://arxiv.org/pdf/2411.16739
代码:https://github.com/AierLab/MultiTask
28. ChemSafetyBench:基于化学领域的LLM安全性能评估
标题:ChemSafetyBench: Benchmarking LLM Safety on Chemistry Domain
机构:北京大学、四川大学、浙江大学
相关领域:模型评估
作者:Haochen Zhao, Xiangru Tang, Ziran Yang
分析:这篇论文旨在通过构建ChemSafetyBench基准,评估大型语言模型在化学领域提供的反应的准确性和安全性。该基准包括查询化学性质、评估化学用途的合法性以及描述合成方法的三个任务,每个任务要求更深的化学知识。dataset包含超过30K个样本,通过手工编写的模板和高级的规避限制情景来增加任务多样性。
地址:https://arxiv.org/pdf/2411.16736
代码:https://github.com/HaochenZhao/SafeAgent4Chem
29. 利用合成并行数据规模化语音文本预训练
标题:Scaling Speech-Text Pre-training with Synthetic Interleaved Data
机构:清华大学
相关领域:预训练
作者:Aohan Zeng, Zhengxiao Du, Mingdao Liu
分析:本文提出了一种利用从文本语料库中采样并合成的并行数据训练语音语言模型的新方法,无需依赖实际存在的语音-文本对数据,以解决语音模型训练数据不足的问题。通过在语言模型上进行1万亿次信息的预训练,并在声问答任务上取得了超越现有 study of the art 的表现。
地址:https://arxiv.org/pdf/2411.17607
30. 加速Vision Diffusion Transformers的传递使用跳接分支
标题:Accelerating Vision Diffusion Transformers with Skip Branches
机构:上海交通大学、香港中文大学、北卡罗来纳大学
相关领域:模型结构改进
作者:Guanjie Chen, Xinyu Zhao, Yucheng Zhou
分析:该论文聚焦于视觉扩散Transformer(DiT)这一新兴的图像和视频生成模型架构。DiT凭借其高质量的生成能力与可扩展性表现出巨大潜力,但其实际部署受到计算复杂度与顺序去噪过程中的冗余性的制约。通过实证分析DiT特征动态,发现DiT块之间的显著特征变化是阻碍特征重用的关键挑战。为解决这一问题,作者提出将标准DiT转换为Skip-DiT,通过增加跳接分支以增强特征连续性。此外,引入Skip-Cache利用跳接分支在预测时间跨时间步骤缓存DiT特征。实验结果表明,对于不同DiT架构在视频和图像生成任务中,跳接分支有助于保持生成质量并实现更高的加速效果,Skip-DiT几乎实现了1.5倍的加速,配有较小的量化指标损失时,最大加速可以达到2.2倍。
地址:https://arxiv.org/pdf/2411.17616
代码:https://github.com/OpenSparseLLMs/Skip-DiT.git
31. 大模型在半导体技术中的未来与挑战
标题:The belief in Moore's Law is undermining ICT climate action
机构:麻省理工学院
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.17391
32. The Extractive-Abstractive Spectrum:揭示大模型中的可验证性权衡
标题:The Extractive-Abstractive Spectrum: Uncovering Verifiability Trade-offs in LLM Generations
机构:斯坦福大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2411.17375
33. sbi reloaded:基于模拟的推理工作流程的工具包
标题:sbi reloaded: a toolkit for simulation-based inference workflows
机构:卡内基梅隆大学
地址:https://arxiv.org/pdf/2411.17337
34. HEIE:基于MLLM的多层次可解释AI制图可 implausibility 评估器
标题:HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator
机构:清华大学、北京大学、复旦大学
相关领域:模型评估、AI制图、可解释性、MLLM
地址:https://arxiv.org/pdf/2411.17261
35. DreamMix: 分离对象属性以增强定制图像修复的编辑性
标题:DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting
机构:电子科技大学
相关领域:模型结构和生成模型
地址:https://arxiv.org/pdf/2411.17223
代码:https://github.com/mycfhs/DreamMix
36. APT: 利用大模型进行建筑规划和文本到蓝图的构建
标题:APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents
机构:UC洛杉矶分校
相关领域:预训练、模型结构改进
地址:https://arxiv.org/pdf/2411.17255
37. PersonalVideo:高ID保真视频定制无动态和语义退化
标题:PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation
机构:浙江大学、南洋理工大学、阿里巴巴集团
相关领域:模型结构改进、预训练、指令微调、多模态
地址:https://arxiv.org/pdf/2411.17048
38. DetailGen3D:通过数据相关的流动增强生成的3D几何形状
标题:DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow
机构:清华大学、中山大学、香港中文大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.16820
39. TIDE: 训练局部可解释的域泛化模型
标题:TIDE: Training Locally Interpretable Domain Generalization Models Enables Test-time Correction
机构:Adobe Research
地址:https://arxiv.org/pdf/2411.16788
40. NovelGS:通过大高斯重建模型实现一致的 Novel-view 去噪
标题:NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model
机构:清华大学、Tencent PCG实验室
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.16779
41. 不变量保留的文本到视频生成:通过频率分解
标题:Identity-Preserving Text-to-Video Generation by Frequency Decomposition
机构:北京大学、鹏城实验室、罗切斯特大学
相关领域:模型结构改进、大模型
地址:https://arxiv.org/pdf/2411.17440
42. 自适应部署大模型减少分布式威胁
标题:Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats
机构:清华大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17693
43. Text-to-SQL Calibration:不需要提问——只需重新缩放模型概率
标题:Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities
机构:UC圣迭戈分校
相关领域:模型评估
地址:https://arxiv.org/pdf/2411.16742
44. Pathways on the Image Manifold:通过视频生成进行图像编辑
标题:Pathways on the Image Manifold: Image Editing via Video Generation
机构:IDEA
相关领域:预训练、多模态
地址:https://arxiv.org/pdf/2411.16819
45. 话题级自我校正方法减轻大型多模态语言模型的幻视问题
标题:A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs
机构:清华大学、上海AI实验室、北京航空航天大学
相关领域:模型评估
地址:https://arxiv.org/pdf/2411.17265
46. LiteVAR:基于高效注意力和量化的压缩方法
标题:LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization
机构:清华大学、复旦大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.17178
47. 多模态对齐与融合:综述
标题:Multimodal Alignment and Fusion: A Survey
机构:西北大学、北京大学
相关领域:多模态
地址:https://arxiv.org/pdf/2411.17040
48. GEMeX: 一个针对胸部X光诊断的大规模可地面和可解释的医学VQA基准测试
标题:GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis
机构:四川大学、香港理工大学、新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.16778
49. EmotiveTalk:通过音频信息解耦和情感视频扩散
标题:EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion
机构:帝国理工学院、中国科学技术大学
相关领域:大模型
地址:https://arxiv.org/pdf/2411.16726
50. Devils in Middle Layers of Large Vision-Language Models:通过注意力透镜解读、检测与缓解对象幻觉
标题:Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens
机构:东南大学、国防科技大学、南洋理工大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.16724
51. SAM-MPA:应用SAM进行少数样本医学图像分割的Mask传播与自提示
标题:SAM-MPA: Applying SAM to Few-shot Medical Image Segmentation using Mask Propagation and Auto-prompting
机构:复旦大学
地址:https://arxiv.org/pdf/2411.17363
52. ChatGen: 自动文本到图像生成
标题:ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
机构:西安交通大学、新加坡国立大学
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.17176
代码:https://chengyou-jia.github.io/ChatGen-Home
53. MotionLLaMA:一个统一的运动合成与理解框架
标题:MotionLLaMA: A Unified Framework for Motion Synthesis and Comprehension
机构:浙江大学、浙江实验室
相关领域:模型结构改进、数据集构建、多模态
地址:https://arxiv.org/pdf/2411.17335
54. 面向图像编辑的指令跟随优化研究——InsightEdit
标题:InsightEdit: Towards Better Instruction Following for Image Editing
机构:浙江大学
相关领域:数据集构建、多模态
地址:https://arxiv.org/pdf/2411.17323
55. 利用大模型进行专家先验推断
标题:Using Large Language Models for Expert Prior Elicitation in Predictive Modelling
机构:帝国理工学院、Vector Institute
相关领域:预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.17284
56. SelfSplat:可扩展的高清纹理映射
标题:SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting
机构:韩国高丽大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17190
代码:https://gynjn.github.io/selfsplat/
57. TechCoach:迈向技术关键点感知的描述性动作指导
标题:TechCoach: Towards Technical Keypoint-Aware Descriptive Action Coaching
机构:中山大学
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2411.17130
58. UniPose:统一多模态框架用于人类姿态理解、生成和编辑
标题:UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
机构:中国科学院大学
相关领域:多模态、模型结构改进
地址:https://arxiv.org/pdf/2411.16781
59. Transformer-like模型中稀疏率降低的深入研究
标题:An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models
机构:香港大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17182
60. 动态规划-冗余机械臂路径规划中的矛盾解决
标题:Dynamic Programming-Based Redundancy Resolution for Path Planning of Redundant Manipulators Considering Breakpoints
机构:浙江大学、哥伦比亚大学、电子科技大学
地址:https://arxiv.org/pdf/2411.17034
61. Imagine and Seek:通过虚构代理改进组合图像检索
标题:Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy
机构:浙江大学
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.16752
62. 物理驱动的4D内容生成框架Phys4DGen
标题:Phys4DGen: A Physics-Driven Framework for Controllable and Efficient 4D Content Generation from a Single Image
机构:厦门大学
相关领域:计算机视觉、图像处理、4D内容生成
地址:https://arxiv.org/pdf/2411.16800
63. Seq2Time: 序列知识转移对视频LLM时间 grounding
标题:Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding
机构:西北大学、中佛罗里达大学
相关领域:数据集构建、模型蒸馏
地址:https://arxiv.org/pdf/2411.16932
64. 高效模型异构联邦学习:面向大模型的解决方案
标题:Towards Efficient Model-Heterogeneity Federated Learning for Large Models
机构:悉尼科技大学、西安电子科技大学
相关领域:模型结构改进、联邦学习
地址:https://arxiv.org/pdf/2411.16796
65. Document Haystacks:大规模视觉文档检索与理解
标题:Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents
机构:悉尼大学
相关领域:模型应用和发展
地址:https://arxiv.org/pdf/2411.16740
代码:https://github.com/Vision-CAIR/dochaystacks
66. 解读与利用扩散模型中的语义信息
标题:\textit{Revelio}: Interpreting and leveraging semantic information in diffusion models
机构:波士顿大学
相关领域:模型结构改进、预训练、模型评估
地址:https://arxiv.org/pdf/2411.16725
代码:https://github.com/revelio-diffusion/revelio
67. TinyViM:频率解耦的微型混合视觉Mamba
标题:TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17473
代码:https://github.com/xwmaxwma/TinyViM
68. VLRewardBench: 一个挑战式的视觉语言生成奖励模型的挑战性阶段
标题:VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
机构:AI2
地址:https://arxiv.org/pdf/2411.17451
69. DepthCues:评估大型视觉模型中的单眼深度感知
标题:DepthCues: Evaluating Monocular Depth Perception in Large Vision Models
相关领域:模型评估、预训练
地址:https://arxiv.org/pdf/2411.17385
70. ScribbleLight:基于涂鸦的单张室内图像重照明技术
标题:ScribbleLight: Single Image Indoor Relighting with Scribbles
机构:北卡罗来纳大学
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17696
71. ZoomLDM:面向多尺度图像生成的潜在扩散模型
标题:ZoomLDM: Latent Diffusion Model for multi-scale image generation
相关领域:模型结构改进、多模态
地址:https://arxiv.org/pdf/2411.16969
代码:https://histodiffusion.github.io/docs/publications/zoomldm/
72. 基于预训练模型的语音深度伪造检测研究
标题:Comparative Analysis of ASR Methods for Speech Deepfake Detection
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.17349
73. 高效的大模型推理:基于I/O感知的部分键值缓存重新计算
标题:Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation
机构:南加州大学
相关领域:模型评估、多模态
地址:https://arxiv.org/pdf/2411.17089
74. 基于文本到图像扩散模型的可控人体图像生成与个性化多服装
标题:Controllable Human Image Generation with Personalized Multi-Garments
机构:韩国科学技术院
相关领域:数据集构建、模型结构改进
地址:https://arxiv.org/pdf/2411.16801
75. 指令调整的参数效率研究:一项实证研究
标题:Parameter Efficient Instruction Tuning: An Empirical Study
相关领域:指令微调
地址:https://arxiv.org/pdf/2411.16775
76. HSI-Drive v2.0:更多数据以应对自动驾驶场景理解的新挑战
标题:HSI-Drive v2.0: More Data for New Challenges in Scene Understanding for Autonomous Driving
地址:https://arxiv.org/pdf/2411.17530
代码:https://ipaccess.ehu.eus/HSI-Drive/
77. CoA: 链式动作生成语义标签
标题:CoA: Chain-of-Action for Generative Semantic Labels
相关领域:模型结构改进、模型评估、多模态
地址:https://arxiv.org/pdf/2411.17406
78. FR-Merging: 频率域信息融合模型融合方法
标题:FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts
相关领域:模型结构改进、预训练、指令微调、奖励模型
地址:https://arxiv.org/pdf/2411.16815
79. PIM-AI: 一种新的内存计算架构用于LLM推理
标题:PIM-AI: A Novel Architecture for High-Efficiency LLM Inference
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.17309
80. 大模型自动化进行银行系统威胁建模
标题:ThreatModeling-LLM: Automating Threat Modeling using Large Language Models for Banking System
相关领域:模型结构改进、数据集构建
地址:https://arxiv.org/pdf/2411.17058
81. 视频内容的语言模型性能评估基准:针对视觉大模型的时序幻觉研究
标题:VidHal: Benchmarking Temporal Hallucinations in Vision LLMs
相关领域:模型评估、数据集构建
地址:https://arxiv.org/pdf/2411.16771
82. 为何机器学习笔记本会崩溃?
标题:Why do Machine Learning Notebooks Crash?
地址:https://arxiv.org/pdf/2411.16795
83. 黑盒对抗攻击的缩放规律
标题:Scaling Laws for Black box Adversarial Attacks
相关领域:模型评估、对抗攻击
地址:https://arxiv.org/pdf/2411.16782
84. 动态自我提炼方法:基于先前小批量的数据,为微调小型语言模型
标题:Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models
相关领域:模型蒸馏、小型语言模型微调
地址:https://arxiv.org/pdf/2411.16991
85. FollowGen:一种面向跟驰轨迹预测的规模化噪声条件扩散模型
标题:FollowGen: A Scaled Noise Conditional Diffusion Model for Car-Following Trajectory Prediction
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.16747
86. 主动提示学习与视觉语言模型先验研究
标题:Active Prompt Learning with Vision-Language Model Priors
相关领域:多模态、模型评估
地址:https://arxiv.org/pdf/2411.16722
87. XAI与Android恶意软件模型
标题:XAI and Android Malware Models
相关领域:模型结构改进
地址:https://arxiv.org/pdf/2411.16817
88. 神经坍塌:适应不均衡数据的性质冲破模型
标题:The Exploration of Neural Collapse under Imbalanced Data
地址:https://arxiv.org/pdf/2411.17278
你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。