前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!
1. 面向开放式解决方案的开放推理模型
标题:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
关键词:大语言模型、开放式解决方案、开放推理模型
作者:Yu Zhao, Huifeng Yin, Bo Zeng
分析:Marco-o1不仅关注有明确答案的学科,如数学、物理和编程,也更注重开放式问题解决。该模型使用Chain-of-Thought (CoT)微调、Monte Carlo Tree Search (MCTS)、反思机制以及创新的推理策略,优化用于复杂现实世界问题解决任务。
地址:https://arxiv.org/pdf/2411.14405
2. 揭秘扩散 Transformer(DiT)中的冗余:系统性研究
标题:Unveiling Redundancy in Diffusion Transformers (DiTs): A Systematic Study
机构:腾讯
关键词:扩散 Transformer、模型结构改进、缓存策略
作者:Xibo Sun, Jiarui Fang, Aoyu Li
分析:论文主要研究了扩散 Transformer(DiT)模型中存在的高相似性激活值(冗余)问题,这种冗余导致了推理延迟增加,影响了实时性能。研究分析了不同主流 DiT 模型中冗余的分布,发现即使在同一模型内部,冗余的分布也相对稳定,但不同模型之间缺乏一致性。研究提出了分析特定模型冗余的工具,以发展定制化缓存策略。
地址:https://arxiv.org/pdf/2411.13588
代码:https://github.com/xdit-project/DiTCacheAnalysis
3. 从“愚蠢”问题中学习提高大模型性能,但效果有限
标题:Learning from "Silly" Questions Improves Large Language Models, But Only Slightly
关键词:大型语言模型、Supervised Fine-Tuning、Ruozhiba、数据分析
作者:Tingyuan Zhu, Shudong Liu, Yidong Wang
分析:构建高质量的Supervised Fine-Tuning (SFT)数据集对于大型语言模型(LLMs)的训练至关重要。近期研究显示,使用特定来源的Ruozhiba网站数据,该网站用户提出“愚蠢”问题以更好地理解特定话题,能提升细调性能。本文旨在探索其成功背后的潜在因素以及大规模性能评估。首先,该论文利用GPT-4分析Ruozhiba问题在教育、心理学和认知科学方面的成功案例,并从中推导出一套解释规则。接着,该论文将这些规则应用于MMLU训练集来构建细调数据集。令人惊讶的是,该论文发现这些规则在提升某些任务性能的同时,也可能降低其他任务的性能。例如,遵循“非传统思维”规则生成的SFT数据在“全球事实”任务上可提高约5%,而“模糊概念边界”规则则使“经济学”任务的表现下降6.14%。此外,对于特定任务,不同的规则对模型性能的影响是一致的。这暗示了提取的规则之间差异不大,且规则的有效性在不同任务上相对一致。本研究强调了在构建SFT数据集时考虑任务多样性和规则适用性的重要性,以实现更全面的性能改进。
地址:https://arxiv.org/pdf/2411.14121
4. FocusLLaVA: 一个从粗到细的视觉token高效压缩方法
标题:FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression
关键词:视觉token、大语言模型
作者:Yuke Zhu, Chi Xie, Shuang Liang
分析:论文讨论了多模态大型语言模型中的高分辨率图像输入的重要性,特别是对于精细的任务处理。然而,高分辨率图像导致视觉token数量指数级增长,增加了计算成本。文章提出了一个从粗到细的视觉token压缩方法,通过视觉引导的抽样器减少图像中的冗余部分,并通过文本引导的抽样器选择与用户指令相关的视觉特征。该方法的提出者声称,FocusLLaVA实现了在效率和性能上的双赢。论文在多个评价数据集上进行了验证。
地址:https://arxiv.org/pdf/2411.14228
5. Lost in Inference:重新发现自然语言推理在大规模语言模型中的作用
标题:Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models
关键词:自然语言推理,大规模语言模型,模型评估,训练过程,softmax分布
作者:Lovish Madaan, David Esiobu, Pontus Stenetorp
分析:本文调查了自然语言推理任务在大规模语言模型评估中的价值。研究发现,尽管这些任务很少用于评估LLM,但它们仍然能提供有价值的信息。文章通过五个不同规模的NLI基准测试,评估了六个不同规模模型的性能和训练过程中的准确性变化。此外,还研究了模型在模糊或不明确情况下的softmax分布与人类分布的一致性程度。总的来说,本文结果肯定了NLI任务的价值,认为它们在评估模型的不同阶段和规模方面表现出良好的辨别力,并且随着模型规模的扩大,模型分布与人的分布相似性增加。
地址:https://arxiv.org/pdf/2411.14103
6. AutoMixQ:高效内存调整大模型微调
标题:AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning
机构:复旦大学、浙江大学、哥伦比亚大学
关键词:AutoMixQ,大型语言模型微调,自适应量化配置,内存优化,性能提升
作者:Changhai Zhou, Shiyang Zhang, Yuhua Zhou
分析:这篇论文提出了一种新的优化框架AutoMixQ,用于在资源受限的情况下微调大型语言模型(LLMs)。它通过自适应的量化配置,对每一层LLM进行最优量化选择,减少了内存消耗并提高了性能。文章引入了轻量级性能模型来指导选择过程,与穷举搜索方法相比,大大节省了时间和计算资源。此外,它通过结合帕累托最优理论,平衡了内存使用和性能,使模型在严格的资源约束下接近性能上限。
地址:https://arxiv.org/pdf/2411.13814
7. 探索机器人视觉-语言-动作模型的对抗性漏洞
标题:Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics
机构:罗格斯大学、罗切斯特大学、Meta AI
关键词:机器人学、视觉-语言-动作、对抗性攻击、安全性
作者:Taowen Wang, Dongfang Liu, James Chenhao Liang
分析:最近,在机器人学中,视觉-语言-动作(VLA)模型已经崭露头角,通过整合视觉和语言输入,在一个端到端的学习框架内执行复杂任务。虽然这些模型提供了显著的能力,但也引入了新的攻击面,使其容易受到对抗性攻击。由于这些漏洞大多未被探索,本文系统地量化了基于VLA的机器人系统的鲁棒性。鉴于机器人执行的独特需求,该论文的攻击目标是机器人系统固有的地理和功能特征。特别是,该论文提出了一个无目标的位置感知攻击目标,利用空间基础来破坏机器人动作,以及一个目标攻击目标,操纵机器人轨迹。此外,该论文还设计了一个对抗性补丁生成方法,在摄像头视野内放置一个小型、多彩的补丁,有效地在数字和物理环境中执行攻击。该论文的评估揭示了任务成功率的明显下降,模拟机器人任务中高达100%的减少,突显了当前VLA架构的安全漏洞。通过揭示这些问题并提议可操作的评估指标,这项工作不仅增进了对VLA基于机器人系统的理解,也促进了其安全性的增强,强调了在物理世界部署之前开发健壮防御策略的必要性。
地址:https://arxiv.org/pdf/2411.13587
8. No Free Delivery Service:被动数据收集在复杂社会系统中的知识界限
标题:No Free Delivery Service: Epistemic limits of passive data collection in complex social systems
机构:FAIR
关键词:大模型、知识界限、模型验证、复杂社会系统
作者:Maximilian Nickel
分析:快速通过训练-测试范式进行模型验证一直是机器学习和人工智能取得惊人进步的关键驱动力。然而,现代AI系统往往依赖于一系列任务和数据收集实践,这些实践违反了确保测试有效性的所有假设。如果没有严格的模型验证,该论文就无法确保部署的AI系统的预期结果,包括积极的社会效益,也无法科学地继续推进AI研究。本文将展示,对于广泛认为是推断性设置的复杂社会系统中,训练-测试范式不仅缺乏正当理由,而且对任何风险评估器,包括逆事实和因果评估器来说,都是无效的,具有高概率。这些形式上不可能的结果凸显了一个根本的认识问题,即在现代AI中,该论文无法知道模型是否在当前的数据收集实践中是有效的。这包括推荐系统和通过大型语言模型进行的推理的各种变体,而这两种方法都不适合解决这一问题。我通过广泛使用的MovieLens基准来说明这些结果,并总结出这些结果对AI在社会系统中的意义,包括可能的解决方案,如参与式数据编纂和开放科学。
地址:https://arxiv.org/pdf/2411.13653
9. 协同集成框架用于CTR预测
标题:A Collaborative Ensemble Framework for CTR Prediction
机构:伊利诺伊大学、Meta AI
关键词:协同集成、嵌入表、软max、否定熵
作者:Xiaolong Liu, Zhichen Zeng, Xiaoyi Liu
分析:近期先进的基础模型发展已经确立了可扩展定律,以便开发更大规模模型以实现增强性能,这激励了大量研究大规模推荐模型。然而,即使增加推荐系统中模型的大小(即使有大量数据),也不一定总是能获得预期的性能改进。本文提出了一种新的框架,即协同集成训练网络(CETNet),利用多个独特的模型进行协作学习,每个模型都有自己的嵌入表,以捕获独特的特征交互模式。区别于简单的模型放大的方式,该论文的方法注重多样性和合作,即模型不断优化其预测。为动态平衡每个模型的贡献,该论文引入了一种基于信心的融合机制,使用普通软max,通过计算否定熵来计算模型信心。这一设计确保更确信模型对最终预测有更大的影响力,同时从其他模型获取互补优势。该论文在三个公共数据集(亚马逊电子产品、淘宝广告和快视频)以及一个来自Meta的大规模工业数据集上验证了该论文的框架,并证明了它优于单个模型和最新的基线。此外,该论文在Criteo和Avazu数据集上进行了进一步的实验,以将该论文的方法与多嵌入范式进行比较。该论文的结果表明,该论文的框架在较小嵌入大小下可以达到可比的或更好的性能,为CTR预测任务提供可扩展和高效解决方案。
地址:https://arxiv.org/pdf/2411.13700
10. Towards Full Delegation:设计旅游规划中的理想代理人行为
标题:Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning
机构:FAIR
关键词:代理人行为、旅游规划、大型语言模型、APEC宪法
作者:Song Jiang, Da JU, Andrew Cohen
分析:论文探讨了基于大型语言模型(LLM)的代理未来在人类日常决策中的角色。研究认为未来的代理应不仅能达成目标,还应遵循合理的决策过程。提出APEC代理宪法,包含准确性、主动性、效率和可信度四项标准。APEC-Travel代理设计基于合成数据,通过多轮对话提取用户需求,并在迭代的微调后取得了显著性能提升。
地址:https://arxiv.org/pdf/2411.13904
11. RadPhi-3:用于放射学工作流的小型语言模型
标题:RadPhi-3: Small Language Models for Radiology
机构:微软研究院
关键词:RadPhi-3、放射学工作流、小型语言模型、指令微调
作者:Mercy Ranjit, Shaury Srivastav, Tanuja Ganu
分析:论文介绍了一种名为RadPhi-3的小型语言模型,该模型基于Phi-3-mini-4k-instruct进行指令调优,可用于协助放射学工作流中的各种任务。主要包括印象摘要生成、变化摘要生成、放射报告的节段提取、对报告中的病变以及管子、线条或设备进行标签等任务。RadPhi-3通过从放射科医生使用的可靠知识源Radiopaedia.org中学习进行指令调优,并对放射学相关的查询给出可靠答案以及执行与放射学报告相关的任务。在RaLEs放射学报告生成基准测试中,RadPhi-3取得了卓越的结果。
地址:https://arxiv.org/pdf/2411.13604
12. Velocitune: 一种基于速度的动态领域重新加权方法用于持续预训练
标题:Velocitune: A Velocity-based Dynamic Domain Reweighting Method for Continual Pre-training
机构:微软、清华大学、曼彻斯特大学
关键词:动态加权、领域适应性、持续预训练、学习速度
作者:Zheheng Luo, Xin Zhang, Xiao Liu
分析:这篇论文研究了一种动态评估学习速度并据此调整数据比例的方法,该方法倾向于减速学习的领域而不是加速学习的领域。这种方法是根据一个增长定律来实现的,该定律表明了对每个领域学习目标的期望,并且减少了相关的成本。它通过在包含不同领域的数据集上进行实验,评价了CodLLama模型在推理任务上的性能,以及在特定的系统命令生成任务上的Llama3和Mistral模型的性能。研究发现,这种方法在数学和代码推理任务以及命令行生成基准测试中都取得了显著的性能提升。进一步分析表明,Velocitune的有效性主要归功于其对潜在损失的预测以及数据排序。
地址:https://arxiv.org/pdf/2411.14318
13. 大模型在模糊任务中的表现评估
标题:A Framework for Evaluating LLMs Under Task Indeterminacy
机构:微软研究院、卡内基梅隆大学
关键词:大语言模型、任务不明确性、性能评估
作者:Luke Guerdan, Hanna Wallach, Solon Barocas
分析:这篇论文提出了一种框架,用于评估在大语言模型(LLM)任务不明确性下的性能。它探讨了如何通过分析任务特定性、人类评级和LLM响应之间的关系来改进评估过程。研究结果表明,基于“金标签”假设的评估方法低估了实际性能。文章还提供了一种方法,该方法可以估计在不完全了解评估集中不确定项的情况下的性能区间。最后,文章讨论了这些发现对研究社区的意义。
地址:https://arxiv.org/pdf/2411.13760
14. 将视频遮罩自编码器扩展到128帧
标题:Extending Video Masked Autoencoders to 128 frames
机构:谷歌研究院、英属哥伦比亚大学
关键词:视频自编码器、预训练、自适应遮罩、模型结构改进
作者:Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal
分析:本文提出了一种有效的方法,使得训练能够处理更长的视频序列(128帧),并证明了一种自适应的遮罩策略的重要性,该策略能够优先处理最重要的token,并将其作为重建目标进行量化。结果表明,采用这种方法的长视频(128帧)自编码器在性能上超过了32帧的短视频自编码器。
地址:https://arxiv.org/pdf/2411.13683
15. Safety Without Semantic Disruptions:无需编辑的图像生成 via 上下文保持的双潜变量重建
标题:Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction
机构:墨尔本大学、Google、澳大利亚国立大学
关键词:安全图像生成、上下文保持、潜变量重建、安全性
作者:Jordan Vice, Naveed Akhtar, Richard Hartley
分析:这篇论文提出了一种安全图像生成的方法,该方法通过在潜变量空间中使用可调加权求和的上下文保持的双重重建过程来实现。它旨在生成更安全的图像,同时保持学习 manifold 的整体上下文,而不破坏 learned manifolds 的结构完整性。通过使用 safety-context embeddings 和双重建过程,该论文避免了传统的模型编辑技术导致的近义概念偏移问题。实验结果表明,该方法在安全图像生成基准测试中取得了 state-of-the-art 成绩,并提供了解控的模型安全性。论文还探讨了安全与审查之间的权衡关系,为开发道德 AI 模型提供了必要视角。论文会发布源代码。关键词:文本到图像模型、生成 AI、安全性、可靠性、模型编辑
地址:https://arxiv.org/pdf/2411.13982
16. 增强现实辅助的机械臂机器人:面向直觉式的机械臂控制与可视化
标题:Arm Robot: AR-Enhanced Embodied Control and Visualization for Intuitive Robot Arm Manipulation
机构:谷歌研究院、UC洛杉矶分校
关键词:增强现实、机器人臂、直观控制、人机交互
作者:Siyou Pei, Alexander Chen, Ronak Kaoshik
分析:本文介绍了一种名为Arm Robot的机器人臂远程操控系统,该系统通过增强现实技术提供实时反馈,帮助使用者克服人类与机器人之间能力的差异。它通过AR可视化实时显示时空间隔差异,并允许用户改变观察视角和扩展动作空间。论文通过用户研究验证了系统的易用性,并提出对未来沉浸式人机交互工作的启示。
地址:https://arxiv.org/pdf/2411.13851
17. Stereo Anything:大规模混合数据下的立体匹配统一框架
标题:Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
机构:武汉大学、西安交通大学、UC伯克利分校
关键词:Stereo matching、大规模混合数据、通用基础模型、数据集构建
作者:Xianda Guo, Chenming Zhang, Youmin Zhang
分析:这篇论文提出了一种高度实用的稳健立体匹配解决方案StereoAnything。该方案旨在开发一种通用基础模型,可处理不同环境下的立体图像。通过收集标记的立体图像和从未标记的单目图像生成合成立体对,来扩充数据集。同时,论文引入了一种新型合成数据集,通过增加基线、相机角度和场景类型的多样性,来补充现有数据,提高模型在不同条件下的泛化能力。论文还广泛评估了模型在五个公共数据集上的零样本能力,展示了其令人印象深刻的新数据泛化能力。
地址:https://arxiv.org/pdf/2411.14053
代码:https://github.com/XiandaGuo/OpenStereo
18. NewsInterview:一个用于通过信息性采访评估LLM地基差距的数据集和乐园
标题:NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews
机构:东北大学、南加州大学、UC伯克利分校
关键词:LLM、战略对话、信息性采访、模型评估
作者:Michael Lu, Hyundong Justin Cho, Weiyan Shi
分析:研究了一个名为NewsInterview的数据集,该数据集包含40,000个来自NPR和CNN的信息性采访,揭示了LLM在使用确认和转换到高层次问题方面比人类采访者差。提出了一种结合源角色和说服元素的模拟环境,以支持具有更长远奖励的代理的开发。实验表明,虽然源LLM在信息分享方面模仿人类行为,但采访者LLM在识别答案和进行说服性对话方面表现不佳,导致信息提取不足。强调了增强LLM战略对话能力的需求。
地址:https://arxiv.org/pdf/2411.13779
19. 视觉上下文澄清模糊表达
标题:Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset
机构:UC伯克利分校
关键词:视觉语言模型、间接交流、数据集、模型管道
作者:Heejeong Nam, Jinwoo Ahn
分析:图像语言模型在实现复杂推理方面的能力对于有效与人类交互至关重要。视觉语言模型的进步在处理需要处理直接文本输入的任务(例如视觉问答和视觉定位)方面取得了显著提高。然而,关于提高模型理解微妙的、模糊的语言形式的通信能力的关注较少。这在现实生活中的人类语言交流中是一个重要挑战,因为人类在实时交互中通常会暗示一些隐藏的意图,这些意图需要依赖上下文进行准确理解。为了解决这个问题,该论文提出VAGUE,一个包含3900个间接人类言论与对应场景的多模态基准数据集。此外,该论文还贡献了一个基于模型的管道,用于从输入图像中生成提示-解决方案对。该论文的工作旨在深入挖掘模型对间接交流的理解能力,并努力为更优雅和人性化的交互模型的发展提供贡献。该论文对主流模型的广泛评估表明,当需要执行复杂语言和视觉推理时,主流模型在处理间接交流方面仍然存在困难。该论文已将该论文的代码和数据发布到https://github.com/Hazel-Heejeong-Nam/VAGUE.git。
地址:https://arxiv.org/pdf/2411.14137
代码:https://github.com/Hazel-Heejeong-Nam/VAGUE.git
20. 大模型在翻译领域的表现
标题:Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels
机构:浙江大学、西湖大学、伦敦大学
关键词:大语言模型、翻译能力、模型结构改进
作者:Jianhao Yan, Pingchuan Yan, Yulong Chen
分析:本研究对GPT-4与不同水平人类译者的翻译能力进行了全面评估,涉及中文、英文、俄文和印地语三对语言及新闻、科技和生物医学三个领域的翻译。研究发现,尽管GPT-4在错误总数上与初级译者相当,但在总体表现上仍落后于高级译者。GPT-4在资源贫乏的语言方向保持了一致的翻译质量,而传统神经网络机器翻译系统在这些语言方向的性能显著下降。通过定性分析,论文识别出GPT-4倾向于过度字面翻译和词汇不一致的问题,而人类译者有时会过度解读语境并引入幻觉。这篇论文是首次系统比较LLM与人类译者在不同熟练程度下的能力,为基于LLM的翻译系统提供了当前能力和局限性的见解。
地址:https://arxiv.org/pdf/2411.13775
21. SPARKLE: 一个统一的单循环主从框架
标题:SPARKLE: A Unified Single-Loop Primal-Dual Framework for Decentralized Bilevel Optimization
机构:北京大学、IBM研究院、宾夕法尼亚大学
关键词:去中心化、双层优化、异质性校正、算法框架
作者:Shuchen Zhu, Boao Kong, Songtao Lu
分析:这篇论文研究了去中心化的双层优化问题,多个代理合作解决涉及嵌套优化结构的问题。大多数现有文献主要使用梯度跟踪来减轻数据异质性的影响,但没有探索其他已知的异质性校正技术,如EXTRA或精确扩散。此外,这些研究通常采用相同的去中心化策略来解决上下级问题,忽视了不同层级之间不同的机制。为了解决这些问题,本文提出了SPARKLE,一个统一的双重主算法框架,用于去中心化的双层优化。SPARKLE提供了将各种异质性校正策略集成到算法中的灵活性。此外,SPARKLE允许为上下层问题采用不同的策略。该论文为SPARKLE提供了一个统一的收敛分析,适用于其所有变体,与现有的去中心化双层算法相比,具有最先进的收敛率。该论文的结果表明,EXTRA和精确扩散更适合去中心化的双层优化,而在双级算法中使用混合策略比仅依赖梯度跟踪带来更多好处。
地址:https://arxiv.org/pdf/2411.14166
22. OpenScholar:利用检索增强的大模型进行文献综述
标题:OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
机构:华盛顿大学、斯坦福大学、伊利诺伊大学
关键词:检索增强的大型语言模型、文献综述、引用准确性、模型评估
作者:Akari Asai, Jacqueline He, Rulin Shao
分析:该论文介绍了一种利用检索增强的大型语言模型OpenScholar,该模型能够回答科学问题并综合文献。它通过识别来自4500万篇开放访问论文中的相关段落,为科学研究提供基于引用的答案。该论文开发了一个大规模多领域的文献搜索基准测试平台ScholarQABench来评估OpenScholar的性能。结果表明,OpenScholar在正确性方面优于GPT-4o和PaperQA2模型,尤其是在引用准确性方面表现出色。此外,通过改进大型语言模型的存储、检索和自反馈推理循环,OpenScholar还提高了离线模型的性能。该论文以开放源代码的形式发布了所有代码、模型、数据存储、数据和公共演示。
地址:https://arxiv.org/pdf/2411.14199
23. 将大模型应用于图像到3D生成
标题:Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
机构:香港科技大学、约翰霍普金斯大学、Adobe Research
关键词:图像到3D生成、3D扩散模型、单阶段
作者:Yuanhao Cai, He Zhang, Kai Zhang
分析:这篇论文提出了一种名为DiffusionGS的单阶段3D扩散模型,用于从单一视角进行对象和场景生成。该模型能够直接输出3D高斯点云以保持视角一致性,并允许在任意方向的提示视图下生成稳健的结果。为了提升模型的性能和泛化能力,采用了混合训练策略来扩展3D训练数据。实验结果表明,与现有方法相比,DiffusionGS在生成质量和速度上都有显著提升,用户研究和文本到3D应用也证实了其实用性。
地址:https://arxiv.org/pdf/2411.14384
代码:https://caiyuanhao1998.github.io/project/DiffusionGS/
24. 基于视频扩散先验的新型视角外推
标题:Novel View Extrapolation with Video Diffusion Priors
机构:南洋理工大学
关键词:新型视角外推、视频扩散先验、辐射场方法、点云视角合成
作者:Kunhao Liu, Ling Shao, Shijian Lu
分析:这篇论文着重探讨并解决了在新型视角合成领域的一个挑战性问题——新型视角外推。大部分辐射场方法在生成相邻视角时表现优秀,但难以准确合成那些与已有训练数据中视角相距甚远的新型视角。为了克服这一限制,论文设计了ViewExtrapolator,通过借鉴稳定视频扩散(SVD)的生成先验,实现了对现实世界新型视角的精细(artefact-free)合成。相较于辐射场生成的视角,ViewExtrapolator在渲染后的图像上进行了改进,大幅提升了合成视角的清晰度和逼真度。ViewExtrapolator在不同的三维渲染场景下(包括点云视角)均能有效应用。此方法无需对SVD进行微调,因而数据效率和计算效率显着, 实验结果充分证实了其在新型视角外推方面具有显著优势。
地址:https://arxiv.org/pdf/2411.14208
代码:https://kunhao-liu.github.io/ViewExtrapolator/
25. MMGenBench: 大规模多模态模型(LMMs)从文本到图像生成角度的评估
标题:MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective
机构:清华大学、阿里巴巴集团、北京航空航天大学
关键词:MMGenBench、LMMs、文本到图像生成
作者:Hailang Huang, Yong Wang, Zixuan Huang
分析:多年来,多模态模型作为深度学习技术中的一个热门方向,一直以强大的能力吸引了大量的研究关注。其中,大型多模态模型(LMMs)因其强大的图像理解与描述能力,在图像发明等领域取得了显著的进展。然而,现有的评估体系主要集中在对LMMs的图像理解能力上,有趣的是,鲜有研究对LMMs从图像生成的角度进行评估。为了解决这一问题,该论文提出了一个由文字驱动的自动化评估流程。流程首先使用给定的输入图像,诱导LMMs生成与之对应的图像提示;随后,生成的图像提示推导了一种新的生成图。最后,该论文利用这两种方法评估LMM的性能,比较原始图像与生成图像的差距。此外,该论文还创建了一个名为MMGenBench-Test的全面字段,用于评估LMMs在总共13种不同类型图像上的表现;建立了MMGenBench-Domain,旨在服务于生成图像的模型性能分析。通过某几个大型多模态模型的50多个案例的完整评估,该论文清楚地发现,少数在现有评估体系中出色的模型,同时也并没有达成对于图像理解和描述的最低要求。这一发现加强了该论文对于目前LMMs仍然存在的不利现状的关注,并强调了针对尤为重要的性能提升提出的众多可能的研究方向。该论文的评估流程有效地认可了这一问题的存在,并为未来模型优化提升提供了鲜明的典型案例。
地址:https://arxiv.org/pdf/2411.14062
26. 神经网络低秩层对泛化性能影响的一般化界限
标题:On Generalization Bounds for Neural Networks with Low Rank Layers
机构:麻省理工学院
关键词:深度学习、低秩层、泛化性能、Maurer的链规则
作者:Andrea Pinto, Akshay Rangamani, Tomaso Poggio
分析:论文分析了深度网络中的低秩层如何防止累积通常在多层之间多重的秩和维度因子,通过Maurer的链规则将高斯复杂度应用于分析。这为限制秩和谱范数的网络提供了泛化界限。与深网络相比,低秩层的网络可以取得更好的泛化能力。同时,探讨了具有神经塌陷现象的深度网络的泛化能力。
地址:https://arxiv.org/pdf/2411.13733
27. RestorerID:面向无调参的面部恢复方法,保留ID信息
标题:RestorerID: Towards Tuning-Free Face Restoration with ID Preservation
机构:浙江大学
关键词:无调参、面部恢复、ID信息、扩散模型
作者:Jiacheng Ying, Mushui Liu, Zhe Wu
分析:Blind face restoration在生成高质量和逼真的图片上取得了重大进展。然而,当退化严重时,保持ID信息尤其具有挑战性。当前的参考引导的面部恢复方法要么需要面部对齐,要么需要进行个性化的调优,这既不诚实也不高效。在这篇研究中,该论文提出了一个名为RestorerID的方法,它结合了在面部恢复过程中保留ID信息。RestorerID是一个基于扩散模型的方法,通过使用单一的参考图像来恢复低质量图像,其退化水平不同。为了实现这一点,该论文提出了一个统一的框架,将ID注入与基础盲脸恢复模型相结合。此外,该论文还设计了一个新颖的Face ID Rebalancing Adapter(FIR-Adapter),以解决由于输入和参考图像之间的信息冲突而导致的内容不一致和轮廓对齐问题。通过采用自适应ID-缩放调整策略,RestorerID可以产生在不同退化水平下的质量更好的恢复图像。实验结果在Celeb-Ref数据集和实际场景中表明,RestorerID有效地实现了高质量的面部恢复并保留ID信息,相比测试调优方法和其他参考引导的方法,表现出更优越的性能。代码可在[链接](https://github.com/YingJiacheng/RestorerID)获取。
地址:https://arxiv.org/pdf/2411.14125
代码:https://github.com/YingJiacheng/RestorerID
28. Insight-V:探索长链视觉推理与多模态大模型的融合
标题:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
机构:腾讯、清华大学、南京大学
关键词:长链推理、多模态语言模型、数据构建、视觉推理
作者:Yuhao Dong, Zuyan Liu, Hai-Long Sun
分析:这篇论文关注多模态大型语言模型在视觉推理任务中的表现。通过构建长链推理数据集和有效的训练管道,论文致力于提高模型在复杂多模态任务中的推理能力。为解决高质量长链推理数据和优化训练管道在视觉语言任务中的不足,提出了一种名为Insight-V的方法和系统。
地址:https://arxiv.org/pdf/2411.14432
29. EasyHOI:释放大模型在重建野生环境中手与物体交互的威力
标题:EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild
机构:上海科技大学、香港科技大学、德克萨斯农工大学
关键词:手与物体交互、大模型、优化方案
作者:Yumeng Liu, Xiaoxiao Long, Zemin Yang
分析:该论文旨在解决从单一视角图像重建手与物体交互的问题。它提出了一种新的方法,利用现有的大型模型来估计手姿和物体形状,并采用优化方案来遵守3D物理约束和2D图像内容。该方法在多个数据集上的表现均优于基线方法,能够重建各种手与物体的交互。
地址:https://arxiv.org/pdf/2411.14280
代码:https://lym29.github.io/EasyHOI-page/
30. 这是生成的人物存在于现实中吗?精细检测和校准异常人体
标题:Is this Generated Person Existed in Real-world? Fine-grained Detecting and Calibrating Abnormal Human-body
机构:中山大学、北京大学、鹏城实验室
关键词:细粒度人体异常检测、评估数据集、HumanCalibrator框架、异常检测
作者:Zeqing Wang, Qingyang Ma, Wentao Wan
分析:本文讨论了生成人像照片质量的提升及其重要性,以及当前文本到图像或文本到视频模型生成的人像照片与现实世界的人体结构存在重大差异(“异常人体”)的问题。这种差异对人像照片中的异常检测和修复构成了挑战,需要具备精确识别异常的能力,即定位和识别异常类型。本文提出了一个名为“细粒度人体异常检测(FHAD)”的任务,构建了两个高质量的评估数据集。介绍了由人类校正者(HumanCalibrator)框架,旨在识别并修复人体结构中的异常,同时保留其他内容。实验表明,HumanCalibrator在异常检测精度方面表现出色,保持了视觉比较的提升,而没有损害其他视觉内容。
地址:https://arxiv.org/pdf/2411.14205
31. LEADRE:基于多面知识增强的LLM驱动的展示广告推荐系统
标题:LEADRE: Multi-Faceted Knowledge Enhanced LLM Empowered Display Advertisement Recommender System
机构:腾讯、清华大学、中国人民大学
关键词:LEADRE、大型语言模型、展示广告推荐、意图感知提示工程
地址:https://arxiv.org/pdf/2411.13789
32. 基于自我生成的测试代码偏好学习改进大型编程模型的代码生成
标题:DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs
机构:西北大学、字节跳动
关键词:直接偏好学习、自我生成的测试代码、大型编程模型、代码生成准确性
地址:https://arxiv.org/pdf/2411.13611
33. 可分离的低秩适应混合方法对连续视觉指令调优的改进
标题:Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning
机构:清华大学、合肥工业大学
关键词:连续视觉指令调优、可分离低秩适应、双重遗忘、模型蒸馏
地址:https://arxiv.org/pdf/2411.13949
34. LLMs as Continuous Learners:提高软件问题中缺陷代码的复现能力
标题:LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues
机构:上海交通大学、阿里巴巴集团
关键词:LLM、连续学习、代码复现、模型改进
地址:https://arxiv.org/pdf/2411.13941
35. 分解并利用专家模型的偏好以提高大模型的可靠性
标题:Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs
机构:剑桥大学、南洋理工大学、伦敦玛丽女王大学
关键词:多模态大语言模型、专家模型、偏好评估、信任度提升
地址:https://arxiv.org/pdf/2411.13697
36. Beyond Training:动态令牌合并 for 零-shot 视频理解
标题:Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding
机构:中国科学技术大学
关键词:动态令牌合并、零-shot 视频理解、DYTO 框架、复杂视频内容
地址:https://arxiv.org/pdf/2411.14401
37. Panther:以指令指导视觉提示增强多模态大模型的视觉感知能力
标题:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
机构:浙江大学、西湖大学
关键词:多模态大模型、视觉感知能力、模型结构改进、指令指导视觉提示
地址:https://arxiv.org/pdf/2411.13909
38. FoPru: 焦点修剪用于有效的大型视觉语言模型
标题:FoPru: Focal Pruning for Efficient Large Vision-Language Models
机构:合肥工业大学、中国科学技术大学
关键词:焦点修剪、视觉语言模型、注意力机制、推理效率优化
地址:https://arxiv.org/pdf/2411.14164
39. 基于资源优化的联合交通量预估模型研究
标题:REFOL: Resource-Efficient Federated Online Learning for Traffic Flow Forecasting
机构:中国科学院计算技术研究所
关键词:联邦学习、在线学习、概念漂移、交通量预测
地址:https://arxiv.org/pdf/2411.14046
40. 热力学算法在二次规划中的应用
标题:Thermodynamic Algorithms for Quadratic Programming
机构:Normal Computing
关键词:热力学计算范式、二次规划、混合数字模拟算法、支持向量机、投资组合优化、模型结构改进
地址:https://arxiv.org/pdf/2411.14224
41. Forecasting Future International Events:用于文本事件建模的可靠数据集
标题:Forecasting Future International Events: A Reliable Dataset for Text-Based Event Modeling
机构:首尔国立大学、KAIST AI
关键词:国际事件预测、大型语言模型、数据集构建、高级提示建模
地址:https://arxiv.org/pdf/2411.14042
42. 多LLM代理系统:技术与商业视角
标题:Multi-LLM-Agent Systems: Techniques and Business Perspectives
机构:上海交通大学、OPPO研究院
关键词:LLM代理、多模态大型语言模型、技术商业视角、协议初步版本
地址:https://arxiv.org/pdf/2411.14033
43. 用于目标Rust的仓库级代码翻译基准
标题:Repository-level Code Translation Benchmark Targeting Rust
机构:中山大学、复旦大学
关键词:大型语言模型、仓库级代码翻译、Rust语言、复杂代码结构
地址:https://arxiv.org/pdf/2411.13990
44. Stable Flow:训练无关图像编辑的关键层
标题:Stable Flow: Vital Layers for Training-Free Image Editing
机构:希伯来大学、特拉维夫大学
关键词:扩散模型、图像编辑、训练无关、关键层
地址:https://arxiv.org/pdf/2411.14430
代码:https://omriavrahami.com/stable-flow
45. 稀疏输入视图合成:3D表示和可靠先验
标题:Sparse Input View Synthesis: 3D Representations and Reliable Priors
机构:印度科学院
关键词:稀疏输入、视图合成、3D表示、先验知识
地址:https://arxiv.org/pdf/2411.13631
46. StereoCrafter-Zero: 零样本立体视频生成
标题:StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
关键词:立体视频、零样本、扩散模型
地址:https://arxiv.org/pdf/2411.14295
代码:https://github.com/shijianjian/StereoCrafter-Zero
47. GASP: 高效生成攻击性后缀以破解大模型
标题:GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs
关键词:大型语言模型、攻击性后缀、预训练攻击、指令微调
地址:https://arxiv.org/pdf/2411.14133
48. UnifiedCrawl:通用爬取方法在低成本语言模型上的应用
标题:UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
关键词:UnifiedCrawl、低资源语言、大型语言模型、适配器方法
地址:https://arxiv.org/pdf/2411.14343
代码:https://github.com/bethelmelesse/unifiedcrawl
49. AttentionBreaker: 自适应进化优化以识别大模型中的关键漏洞
标题:AttentionBreaker: Adaptive Evolutionary Optimization for Unmasking Vulnerabilities in LLMs through Bit-Flip Attacks
机构:德克萨斯大学
关键词:大型语言模型、Bit-Flip Attacks、自适应进化优化
地址:https://arxiv.org/pdf/2411.13757
50. Auto-SPICE: 利用大模型自动化生成SPICE电路图
标题:Auto-SPICE: Leveraging LLMs for Dataset Creation via Automated SPICE Netlist Extraction from Analog Circuit Diagrams
机构:纽约大学、康奈尔大学
关键词:Auto-SPICE、大型语言模型、自动化、SPICE网络
地址:https://arxiv.org/pdf/2411.14299
51. WARLearn:天气自适应表示学习
标题:WARLearn: Weather-Adaptive Representation Learning
关键词:天气自适应表示学习、自适应框架、恶劣天气条件、Barlow Twins
地址:https://arxiv.org/pdf/2411.14095
代码:https://github.com/ShubhamAgarwal12/WARLearn
52. 半导体行业特定大模型的构建、训练与评估——SemiKong
标题:SemiKong: Curating, Training, and Evaluating A Semiconductor Industry-Specific Large Language Model
关键词:SemiKong,半导体行业,大型语言模型,数据集构建,模型评估
地址:https://arxiv.org/pdf/2411.13802
代码:https://github.com/aitomatic/semikong
53. 多模态自回归预训练大模型的研究
标题:Multimodal Autoregressive Pre-training of Large Vision Encoders
关键词:多模态、预训练、自回归、视觉编码器
地址:https://arxiv.org/pdf/2411.14402
54. 探索的启示:信息理论视角下的RL
标题:Exploration by Running Away from the Past
关键词:信息理论、强化学习、RLHF
地址:https://arxiv.org/pdf/2411.14085
55. 化学反应网络的大致约束聚合技术
标题:Approximate Constrained Lumping of Chemical Reaction Networks
机构:丹麦技术大学
关键词:近似约束聚合技术、生化系统建模、模型简化、复杂性降低
地址:https://arxiv.org/pdf/2411.14242
56. ComfyGI:改善图像生成流程的自动化方法
标题:ComfyGI: Automatic Improvement of Image Generation Workflows
关键词:舒心GM、图像生成、自动化优化、工作流程改进
地址:https://arxiv.org/pdf/2411.14193
57. 交互式与表达性代码辅助规划与大模型
标题:Interactive and Expressive Code-Augmented Planning with Large Language Models
机构:密歇根大学
关键词:大语言模型,交互式规划,代码执行,模糊情境处理,复杂任务规划
地址:https://arxiv.org/pdf/2411.13826
58. GalaxyEdit:大规模图像编辑数据集与增强扩散适配器
标题:GalaxyEdit: Large-Scale Image Editing Dataset with Enhanced Diffusion Adapter
地址:https://arxiv.org/pdf/2411.13794
59. Evidence is All We Need:自我承认的技术债务影响方法级维护吗?
标题:Evidence is All We Need: Do Self-Admitted Technical Debts Impact Method-Level Maintenance?
机构:曼尼托巴大学
关键词:技术债务、方法级别、软件维护、模型结构改进
地址:https://arxiv.org/pdf/2411.13777
60. Schemato -- 基于大模型的电路网表至原理图转换模型
标题:Schemato -- An LLM for Netlist-to-Schematic Conversion
机构:瑞士洛桑联邦理工学院
关键词:大语言模型、电路网表、原理图转换、机器学习
地址:https://arxiv.org/pdf/2411.13899
61. Hymba:一种小语言模型的混合头架构
标题:Hymba: A Hybrid-head Architecture for Small Language Models
关键词:Hymba、小型语言模型、混合头并行架构、Transformer attention
地址:https://arxiv.org/pdf/2411.13676
62. FunctionChat-Bench: 工具使用对话中语言模型生成能力的全面评估
标题:FunctionChat-Bench: Comprehensive Evaluation of Language Models' Generative Capabilities in Korean Tool-use Dialogs
关键词:工具使用对话、语言模型、生成能力、评估基准
地址:https://arxiv.org/pdf/2411.14054
63. 逻辑增强生成
标题:Logic Augmented Generation
关键词:逻辑增强、知识图、大型语言模型、生成模型
地址:https://arxiv.org/pdf/2411.14012
64. XAgents:基于规则的多智能体合作框架的解读
标题:XAgents: A Framework for Interpretable Rule-Based Multi-Agents Cooperation
关键词:多智能体合作框架、大型语言模型、逻辑推理能力、可解释性
地址:https://arxiv.org/pdf/2411.13932
65. X-CrossNet:基于跨注意力说话人嵌入融合的说话人提取的复杂频谱映射方法
标题:X-CrossNet: A complex spectral mapping approach to target speaker extraction with cross attention speaker embedding fusion
关键词:目标说话人提取、CrossNet、交叉注意力机制、语音分离
地址:https://arxiv.org/pdf/2411.13811
66. FastRAG:半结构化数据的检索增强生成技术
标题:FastRAG: Retrieval Augmented Generation for Semi-structured Data
关键词:FastRAG、半结构化数据、检索增强生成、模式学习
地址:https://arxiv.org/pdf/2411.13773
67. Video2BEV:无人机视频转换为BEV用于视频地理定位
标题:Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization
关键词:无人机视频、地理定位、鸟瞰图(BEV)、高斯贴图技术
地址:https://arxiv.org/pdf/2411.13610
68. 自动代码调试练习生成
标题:Automated Generation of Code Debugging Exercises
关键词:大语言模型、代码调试、学习辅助工具
地址:https://arxiv.org/pdf/2411.14303
69. Dressing the Imagination:FLOOR数据集及其KAN适配器
标题:Dressing the Imagination: A Dataset for AI-Powered Translation of Text into Fashion Outfits and A Novel KAN Adapter for Enhanced Feature Adaptation
关键词:服装设计、AI翻译、FLORA、KAN适配器
地址:https://arxiv.org/pdf/2411.13901
70. CLFace:一个可扩展和资源高效的持续学习框架,用于终身人脸识别
标题:CLFace: A Scalable and Resource-Efficient Continual Learning Framework for Lifelong Face Recognition
关键词:持续学习、终生学习、人脸识别、知识蒸馏
地址:https://arxiv.org/pdf/2411.13886
71. InstCache:面向LLM服务的预测缓存
标题:InstCache: A Predictive Cache for LLM Serving
关键词:LLM服务、预测缓存、指令预取、性能优化
地址:https://arxiv.org/pdf/2411.13820
72. 拟合多个多动态模型不确定性
标题:Resolving Multiple-Dynamic Model Uncertainty in Hypothesis-Driven Belief-MDPs
地址:https://arxiv.org/pdf/2411.14404
73. 知识图谱、大模型与幻觉:自然语言处理的视角
标题:Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective
关键词:知识图谱、大型语言模型、幻觉问题、自然语言处理
地址:https://arxiv.org/pdf/2411.14258
74. 已知识与幻觉:语言模型对实体的感知和知识迷宫
标题:Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
关键词:语言模型、实体识别、知识迷宫
地址:https://arxiv.org/pdf/2411.14257
75. 为什么形态复杂语言的模型表现较差?
标题:Why do language models perform worse for morphologically complex languages?
关键词:语言模型、性能差异、数据集规模、分词质量
地址:https://arxiv.org/pdf/2411.14198
76. 生成式扩展绘画技术提升短视频的记忆力
标题:Generative Outpainting To Enhance the Memorability of Short-Form Videos
关键词:生成式扩展绘画技术、短视频记忆力、机器学习和深度学习技术、视频尺寸扩展
地址:https://arxiv.org/pdf/2411.14213
77. 多LoRA与视觉的融合:合并多个适配器创建多任务模型
标题:Multi LoRA Meets Vision: Merging multiple adapters to create a multi task model
关键词:LoRA适配器、多任务模型、参数高效微调、计算机视觉任务
地址:https://arxiv.org/pdf/2411.14064
78. 欧洲月球车系统模拟测试报告
标题:Breadboarding the European Moon Rover System: discussion and results of the analogue field test campaign
关键词:欧洲月球车系统、模拟测试、模块化设计、漫游成本
地址:https://arxiv.org/pdf/2411.13978
今天的论文分享完啦,欢迎👏🏻👏🏻明天再来~