艾伦研究所发布最新TULU3:推动开放语言模型后训练前沿!反馈驱动的小型语言模型的数学推理能力提升研究....

文摘   2024-11-25 21:30   广东  

前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!


1. TULU3:推动开放语言模型后训练前沿

  标题:TULU 3: Pushing Frontiers in Open Language Model Post-Training

  机构:华盛顿大学、艾伦AI研究所

  相关领域:模型评估、预训练、多模态(数据集构建和评估指标)

  作者:Nathan Lambert,  Jacob Morrison,  Valentina Pyatkin

  分析:论文介绍了TULU 3模型,它是基于Llama 3.1基础模型的开源后训练模型家族。通过公开训练数据和后训练秘方,该论文填补了透明度缺失的空白。论文实现了超过Llama 3.1指令版本和其他模型如Qwen 2.5、Mistral等的性能,甚至挑战了GPT-4o-mini和Claude 3.5的性能水平。该论文分享了监督微调、直接偏好优化以及称为强化学习可验证奖励的新型训练方法等模型的训练算法。论文最后分析并讨论了未能可靠提高性能的训练方法。

  地址:https://arxiv.org/pdf/2411.15124


2. 反馈驱动的小型语言模型的数学推理能力提升研究

  标题:Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation

  机构:中国科学院大学

  相关领域:模型蒸馏

  作者:Xunyu Zhu,  Jian Li,  Can Ma

  分析:这篇论文关注于如何通过知识蒸馏技术提升小型语言模型的数学推理能力。大型语言模型虽然具有出色的推理能力,但由于计算资源和内存需求巨大,难以在资源受限的环境中进行部署。论文提出了一种反馈驱动蒸馏(FDD)框架,旨在增强小型语言模型的数学推理能力。通过构建蒸馏数据集、问题分类、多轮蒸馏等方法,实现了小型语言模型在数学推理能力上的显著提升。

  地址:https://arxiv.org/pdf/2411.14698


3. 上下文感知多模态预训练

  标题:Context-Aware Multimodal Pretraining

  机构:慕尼黑工业大学、慕尼黑黑尔姆霍兹中心、Google DeepMind

  相关领域:预训练、模型结构改进、数据集构建

  作者:Karsten Roth,  Zeynep Akata,  Dima Damen

  分析:这项研究提议了一种简单但精心设计的多模态预训练拓展,旨在使表示方法支持少量样例的快速适应。通过这个目标,作者展示了视觉-语言模型可以在显著提高少量数据试验效率的同时保持零假设的一般性能。具体来说,在21个下游任务上,他们在训练量和模型规模上发现测试时样本效率提高最多达四倍,平均少量样本适应性提高超过5%,其中表现出的转变适应性显著。特别是,该论文的表示使用简单的超参数适应机制很容易超越更复杂和昂贵的优化方案,极大地简化了新领域的适应性。

  地址:https://arxiv.org/pdf/2411.15099


4. 理解LLM嵌入及其在回归中的应用

  标题:Understanding LLM Embeddings for Regression

  机构:斯坦福大学、Google、Google DeepMind

  相关领域:模型结构改进、模型评估

  作者:Eric Tang,  Bangding Yang,  Xingyou Song

  分析:这篇论文探讨了大型语言模型(LLM)在回归任务中的应用,研究通过预处理字符串表示形式生成LLM嵌入作为度量预测的下流特征。论文指出,与传统的特征工程相比,使用LLM嵌入作为特征可以更好地处理高维回归任务。论文还探讨了模型大小、语言理解等因素对回归性能的影响,并发现这些因素并不总是能提高性能。同时,论文深入探讨了LLM嵌入对数值数据的内在连续性保持特性,为大型语言模型在回归任务中的应用提供了新的视角和思路。

  地址:https://arxiv.org/pdf/2411.14708


5. Whats in a Video:分解式自回归解码在线密集视频字幕生成

  标题:Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning

  机构:Google DeepMind

  相关领域:模型结构改进、多模态

  作者:AJ Piergiovanni,  Dahun Kim,  Michael S. Ryoo

  分析:论文提出了一种在线密集视频字幕生成方法,无需访问未来帧即可输出频繁、详细的时序对齐字幕。采用自回归分解解码架构,对每段时间段的视觉特征进行建模,输出定位描述,并有效利用之前视频片段的上下文。与离线及在线方法相比,该方法表现优秀,计算使用量减少20%。生成的注释更为全面频繁,可用于自动视频标记和大规模视频数据收集。

  地址:https://arxiv.org/pdf/2411.14688


6. Gradient Masking All-at-Once:并非所有无处不在的集成都是稳健的

  标题:Gradient Masking All-at-Once: Ensemble Everything Everywhere Is Not Robust

  机构:苏黎世联邦理工学院、Google DeepMind

  相关领域:模型评估

  作者:Jie Zhang,  Kristina Nikolić,  Nicholas Carlini

  分析:这篇论文研究了一种名为“无处不在的集成”的防御策略,该策略旨在通过集成模型在不同噪声图像分辨率下的中间表示来提高图像分类器的稳健性。研究结果显示,该防御策略在面临最新的攻击时并非稳健。作者首先揭示了该策略的随机性和集成方法会导致严重的梯度掩蔽问题。随后,通过使用标准的自适应攻击技术,降低了该防御策略在CIFAR-100和CIFAR-10上的稳健准确率。研究结果表明,尽管该策略在理论上具有吸引力,但在实际应用中仍存在局限性。

  地址:https://arxiv.org/pdf/2411.14834


7. Unveiling the Hidden:全面评估水下图像增强及其对目标检测的影响

  标题:Unveiling the Hidden: A Comprehensive Evaluation of Underwater Image Enhancement and Its Impact on Object Detection

  机构:FAIR

  相关领域:模型结构改进、模型评估

  作者:Ali Awad ,  Ashraf Saleem ,  Sidike Paheding

  分析:这篇论文旨在评估当前先进的水下图像增强模型,探索它们对水下目标检测的影响,并挖掘其提高检测性能的潜力。研究内容包括选用代表性的水下图像增强模型,应用于两个最新数据集并进行质量评估与对比;同时考察增强模型对目标检测性能的影响,并分析增强效果与检测性能之间的关联。

  地址:https://arxiv.org/pdf/2411.14626


8. Cell as Point:高效细胞跟踪的一阶段框架

  标题:Cell as Point: One-Stage Framework for Efficient Cell Tracking

  机构:微软、悉尼大学、马里兰大学

  作者:Yaxuan Song,  Jianan Fan,  Heng Huang

  分析:本论文提出了一个名为CAP的端到端细胞跟踪框架,它通过将细胞视为点来实现高效且稳定的细胞跟踪。该框架避免了传统的多阶段细胞跟踪方法,这些方法依赖先前的检测或分割结果,并且容易受到细胞分裂事件数据不平衡和长序列数据的影响。CAP通过关联细胞点轨迹来联合跟踪细胞,并利用自适应事件引导采样(AEG)来解决数据不平衡问题,同时运用滚动窗口推理方法(RAW)确保长期连续跟踪新细胞。这种方法在细胞跟踪性能上表现出色,且效率是现有方法的10到55倍。

  地址:https://arxiv.org/pdf/2411.14833


9. 人脸稳定学习研究

  标题:Learning to Stabilize Faces

  机构:Google

  相关领域:模型评估

  作者:Jan Bednarik,  Erroll Wood,  Vasileios Choutas

  分析:该论文介绍了一种新的基于学习的人脸稳定方法,旨在处理自动扫描引起的不规则头部运动。作者将稳定化处理视为一个回归问题,通过预测两个人脸网格之间的刚体变换来实现头骨对齐。通过实验证明,这种方法在稳健性和准确性方面都优于现有技术,对游戏开发和电影制作等领域具有潜在应用价值。

  地址:https://arxiv.org/pdf/2411.15074


10. XGrammar: 灵活高效的大模型结构化生成引擎

  标题:XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

  机构:英伟达、上海交通大学、卡内基梅隆大学

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Yixin Dong,  Charlie F. Ruan,  Yaxing Cai

  分析:XGrammar是一种灵活有效的大语言模型结构化生成引擎,通过将词汇分为上下文无关和非上下文相关部分来加速上下文自由语法执行。该引擎还构建了转换以扩展语法上下文并减少非上下文相关部分的数量,并建立了一个高效的持久性栈以加速上下文相关的部分检查。最后,与LLM推理引擎一起设计了语法引擎,使其与GPU执行重叠。评估结果显示,XGrammar可以达到现有解决方案的100倍速度提升,并与LLM推理引擎结合,在端到端低LLM服务中实现接近零的开销结构生成。

  地址:https://arxiv.org/pdf/2411.15100


11. 高效处理超长视频的视频编码器:Coordinated-based Patch Reconstruction

   标题:Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

   机构:韩国科学技术院、UC伯克利分校

   相关领域:

   作者:Huiwon Jang,  Sihyun Yu,  Jinwoo Shin

   分析:与训练更长视频的视频编码有效地利用视频的时序协调是研究的一个难点。一种有前途的方法是发展一个编码器,它能够编码比视频更长的片段,因为这将会更好利用视频的时序协调,对编码器进行训练。然而,需要一次修复所有帧的训练资源通常会使得使用现有编码器训练比训练更长视频的大型编码器非常昂贵。在本论文中,该论文引入了CoordTok,这是一种编码器,它根据最近在三维生成模型方面取得的进步,学习由坐标系表示映射到输入视频对应的图案。此外,CoordTok编码视频生成因子三平面表示,与随机采样的$(x,y,t)$坐标对应地恢复的模式,这可以用于直接训练大型编码器字...

   地址:https://arxiv.org/pdf/2411.14762


12. Mediating Modes of Thought:LLM用于设计脚本编写

   标题:Mediating Modes of Thought: LLM's for design scripting

   机构:UC伯克利分校

   相关领域:模型结构改进、模型预训练、指令微调和奖励模型、RLHF

   作者:Moritz Rietschel,  Fang Guo,  Kyle Steinfeld

   分析:这篇论文探讨了建筑师如何利用视觉脚本和参数化设计工具来探索更广阔的设计空间,以及如何在算法的限制与人类思考方式之间建立联系。论文提出,大型语言模型(LLMs)可能解决之前设计的局限性,能够理解和生成几何逻辑,从而帮助设计师通过自然语言指令自动编写和执行计算设计脚本。研究提出了一种基于LLM的系统,该系统通过多层LLM代理来理解和构建用户意图,创建一系列逻辑操作,并以用户界面中的视觉脚本形式呈现结果。尽管该系统在高复杂度的情况下能成功生成完整脚本,但当复杂度进一步增加时却失败了。论文展示了大模型如何使得设计脚本与人类创意和思考更加一致。未来的研究可能会探索对话交互、多模态输入与输出,以及评估这些工具的性能。

   地址:https://arxiv.org/pdf/2411.14485


13. ReXrank:AI驱动的放射学报告生成公共排行榜

   标题:ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation

   机构:哈佛医学院、Duke University

   相关领域:模型评估、数据集构建

   作者:Xiaoman Zhang,  Hong-Yu Zhou,  Xiaoli Yang

   分析:论文介绍了AI在自动放射学报告生成方面的潜力,针对胸X线报告生成提出了一个公共排行榜ReXrank。该框架解决了缺乏标准化评估的问题,通过采用大规模测试数据集和其他三个公共数据集来评估报告生成模型的性能。ReXrank框架还包括标准化的评估指标,有助于比较不同模型的性能并洞察其在不同临床环境中的稳健性。此外,该框架也为医学成像的全面自动化报告评估奠定了基础。

   地址:https://arxiv.org/pdf/2411.15122

   代码:https://rexrank.ai,


14. DyCoke:动态压缩表示以加速视频大模型

   标题:DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

   机构:西湖大学、莱斯大学、Apple

   相关领域:模型结构改进

   作者:Keda Tao,  Can Qin,  Haoxuan You

   分析:目前,视频大语言模型(VLLMs)在处理复杂视频内容方面取得了显著的进步,但推断效率仍受限于由视频输入产生的高计算成本中的数千个视觉标记。文中提到,与单一图像输入不同,VLLMs通常在解码的不同迭代阶段从不同帧中的视觉标记(tokens)中关注,这使得一次性剪裁策略可能导致错误地删除重要标记。因此,研究提出了一种不需要训练的标记压缩方法DyCoke来优化标记表示并加速VLLMs,通过合并冗余标记来最小化时间冗余。此外,还对空间冗余标记进行了动态KV(键值对的缩写)缓存减少式的选择性压缩。实验结果表明,DyCoke可以提高推断速度,减少内存,同时不进行训练。本文价值和贡献主要体现在解决了VLLMs的推断效率问题,提供了不需要训练的动态压缩方法,为顺应其在视频内容处理中的应用提供了新思路。

   地址:https://arxiv.org/pdf/2411.15024


15. RankByGene:通过跨模态排名一致性指导的病理学研究路径学习

   标题:RankByGene: Gene-Guided Histopathology Representation Learning Through Cross-Modal Ranking Consistency

   机构:麻省总医院、斯坦福大学、哥伦比亚大学

   相关领域:数据集构建、评估指标、模型蒸馏、多模态

   作者:Wentao Huang,  Meilong Xu,  Xiaoling Hu

   分析:这篇论文主要介绍了一种名为RankByGene的新框架,该框架用于基因表达数据与组织病理学图像的配准学习。该研究旨在解决空间转录组学与组织病理学图像配准中存在的空间扭曲和模态差异等问题,通过排名一致的配准方法以及知识蒸馏技术,提高了跨模态数据的配准和预测性能。

   地址:https://arxiv.org/pdf/2411.15076


16. PRIMUS:借助多模态自我监督预训练IMU编码器

   标题:PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision

   机构:剑桥大学、华盛顿大学、苏格兰大学

   相关领域:预训练、模型结构改进

   作者:Arnav M. Das,  Chi Ian Tang,  Fahim Kawsar

   分析:本文探索利用未标记或弱标记的IMU数据模型人类动作的可能性,此类数据相对匮乏。以往的'预训练与适应'方法在视频或文本等其他模态中广泛运用,首先通过大量未标记或弱标记数据进行预训练,构建强大的特征提取器,随后运用少量标记数据对特定任务进行适应训练。但这一方法在IMU领域并未得到广泛应用。主要原因为预训练方法在IMU情景下的使用并不明确,其次公开的跨数据集应用的预训练模型鲜有。本文旨在解决第一项问题,提出了PRIMUS方法用于预训练IMU编码器。文章系统和统一地评估了各种自我监督和多模态学习的预训练目标,结果表明结合自我监督、多模态监督和最近邻监督的PRIMUS方法能显著提升下游性能。在每个类别仅有不到500个标记样本时,与最先进的多模态训练方法相比,PRIMUS在保留的测试数据上,能有效提高性能高达15%。

   地址:https://arxiv.org/pdf/2411.15127


17. One to rule them all:自然语言作为沟通、感知和行动的纽带

   标题:One to rule them all: natural language to bind communication, perception and action

   机构:麻省理工学院

   相关领域:模型结构改进、预训练、指令微调、模型评估

   作者:Simone Colombani,  Dimitri Ognibene,  Giuseppe Boccignone

   分析:本文提出了一种先进的机器人行动规划架构,该架构通过将自然语言与通信、感知和规划相结合,整合了大型语言模型(LLMs)来使得机器能够执行用户指令并处理环境变化。该系统由两个核心模块组成:1) Planner Module,该模块使用嵌入在修改后的ReAct框架中的LLMs来理解和执行用户指令,利用大型语言模型丰富的预训练知识来处理用户请求;2) 修改的ReAct框架,提供了实时环境感知和物理行动的结果,以扩展执行空间。此外,通过结合结构化的图表示学和控制组件以及失败的详细解释,该架构提高了机器人的适应性、任务执行和与人类用户的无缝协作能力。系统通过与环境的连续反馈回路动态调整计划以适应意料之外的变化,从而优化机器人执行任务的能力。通过对过去的经验数据进行详细反馈,可以为下一迭代更新LLMs的上下文,并提供克服问题的建议。该架构的主要问题在于LLMs在执行过程中可能需要不断更新以适应环境变化,并且需要处理失败情况下的反馈机制。

   地址:https://arxiv.org/pdf/2411.15033


18. TEXGen: 一种基于扩散模型的网格纹理生成方法

   标题:TEXGen: a Generative Diffusion Model for Mesh Textures

   机构:香港大学、清华大学、北京航空航天大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Xin Yu,  Ze Yuan,  Yuan-Chen Guo

   分析:文章主要介绍了一种名为TEXGen的扩散模型,用于直接在UV纹理空间中学习,而非依赖预训练的2D扩散模型。该模型首次通过训练一个大型扩散模型来生成高分辨率的纹理地图,并通过引入注意力层到点云上实现高效学习。此外,该模型支持多种扩展应用,如文本引导的纹理填充、稀疏视图纹理完成和文本驱动的纹理合成。

   地址:https://arxiv.org/pdf/2411.14740


19. WildLMa:开放域长期运动操作

   标题:WildLMa: Long Horizon Loco-Manipulation in the Wild

   机构:英伟达、麻省理工学院、UC圣迭戈分校

   相关领域:控制与导航、机器人操作、数据集构建、多模态

   作者:Ri-Zhao Qiu,  Yuchen Song,  Xuanbin Peng

   分析:该论文提出了一种名为WildLMa的系统中,旨在解决户外移动操作的问题。论文着重研究了四足机器人如何在不同环境中进行长期任务执行和复杂操作,提出了三个关键组件:适应VR支持的全身遥操作和通过仿真学习或启发式方法获得的可泛化视觉运动技能,以及一个用于协调长期任务的LLM planners接口。通过实验表明,WildLMa利用了高质量的训练数据和CLIP进行语言条件下的模仿学习,从而实现通用性和实用性。

   地址:https://arxiv.org/pdf/2411.15131


20. RE-Bench:语言模型Agent与人类专家的对比研究

   标题:RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts

   机构:哈佛大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Hjalmar Wijk,  Tao Lin,  Joel Becker

   分析:本文介绍了一个名为RE-Bench的研究工程基准(Version 1),它包含了七个具有挑战性的机器学习研究工程环境,这些环境数据来自71名人类专家分别在8小时内的71次尝试。研究比较了人类专家和多种公开的前沿模型在给定不同时间预算下的表现,特别是在评估人类专家在面对高标准和竞争环境时,如何能够超越AI模型。结果显示,人类专家在8小时内平均能取得进展,有82%的尝试得到非零分数,其中24%的成绩达到了甚至超过了强参考解决方案。AI模型虽然在时间预算相同的情况下表现较好,但在时间预算增加到32小时时,人类专家的表现却超过了AI模型。研究还发现,现代AI模型在许多机器学习领域表现出了高专业性,并且AI模型在生成和测试解决方案上的速度是人类的十倍,成本更低。作者开源了评估环境、人类专家数据、分析和AI轨迹记录,以促进未来的研究。

   地址:https://arxiv.org/pdf/2411.15114


21. GMAI-VL & GMAI-VL-5.5M:一个大 vision-language 模型和针对通用医学 AI 的全面多模态数据集

   标题:GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

   机构:南京大学、复旦大学、厦门大学

   相关领域:模型结构改进、预训练、数据集构建、多模态处理

   作者:Tianbin Li,  Yanzhou Su,  Wei Li

   分析:这篇论文提出了一种针对医疗领域的通用人工智能(GMAI)方法,尤其是针对医学图像处理和诊断。它们通过将数百个专业的医学数据集转换成精心构建的图像-文本对,创建了一个名为 GMAI-VL-5.5M 的全面多模态医学数据集。在此基础上,提出了一种名为 GMAI-VL 的通用医学视觉-语言模型,它采用了渐进式三阶段训练策略,以整合视觉和文本信息。实验表明,GMAI-VL 在视觉问答和医学图像诊断等多个多模态医学任务上取得了state-of-the-art 结果。论文的价值在于为 GMAI 领域提供了一个数据驱动的模型,它能够处理医学图像和文本信息,提高诊断的准确性和临床决策支持能力。这促进了医学 AI 在实际应用中的有效性,特别是对于医疗图像的处理和分析。

   地址:https://arxiv.org/pdf/2411.14522

   代码:https://github.com/uni-medical/GMAI-VL


22. FuseGPT:生成式预训练Transformer的可学习层融合

   标题:FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers

   机构:香港中文大学

   相关领域:模型结构改进、预训练

   作者:Zehua Pei,  Hui-Ling Zhen,  Xianzhi Yu

   分析:论文提出了一种新方法FuseGPT,它融合了被压缩的Transformer块以恢复模型性能。论文引入了Macro Influence(MI)重要性检测指标,检测每个Transformer块的长期影响。提出群组级别的层融合方法,通过注入不重要块的参数到相邻的相应层中,并通过轻量级的群组微调进行迭代参数更新。该方法不仅适用于大型语言模型,还适用于大型多模态模型。实验表明,使用适量的数据,FuseGPT在困惑度和零样本任务性能上都能超越以前的工作。

   地址:https://arxiv.org/pdf/2411.14507


23. Star-Agents:利用大模型代理进行指令调整的数据自动优化

   标题:Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning

   机构:天津大学、诺亚方舟实验室

   相关领域:指令微调、数据集构建

   作者:Hang Zhou,  Yehui Tang,  Haochen Qin

   分析:这篇论文提出了一种名为Star-Agents的框架,用于通过多代理协作和评估自动优化数据集的数据质量。该框架采用了一种三管齐下的策略,包括通过专用采样方法生成多样化的指令数据,使用双模型方法严格评估数据的质量和难度,并在动态改进阶段进化更多有效的LLM。经验研究证明该框架的有效性,优化的数据集在多个基准测试中取得了显著改进。

   地址:https://arxiv.org/pdf/2411.14497


24. CodeSAM:通过融入多代码视图图增强自注意力机制学习源代码表示

   标题:CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs

   机构:滑铁卢大学、IBM研究院、哥伦比亚大学

   相关领域:模型结构改进、预训练

   作者:Alex Mathai,  Kranthi Sedamaki,  Debeshee Das

   分析:这篇论文提出了一种名为CodeSAM的新型可扩展框架,它能将多种代码视图融入基于Transform的模型中,通过创建自掩码来提高源代码的表示学习能力。该框架旨在改进软件工程中任务的表现,特别是在语义代码搜索、代码克隆检测和程序分类等任务上。通过融入AST、DFG和CFG等结构化代码视图,CodeSAM能提高现有模型的性能。实验结果显示,CodeSAM在资源受限的环境中能创建出紧凑而性能强大的代码模型。

   地址:https://arxiv.org/pdf/2411.14611


25. FloAt: 流动向量的自我注意变换用于服饰动画生成

   标题:FloAt: Flow Warping of Self-Attention for Clothing Animation Generation

   机构:阿姆斯特丹大学、Adobe Research

   相关领域:模型结构改进、服装动画生成

   作者:Swasti Shreya Mishra,  Kuldeep Kulkarni,  Duygu Ceylan

   分析:本文介绍了FloAtControlNet,一种以扩散模型为基础的方法,专门用于生成包含人类服饰动画的电影幻灯片。该方法关注服装如连衣裙、短裙及裤装等。输入内容包括描述衣物类型的文本提示、衣物纹理(如豹纹、条纹或单色)以及捕捉用户期望的输出中的动画序列的正常地图序列。 FloAt的核心成分是一个基于正常地图的条件型ControlNet,会在无训练的情况下操作。关键技术是利用两帧之间的正常地图中的流来调整特定层内的自注意力图。通过实验得出结论,建议利用自注意力的地图来显著提高服装动画的质量,使其看起来更为自然且减少背景的伪影。该方法在视觉效果和用户研究中均击败所有基线模型。

   地址:https://arxiv.org/pdf/2411.15028


26. 增强基于MELL删截消除的层次图改写语言

   标题:Enhancing a Hierarchical Graph Rewriting Language based on MELL Cut Elimination

   机构:早稻田大学

   相关领域:模型结构改进

   作者:Kento Takyu,  Kazunori Ueda

   分析:这篇论文探讨了层次图改写语言的增强方法,重点关注基于层次图改写语言的LMNtal以及如何通过理论基础开源的线性逻辑MELL(Multiplicative Exponential Linear Logic)改进LMNtal语言。论文旨在解决高阶面向描述性的层次图改写语言设计难题,围绕删截消除、推广盒克隆、迁移与删除操作的指导思想,调整和完善了LMNtal语言特性,形成了与MELL证明网具有很强相关性的节点图改写语言,适合作为MELL证明网的研究工作平台。

   地址:https://arxiv.org/pdf/2411.14802


27. 在SARSA中使用TD(Δ)跨时间尺度分割动作价值函数

   标题:Segmenting Action-Value Functions Over Time-Scales in SARSA using TD(\Delta)

   机构:麻省理工学院

   相关领域:模型结构改进

   作者:Mahammad Humayoo

   分析:本文研究了在一系列需要长期优化的问题中,传统SARSA算法在平衡偏差与方差时面临的困难。文章提出利用时间差分分解方法TD(Δ)扩展到SARSA算法。该方法通过将动作价值函数分解为不同折扣因子相关的部分,来提高多个时间尺度的学习效率和稳定性。该论文可以看到,该方法能在密集奖励的环境下减少SARSA更新过程中的偏差,并加速收敛。多个基准任务的实验结果表明了,与传统TD学习方法相比,提出的SARSA(Δ)在表格和深度学习环境下均有明显超越。

   地址:https://arxiv.org/pdf/2411.14783


28. SegBook:体素医学图像分割简易基准与食谱

   标题:SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

   机构:厦门大学、剑桥大学、斯坦福大学

   相关领域:模型评估、数据集构建、多模态

   作者:Jin Ye,  Ying Chen,  Yanjun Li

   分析:本文针对体素医学图像分割领域,通过收集涵盖不同模态、目标和样本规模的87个公开数据集,对全身体素CT预训练模型在不同医学图像分割任务中的迁移能力进行了评估。研究发现,全身体素CT预训练模型在精细调整时,对数据集规模的瓶颈效应明显,在大规模和小规模数据集上比中等规模数据集有更高的改进。此外,这些模型在模态迁移和不同目标任务中均表现出良好的适应性。本文对于未来体素医学图像分割领域的研究具有一定的指导意义。

   地址:https://arxiv.org/pdf/2411.14525


29. VisionPAD:面向自动驾驶的视觉为中心预训练范式

   标题:VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

   机构:香港科技大学

   相关领域:自动驾驶

   作者:Haiming Zhang,  Wending Zhou,  Yiyao Zhu

   分析:本文提出了一种名为VisualPAD的新颖自监督预训练范式,旨在为自动驾驶领域的视觉为中心算法设计。与先前的神经着色技术并用显式深度监督的方法不同,VisualPAD利用更高效的3D高斯插值,仅以图像作为监督,使用多视图表示重建的方式处理多视角。具体地,提出了一种自监督的方法来估计体素速度。通过将体素变形成相邻帧,并以渲染输出进行监督,模型在这条序贯数据中的运动先兆中学习有效信息。此外,使用多帧光度一致性方法来增强几何感知。该方法基于渲染深度和相对位置,将相邻帧投射到当前帧中,从而通过纯图像监督增强3D几何表示。在自动驾驶数据集上的大量实验表明,VisualPAD显著提高了3D物体检测、占位预测和地图分割等性能,超越了最先进的预训练策略。

   地址:https://arxiv.org/pdf/2411.14716


30. VideoEspresso: 大型规模思考链视频 datasets 精细视频推理 via 核心框架选择

   标题:VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

   机构:香港大学、上海AI实验室、北京航空航天大学

   相关领域:数据集构建、模型蒸馏、多模态

   作者:Songhao Han,  Wei Huang,  Hairong Shi

   分析:这篇论文提出了一种名为VideoEspresso的全新视频理解datasets,旨在解决现有视频理解datasets中缺乏高质量和大规模的问题。该datasets不仅包括视频Question Answering对,还包含了关键的空间细节和时间一致性的Multimodal annotations。此外,它还包括了对推理过程中逻辑关系进行指导的视频Chain-of-Thought annotations。该论文还提出了一种Hybrid LVLMs Collaboration框架,该框架能够通过选择核心帧和进行基于推理逻辑关系的CoT reasoning,从QA对和视频内容中提取高质量的视频推理能力。

   地址:https://arxiv.org/pdf/2411.14794

   代码:https://github.com/hshjerry/VideoEspresso


31. AI Tailoring:评估图像特征对时尚产品流行度的影响

   标题:AI Tailoring: Evaluating Influence of Image Features on Fashion Product Popularity

   机构:麻省理工学院

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.14737


32. 检索增强生成中知识检查的表示视角

   标题:Towards Knowledge Checking in Retrieval-augmented Generation: A Representation Perspective

   机构:Amazon、密歇根州立大学

   相关领域:

   地址:https://arxiv.org/pdf/2411.14572


33. Morph: 在人类运动生成中无运动的物理优化框架

   标题:Morph: A Motion-free Physics Optimization Framework for Human Motion Generation

   机构:腾讯、鹏城实验室、上海交通大学

   地址:https://arxiv.org/pdf/2411.14951


34. GOT4Rec:基于思维图谱的序列推荐方法

   标题:GOT4Rec: Graph of Thoughts for Sequential Recommendation

   机构:中国科学院大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2411.14922

   代码:https://anonymous.4open.science/r/GOT4Rec-ED99


35. Jovis:PostgreSQL 查询优化器的可视化工具

   标题:Jovis: A Visualization Tool for PostgreSQL Query Optimizer

   机构:首尔国立大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2411.14788

   代码:https://github.com/snu-jovis


36. LLaVA-MR:用于视频时刻检索的大型语言视觉助手

   标题:LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

   机构:腾讯、北京大学、浙江大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2411.14505


37. Diffusion模型偏好对齐的显式去噪分布估计

   标题:Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

   机构:阿里巴巴集团

   相关领域:

   地址:https://arxiv.org/pdf/2411.14871


38. FedMLLM:在多模态异构场景下的各个下游任务评估

   标题:FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data

   机构:南京大学、新加坡国立大学

   地址:https://arxiv.org/pdf/2411.14717

   代码:https://github.com/1xbq1/FedMLLM


39. 个性化3D人体数字孪生与软体脚部行走模拟

   标题:Personalised 3D Human Digital Twin with Soft-Body Feet for Walking Simulation

   机构:南洋理工大学

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2411.14701


40. 乌克兰语跨学术和文化领域的多模态模型评估

   标题:Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains

   机构:麻省理工学院

   相关领域:多模态模型评估

   地址:https://arxiv.org/pdf/2411.14647


41. 面向人类中心的LLMs综述

   标题:A Survey on Human-Centric LLMs

   机构:清华大学

   相关领域:预训练、指令微调、模型评估

   地址:https://arxiv.org/pdf/2411.14491


42. 通用且与上下文无关的触发器,用于精确控制LLM输出

   标题:Universal and Context-Independent Triggers for Precise Control of LLM Outputs

   机构:腾讯

   相关领域:模型蒸馏、模型结构改进

   地址:https://arxiv.org/pdf/2411.14738


43. Geminio:联邦学习中语言引导梯度反转攻击

   标题:Geminio: Language-Guided Gradient Inversion Attacks in Federated Learning

   机构:香港大学、香港理工大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2411.14937


44. GhostRNN:降低RNN状态冗余以实现高效计算

   标题:GhostRNN: Reducing State Redundancy in RNN with Cheap Operations

   机构:天津大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.14489


45. Tra-MoE:多域学习轨迹预测模型用于自适应策略条件化

   标题:Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning

   机构:南京大学、上海AI实验室、中国科学技术大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.14519


46. AttriBoT: 一种计算高效的留一法上下文归因方法

   标题:AttriBoT: A Bag of Tricks for Efficiently Approximating Leave-One-Out Context Attribution

   机构:多伦多大学、Vector Institute

   相关领域:模型结构改进、模型评估、多模态

   地址:https://arxiv.org/pdf/2411.15102


47. 大模型评估与进步

   标题:Evaluating and Advancing Multimodal Large Language Models in Ability Lens

   机构:浙江大学、莫纳什大学、澳大利亚国立大学

   相关领域:多模态、大模型

   地址:https://arxiv.org/pdf/2411.14725


48. FastGrasp:基于扩散的高效抓取合成

   标题:FastGrasp: Efficient Grasp Synthesis with Diffusion

   机构:上海科技大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.14786

   代码:https://github.com/wuxiaofei01/FastGrasp


49. 多级异常检测的启示:一个基准测试

   标题:Are Anomaly Scores Telling the Whole Story? A Benchmark for Multilevel Anomaly Detection

   机构:新加坡国立大学、新加坡科技与设计大学

   地址:https://arxiv.org/pdf/2411.14515


50.  omniple: 致力于统一图像处理定位

   标题:Omni-IML: Towards Unified Image Manipulation Localization

   机构:华南理工大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2411.14823


51. LLM在条码生成中的应用:为身份文件生成多样化的合成数据

   标题:LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents

   机构:纽约大学、华盛顿大学、哥伦比亚大学

   相关领域:数据集构建

   地址:https://arxiv.org/pdf/2411.14962


52. 增强扩散策略在混合离线强化学习中的探索:在非抓取操作中的应用

   标题:Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation

   机构:博世AI中心、卡尔斯鲁厄理工学院

   地址:https://arxiv.org/pdf/2411.14913

   代码:https://leh2rng.github.io/hydo


53. ReVisionLLM:递归视觉语言模型用于一小时长视频中的时间定位

   标题:ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2411.14901

   代码:https://github.com/Tanveer81/ReVisionLLM


54. 最大太阳能能量跟踪高自由度机器学习系统

   标题:Maximum Solar Energy Tracking Leverage High-DoF Robotics System with Deep Reinforcement Learning

   机构:莫纳什大学、伊利诺伊大学、印度理工学院

   地址:https://arxiv.org/pdf/2411.14568


55. DiffusionDrive:截断扩散模型在端到端自动驾驶中的应用

   标题:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2411.15139

   代码:https://github.com/hustvl/DiffusionDrive


56. ScribeAgent:利用生产规模工作流数据实现专业化网络代理

   标题:ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2411.15004


57. SwissADT:瑞士语言音频描述翻译系统

   标题:SwissADT: An Audio Description Translation System for Swiss Languages

   机构:苏黎世大学、科隆莱茵应用技术大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2411.14967


58. LoRA-FAIR:联邦LoRA微调中的聚合与初始化优化

   标题:LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement

   机构:佛罗里达大学

   相关领域:模型结构改进、预训练、模型微调

   地址:https://arxiv.org/pdf/2411.14961


59. KBAda:针对特定知识库的高效自我适应方法

   标题:KBAda: Efficient Self Adaptation on Specific Knowledge Bases

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2411.14790

   代码:https://github.com/thunlp/KBAda)


60. OminiControl:Diffusion Transformer的最小化、通用性控制框架

   标题:OminiControl: Minimal and Universal Control for Diffusion Transformer

   机构:新加坡国立大学

   相关领域:模型结构改进、参数效率、图像条件处理、预训练

   地址:https://arxiv.org/pdf/2411.15098


61. 任意模态到3D生成的混合扩散监督方法

   标题:Any-to-3D Generation via Hybrid Diffusion Supervision

   相关领域:多模态

   地址:https://arxiv.org/pdf/2411.14715

   代码:https://zeroooooooow1440.github.io/


62. 规划驱动编程:大模型编程工作流

   标题:Planning-Driven Programming: A Large Language Model Programming Workflow

   机构:墨尔本大学

   相关领域:模型编程

   地址:https://arxiv.org/pdf/2411.14503


63. 学习从行动轨迹中独立学习STRIPS模型的简单、通用和可扩展方法

   标题:Learning Lifted STRIPS Models from Action Traces Alone: A Simple, General, and Scalable Solution

   机构:亚琛工业大学

   地址:https://arxiv.org/pdf/2411.14995


64. 基于复合LLM架构的稳健规划:LLM-Modulo方法的研究

   标题:Robust Planning with Compound LLM Architectures: An LLM-Modulo Approach

   机构:亚利桑那州立大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2411.14484


65. 谁能够抵挡聊天音频攻击?大模型应对音频攻击的评价指标

   标题:Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Language Models

   机构:悉尼科技大学、北京交通大学

   相关领域:自然语言处理

   地址:https://arxiv.org/pdf/2411.14842


66. VideoRepair:通过错位评估和区域调整改进文本到视频生成

   标题:VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

   地址:https://arxiv.org/pdf/2411.15115


67. 大模型的未来发展

   标题:Somesite I Used To Crawl: Awareness, Agency and Efficacy in Protecting Content Creators From AI Crawlers

   地址:https://arxiv.org/pdf/2411.15091


68. 大型多模态模型的解析与理解

   标题:Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

   地址:https://arxiv.org/pdf/2411.14982


69. 探索大模型中准确性与公平性的权衡

   标题:Exploring Accuracy-Fairness Trade-off in Large Language Models

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2411.14500


70. About Time:动作理解的新成就、挑战和展望

   标题:About Time: Advances, Challenges, and Outlooks of Action Understanding

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.15106


71. 利用大模型进行遗留代码现代化:挑战与机遇

   标题:Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation

   相关领域:模型评估、数据集构建(针对遗留代码文档生成的数据集)

   地址:https://arxiv.org/pdf/2411.14971


72. 大模型中的多宇宙:使用LLM生成故事分枝

   标题:Multiverse of Greatness: Generating Story Branches with LLMs

   地址:https://arxiv.org/pdf/2411.14672


73. 探索用于细胞学分类的基础模型微调

   标题:Exploring Foundation Models Fine-Tuning for Cytology Classification

   相关领域:基础模型微调

   地址:https://arxiv.org/pdf/2411.14975


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章