模型剪枝后的训练规模定律研究 | LLaVA-o1:让视觉语言模型逐步推理 | Xmodel-1.5:一种百亿参数的多语种大模型

文摘   2024-11-18 21:56   广东  

前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!


1. Xmodel-1.5:一种百亿参数规模的多语种大模型

  标题:Xmodel-1.5: An 1B-scale Multilingual LLM

  相关领域:模型结构改进、预训练、多模态

  作者:Wang Qun,  Liu Yang,  Lin Qingquan

  分析:论文介绍了一种规模为1B的多语种大型语言模型Xmodel-1.5,该模型在约2万亿个标记上进行预训练,表现出强大的跨语言性能,特别是在泰语、阿拉伯语和法语方面的表现尤为突出。同时,该模型在中国英语方面也非常有效。论文还贡献了一个泰语评估数据集,包含了来自国立大列的学生的数百个问题标注。论文展示了其模型的有效性和良好性能,但仍存在改进空间。希望这项工作能推动多语种人工智能研究的发展,促进不同自然语言处理任务之间的跨语言理解。论文公开了模型和代码。

  地址:https://arxiv.org/pdf/2411.10083

  代码:https://github.com/XiaoduoAILab/XmodelLM


2. 模型剪枝后的训练规模定律研究

  标题:Scaling Law for Post-training after Model Pruning

  相关领域:模型结构改进、模型蒸馏

  作者:Xiaodong Chen,  Yuxuan Hu,  Jing Zhang

  分析:本文研究了大型语言模型(LLM)在剪枝后的训练要求,并引入了训练规模定律来确定最佳的训练数据量。实验表明,更高的剪枝比例需要更多的训练数据来恢复性能,而更大的LLM则需要较少的训练数据。提出的规模定律可以根据模型剪枝前后的参数数量和训练数据数量来预测模型的损失。该定律对于从小型到大型LLM的推广具有可靠性,为优化训练数据的使用提供了有价值的见解。

  地址:https://arxiv.org/pdf/2411.10272


3. Try-On-Adapter:一个简单而灵活的试穿范式

  标题:Try-On-Adapter: A Simple and Flexible Try-On Paradigm

  机构:清华大学

  相关领域:大模型

  作者:Hanzhong Guo,  Jianfeng Zhang,  Cheng Zou

  分析:本文提出了一种名为Try-On-Adapter(TOA)的出图范式,差异于现有的涂图范式。该论文的TOA可以保留给出的脸和服装,自然想象剩下的图像部分,并提供多种条件灵活控制的能力,例如服装特性和人类姿态。在实验中,TOA在虚拟试穿任务上表现出色,即使给出了相对低质量的脸和服装图像(定性比较)。此外,TOA在VITON-HD数据集的配对和不配对分类中,实现了最先进的表现,FID分数为5.56和7.23(定量比较)。

  地址:https://arxiv.org/pdf/2411.10187


4. SlimLM: 一种高效的Small语言模型,用于移动设备上的文档助手

  标题:SlimLM: An Efficient Small Language Model for On-Device Document Assistance

  机构:佐治亚理工学院、Adobe Research

  相关领域:模型蒸馏

  作者:Thang M. Pham,  Phat T. Nguyen,  Seunghyun Yoon

  分析:这篇论文主要介绍了SlimLM,这是一种为移动设备上的文档助手任务优化的Small语言模型系列。研究团队通过在不同参数量的模型间进行实验,确定了在Samsung Galaxy S24上进行有效处理的最佳折衷,包括模型大小(从125M到7B参数)、上下文长度和推理时间。SlimLM在SlimPajama-627B上预训练,并在自建的DocAssist数据集上进行微调,用于摘要、问答和推荐任务。论文展示了最小的模型在S24上的高效表现,而较大的模型则在移动设备上提供了更强的能力。对比现有Small语言模型后,研究证明SlimLM在性能上达到了同等或更高的水平,并为未来在移动设备上运行高级语言模型提供了基准。此外,论文还提供了Android应用,展示了Small语言模型部署的实用性。研究表明,高级语言模型可以在高端智能手机上运行,从而可能减少服务器成本并增强隐私。

  地址:https://arxiv.org/pdf/2411.09944


5. MARS:释放方差缩减训练大模型的力量

  标题:MARS: Unleashing the Power of Variance Reduction for Training Large Models

  机构:字节跳动、UC洛杉矶分校

  相关领域:模型结构改进、预训练、模型评估

  作者:Huizhuo Yuan,  Yifeng Liu,  Shuang Wu

  分析:这篇论文提出了一个统一的优化框架MARS,它结合了预调节梯度方法和方差缩减技术,通过缩放随机递归动量技术来训练大型模型。实验结果表明,MARS在GPT-2模型训练中表现优异,一致且大幅度地优于AdamW。

  地址:https://arxiv.org/pdf/2411.10438


6. 基于运动的视频推理:从像素级理解运动和感知

  标题:Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

  机构:Amazon、德克萨斯大学、中佛罗里达大学

  作者:Andong Deng,  Tongjia Chen,  Shoubin Yu

  分析:在这篇论文中,该论文提出了一个名为基于运动的视频推理的新运动理解任务,它需要根据输入问题生成视觉答案(视频分割掩码),因此需要隐式的时空推理和定位。该任务将现有的基于时空定位的工作扩展到更通用的方式,通过允许通过问题进行隐式推理。为了促进新任务的发展,该论文收集了一个大规模的数据集,名为GROUNDMORE,其中包括1715个视频片段,249000个故意设计的对象掩码,用于4种问题类型(因果型、继电器型、反事实型和描述型)进行基准测试。GROUNDMORE的独特之处在于,它要求模型生成视觉答案,提供更具体和可解释的响应,而不是纯文本。它评估模型在时空定位和推理上的性能,促进了处理运动相关的视频推理、时间感知和像素级理解等复杂挑战。此外,该论文介绍了一种新基线模型,称为 Motion-Grounded Video Reasoning Assistant (MORA)。MORA 结合了多模态推理能力来自 Multimodal LLM,像素级感知能力来自 SAM(定位模型),以及时间感知能力来自轻量级定位头。MORA 在 GROUNDMORE 上取得了令人满意的性能,相对于最佳现有的视觉定位基线模型,平均提高了 21.5%。该论文希望这个新任务和创新挑战将开辟未来在视频推理分割方面的通用和强大的运动理解之路。

  地址:https://arxiv.org/pdf/2411.09921


7. LLaVA-o1:让视觉语言模型逐步推理

  标题:LLaVA-o1: Let Vision Language Models Reason Step-by-Step

  机构:北京大学、清华大学、鹏城实验室

  相关领域:多模态、模型结构改进

  作者:Guowei Xu,  Peng Jin,  Li Hao

  分析:论文介绍了一种新型视觉语言模型LLaVA-o1,该模型能在推理过程中自主进行多阶段推理,包括总结、视觉解读、逻辑推理和结论生成。为解决复杂视觉问答任务中的系统性和结构化推理难题,论文提出了stage-level beam search方法和LLaVA-o1-100k数据集。实验表明,LLaVA-o1在多种多媒体推理基准测试上表现优异,超越了其基础模型和部分大型闭源模型。

  地址:https://arxiv.org/pdf/2411.10440


8. Number it:像翻页漫画一样进行视频时序定位

  标题:Number it: Temporal Grounding Videos like Flipping Manga

  机构:腾讯、东南大学、UC伯克利分校

  相关领域:模型结构改进、多模态

  作者:Yongliang Wu,  Xinting Hu,  Yuyang Sun

  分析:这篇论文提出了一种新方法Number-Prompt(NumPro),旨在解决视频大型语言模型(Vid-LLMs)在精确时序定位任务上的不足。NumPro通过向每个视频帧添加唯一数字标识符,将视频转化为一系列带编号的帧图像,从而将视频时序定位(VTG)任务转化为类似于翻页漫画的直观过程。这种方法使得Vid-LLMs能够“阅读”事件时间线,将视觉内容与相应的时间信息准确链接。实验表明,NumPro显著提高了顶级Vid-LLMs的时序定位性能,且无需增加计算成本。此外,在NumPro增强的数据集上进行微调,为VTG任务创造了新的最佳性能,在时刻检索和高光检测方面的mIoU和mAP指标分别提高了6.9%和8.5%。

  地址:https://arxiv.org/pdf/2411.10332

  代码:https://github.com/yongliang-wu/NumPro


9. 一个大模型的有效框架,以帮助处理数值在长语义中的长上下文任务

  标题:An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks

  相关领域:数值计算

  作者:Yijiong Yu

  分析:大型语言模型(LLMs)在处理长文本方面展现了惊人的能力,并且在传统检索任务上几乎取得了完美的效果。然而,当涉及到长期的数值计算时,它们的性能会显著下降。数值相关的长上下文任务通常无法在正常设置下由当前LLMs有效地处理,因为它们固有的同时处理复杂和大量信息的能力有限。为了改进这个问题,该论文提出了一种工作流程,该流程将一个数值相关的长上下文任务分解为4个低级子任务:判断、提取和处理用代码和结论。前两个子任务相对简单,这使得该论文可以使用较小的模型来高效地处理长上下文。当需要进行数值计算时,该论文使用由LLMs生成的代码来避免LLM在计算方面的劣势。在两个数值相关的长上下文基准测试中,该论文的工作流程证明了它不仅可以提高准确性,而且可以显著降低API调用的成本。

  地址:https://arxiv.org/pdf/2411.10145


10. HistoLens:基于大模型的历史文本多层次分析框架

  标题:HistoLens: An LLM-Powered Framework for Multi-Layered Analysis of Historical Texts -- A Case Application of Yantie Lun

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Yifan Zeng

  分析:这篇论文提出了HistoLens,一个基于大型语言模型(LLMs)的历史文本多层次分析框架。使用重要的西汉朝文献《盐铁论》作为案例研究,论文展示了该框架在历史研究和教育中的潜在应用。HistoLens集成了NLP技术,特别是LLMs,包括命名实体识别、知识图谱构建和地理信息可视化。论文通过多维度、视觉和定量方法探索了《盐铁论》中的西汉文化,特别关注了儒道思想对政治、经济、军事和民族方面的影响。论文还展示了如何使用LLMs构建一个可解释的机器教学场景,该场景基于用LLM协助提取的儒家和法家思想的数据集。这种方法为研究像《盐铁论》这样的历史文本提供了新的观点和多样化的视角,并为历史教育提供了新的辅助工具。该框架旨在为历史学家和学习者提供LLM协助的工具,以促进对历史文本的深入多层次分析,并促进历史教育的创新。

  地址:https://arxiv.org/pdf/2411.09978


11. 生成式代理模拟一千人行为的研究

   标题:Generative Agent Simulations of 1,000 People

   机构:Google DeepMind

   相关领域:模型评估

   作者:Joon Sung Park,  Carolyn Q. Zou,  Aaron Shaw

   分析:该研究提出了一种新的代理架构,该架构利用大型语言模型模拟一千多名真实个体的态度和行为。通过进行定性访谈并使用语言模型处理这些数据,代理能够复制个体行为的各个方面,如性格特质和行为结果。与传统的社会调查相比,这种方法的准确度相当高。

   地址:https://arxiv.org/pdf/2411.10109


12. AI芯片设计方法的质疑与回应

   标题:That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

   机构:谷歌研究院、斯坦福大学、Google DeepMind

   作者:Anna Goldie,  Azalia Mirhoseini,  Jeff Dean

   分析:2020年,该论文在Nature上发表了一篇关于使用深度强化学习生成超人类芯片布局的方法的论文,并将其开源发布在GitHub上。AlphaChip激发了对AI用于芯片设计的研究热潮,被谷歌旗下的公司和外部的芯片制造商部署在了最先进的芯片上。然而,一份非同行评审的ISPD 2023邀请论文对该论文的性能声明提出了质疑,尽管它并没有按照Nature上的描述运行该论文的算法。例如,它没有预训练RL方法(去除了从经验中学习的能力),使用的计算资源少得多(RL经验收集器少了20倍,GPU数量少了一半),没有训练到收敛(这是机器学习的标准做法),并且评估的是不代表现代芯片的测试用例。最近,Igor Markov发表了一篇元分析,包括该论文的同行评审Nature论文,这篇非同行评审的ISPD论文,以及Markov自己的未发表的论文(尽管他没有透露他共同撰写了这篇文章)。尽管AlphaChip已经取得了广泛的应用和影响,该论文发布这篇回应是为了确保没有人因为误解而在这个有影响力的领域受到阻碍。

   地址:https://arxiv.org/pdf/2411.10053


13. M-VAR:解耦尺度自回归建模用于高质量图像生成

   标题:M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation

   机构:Google、UC伯克利分校、约翰霍普金斯大学

   相关领域:模型结构改进、图像生成

   作者:Sucheng Ren,  Yaodong Yu,  Nataniel Ruiz

   分析:论文提出了一种新的自回归框架M-VAR,用于图像生成。该框架通过解耦尺度自回归建模,实现了从粗到细的尺度预测。该框架包括两个关键部分:intra-scale建模和inter-scale建模。前者关注每个尺度内的局部空间依赖性,后者则关注不同尺度间的跨尺度关系。M-VAR通过更高效的计算方式实现了高质量的图像生成,并且在速度上也有所提升。

   地址:https://arxiv.org/pdf/2411.10433

   代码:https://github.com/OliverRensu/MVAR


14. STLight:一种基于时空联合处理的卷积神经网络高效预测学习算法研究

   标题:STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing

   机构:苏黎世大学、Google

   相关领域:模型结构改进

   作者:Andrea Alfarano,  Alberto Alfarano,  Linda Friso

   分析:针对基于时空预测学习的问题,论文提出了一种名为STLight的新方法。该方法完全依赖卷积神经网络进行学习,并通过调整空间和时间维度来克服传统卷积的局限性。通过这种方式,STLight可以有效地捕捉到长时间的复杂关联并实现更高效的帧预测重建。

   地址:https://arxiv.org/pdf/2411.10198


15. ParClusterers Benchmark Suite (PCBS):一种可扩展的图聚类的精细分析

   标题:The ParClusterers Benchmark Suite (PCBS): A Fine-Grained Analysis of Scalable Graph Clustering

   机构:麻省理工学院、Google

   相关领域:模型评估

   作者:Shangdi Yu,  Jessica Shi,  Jamison Meindl

   分析:论文介绍了一个名为ParClusterers Benchmark Suite(PCBS)的基准测试套件,包含一系列高度可扩展的并行图聚类算法和基准测试工具。这些工具简化了不同图聚类算法和实现的比较过程。该基准测试套件涵盖了现代聚类用例的广泛目标,包括社区检测、分类和密集子图挖掘等。通过PCBS,研究人员可以轻松运行和评估不同聚类算法的多个实例,这对于在给定任务上微调聚类的性能以及根据不同指标(包括聚类质量和运行时间)比较不同的聚类算法非常有用。论文还评估了一系列真实的图聚类数据集,并发现一些出人意料的结果。

   地址:https://arxiv.org/pdf/2411.10290


16. Visual-Linguistic Agent:协同上下文推理的协作上下文推理代理

   标题:Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning

   机构:浙江大学、卡内基梅隆大学、新加坡管理大学

   相关领域:模型结构改进、预训练、模型评估、数据集构建

   作者:Jingru Yang,  Huan Yu,  Yang Jingxin

   分析:这篇论文提出了一个名为视觉语言代理(VLA)的协作框架,它结合了大型语言模型(MLLM)的语义理解和传统目标检测器的高效定位能力,以解决由于有限建模而导致的上下文一致性不足的问题。VLA包括一个中心语言代理和两个专门的语言代理:一个用于物体检测和分类的语言代理。语言代理通过评估和改进物体检测,通过推理物体之间的空间和上下文关系来增强空间 Reasoning 和物体定位能力。论文展示了在COCO数据集上的广泛性能提升,表明VLA有望成为精确且上下文一致的物体检测的新标杆。

   地址:https://arxiv.org/pdf/2411.10252


17. SymbolFit:自动参数建模与符号回归

   标题:SymbolFit: Automatic Parametric Modeling with Symbolic Regression

   机构:剑桥大学、加州大学、威斯康星大学

   作者:Ho Fung Tsoi,  Dylan Rankin,  Cecile Caillol

   分析:使用符号回归参数建模,无需预定义功能形式,解决了传统方法中拟合过程繁琐、耗时的问题。

   地址:https://arxiv.org/pdf/2411.09851


18. 自监督无线电预训练:向谱图学习的基础模型

   标题:Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning

   机构:麻省理工学院

   相关领域:预训练、模型结构改进

   作者:Ahmed Aboulfotouh,  Ashkan Eshaghbeigi,  Dimitrios Karslidis

   分析:这篇论文介绍了针对无线电信号的预训练方法,即自监督学习,深入探讨了通用深度学习模型的开发,并利用大量未知标记数据进行训练,以评估和未来应用。通过采用卷积LSTM架构来有效处理空间-时间数据,论文将未标记的无线电数据集用于预训练模型。之后,使用预先训练的模型进行下游任务的自定义调整,展示了一种针对无线电信号开发基础课模的有效策略。

   地址:https://arxiv.org/pdf/2411.09849


19. Architect:使用分层2D修复技术生成生动的交互式3D场景

   标题:Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting

   机构:上海交通大学、卡内基梅隆大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Yian Wang,  Xiaowen Qiu,  Jiageng Liu

   分析:这篇论文提出了一种新的生成框架,名为“架构师”,该框架可以生成复杂且真实的3D环境。它利用扩散式基于2D图像修复的技术,通过预训练的2D图像生成模型来获取每个生成的对象,并利用预训练的深度估计模型将生成的2D图像提升到3D空间。此外,该框架还包括一个分层和迭代的修复过程,用于持续生成大型家具和小物件的放置位置,以丰富场景。这种迭代结构使得该论文的方法可以从各种不同的起点生成或优化场景,例如文本、平面图或预先安排的环境。

   地址:https://arxiv.org/pdf/2411.09823


20. 雷达探测Transformer用于室内感知

   标题:RETR: Multi-View Radar Detection Transformer for Indoor Perception

   机构:麻省理工学院

   作者:Ryoma Yataka,  Adriano Cardace,  Pu Perry Wang

   分析:室内雷达感知由于新兴汽车成像雷达的发展和在危险条件下(如火灾和烟雾)减少的隐私关注和可靠性的好处而引起了日益增长的兴趣。然而,现有的雷达感知管道未能考虑到多视图雷达设置的独特特性。在这篇论文中,该论文提出了Radar Detection Transformer (RETR),这是流行的DETR架构的扩展,专为多视图雷达感知设计。RETR继承了DETR的优点,无需手工制作用于图像平面上的目标检测和分割的组件。更重要的是,RETR通过可调的位置编码引入了深度优先的特征相似性;通过从雷达和相机坐标中引入三平面损失;以及通过重新参数化学习雷达到相机的转换来解决独特的多视图雷达设置。在两个室内雷达感知数据集上评估后,该论文的方法在目标检测方面比现有最先进的方法提高了15.38+ AP,实例分割方面提高了11.77+ IoU。

   地址:https://arxiv.org/pdf/2411.10293


21. TEESlice:受保护的环境中处理敏感神经网络模型与对手存在预先训练的模型

   标题:TEESlice: Protecting Sensitive Neural Network Models in Trusted Execution Environments When Attackers have Pre-Trained Models

   机构:北京大学

   相关领域:模型结构改进、预训练

   作者:Ding Li,  Ziqi Zhang,  Mengyu Yao

   分析:这篇论文关注在可信执行环境中保护神经网络模型的问题,特别是当对手拥有预先训练的模型时。论文指出了现有方法在面临知识丰富的对手时的安全漏洞,并引入了一种新型的预训练策略TEESlice来解决这一问题。该策略能在可信执行环境中有效保护隐私敏感模型的权重,同时提高计算效率。除了传统的CNN模型,论文还展示了该策略在大语言模型中的应用。

   地址:https://arxiv.org/pdf/2411.09945


22. CART:基于组合自回归变换的图像生成方法

   标题:CART: Compositional Auto-Regressive Transformer for Image Generation

   机构:三星研究

   相关领域:模型结构改进、多模态

   作者:Siddharth Roheda

   分析:论文提出了一种基于自回归(AR)建模的图像生成新方法。该方法利用细节预测策略,提高了图像生成的保真度和可扩展性。针对图像固有的空间依赖性,论文通过迭代方式,在图像组合上添加更精细的细节,将其构建为基图像和细节图像因子的层次组合。该方法比传统的下一个标记预测更有效,甚至超越了当前先进技术的下一个尺度预测方法。其关键优势在于可扩展到高分辨率,无需进行全模型重新训练,为解决高分辨率图像生成提供了通用解决方案。

   地址:https://arxiv.org/pdf/2411.10180


23. 单奇偶校验减少猜测编码字解码的猜测工作量

   标题:Using a Single-Parity-Check to reduce the Guesswork of Guessing Codeword Decoding

   机构:东北大学、麻省理工学院

   相关领域:模型结构改进、模型评估

   作者:Joseph Griffin,  Peihong Yuan,  Ken R. Duffy

   分析:本文主要介绍了猜测编码字解码(GCD)技术,这是一种针对任意线性前向纠错码的软输入前向纠错解码器。论文受到利用二元线性码本结构减少猜测随机加法噪声解码(GRAND)查询次数的近期提案的启发,针对包含单个全奇偶校验位(SPC)的二元线性码,展示了一种减少GCD查询次数的方法,最多可减少两倍,而不会影响解码精度。在信噪比(SNR)较低的情况下,猜测工作的减少最为显著。论文还展示了如何通过交换生成矩阵的列来添加一个SPC位,从而在不损失解码精度的情况下获得解码复杂度优势。为了充分利用这种复杂性优势,需要一个能够针对给定汉明重量产生序列的噪声效应模式生成器,如ORBGRAND背后的生成器。本文的实用性和价值在于提高了解码效率,减少了猜测工作量,特别是在复杂编码场景下。

   地址:https://arxiv.org/pdf/2411.09803


24. 心脏MRI重建的基础模型研究

   标题:On the Foundation Model for Cardiac MRI Reconstruction

   机构:斯坦福大学

   相关领域:模型结构改进、多模态

   作者:Chi Zhang,  Michael Loecher,  Cagan Alkan

   分析:本文主要研究了基于机器学习的心脏磁共振(CMR)成像重建技术。针对传统机器学习方法在加速扫描时存在的数据量大、计算时间长、图像质量易降低等问题,提出了一种新的基础模型。该模型通过自适应解卷、通道偏移以及模式和对比度提示UNet(PCP-UNet)等技术,能够在不同加速率和图像对比度下提高图像重建质量。实验表明,该基础模型在多种CMR协议下具有显著改进的图像质量,并优于传统ML方法。

   地址:https://arxiv.org/pdf/2411.10403


25. 形态感知的全局注意力机制用于图像分割

   标题:Morpho-Aware Global Attention for Image Matting

   机构:浙江大学、卡内基梅隆大学、新加坡管理大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Jingru Yang,  Chengzhi Cao,  Chentianye Xu

   分析:本文提出了一种新的形态感知的全局注意力机制(Morpho-Aware Global Attention,MAGA),旨在有效地捕捉细微的结构特征。该机制使用类似于俄罗斯方块的卷积模式来对细微结构进行对齐,确保局部形状的最优对应,同时保持对形态细节的敏感性。提取的局部形态信息被用作查询嵌入,投影到全局键嵌入上强调局部细节在一个更广泛的上下文中的重要性。然后,通过投影到值嵌入,MAGA无缝地将这些强调的形态细节融入到一个统一的整体结构中。这种方法使MAGA能够同时关注局部形态并将这些细节统一到一个连贯的整体中,有效地保留细微结构。实验结果表明,基于MAGA的ViT在两个基准测试上的性能均有显著提升,平均改进分别为SAD 4.3%和MSE 39.5%。

   地址:https://arxiv.org/pdf/2411.10251


26. 一种用于多模态中风风险预测的自监督模型

   标题:A Self-Supervised Model for Multi-modal Stroke Risk Prediction

   机构:哈佛医学院、苏黎世大学、瑞士洛桑联邦理工学院

   相关领域:多模态

   作者:Camille Delgrange,  Olga Demler,  Samia Mora

   分析:该论文提出了一种自监督的多模态框架,用于集成3D脑部成像、临床数据和图像派生特征来改善中风风险预测。通过利用未注释的临床大数据集,该框架能够捕捉图像和表格数据模态之间的互补和协同信息。模型基于对比学习框架,结合对比语言-图像预训练和图像-表格匹配模块,实现多模态数据在共享潜在空间的更好对齐。该模型在英国生物样本库上进行训练,包括结构脑部MRI和临床数据。该模型在ROC-AUC和平衡准确度上分别比自监督表格(图像)方法提高了2.6%(2.6%),比最佳多模态监督模型在平衡准确度上提高了7.6%。研究还通过可解释工具展示了表格和图像数据的更好集成,并通过梯度加权类激活映射热图揭示了与脑老化、中风风险和临床结果相关的激活大脑区域。

   地址:https://arxiv.org/pdf/2411.09822


27. 代理型LLMs在供应链中:朝向自主多Agent共识寻求

   标题:Agentic LLMs in the Supply Chain: Towards Autonomous Multi-Agent Consensus-Seeking

   机构:剑桥大学、苏黎世联邦理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Valeria Jannelli,  Stefan Schoepf,  Matthias Bickel

   分析:这篇论文探讨了大型语言模型(LLMs)如何自动化供应链管理(SCM)中的共识寻求,尤其是在频繁决策如库存水平和交付时间方面。传统SCM依赖于人类共识在决策中以避免潜在问题,如牛鞭效应。一些耗时和成本高的常规共识过程可以自动化。现有解决方案在克服高进入壁垒、有限的能力和复杂场景中的有限适应性方面面临着挑战。然而,基于Generative AI,特别是LLMs的最新进展,显示了解决这些障碍的潜力。LLMs通过在大量数据上的训练可以进行谈判、推理和规划,从而在小额进入壁垒下在规模上实现接近人类水平的共识。在这项工作中,该论文识别现有方法的关键限制,并提出了自主LLM代理来解决这些问题。该论文介绍一系列针对LLM代理的定制供应链特定共识寻求框架,并通过库存管理案例研究验证了该论文的方法的有效性。为了加速SCM社区内的进展,该论文开源了该论文的代码,为LLM驱动的自助供应链解决方案提供了基础。

   地址:https://arxiv.org/pdf/2411.10184


28. Compound-QA:一个评估LLM在化合物问题上的能力的基准

   标题:Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions

   机构:复旦大学、上海财经大学、香港中文大学

   相关领域:模型评估

   作者:Yutao Hou,  Yajing Luo,  Zhiwen Ruan

   分析:论文提出了一种用于生成化合物问题的基准,旨在评估大型语言模型对具有多个子问题的复合问题的响应能力。这个基准从现有问答数据集中提取,经过人类专家的准确性验证。模型在理解、推理和知识表达三个方面进行了评估。研究表明,与非复合问题相比,这些模型的复合问题回答能力存在显著缺陷,但通过多种方法提高性能后,模型在这些方面的表现有显著改善。

   地址:https://arxiv.org/pdf/2411.10163


29. 基于掩码图像对比学习的视觉概念预训练

   标题:Masked Image Contrastive Learning for Efficient Visual Conceptual Pre-training

   机构:上海AI实验室

   相关领域:预训练

   作者:Xiaoyu Yang,  Lijian Xu

   分析:论文提出了一种高效的视觉概念预训练模型,称为掩码图像对比学习(MiCL)。该模型通过随机掩码图像中的部分区域来生成不同的视图,并在小批量图像中进行对比。MiCL的设计核心在于利用掩码标记减少图像中的概念冗余,创建具有显著细微语义差异的视图,避免高频干扰和额外的重建成本。MiCL可以高效地学习高度语义化的概念表示,无需依赖手工数据增强或额外的辅助模块。实验表明,MiCL具有良好的可扩展性,使用Vision Transformers在预训练任务中表现出色。

   地址:https://arxiv.org/pdf/2411.09858


30. 混合偏好优化增强 multimodal Large Language Models 的推理能力

   标题:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

   机构:复旦大学、南京大学、清华大学

   相关领域:模型蒸馏

   作者:Weiyun Wang,  Zhe Chen,  Wenhai Wang

   分析:这篇论文主要介绍了如何通过混合偏好优化(MPO)增强 multimodal large language models(MLLMs)的推理能力。研究团队设计了一个自动化偏好数据构建管道,创建了 MMPR 大型高质量的多模态推理偏好数据集,并在 MLLMs 上整合了 PO。提出的 MPO 方法提升了 multimodal CoT(Chain-of-Thought)性能,并在多个基准测试上取得了显著提升,特别是比原始 MLLM 提升了 8.7 点,并在某些任务上达到了比 10 倍大小的模型相似的性能。

   地址:https://arxiv.org/pdf/2411.10442


31. 定向偏好优化缓解多模态大模型的幻想问题

   标题:Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

   机构:腾讯、中国人民大学

   相关领域:多模态、模型评估

   地址:https://arxiv.org/pdf/2411.10436


32. 人工智能反馈中“宪法”的作用评估

   标题:Evaluating the role of `Constitutions' for learning from AI feedback

   机构:牛津大学

   相关领域:模型评估、奖励模型

   地址:https://arxiv.org/pdf/2411.10168


33. Pro-Prophet: 大型MoE模型高效并行训练中的系统负载均衡方法

   标题:Pro-Prophet: Systematic Load Balancing Method for Efficient Parallel Training of Large-scale MoE Models

   机构:国防科技大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.10003


34. Orca:通过整合个性特质提升大模型的角色扮演能力

   标题:Orca: Enhancing Role-Playing Abilities of Large Language Models by Integrating Personality Traits

   机构:吉林大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2411.10006

   代码:https://github.com/Aipura/Orca


35. 模型逆向攻击研究综述

   标题:Model Inversion Attacks: A Survey of Approaches and Countermeasures

   机构:悉尼大学、香港浸会大学

   相关领域:模型评估、隐私保护

   地址:https://arxiv.org/pdf/2411.10023

   代码:https://github.com/AndrewZhou924/Awesome-model-inversion-attack


36. M3TR:基于可变地图先验的通用高清地图构建

   标题:M3TR: Generalist HD Map Construction with Variable Map Priors

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2411.10316

   代码:https://github.com/immel-f/m3tr


37. 基于视觉问答评估指标的文本到图像生成评估

   标题:Visual question answering based evaluation metrics for text-to-image generation

   相关领域:评估指标、模型评估

   地址:https://arxiv.org/pdf/2411.10183


38. 文本到图像扩散模型评估

   标题:Evaluating Text-to-Image Diffusion Models for Texturing Synthetic Data

   机构:根特大学

   地址:https://arxiv.org/pdf/2411.10164

   代码:https://github.com/tlpss/diffusing-synthetic-data.git


39. Multidimensional Byte Pair Encoding:缩短序列以提高视觉数据生成

   标题:Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation

   机构:亚琛工业大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2411.10281


40. 减少解码器仅Transform架构中的奉承现象:合成数据干预技术

   标题:Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention

   相关领域:模型结构改进、RLHF

   地址:https://arxiv.org/pdf/2411.10156

   代码:https://github.com/brucewang123456789/GeniusTrail.git


41. 面部去标识技术:最新方法与比较研究

   标题:Face De-identification: State-of-the-art Methods and Comparative Studies

   机构:上海交通大学、悉尼科技大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2411.09863


42. Llama Guard 3 Vision:多模态大模型安全对话保障

   标题:Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2411.10414


43. 快手中的KuaiFormer:基于Transformer的检索方法

   标题:KuaiFormer: Transformer-Based Retrieval at Kuaishou

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.10057


44. ColorEdit: 无训练支持的文本引导颜色编辑

   标题:ColorEdit: Training-free Image-Guided Color editing with diffusion model

   相关领域:模型结构改进, 数据集构建

   地址:https://arxiv.org/pdf/2411.10232


45. Features that Make a Difference:利用梯度改进字典学习

   标题:Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning

   地址:https://arxiv.org/pdf/2411.10397


46. 学习具有泛化能力的3D操作

   标题:Learning Generalizable 3D Manipulation With 10 Demonstrations

   地址:https://arxiv.org/pdf/2411.10203


47. 注意力只Transformers中的记忆机制研究

   标题:Memorization in Attention-only Transformers

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2411.10115


看论文是一天,不看论文也是一天,为什么不每天充实下自己呢^_^^_^

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章