基于GPT-4o的o1模型推理模式比较探究 | 多语言语言模型的缩放定律 | DreamVideo-2: 零样本主体驱动视频定制

文摘   2024-10-18 23:21   广东  

前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、语言模型、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. 一种基于GPT-4o的OpenAI's o1模型推理模式比较研究

  标题:A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

  机构:浙江大学、曼彻斯特大学、中国科学院大学

  相关领域:数学、编程、常识推理

  作者:Siwei Wu,  Zhongyuan Peng,  Xinrun Du

  分析:开放AI的o1模型最近表明,推理策略(即,测试时计算方法)也能显著增强大语言模型的推理能力。然而,这些方法的机制仍然没有探询。在本研究中,该论文通过使用OpenAI的GPT-4o作为后端,对o1模型与现有的测试时计算方法(如BoN,分阶段BoN,Agent Workflow和Self-Refine)进行了比较,在三个领域(如数学、编程和常识推理)进行了通用推理基准测试。具体来说,首先,该论文的实验表明,o1模型在大多数数据集上已经达到了最佳性能。其次,对于搜索多样化响应(如BoN)的方法,该论文发现奖励模型的能力以及搜索空间都限制了这些方法的 upper boundary。第三,对于将问题划分为许多子问题的方法,Agent Workflow由于具有特定域的系统提示,在处理更好的推理过程方面,优于分阶段BoN。最后,该论文总结了o1模型的六个推理模式,并在一些推理基准测试上提供了详细分析。

  地址:https://arxiv.org/pdf/2410.13639


2. DreamVideo-2: 零样本主体驱动的视频定制化,精确的运动控制

  标题:DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

  机构:复旦大学、阿里巴巴集团、南洋理工大学

  相关领域:模型结构改进

  作者:Yujie Wei,  Shiwei Zhang,  Hangjie Yuan

  分析:这篇论文介绍了一种无需测试时调校的视频定制化框架,可以在给定单个图像和框序列的情况下,生成特定主体和运动轨迹的视频。研究解决了现有方法在平衡主体学习和运动控制方面的挑战。

  地址:https://arxiv.org/pdf/2410.13830


3. 多语言语言模型的缩放定律

  标题:Scaling Laws for Multilingual Language Models

  机构:微软、伊利诺伊大学

  相关领域:预训练

  作者:Yifei He,  Alon Benhaim,  Barun Patra

  分析:研究提出了一种新的scaling法则,用以描述对多语言数据进行训练的一般性decoder-only语言模型的性能。该论文探讨了如何在多语言预训练中平衡不同语言资料的问题。作者提出了一个关键假设:某个语言族在测试集上的cross-entropy损失仅与其采样比率有关,而与其它语言无关。基于这一假设,论文设法简化了对多语言模型scaling的分析,并能够处理任意数量的语言。

  地址:https://arxiv.org/pdf/2410.12883


4. Fluid:通过连续令牌规模化自回归文本到图像生成模型

  标题:Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

  机构:麻省理工学院、Google DeepMind

  相关领域:模型结构改进、模型蒸馏、多模态

  作者:Lijie Fan,  Tianhong Li,  Siyang Qin

  分析:论文探讨了自回归模型在视觉领域的规模化问题,特别是文本到图像生成的背景下,比较了使用离散或连续令牌,以及随机或固定栅格顺序生成令牌的效果。实验表明,使用连续令牌的模型在视觉质量上表现明显优于离散令牌的模型。同时,生成交互和注意力机制对GenEval分数有显著影响:随机顺序模型在GenEval分数上优于栅格顺序模型。据此,论文训练了名为Fluid的随机顺序自回归模型,该模型在MS-COCO 30K上实现了新的零样本FID值为6.16,并在GenEval基准上获得了0.69的整体评分。论文的研究成果有望促进视觉和语言模型之间规模化差距的缩小。

  地址:https://arxiv.org/pdf/2410.13863


5. AsymKV:实现KV缓存的1位量化与分层不对称量化配置

  标题:AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations

  机构:阿里巴巴集团、麻省理工学院

  相关领域:模型结构改进

  作者:Qian Tao,  Wenyuan Yu,  Jingren Zhou

  分析:这篇论文主要探讨了大型语言模型中KV缓存的量化问题。论文深入研究了KV缓存的不对称结构角色,并发现量化键矩阵对transformer的输出损失更为敏感。为此,论文提出了一种不对称的量化策略,允许对KV缓存进行1位量化,同时保持性能与浮点参数模型相当。

  地址:https://arxiv.org/pdf/2410.13212


6. MoR:低秩适应混合排名技术

  标题:MoR: Mixture of Ranks for Low-Rank Adaptation Tuning

  机构:百度

  相关领域:模型结构改进、模型蒸馏

  作者:Chuanyu Tang,  Yilong Chen,  Zhenyu Zhang

  分析:针对低秩适应技术面临的挑战,如无法有效捕获高秩信息和模型效率问题,本文提出了混合排名(MoR)技术。该技术基于输入学习不同任务的排名特定信息,并通过数学变换有效地集成多排名信息。此外,研究发现低秩已经能捕获足够的内在信息,MoR可通过混合低秩组件的排名衍生出高秩信息。实验结果显示MoR在提高模型性能的同时,减少了参数使用量。

  地址:https://arxiv.org/pdf/2410.13408


7. 数值精度对大模型数学推理能力的影响

  标题:How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs

  机构:北京大学

  相关领域:模型评估

  作者:Guhao Feng,  Kai Yang,  Yuntian Gu

  分析:本文主要探讨了大型语言模型(LLMs)的数学能力,特别是算术性能。研究发现数值精度是影响语言模型在数学任务上表现的关键因子。在标准数值精度下,模型可以更有效地处理算术任务,而低数值精度模型除非模型规模随着输入长度超多项式增长,否则难以完成算术任务。本文既进行了理论分析,也通过实证研究验证了数值精度对算术任务的影响,为提升语言模型的数学推理能力提供了有价值的信息。

  地址:https://arxiv.org/pdf/2410.13857


8. IterSelectTune:一种高效的指令调优数据选择迭代训练框架

  标题:IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection

  机构:中山大学

  相关领域:指令微调、数据集构建

  作者:Jielin Song,  Siyu Liu,  Bin Zhu

  分析:这篇工作介绍了一种高效的、成本效益高的迭代训练策略,IterSelectTune,用于在无需人工参与和有限依赖GPT-4的情况下,选择高质量的指令数据。该方法通过在约20%的源头数据上微调, consistently outperforms模型在多个基准和公共测试数据集上的全数据集微调。结果表明,该方法能够有效提高LLM性能,同时减少指令调优所需的计算资源。

  地址:https://arxiv.org/pdf/2410.13464


9. 所有模型都有缺陷,但有些模型很有用:使用有限标签进行模型选择

  标题:All models are wrong, some are useful: Model Selection with Limited Labels

  机构:苏黎世联邦理工学院

  相关领域:模型评估、预训练

  作者:Patrik Okanovic,  Andreas Kirsch,  Jannes Kasper

  分析:这篇论文提出了一种标签效率高的预训练分类器选择框架MODEL SELECTOR。该框架解决了在大量预训练模型中选择适合目标数据集的模型的问题。通过采样高度信息性的示例进行标签化,MODEL SELECTOR能够高效地识别最适合目标数据集的预训练模型。实验表明,MODEL SELECTOR大幅减少了标记数据的需求,同时能够始终选择出表现最佳或接近最佳的模型。

  地址:https://arxiv.org/pdf/2410.13609


10. AI模型在递归生成数据上训练时出现崩溃现象

  标题:A Note on Shumailov et al. (2024): `AI Models Collapse When Trained on Recursively Generated Data'

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Ali Borji

  分析:Shumailov等人(2024)的研究表明,反复在合成数据上训练生成模型会导致模型崩溃。这一发现引发了广泛的兴趣和争论,尤其是考虑到当前的模型已经几乎用尽了可用的数据。本文研究了通过核密度估计(Kernel Density Estimation,或KDE)拟合分布或模型,然后从其中进行重复采样的效果。该论文的目标是理解Shumailov等人(2024)所观察到的现象的理论含义。该论文的结果表明,所报告的结果是一种统计现象,可能是不可避免的。

  地址:https://arxiv.org/pdf/2410.12954


11. aiXcoder-7B:轻量级高效代码补全大模型

   标题:aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Completion

   相关领域:模型结构改进、预训练、数据集构建

   作者:Siyuan Jiang,  Jia Li,  He Zong

   分析:本文提出了一种名为aiXcoder-7B的轻量级高效的代码补全大语言模型。该模型在保证较小规模(7亿参数)的情况下,比现有大语言模型在代码补全准确率上有了显著提升。论文探讨了如何通过多目标训练、多样化数据采样策略以及使用海量高质量数据进行预训练,提高模型的代码理解能力。实验结果表明,aiXcoder-7B在代码补全任务上优于同类规模模型,甚至超越了部分大型模型。

   地址:https://arxiv.org/pdf/2410.13187


12. 电影制作大师:一组基础模型集

   标题:Movie Gen: A Cast of Media Foundation Models

   相关领域:模型结构改进、大模型训练、多媒体合成

   作者:Adam Polyak,  Amit Zohar,  Andrew Brown

   分析:这篇论文介绍了‘电影制作大师’项目,该项目包括一组强大的基础模型,能够生成高质量、1080p超高清视频,涉及不同宽高比并配有同步音频。论文还展示了更多功能,如基于指令的视频编辑和个性化视频生成,根据用户的图片生成。这些模型在多个任务上表现出色,包括文本到视频合成、个性化视频生成、视频编辑、视频到音频生成和文本到音频生成。最大的视频生成模型是一个参数为30B的Transform,使用73K视频Token的最长上下文长度进行训练,对应生成的视频长度为16秒,帧率16 FPS。论文列举了架构、潜在空间、训练目标、数据整理、评估方法、并行技术、推理优化等多方面的创新点和简化方法,为大规模媒体生成模型的训练提供了优势,包括规模化的预训练数据、模型大小和训练计算量。此论文旨在推动媒体生成模型研究社区的进步和创新,所有论文中的视频均可在https://go.fb.me/MovieGenResearchVideos 获取。

   地址:https://arxiv.org/pdf/2410.13720

   代码:https://go.fb.me/MovieGenResearchVideos


13. 大模型的数据合成与扩充

   标题:A Survey on Data Synthesis and Augmentation for Large Language Models

   机构:北京航空航天大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   作者:Ke Wang,  Jiahui Zhu,  Minjie Ren

   分析:这篇论文主要讨论了如何提高大型语言模型的训练效率,解决数据稀缺和增长过快的问题。文章详细介绍了数据生成的两个主要方法:数据扩充和合成,并对这些方法在大型语言模型生命周期中的应用进行了全面回顾。同时,也探讨了当前这些方法面临的挑战以及未来的研究方向。

   地址:https://arxiv.org/pdf/2410.12896


14. 逐步修正增强大模型中的数学推理能力

   标题:Enhancing Mathematical Reasoning in LLMs by Stepwise Correction

   机构:圣母大学、西安交通大学

   相关领域:模型结构改进、模型评估

   作者:Zhenyu Wu,  Qingkai Zeng,  Zhihan Zhang

   分析:这篇论文提出了一种名为逐步修正(StepCo)的新型提示方法,帮助大型语言模型(LLM)在数学推理问题中识别和修正错误步骤。该方法通过验证和修订阶段,采用过程监督验证器,不仅提高了答案的正确性,还减少了生成所需的路径和令牌消耗。使用StepCo方法的大型语言模型在多个数据集上表现出卓越的性能。

   地址:https://arxiv.org/pdf/2410.12934


15. 医疗视觉语言预训练能否仅使用纯合成数据?

   标题:Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data?

   机构:帝国理工学院、香港科技大学、俄亥俄州立大学

   相关领域:大模型、医疗影像、预训练

   作者:Che Liu,  Zhongwei Wan,  Haozhe Wang

   分析:这篇论文主要探讨了医疗视觉语言预训练(MedVLP)模型是否能仅使用纯合成数据进行训练。研究发现,使用生成的合成图像文本对进行训练可以提高模型的表现,尤其是在零样本分类任务上,表现提升了3.8%。此外,作者还提出了一种自动化构建高质量合成数据集的方法,以进一步增强模型的性能。这一结果表明,通过设计合适的合成数据,医疗视觉语言预训练可以在一定程度上克服真实数据中的限制。

   地址:https://arxiv.org/pdf/2410.13523


16. 大模型的进步性思考:一种新的框架

   标题:Think Thrice Before You Act: Progressive Thought Refinement in Large Language Models

   机构:复旦大学、华东师范大学、阿里巴巴集团

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Chengyu Du,  Jinyi Han,  Yizhou Ying

   分析:这篇论文提出了一种名为'Progressive Thought Refinement'的新方法,用于改进大型语言模型的输出质量。该方法通过两个阶段来实现这一目标:首先,通过构建一个高质量的数据集来逐步改善模型的输出;然后,通过调整模型的训练方式,使其能够自我改进。实验结果表明,这种方法不仅可以提高模型在各种任务上的准确性,而且还可以使模型在更开放的任务中提供更高质量的响应。

   地址:https://arxiv.org/pdf/2410.13413


17.  MuVi:视频到音乐生成与语义对齐与节奏同步

   标题:MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

   机构:浙江大学、阿里巴巴集团

   作者:Ruiqi Li,  Siqi Zheng,  Xize Cheng

   分析: 这篇论文提出了MuVi,这是一个新颖的视频到音乐生成的框架,有效地解决了视频内容与音乐不匹配的问题,增强了音频视觉内容的一致性和沉浸感。MuVi通过设计一个专门的视觉适配器来分析视频内容,并提取出相关和时移的特征。利用这些特征生成的音乐不仅匹配视频的情感和主题,也和其节奏和进度和谐。论文还介绍了一种基于周期性的音乐短语的音乐视频预训练方案,以保证同步,时间为0。此外,论文还展示了该论文基于流匹配的音乐生成器具有全员学习能力,能控制生成音乐的的风格和类型。实验结果表明,MuVi不仅在音频质量上表现出优越,还在时间同步上得到了很好的表现。生成的音乐视频样本可以在[here](https://muvi-v2m.github.io)找到。

   地址:https://arxiv.org/pdf/2410.12957

   代码:https://muvi-v2m.github.io


18. Merge to Learn:为语言模型高效添加技能的方法研究

   标题:Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging

   机构:华盛顿大学、艾伦AI研究所

   相关领域:模型结构改进、指令微调、模型评估

   作者:Jacob Morrison,  Noah A. Smith,  Hannaneh Hajishirzi

   分析:该论文探讨了如何高效地为预训练语言模型添加新技能。研究通过模型融合的方式,在已有模型的基础上训练新技能,并实现了与通用模型的融合。实验表明,这种并行训练然后融合的方法在保持模型性能的同时,能够显著提高模型的效率和安全性。

   地址:https://arxiv.org/pdf/2410.12937


19. DPLM-2: 多模态扩散蛋白语言模型

   标题:DPLM-2: A Multimodal Diffusion Protein Language Model

   机构:南京大学、字节跳动

   相关领域:多模态

   作者:Xinyou Wang,  Zaixiang Zheng,  Fei Ye

   分析:本文介绍了DPLM-2,一种结合了序列与结构的多模态基础蛋白模型,它扩展了离散扩散蛋白语言模型(DPLM),能够同时处理序列和结构信息。此模型通过查找表-免费量化编解码器将以3D坐标表示的结构转换为离散token,以训练结合实验数据和高质量合成结构,学习序列与结构的联合分布以及它们的边界条件。此外,实验验证了DPLM-2能够同步生成高度匹配的氨基酸序列及其相应的三维结构,无须采用两阶段生成方法。在各种需多模态基序输入的条件生成任务中,DPLM-2展示了其具有竞争力的表现,并为预测任务提供结构意识的表示。

   地址:https://arxiv.org/pdf/2410.13782


20. LoRA模块合并技术研究:实现实用技能组合任务

   标题:LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks

   机构:哈佛大学、微软研究院、普林斯顿大学

   相关领域:模型结构改进、多模态

   作者:Akshara Prabhakar,  Yuanzhi Li,  Karthik Narasimhan

   分析:这篇论文研究如何将不同的LoRA模块进行合并,以实现技能组合。论文关注在目标任务上,这些任务需要组合多个技能,每个技能都来自单个LoRA。当难以获得目标任务的训练数据时,以及当任务可以分解成多个技能时,这种设置是非常有利的。论文的主要贡献是展示LoRA的拼接(CAT)方法,该方法在个别技能上训练的LoRAs进行最优平均,在解决数学文字问题和创建特定领域问答机器人等实际应用场景中表现出卓越性能,优于现有的模型和数据合并技术。论文强调模型合并为解决组合任务提供了一种有效方法,并指出CAT是一种简单、计算友好、有效的程序。

   地址:https://arxiv.org/pdf/2410.13025


21. GeoCoder:通过视觉语言模型生成模块代码解决几何问题

   标题:GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models

   机构:蒙特利尔大学、Google DeepMind、Canada CIFAR AI Chair

   相关领域:模型结构改进、指令微调、多模态

   作者:Aditya Sharma,  Aman Dalmia,  Mehran Kazemi

   分析:本文介绍了一种名为GeoCoder的方法,它利用了模块化代码精调技术,通过预先定义的几何函数库生成和执行代码来解决几何问题。这种方法能实现准确且确定性的计算,与自回归令牌预测的随机性质形成对比。同时,函数库减少了在公式应用中的错误。为解决大模型在几何推理能力上的局限性,GeoCoder提出了一种多模态检索增强的版本,即 RAG-GeoCoder,它引入了非参数记忆模块,从几何库中检索功能,减少了对参数记忆的依赖。通过这种方式,该论文显著提高了Visual-Language模型在各类几何问题复杂度上的表现,平均提升了超过16%。此方法进一步促进了视觉语言模型在数学与几何问题解决方面的应用与研究。

   地址:https://arxiv.org/pdf/2410.13510


22. MixEval-X:现实数据混合的任意到任意评估

   标题:MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

   机构:北京大学、滑铁卢大学、南洋理工大学

   相关领域:模型评估、多模态

   作者:Jinjie Ni,  Yifan Song,  Deepanway Ghosal

   分析:论文提出了一种全新的任意到任意现实世界的基准测试MixEval-X,用于优化和标准化跨输入和输出模式模型的评估。论文解决了当前评估存在的两大问题:评估标准的不一致性和评估中存在的查询、分级和泛化偏见。MixEval-X通过多模式基准混合和适应校正管道,重建现实任务分布,确保评估有效推广到现实使用场景。评估和领导者排名显示,该方法有效对齐基准样本与真实任务分布,模型排名与群众现实评估高度相关。

   地址:https://arxiv.org/pdf/2410.13754


23. ALOHA Unleashed:机器人灵巧操作简易秘籍

   标题:ALOHA Unleashed: A Simple Recipe for Robot Dexterity

   机构:Google DeepMind

   相关领域:数据集构建、模型评估

   作者:Tony Z. Zhao,  Jonathan Tompson,  Danny Driess

   分析:该论文探讨了通过ALOHA 2平台大规模数据收集及使用扩散策略模型,如何推动模仿学习在复杂双臂操作任务中的应用。作者展示了在涉及可变形物体和复杂接触动态的难点任务上,该方法相较于现有方法有显著提升。

   地址:https://arxiv.org/pdf/2410.13126


24. 穿戴式基础模型的扩展研究

   标题:Scaling Wearable Foundation Models

   机构:谷歌研究院、Google DeepMind

   相关领域:多模态、模型结构改进

   作者:Girish Narayanswamy,  Xin Liu,  Kumar Ayush

   分析:本文研究穿戴式传感器数据的扩展属性,利用大规模神经网络从海量文本、图像、视频或音频数据中学习有力表征,构建出多模态基础模型LSM。LSM建立在迄今为止最大的穿戴式信号数据集上,包括心率、心率变异性、电导活动、加速度计、皮肤温度和高度等每分钟数据。本文探讨了LSM在填补、插值和预测任务上的扩展规律,并展示了LSM如何为下游任务如运动和活动识别提供样本高效的下游学习。

   地址:https://arxiv.org/pdf/2410.13638


25. Mechanistic Unlearning:通过机械性定位提高知识遗忘和编辑的稳健性

   标题:Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization

   机构:马里兰大学、乔治亚理工学院、Google DeepMind

   相关领域:模型结构改进

   作者:Phillip Guo,  Aaquib Syed,  Abhay Sheshadri

   分析:这篇论文探讨了在大语言模型中,如何通过机械性定位方法改进知识编辑和遗忘的过程,以提高其精度和有效性。研究发现,通过定位与特定机械机制相关的模型组件,可以更精确地编辑和遗忘不需要的知识,同时不影响整体的语言建模性能。研究还表明,定位方法的不同会影响遗忘和编辑的稳健性。论文提出的定位编辑/遗忘到与查找表机制相关的组件,有助于提高编辑/遗忘的稳健性,并减少意外副作用。

   地址:https://arxiv.org/pdf/2410.12949


26. Meta-DiffuB:带有元策略探索的上下文序列到序列文本扩散模型

   标题:Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration

   机构:微软、华盛顿大学

   相关领域:模型结构改进、序列到序列模型、元策略探索

   作者:Yun-Yen Chuang,  Hung-Min Hsu,  Kevin Lin

   分析:这篇论文提出了一种新的扩散模型框架Meta-DiffuB,旨在解决现有序列到序列扩散模型依赖固定或手工构建规则调度噪声的问题。Meta-DiffuB通过元探索训练了一个额外的调度器模型,该模型为每一句话调度上下文相关的噪声,从而增强扩散和降噪过程。该模型在四个序列到序列基准数据集上实现了与先前扩散模型和费微调语言模型(PLMs)对比的state-of-the-art性能,并可作为“插即用”模型提高DiffuSeq的性能,无需在推理阶段进行微调。

   地址:https://arxiv.org/pdf/2410.13201


27. SeerAttention:学习内在稀疏注意力在大模型中的应用

   标题:SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

   机构:香港大学、华盛顿大学、微软研究院

   相关领域:模型结构改进

   作者:Yizhao Gao,  Zhichen Zeng,  Dayou Du

   分析:论文提出了一种新的注意力机制SeerAttention,该机制通过增加一个可学习的门来控制注意力图中的重要块,其余部分被视为稀疏的。这种块级稀疏性可以有效地平衡精度和速度。同时,论文还开发了一种高效的FlashAttention实现,用于提取注意力图的块级真实值,以训练SeerAttention。该方法不仅适用于模型的后训练阶段,而且在长上下文微调中表现优秀。

   地址:https://arxiv.org/pdf/2410.13276


28. 揭秘大模型技能层次洞悉评价优劣

   标题:Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

   机构:哈佛大学、微软研究院、马里兰大学

   相关领域:模型评估

   作者:Mazda Moayeri,  Vidhisha Balachandran,  Varun Chandrasekaran

   分析:本文提出一种评估大模型性能的新方法。通过观察和分析模型的“技能切片”(同一技能的多个实例),深入研究不同模型在各种特定技能上的表现,从而对模型的优缺点有更清晰的认识。例如,对比不同模型在计算分子量、应用宪法法律等具体技能上的表现,发现某些模型在某些技能上表现更好,但在其他技能上表现较差。此外,该研究还展示了如何根据模型在不同技能上的表现优化实例路由,从而提高整体性能。总之,该研究为大模型的性能评估提供了新思路。

   地址:https://arxiv.org/pdf/2410.13826


29. 健康检验:RAG模型在真实世界多语言环境下的健康聊天机器人评估

   标题:HEALTH-PARIKSHA: Assessing RAG Models for Health Chatbots in Real-World Multilingual Settings

   机构:微软、华盛顿大学

   相关领域:模型评估、数据集构建

   作者:Varun Gumma,  Anandhita Raghunath,  Mohit Jain

   分析:该论文评估了大型语言模型在真实世界场景下的表现,特别是在多语言环境下与医疗聊天机器人的交互。论文采用统一的检索增强生成框架来生成响应,并使用自动化技术和人类评估者对响应进行特定应用的四个指标的评估。研究发现,不同模型的性能存在显著差异,针对印度语言的查询,事实正确率普遍较低。此外,数据集中的一些代码混合和文化相关查询对评估模型构成挑战。

   地址:https://arxiv.org/pdf/2410.13671


30. 基于过程挖掘的技能学习在大模型计划生成中的应用

   标题:Skill Learning Using Process Mining for Large Language Model Plan Generation

   机构:微软、丹麦技术大学

   相关领域:模型结构改进、多模态

   作者:Andrei Cosmin Redis,  Mohammadreza Fani Sani,  Bahram Zarrin

   分析:这篇论文关注大型语言模型在生成复杂任务计划时的效率与可解释性问题。通过集成过程挖掘技术,论文提出一种新型技能学习方法,包括技能获取的过程发现、技能存储的过程模型以及技能检索的合规性检查。该方法提高了文本计划的生成效率,实现了灵活的技能发现、并行执行和更好的可解释性。实验结果表明,该方法的技能检索方法在特定条件下超过了现有技术基准。

   地址:https://arxiv.org/pdf/2410.12870


31. Failing Forward:使用合成数据和检索增强改进语音识别中的生成误差校正

   标题:Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

   机构:微软、马里兰大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2410.13198


32. 激活导向改进语言模型的指令遵循

   标题:Improving Instruction-Following in Language Models through Activation Steering

   机构:微软研究院、苏黎世联邦理工学院

   相关领域:模型结构改进、预训练、指令微调

   地址:https://arxiv.org/pdf/2410.12877


33. 基于结构化Transformer的模型优化方法:Cliqueformer模型研究

   标题:Cliqueformer: Model-Based Optimization with Structured Transformers

   机构:Google

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13106


34. 稳定扩散模型的生成对抗样本

   标题:Boosting Imperceptibility of Stable Diffusion-based Adversarial Examples Generation with Momentum

   机构:Google

   地址:https://arxiv.org/pdf/2410.13122


35. 揭秘大模型中极端符号现象的机制

   标题:Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs

   机构:UC伯克利分校、Salesforce AI

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2410.13835


36. MIND:数学驱动的合成对话用于预训练大模型

   标题:MIND: Math Informed syNthetic Dialogues for Pretraining LLMs

   机构:英伟达、波士顿大学、卡内基梅隆大学

   相关领域:数据集构建、预训练

   地址:https://arxiv.org/pdf/2410.12881


37. 基于可微数据奖励的检索增强生成优化研究

   标题:RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards

   机构:东北大学、清华大学、卡内基梅隆大学

   相关领域:模型结构改进、不确定领域

   地址:https://arxiv.org/pdf/2410.13509

   代码:https://github.com/OpenMatch/RAG-DDR


38. 平衡标签数量与质量以实现可扩展的知识获取

   标题:Balancing Label Quantity and Quality for Scalable Elicitation

   机构:Eleuther AI

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.13215


39. 解码大模型中的'理论行为偏好'

   标题:SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs

   机构:华盛顿大学、斯坦福大学、艾伦AI研究所

   相关领域:模型结构改进、预训练、协议微调、奖励模型

   地址:https://arxiv.org/pdf/2410.13648


40. 生物软组织内的动态模型发现:对生长和重塑的构成机器学习

   标题:Automated Model Discovery for Tensional Homeostasis: Constitutive Machine Learning in Growth and Remodeling

   机构:斯坦福大学、亚琛工业大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13645

   代码:https://doi.org/10.5281/zenodo.13946282


41. 信心令牌学习路由

   标题:Learning to Route with Confidence Tokens

   机构:莱斯大学、Apple

   相关领域:模型评估、模型结构改进(引入信心令牌作为新的机制)

   地址:https://arxiv.org/pdf/2410.13284


42. Trust but Verify:程序化 VLM 评估在开放域

   标题:Trust but Verify: Programmatic VLM Evaluation in the Wild

   机构:Salesforce AI

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.13121

   代码:https://prove-explorer.netlify.app/


43. LLMOPT:从零开始学习定义和解决一般优化问题

   标题:LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch

   机构:南京大学、华东师范大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13213

   代码:https://github.com/caigaojiang/LLMOPT


44. VLM-Grounder:用于零样本3D视觉定位的视觉语言模型代理

   标题:VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding

   机构:浙江大学、香港中文大学、上海AI实验室

   相关领域:模型结构改进(由于使用新的视觉语言模型框架)、数据集构建(通过利用仅基于2D图像的方法)、多模态(涉及视觉和语言处理)

   地址:https://arxiv.org/pdf/2410.13860

   代码:https://github.com/OpenRobotLab/VLM-Grounder


45. ORSO:通过在线奖励选择和政策优化加速奖励设计

   标题:ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

   机构:波士顿大学、麻省理工学院、苏黎世联邦理工学院

   相关领域:奖励模型

   地址:https://arxiv.org/pdf/2410.13837


46. Router-Tuning:一种简单且有效的方法来启用Transformer的动态深度

   标题:Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers

   机构:马里兰大学、腾讯AI实验室(WA)

   相关领域:transformer

   地址:https://arxiv.org/pdf/2410.13184

   代码:https://github.com/CASE-Lab-UMD/Router-Tuning


47. 利用网页用户界面促进文本丰富的视觉理解研究

   标题:Harnessing Webpage UIs for Text-Rich Visual Understanding

   机构:北京大学、滑铁卢大学、香港中文大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13824


48. 大模型的高效推理

   标题:Progressive Mixed-Precision Decoding for Efficient LLM Inference

   机构:三星AI中心、帝国理工学院

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.13461


49. 指令驱动游戏引擎:扑克游戏案例研究

   标题:Instruction-Driven Game Engine: A Poker Case Study

   机构:腾讯

   相关领域:指令微调、模型结构改进、自然语言处理、游戏开发

   地址:https://arxiv.org/pdf/2410.13441


50. Remember, Retrieve and Generate:理解无限视觉概念作为您的个性化助理

   标题:Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

   机构:南京大学、香港中文大学

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2410.13360

   代码:https://github.com/Hoar012/RAP-MLLM


51. 知识检索与选择对检索增强生成影响的系统研究

   标题:A Systematic Investigation of Knowledge Retrieval and Selection for Retrieval Augmented Generation

   机构:德克萨斯大学、Amazon

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.13258


52. 统一3D高斯模型:用于视图一致的3D重建

   标题:UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction

   机构:IDEA、清华大学、香港科技大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13195


53.  Transformers4NewsRec: 一种基于Transformer的新闻推荐框架

   标题:Transformers4NewsRec: A Transformer-based News Recommendation Framework

   机构:东京大学、都柏林大学

   相关领域:模型结构改进、预训练、指令微调、评估指标

   地址:https://arxiv.org/pdf/2410.13125


54. Flash Inference:针对长卷积序列模型的近线性时间推理及其拓展

   标题:Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond

   机构:哈佛大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2410.12982


55. Janus:统一多模态理解和生成的视觉编码解耦研究

   标题:Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

   机构:香港大学、北京大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13848


56. D-FINE:在DETR模型中重新定义回归任务为精细分布细化

   标题:D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement

   机构:中国科学技术大学

   相关领域:模型结构改进、模型评估

   地址:https://arxiv.org/pdf/2410.13842

   代码:https://github.com/Peterande/D-FINE


57. MotionBank:基于解耦规则注解的大规模视频动作基准数据集

   标题:MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

   机构:上海交通大学、中国科学技术大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2410.13790

   代码:https://github.com/liangxuy/MotionBank


58. PopAlign:多样化对比模式以实现更全面的对齐

   标题:PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

   机构:清华大学、香港科技大学、北京航空航天大学

   相关领域:模型评估、奖励模型、RLHF

   地址:https://arxiv.org/pdf/2410.13785


59. MeNTi:通过嵌套工具调用实现医疗计算器与大模型代理的桥梁

   标题:MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling

   机构:北京大学、商汤研究院、上海交通大学

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2410.13610


60. DriveDreamer4D:世界模型在4D驾驶场景表示中的有效性

   标题:DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

   机构:北京大学、慕尼黑工业大学、中国科学院自动化研究所

   相关领域:模型结构改进、数据集构建

   地址:https://arxiv.org/pdf/2410.13571


61. Malleus:基于灵活数据模型并行化的大型模型抗拖慢混合并行训练

   标题:Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization

   机构:北京大学

   相关领域:模型结构改进、训练策略

   地址:https://arxiv.org/pdf/2410.13333


62. 中文图像含义理解的多模态大模型评估研究

   标题:Can MLLMs Understand the Deep Implication Behind Chinese Images?

   机构:华中科技大学、曼彻斯特大学、加利福尼亚大学

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2410.13854

   代码:https://cii-bench.github.io/


63. 训练后大型模型的Delta参数编辑统一视角

   标题:A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

   机构:阿里巴巴集团、中国科学院大学

   相关领域:模型结构改进、预训练、多模态

   地址:https://arxiv.org/pdf/2410.13841


64. 增强视觉能力改进多模态大模型

   标题:Improving Multi-modal Large Language Model through Boosting Vision Capabilities

   机构:南京大学、华中科技大学

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13733

   代码:https://arcana-project-page.github.io


65. 探索视频多模态大模型视觉上下文表示的设计空间

   标题:Exploring the Design Space of Visual Context Representation in Video MLLMs

   机构:中国人民大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2410.13694

   代码:https://github.com/RUCAIBox/Opt-Visor


66. 高效内存4D高斯摊平技术应用于动态场景研究

   标题:MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes

   机构:清华大学、香港科技大学、香港中文大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13613


67. 基于可控合成数据生成管道的预训练衣物更换人员重识别模型

   标题:CCUP: A Controllable Synthetic Data Generation Pipeline for Pretraining Cloth-Changing Person Re-Identification Models

   机构:北京航空航天大学

   相关领域:数据集构建、模型预训练

   地址:https://arxiv.org/pdf/2410.13567

   代码:https://github.com/yjzhao1019/CCUP


68. 大模型是否克服捷径学习?大模型中捷径挑战评估

   标题:Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models

   机构:中国科学技术大学

   相关领域:模型评估、数据集构建、评估指标

   地址:https://arxiv.org/pdf/2410.13343

   代码:https://github.com/yyhappier/ShortcutSuite.git


69. 基于大模型的研究想法创新链:以LLM代理推动研究创新

   标题:Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents

   机构:浙江大学、阿里巴巴集团、中国科学技术大学

   相关领域:模型结构改进、预训练、指令微调、模型评估

   地址:https://arxiv.org/pdf/2410.13185


70. 基于在线学习的文本生成模型选择方法

   标题:An Online Learning Approach to Prompt-based Selection of Generative Models

   机构:香港中文大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.13287


71. 原子性评估地进行大规模语言模型的大规模生成

   标题:Atomic Calibration of LLMs in Long-Form Generations

   机构:剑桥大学、复旦大学、香港中文大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13246


72. PUMA:基于多粒度视觉生成赋能统一MLLM的研究

   标题:PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

   机构:上海AI实验室

   相关领域:多模态、模型结构改进(因统一了多粒度视觉特征)

   地址:https://arxiv.org/pdf/2410.13861

   代码:https://github.com/rongyaofang/PUMA


73. MagicTailor:文本到图像扩散模型中的组件可控个性化

   标题:MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

   机构:浙江实验室、上海AI实验室

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13370


74. 医疗基础模型中结构化数据的深度学习表示学习

   标题:Representation Learning of Structured Data for Medical Foundation Models

   机构:帝国理工学院、曼彻斯特大学

   地址:https://arxiv.org/pdf/2410.13351


75. 自提升技术改进大模型的归因

   标题:Advancing Large Language Model Attribution through Self-Improving

   机构:东北大学、鹏城实验室

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.13298


76. \gamma-MoD:通过深度混合的多功能大模型的探索

   标题:\gamma-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

   机构:厦门大学、丹麦技术大学、上海AI实验室

   相关领域:模型结构改进、大模型

   地址:https://arxiv.org/pdf/2410.13859


77. 无约束模型融合增强LLM推理

   标题:Unconstrained Model Merging for Enhanced LLM Reasoning

   机构:浙江大学、香港理工大学、华南理工大学

   相关领域:模型结构改进, 预训练

   地址:https://arxiv.org/pdf/2410.13699


78. 生成式位置建模在空间感知物体插入中的应用

   标题:Generative Location Modeling for Spatially Aware Object Insertion

   机构:IDEA

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2410.13564


79. CLaMP 2:跨越101语言的多模式音乐信息检索

   标题:CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models

   相关领域:多模态、模型结构改进(预训练)

   地址:https://arxiv.org/pdf/2410.13267


80. 眼底荧光血管造影视频生成作为视网膜生成基础模型

   标题:Fundus to Fluorescein Angiography Video Generation as a Retinal Generative Foundation Model

   机构:中国科学技术大学、瑞士洛桑联邦理工学院

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13242


81. 面向多主体颅内记录的统一语调和异种语音解码研究

   标题:Towards Homogeneous Lexical Tone Decoding from Heterogeneous Intracranial Recordings

   机构:西湖大学、浙江大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.12866


82. SimLayerKV:面向层级的KV缓存减少的简单框架

   标题:SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction

   机构:新加坡管理大学、Sea AI实验室

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.13846

   代码:https://github.com/sail-sg/SimLayerKV


83. 将普通视频转化为伪标签多摄像头视频推荐数据集

   标题:Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation

   机构:伊利诺伊大学、香港城市大学

   相关领域:视图推荐

   地址:https://arxiv.org/pdf/2410.13585


84. 真实性增强增强预训练语言模型中的事实检索

   标题:Enhancing Fact Retrieval in PLMs through Truthfulness

   机构:曼海姆大学

   相关领域:预训练、模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.13562


85. 基于多任务学习的语言模型多数据集微调用于引文意图分类

   标题:Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification

   机构:加州大学、休斯顿大学

   相关领域:模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.13332


86. 多 RIS 辅助系统的物理兼容建模和尺度定律

   标题:Physics-Compliant Modeling and Scaling Laws of Multi-RIS Aided Systems

   机构:帝国理工学院

   地址:https://arxiv.org/pdf/2410.13089


87. PoROver: 改进大模型安全性并减少过度拒绝的方法

   标题:POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization

   相关领域:模型安全与对抗性攻击

   地址:https://arxiv.org/pdf/2410.12999

   代码:https://github.com/batuhankmkaraman/POROver


88. DAWN:基于非自回归扩散框架的动态框架化身用于说话人头像视频生成

   标题:DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

   相关领域:模型结构改进、多模态

   地址:https://arxiv.org/pdf/2410.13726

   代码:https://github.com/Hanbo-Cheng/DAWN-pytorch


89. MedINST:生物医学指令元数据集

   标题:MedINST: Meta Dataset of Biomedical Instructions

   机构:悉尼科技大学、埃因霍温科技大学

   相关领域:数据集构建、模型评估

   地址:https://arxiv.org/pdf/2410.13458


90. 基于注意力门控的在时间上下文中缓存清理策略用于LLMs

   标题:In-context KV-Cache Eviction for LLMs via Attention-Gate

   机构:青原研究院、上海交通大学、加利福尼亚大学

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2410.12876


91. Metacognitive Monitoring:超越生成式人工智能的人类能力

   标题:Metacognitive Monitoring: A Human Ability Beyond Generative Artificial Intelligence

   地址:https://arxiv.org/pdf/2410.13392


92. FaithBench:大模型摘要的多样化幻觉基准

   标题:FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs

   机构:南加州大学、滑铁卢大学

   地址:https://arxiv.org/pdf/2410.13210

   代码:https://github.com/vectara/FaithBench


93. 组合指令调整促进LLM多轮函数调用

   标题:Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning

   相关领域:模型功能改进、指令微调

   地址:https://arxiv.org/pdf/2410.12952


94. 稀疏数据上的REFINE:通过嵌入模型模型融合的精细调节增强检索

   标题:REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models

   相关领域:预训练

   地址:https://arxiv.org/pdf/2410.12890


95. BenTo:以任务间转换评估大规模语言模型的评估优化

   标题:BenTo: Benchmark Task Reduction with In-Context Transferability

   机构:马里兰大学、利哈伊大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.13804


96. Breaking Chains:揭示多跳知识遗忘的细节

   标题:Breaking Chains: Unraveling the Links in Multi-Hop Knowledge Unlearning

   机构:KAIST AI

   相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

   地址:https://arxiv.org/pdf/2410.13274


97. From Babbling to Fluency:从人类语言学习的角度评估语言模型的进化

   标题:From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition

   机构:莱斯大学

   相关领域:模型结构改进、预训练、模型评估、数据集构建

   地址:https://arxiv.org/pdf/2410.13259


98. Codellm-Devkit框架:利用程序分析洞察来语境化代码大模型

   标题:Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights

   相关领域:模型结构改进、预训练、模型应用

   地址:https://arxiv.org/pdf/2410.13007

   代码:https://github.com/IBM/codellm-devkit


99. "Let's Argue Both Sides":论证可以促使小型模型利用以前无法访问的推理能力

   标题:"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities

   机构:塔夫茨大学

   相关领域:模型评估、多模态

   地址:https://arxiv.org/pdf/2410.12997


100. Adversarial Testing as a Tool for Interpretability:Transformer中的基于长度的过拟合研究

   标题:Adversarial Testing as a Tool for Interpretability: Length-based Overfitting of Elementary Functions in Transformers

   机构:查尔斯大学

   相关领域:模型评估

   地址:https://arxiv.org/pdf/2410.13802


101. Diffusion Curriculum:通过图像引导的扩散进行从合成到真实的生成式课程学习

    标题:Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

    相关领域:模型结构改进、预训练、指令微调、数据集构建

    地址:https://arxiv.org/pdf/2410.13674


102. Repetition Neurons:语言模型如何产生重复?

    标题:Repetition Neurons: How Do Language Models Produce Repetitions?

    机构:MBZUAI大学

    相关领域:模型结构改进、预训练、指令微调、奖励模型

    地址:https://arxiv.org/pdf/2410.13497


103. 进化通用Transform记忆

    标题:An Evolved Universal Transformer Memory

    相关领域:模型结构改进、预训练、注意力机制

    地址:https://arxiv.org/pdf/2410.13166


104. 评估语言模型的指令跟随能力 using Knowledge Tasks

    标题:Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks

    相关领域:模型评估、指令微调、语言模型

    地址:https://arxiv.org/pdf/2410.12972


105. 摘要指导解码减少大视觉语言模型的幻觉

    标题:Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2410.13321


106. 大模型的通道级混合精度量化

    标题:Channel-Wise Mixed-Precision Quantization for Large Language Models

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2410.13056


107. Flex:基于基础模型的全端文本指令视觉导航

    标题:Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models

    相关领域:预训练、多模态

    地址:https://arxiv.org/pdf/2410.13002


108. 探究大模型中的隐式偏见:对50多个大模型的大规模研究

    标题:Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs

    相关领域:模型评估

    地址:https://arxiv.org/pdf/2410.12864


109. VidPanos: 从随意的转盘视频生成生成全景视频

    标题:VidPanos: Generative Panoramic Videos from Casual Panning Videos

    相关领域:模型结构改进

    地址:https://arxiv.org/pdf/2410.13832


110. 精简Transformer架构的研究

    标题:Reducing the Transformer Architecture to a Minimum

    相关领域:模型结构改进

    地址:https://arxiv.org/pdf/2410.13732


111. 不完整LDL中的性能提升:解决数据不平衡问题

    标题:Towards Better Performance in Incomplete LDL: Addressing Data Imbalance

    相关领域:模型评估、数据集构建

    地址:https://arxiv.org/pdf/2410.13579


112. 语言模型中词汇处理的实证研究

    标题:Linguistically Grounded Analysis of Language Models using Shapley Head Values

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2410.13396


113. Quamba:针对选择性状态空间模型的后训练量化方法

    标题:Quamba: A Post-Training Quantization Recipe for Selective State Space Models

    相关领域:模型结构改进、模型蒸馏

    地址:https://arxiv.org/pdf/2410.13229


114. 大规模数据限制和大尺度扩展定律对tSNE

    标题:Large data limits and scaling laws for tSNE

    相关领域:模型结构改进、预训练、指令微调、奖励模型

    地址:https://arxiv.org/pdf/2410.13063


115. Help Me Identify:仅凭LLM+VQA系统,我们就能识别视觉概念吗?

    标题:Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?

    相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

    地址:https://arxiv.org/pdf/2410.13651


116. Limits to scalable evaluation at the frontier:LLM作为法官无法超越两倍数据量

    标题:Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data

    相关领域:模型评估

    地址:https://arxiv.org/pdf/2410.13341


117. 标签不一致消除和学习模式精炼增强数据集蒸馏

    标题:Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement

    相关领域:模型蒸馏、数据集构建

    地址:https://arxiv.org/pdf/2410.13311


118. LFOSum: 使用大模型总结长篇评论

    标题:LFOSum: Summarizing Long-form Opinions with Large Language Models

    相关领域:模型评估、数据集构建

    地址:https://arxiv.org/pdf/2410.13037


119. 精确的模糊边缘检测

    标题:Accurate Checkerboard Corner Detection under Defoucs

    地址:https://arxiv.org/pdf/2410.13371


好啦,小编今天的分享就到这里啦,欢迎留言讨论哦。

AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
 最新文章