【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

科技 2025-01-03 18:05 北京

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

【导读】2024是大模型发展迅速的一年。围绕大模型和生成式AI、智能体等研究，新成果每天都在出现，GPT-4o、o1、Sora等。在此，专知小编整理这一年这些研究热点主题的综述进展，共十篇，了解当下，方能向前。祝大家2025新年快乐！

1、多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

摘要：多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前，系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据，这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如，一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究，我们将“智能体AI”定义为一类交互系统，它们能够感知视觉刺激、语言输入和其他基于环境的数据，并能产生具有无限智能体的有意义的具身行动。特别是，我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为，通过在基于环境的环境中开发具有代理性的AI系统，也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。除了在物理世界中行动和互动的智能体，我们设想一个未来，人们可以轻松地创建任何虚拟现实或模拟场景，并与嵌入虚拟环境中的智能体互动。

网址：

https://www.zhuanzhi.ai/vip/f231792c55f7edc5d7cb81ea69d94dcf

2、《OpenAI o1大模型》中英文技术报告，44页pdf

摘要：

o1模型系列通过大规模强化学习进行训练，使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是，我们的模型可以在响应可能不安全的提示时，对我们的安全策略进行推理。这导致了在某些风险基准上的最先进性能，如生成非法建议、选择刻板反应和屈服于已知的越狱。训练模型在回答问题前整合一系列思维，有可能带来实质性的好处，同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调，需要建立稳健的校准方法，对其有效性进行广泛的压力测试，并维护细致的风险管理协议。本报告概述了OpenAIo1预览版和OpenAIo1迷你版模型的安全工作，包括安全评估、外部红队和准备框架评估。

网址：

https://www.zhuanzhi.ai/vip/cb791b5e18f4fb3e16a9526f97eb6527

3、如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

大型AI模型（LAIMs），尤其是扩散模型和大型语言模型的迅速发展，标志着一个新时代的到来，其中AI生成的多媒体内容越来越多地融入到日常生活的各个方面。尽管在许多领域都具有益处，但这种内容也带来了重大风险，包括潜在的滥用、社会干扰和伦理关切。因此，检测LAIM生成的多媒体内容变得至关重要，相关研究也大幅增加。尽管如此，仍然存在一个明显的系统调查领域的空白，专门关注检测LAIM生成的多媒体内容。为了解决这一问题，我们提供了第一个全面涵盖现有研究的调查，重点关注检测LAIM生成的多媒体内容（如文本、图像、视频、音频和多模态内容）。具体而言，我们引入了一种新颖的检测方法分类法，按媒体模态进行分类，并与两个视角相一致：纯检测（旨在提高检测性能）和超越检测（为检测器添加可泛化性、鲁棒性和可解释性等属性）。此外，我们还简要介绍了生成机制、公共数据集和在线检测工具，为该领域的研究人员和实践者提供了宝贵的资源。此外，我们还识别了检测中的当前挑战，并提出了未开发、正在进行和新兴问题的未来研究方向。我们的目标是填补学术空白，为全球AI安全工作做出贡献，帮助确保数字领域信息的完整性。项目链接为https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey。

https://www.zhuanzhi.ai/vip/769f2c5d0cad1ac25df14ea2c799f6d7

4、重磅！《大语言模型》新书出炉，人大出版，391页pdf

2022年底，ChatGPT 震撼上线，大语言模型技术迅速“席卷”了整个社会，人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能，我们不禁要问：支撑这些模型的背后技术究竟是什么？这一问题无疑成为了众多科研人员的思考焦点。必须指出的是，大模型技术并不是一蹴而就，其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段，每一步的发展都凝结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者，OpenAI公司在过去深入探索了与其相关的大量技术细节，并最终推出了GPT系列模型，引领了本次技术变革。

然而，OpenAI 团队自GPT-3开始，就很少在公开的材料中提及相关技术细节，很多技术报告主要是介绍评测相关的内容。到目前为止，关于GPT系列模型的核心技术仍然难以完全解密。目前，学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的团队少之又少，因此导致了第一手经验匮乏，难以直接开展相关研究。大模型训练涉及众多训练的细节，这些细节很多时候无法从已有科研论文中直接获取。由于其参数众多、组件复杂、训练过程也比较复杂，早期的实验探索如果不引入任何先验知识，可能会导致指数级增长的实验数量。这使得掌握大模型技术的经验变得尤为困难，更不用说从零开始探索相关科研问题，极大限制了学术界在此次人工浪潮中所起到的作用。目前，能力较强的大语言模型基本都源自工业界，这一趋势随着时间的推移可能会变得更加明显。从第一手经验中“Know-How”，对于科研人员来说非常重要，只有接触到技术核心，才能真正理解哪些问题是有意义的，并找到解决方案。

令人欣喜的是，无论是在学术界还是工业界，人们都逐渐认识到了“开放”的重要性，能够看到越来越多的公开的基础模型、技术代码以及学术论文，有力地推动了大模型技术的“透明化”。只有通过开放和共享，才能汇聚全人类的智慧，共同推进人工智能技术的发展。实际上，根据现有公开的资料，大模型技术也是“有章可循”的，如整体训练流程、数据清洗方法、指令微调技术、人类偏好对齐算法等。根据这些技术，在算力资源支持下，研发人员已经能够较为顺利地完成大模型的整体训练流程，并取得不错的模型效果。随着更多核心技术的揭示和开放，大模型技术的“透明化”将进一步提高。

总之，大模型技术正处于快速发展阶段，基础原理亟待探索、关键技术亟待改善。对于科研人员而言，大模型研究工作充满了想象空间，令人为之神往。随着技术的不断进步与共享开放，我们有理由相信，未来人工智能技术将取得更大的进展，将在更多领域带来更为深远的影响。本书旨在为读者提供关于大模型技术的全面了解，包括其基础原理、关键技术和应用前景。通过深入研究和实践，我们可以不断探索和改进大模型技术，为人工智能领域的发展做出贡献。我们希望读者通过阅读本书，能够深入了解大模型技术的现状和未来趋势，为自己的研究和实践提供指导和启发。让我们携手努力，共同推动人工智能技术的发展，为建立更智能、更可持续的未来做出贡献。

https://llmbook-zh.github.io/

https://www.zhuanzhi.ai/vip/20dd864481ddb7efb9ed91bdbe01bfa7

5、181页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

本文着手探讨了大型语言模型（LLM）数据集，这些数据集在LLM的显著进步中扮演了关键角色。这些数据集作为类似根系的基础设施，支持并促进了LLM的发展。因此，对这些数据集的审查成为研究中的一个关键话题。为了解决当前对LLM数据集的全面概述和彻底分析的缺乏，以及获得对它们当前状态和未来趋势的洞见，这篇综述整合并分类了LLM数据集的基本方面，从五个视角出发：（1）预训练语料库；（2）指令微调数据集；（3）偏好数据集；（4）评估数据集；（5）传统自然语言处理（NLP）数据集。该综述揭示了当前面临的挑战，并指出了未来调查的潜在途径。此外，还提供了现有可用数据集资源的全面回顾，包括来自444个数据集的统计数据，涵盖8种语言类别和32个领域。数据集统计信息中纳入了来自20个维度的信息。调查的总数据大小超过了774.5TB的预训练语料库和700M实例的其他数据集。我们旨在呈现LLM文本数据集的整个景观，作为该领域研究者的全面参考，并为未来的研究做出贡献。相关资源可在以下地址找到：https://github.com/lmmlzn/Awesome-LLMs-Datasets。

https://www.zhuanzhi.ai/vip/769f2c5d0cad1ac25df14ea2c799f6d7

6、161页《大模型推理》最新综述，涵盖650多篇大模型论文

推理，作为复杂问题解决的关键能力，在各种现实世界场景中扮演着核心角色，如谈判、医学诊断和刑事侦查。它是人工通用智能（AGI）领域的一种基本方法。随着基础模型的持续发展，例如大型语言模型（LLMs），人们越来越感兴趣于探索它们在推理任务中的能力。在这篇论文中，我们介绍了为推理提出或适应的开创性基础模型，突出了在各种推理任务、方法和基准测试方面的最新进展。接着，我们深入探讨了基础模型中推理能力出现的潜在未来方向。我们还讨论了多模态学习、自主代理和超级对齐在推理背景下的相关性。通过讨论这些未来的研究方向，我们希望激发研究人员在这一领域的探索，促进基础模型推理的进一步发展，并为人工通用智能的发展做出贡献。

https://www.zhuanzhi.ai/paper/c0a69ae6c7f010b4afa6573f11a55014

7、从Sora中我们能看到什么：文本生成视频的综述

尽管人工智能已经取得了令人瞩目的成就，但其正向通用人工智能的道路上前进。由OpenAI开发的Sora具备分钟级的世界模拟能力，可被视为这一发展路径上的一个里程碑。然而，尽管取得了显著成功，Sora仍然面临着需要解决的各种障碍。在本综述中，我们从Sora在文本生成视频方面的视角出发，进行文献的全面回顾，试图回答一个问题：我们能从Sora中看到什么。具体来说，在介绍了基本的通用算法之后，我们从三个相互垂直的维度对文献进行了分类：进化生成器、卓越追求和现实全景。随后，对广泛使用的数据集和评估指标进行了详细整理。最后但同样重要的是，我们识别了该领域的若干挑战和开放性问题，并提出了未来研究和发展的潜在方向。本综述中的文本生成视频研究的完整列表可在以下链接找到：https://github.com/soraw-ai/Awesome-Text-to-Video-Generation

https://www.zhuanzhi.ai/vip/231b63028411cdc8557a03906c55c7c6

8、算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

大型语言模型（LLMs）在从自然语言处理到计算机视觉等多个领域取得了前所未有的进展。LLMs 的强大性能得益于其庞大的模型规模、广泛而多样化的数据集，以及训练过程中所使用的巨量计算能力，这些因素共同促成了LLMs中小型模型所不具备的涌现能力（如上下文学习）。在此背景下，专家混合（MoE）作为一种有效的方法，通过最小的计算开销大幅扩展模型容量，受到学术界和工业界的广泛关注。尽管其应用日益广泛，但关于MoE的文献缺乏系统和全面的综述。本调查旨在弥补这一空白，为深入研究MoE的研究人员提供一项重要资源。我们首先简要介绍了MoE层的结构，并提出了一个新的MoE分类法。接下来，我们概述了各种MoE模型的核心设计，包括算法和系统方面，同时收集了可用的开源实现、超参数配置和实证评估。此外，我们还阐述了MoE在实际中的多方面应用，并概述了一些潜在的未来研究方向。为促进MoE研究领域的持续更新和前沿成果的分享，我们建立了一个资源库，可通过以下地址访问：https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts。

https://www.zhuanzhi.ai/vip/4dbc1b1689a8f46ebb88329d4800e80b

9、《人工智能发展报告（2024年）》发布，64页pdf

2024年11月29日，在大模型产业创新发展大会上，中国信息通信研究院发布《人工智能发展报告（2024年）》。中国信通院人工智能研究所所长魏凯从总体态势、技术创新、应用赋能、安全治理以及发展展望等方面对报告进行了解读。

报告立足产业新发展、新变化、新需求，聚焦新形势下全球人工智能发展重点，总结梳理人工智能技术创新方向、产业升级重点、行业落地趋势和安全治理进展，展望人工智能发展机遇，以期与业界分享，共同推动人工智能产业蓬勃发展。

https://www.zhuanzhi.ai/vip/7ba3c86a7965d005068cc1abd96397d7

10、天大最新《大型语言模型评估》全面综述，111页pdf

大型语言模型（LLMs）在广泛的任务范围内展现了显著的能力。它们引起了大量的关注，并已被部署在众多下游应用中。然而，如同一把双刃剑，LLMs也带来了潜在的风险。它们可能面临私人数据泄露的风险，或产生不适当、有害或误导性的内容。此外，LLMs的快速进步也引发了关于在没有充分保障的情况下可能出现的超智能系统的担忧。为了有效地利用LLMs的能力并确保它们的安全和有益的发展，对LLMs进行严格和全面的评估至关重要。这项综述旨在为LLMs的评估提供一个全景式的视角。我们将LLMs的评估分为三大类：知识和能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准的全面调研外，我们还汇编了一个关于LLMs在专业领域性能的评估手册，并讨论了建立综合评估平台的构建，该平台涵盖了LLMs在能力、对齐、安全和适用性上的评估。我们希望这个全面的概述能够进一步激发对LLMs评估的研究兴趣，最终目标是使评估成为指导LLMs负责任发展的基石。我们设想，这将引导它们的发展朝着最大化社会利益同时最小化潜在风险的方向。与此相关的论文列表已在GitHub仓库上公开。

https://www.zhuanzhi.ai/paper/b143a1ff6320a27ce51c8629256bb347

11、《世界模型》最新综述

世界模型的概念因多模态大型语言模型（如GPT-4）和视频生成模型（如Sora）的进展而受到了广泛关注，这些技术在追求通用人工智能的过程中具有核心地位。本综述提供了关于世界模型文献的全面回顾。一般来说，世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型，重点讨论了两个主要功能：（1）构建内部表征以理解世界的机制；（2）预测未来状态以模拟和指导决策。首先，我们回顾了这两个类别的当前进展。接着，我们探讨了世界模型在关键领域中的应用，包括自动驾驶、机器人技术和社会模拟，重点分析每个领域如何利用这些功能。最后，我们概述了关键挑战，并提供了未来研究方向的见解。

https://www.zhuanzhi.ai/vip/e70bca73edee5767f951215d1d3eb374

12、《深度多模态数据融合》综述

多模态人工智能（Multimodal AI）通常涉及多种类型的数据（例如图像、文本或来自不同传感器的数据）、特征工程（例如特征提取、组合/融合）以及决策过程（例如多数投票）。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程整合到一个单一的模型中。这些过程之间的界限日益模糊。基于融合在何处发生的传统多模态数据融合分类（例如早期/后期融合）已经不再适用于现代深度学习时代。因此，基于当前主流技术，我们提出了一种新的细粒度分类，将当前的前沿（SOTA）模型分为五类：编码器-解码器方法、注意力机制方法、图神经网络方法、生成式神经网络方法，以及其他基于约束的方法。现有的大多数多模态数据融合综述仅关注特定任务和特定模态组合，而不同于这些综述的是，本综述涵盖了更广泛的模态组合，包括视觉+语言（例如视频、文本）、视觉+传感器（例如图像、LiDAR）等，以及它们对应的任务（例如视频描述、目标检测）。此外，我们还提供了这些方法之间的比较，以及该领域的挑战和未来发展方向。

https://dl.acm.org/doi/10.1145/3649447

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

【他山之石】Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】深度学习工作：从追求 SoTA 到揭示新现象

【源头活水】华人学子闪耀NeurIPS顶会，背后最大赢家竟是它

【源头活水】我在 NeurIPS’24 上感受到了焦虑和挫败

【他山之石】MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

【他山之石】复旦&微软提出StableAnimator: 首个端到端的高质量ID一致性人类视频生成新框架！

【源头活水】刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

【他山之石】全面超越CoT！Meta田渊栋团队新作：连续思维链

【综述专栏】低空经济万字综述｜基于深度学习的无人机检测和识别研究

【他山之石】统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

Scaling laws在视觉自回归模型上失效了？谷歌联合MIT发布Fluid：文生图质量刷新纪录！

【他山之石】谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

【他山之石】历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

【源头活水】Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

【他山之石】大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

【源头活水】北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

【源头活水】Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

【他山之石】LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law

【他山之石】田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

【源头活水】工业界主流大语言模型后训练(Post-Training)技术总结

【他山之石】AAAI2025｜只根据题目和摘要就能预测论文影响力？！

【源头活水】白话版Scaling Laws for Precision 解读

【他山之石】NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，Bengio同OpenAI员工吵架，何恺明谈AI宿命论

【源头活水】Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

【他山之石】超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

【他山之石】NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，Ilya连续三年获奖

【源头活水】2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【综述专栏】2024-&gt;2025必看的十大「人工智能领域综述」论文

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文