在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
【导读】2024是大模型发展迅速的一年。围绕大模型和生成式AI、智能体等研究,新成果每天都在出现,GPT-4o、o1、Sora等。在此,专知小编整理这一年这些研究热点主题的综述进展,共十篇,了解当下,方能向前。祝大家2025新年快乐!
摘要: 多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究,我们将“智能体AI”定义为一类交互系统,它们能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生具有无限智能体的有意义的具身行动。特别是,我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为,通过在基于环境的环境中开发具有代理性的AI系统,也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。除了在物理世界中行动和互动的智能体,我们设想一个未来,人们可以轻松地创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的智能体互动。
网址:
https://www.zhuanzhi.ai/vip/f231792c55f7edc5d7cb81ea69d94dcf
摘要:
o1模型系列通过大规模强化学习进行训练,使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时,对我们的安全策略进行推理。这导致了在某些风险基准上的最先进性能,如生成非法建议、选择刻板反应和屈服于已知的越狱。训练模型在回答问题前整合一系列思维,有可能带来实质性的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调,需要建立稳健的校准方法,对其有效性进行广泛的压力测试,并维护细致的风险管理协议。本报告概述了OpenAIo1预览版和OpenAIo1迷你版模型的安全工作,包括安全评估、外部红队和准备框架评估。
网址:
https://www.zhuanzhi.ai/vip/cb791b5e18f4fb3e16a9526f97eb6527
大型AI模型(LAIMs),尤其是扩散模型和大型语言模型的迅速发展,标志着一个新时代的到来,其中AI生成的多媒体内容越来越多地融入到日常生活的各个方面。尽管在许多领域都具有益处,但这种内容也带来了重大风险,包括潜在的滥用、社会干扰和伦理关切。因此,检测LAIM生成的多媒体内容变得至关重要,相关研究也大幅增加。尽管如此,仍然存在一个明显的系统调查领域的空白,专门关注检测LAIM生成的多媒体内容。为了解决这一问题,我们提供了第一个全面涵盖现有研究的调查,重点关注检测LAIM生成的多媒体内容(如文本、图像、视频、音频和多模态内容)。具体而言,我们引入了一种新颖的检测方法分类法,按媒体模态进行分类,并与两个视角相一致:纯检测(旨在提高检测性能)和超越检测(为检测器添加可泛化性、鲁棒性和可解释性等属性)。此外,我们还简要介绍了生成机制、公共数据集和在线检测工具,为该领域的研究人员和实践者提供了宝贵的资源。此外,我们还识别了检测中的当前挑战,并提出了未开发、正在进行和新兴问题的未来研究方向。我们的目标是填补学术空白,为全球AI安全工作做出贡献,帮助确保数字领域信息的完整性。项目链接为https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey。
https://www.zhuanzhi.ai/vip/769f2c5d0cad1ac25df14ea2c799f6d7
2022年底,ChatGPT 震撼上线,大语言模型技术迅速“席卷”了整个社会,人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的思考焦点。必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段,每一步的发展都凝结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者,OpenAI公司在过去深入探索了与其相关的大量技术细节,并最终推出了GPT系列模型,引领了本次技术变革。
然而,OpenAI 团队自GPT-3开始,就很少在公开的材料中提及相关技术细节,很多技术报告主要是介绍评测相关的内容。到目前为止,关于GPT系列模型的核心技术仍然难以完全解密。目前,学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的团队少之又少,因此导致了第一手经验匮乏,难以直接开展相关研究。大模型训练涉及众多训练的细节,这些细节很多时候无法从已有科研论文中直接获取。由于其参数众多、组件复杂、训练过程也比较复杂,早期的实验探索如果不引入任何先验知识,可能会导致指数级增长的实验数量。这使得掌握大模型技术的经验变得尤为困难,更不用说从零开始探索相关科研问题,极大限制了学术界在此次人工浪潮中所起到的作用。目前,能力较强的大语言模型基本都源自工业界,这一趋势随着时间的推移可能会变得更加明显。从第一手经验中“Know-How”,对于科研人员来说非常重要,只有接触到技术核心,才能真正理解哪些问题是有意义的,并找到解决方案。
令人欣喜的是,无论是在学术界还是工业界,人们都逐渐认识到了“开放”的重要性,能够看到越来越多的公开的基础模型、技术代码以及学术论文,有力地推动了大模型技术的“透明化”。只有通过开放和共享,才能汇聚全人类的智慧,共同推进人工智能技术的发展。实际上,根据现有公开的资料,大模型技术也是“有章可循”的,如整体训练流程、数据清洗方法、指令微调技术、人类偏好对齐算法等。根据这些技术,在算力资源支持下,研发人员已经能够较为顺利地完成大模型的整体训练流程,并取得不错的模型效果。随着更多核心技术的揭示和开放,大模型技术的“透明化”将进一步提高。
总之,大模型技术正处于快速发展阶段,基础原理亟待探索、关键技术亟待改善。对于科研人员而言,大模型研究工作充满了想象空间,令人为之神往。随着技术的不断进步与共享开放,我们有理由相信,未来人工智能技术将取得更大的进展,将在更多领域带来更为深远的影响。本书旨在为读者提供关于大模型技术的全面了解,包括其基础原理、关键技术和应用前景。通过深入研究和实践,我们可以不断探索和改进大模型技术,为人工智能领域的发展做出贡献。我们希望读者通过阅读本书,能够深入了解大模型技术的现状和未来趋势,为自己的研究和实践提供指导和启发。让我们携手努力,共同推动人工智能技术的发展,为建立更智能、更可持续的未来做出贡献。
https://llmbook-zh.github.io/
https://www.zhuanzhi.ai/vip/20dd864481ddb7efb9ed91bdbe01bfa7
推理,作为复杂问题解决的关键能力,在各种现实世界场景中扮演着核心角色,如谈判、医学诊断和刑事侦查。它是人工通用智能(AGI)领域的一种基本方法。随着基础模型的持续发展,例如大型语言模型(LLMs),人们越来越感兴趣于探索它们在推理任务中的能力。在这篇论文中,我们介绍了为推理提出或适应的开创性基础模型,突出了在各种推理任务、方法和基准测试方面的最新进展。接着,我们深入探讨了基础模型中推理能力出现的潜在未来方向。我们还讨论了多模态学习、自主代理和超级对齐在推理背景下的相关性。通过讨论这些未来的研究方向,我们希望激发研究人员在这一领域的探索,促进基础模型推理的进一步发展,并为人工通用智能的发展做出贡献。
https://www.zhuanzhi.ai/paper/c0a69ae6c7f010b4afa6573f11a55014
尽管人工智能已经取得了令人瞩目的成就,但其正向通用人工智能的道路上前进。由OpenAI开发的Sora具备分钟级的世界模拟能力,可被视为这一发展路径上的一个里程碑。然而,尽管取得了显著成功,Sora仍然面临着需要解决的各种障碍。在本综述中,我们从Sora在文本生成视频方面的视角出发,进行文献的全面回顾,试图回答一个问题:我们能从Sora中看到什么。具体来说,在介绍了基本的通用算法之后,我们从三个相互垂直的维度对文献进行了分类:进化生成器、卓越追求和现实全景。随后,对广泛使用的数据集和评估指标进行了详细整理。最后但同样重要的是,我们识别了该领域的若干挑战和开放性问题,并提出了未来研究和发展的潜在方向。本综述中的文本生成视频研究的完整列表可在以下链接找到:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation
https://www.zhuanzhi.ai/vip/231b63028411cdc8557a03906c55c7c6
大型语言模型(LLMs)在从自然语言处理到计算机视觉等多个领域取得了前所未有的进展。LLMs 的强大性能得益于其庞大的模型规模、广泛而多样化的数据集,以及训练过程中所使用的巨量计算能力,这些因素共同促成了LLMs中小型模型所不具备的涌现能力(如上下文学习)。在此背景下,专家混合(MoE)作为一种有效的方法,通过最小的计算开销大幅扩展模型容量,受到学术界和工业界的广泛关注。尽管其应用日益广泛,但关于MoE的文献缺乏系统和全面的综述。本调查旨在弥补这一空白,为深入研究MoE的研究人员提供一项重要资源。我们首先简要介绍了MoE层的结构,并提出了一个新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,同时收集了可用的开源实现、超参数配置和实证评估。此外,我们还阐述了MoE在实际中的多方面应用,并概述了一些潜在的未来研究方向。为促进MoE研究领域的持续更新和前沿成果的分享,我们建立了一个资源库,可通过以下地址访问:https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts。
https://www.zhuanzhi.ai/vip/4dbc1b1689a8f46ebb88329d4800e80b
2024年11月29日,在大模型产业创新发展大会上,中国信息通信研究院发布《人工智能发展报告(2024年)》。中国信通院人工智能研究所所长魏凯从总体态势、技术创新、应用赋能、安全治理以及发展展望等方面对报告进行了解读。
报告立足产业新发展、新变化、新需求,聚焦新形势下全球人工智能发展重点,总结梳理人工智能技术创新方向、产业升级重点、行业落地趋势和安全治理进展,展望人工智能发展机遇,以期与业界分享,共同推动人工智能产业蓬勃发展。
https://www.zhuanzhi.ai/vip/7ba3c86a7965d005068cc1abd96397d7
大型语言模型(LLMs)在广泛的任务范围内展现了显著的能力。它们引起了大量的关注,并已被部署在众多下游应用中。然而,如同一把双刃剑,LLMs也带来了潜在的风险。它们可能面临私人数据泄露的风险,或产生不适当、有害或误导性的内容。此外,LLMs的快速进步也引发了关于在没有充分保障的情况下可能出现的超智能系统的担忧。为了有效地利用LLMs的能力并确保它们的安全和有益的发展,对LLMs进行严格和全面的评估至关重要。这项综述旨在为LLMs的评估提供一个全景式的视角。我们将LLMs的评估分为三大类:知识和能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准的全面调研外,我们还汇编了一个关于LLMs在专业领域性能的评估手册,并讨论了建立综合评估平台的构建,该平台涵盖了LLMs在能力、对齐、安全和适用性上的评估。我们希望这个全面的概述能够进一步激发对LLMs评估的研究兴趣,最终目标是使评估成为指导LLMs负责任发展的基石。我们设想,这将引导它们的发展朝着最大化社会利益同时最小化潜在风险的方向。与此相关的论文列表已在GitHub仓库上公开。
https://www.zhuanzhi.ai/paper/b143a1ff6320a27ce51c8629256bb347
https://www.zhuanzhi.ai/vip/e70bca73edee5767f951215d1d3eb374
多模态人工智能(Multimodal AI)通常涉及多种类型的数据(例如图像、文本或来自不同传感器的数据)、特征工程(例如特征提取、组合/融合)以及决策过程(例如多数投票)。随着架构变得越来越复杂,多模态神经网络可以将特征提取、特征融合和决策过程整合到一个单一的模型中。这些过程之间的界限日益模糊。基于融合在何处发生的传统多模态数据融合分类(例如早期/后期融合)已经不再适用于现代深度学习时代。因此,基于当前主流技术,我们提出了一种新的细粒度分类,将当前的前沿(SOTA)模型分为五类:编码器-解码器方法、注意力机制方法、图神经网络方法、生成式神经网络方法,以及其他基于约束的方法。现有的大多数多模态数据融合综述仅关注特定任务和特定模态组合,而不同于这些综述的是,本综述涵盖了更广泛的模态组合,包括视觉+语言(例如视频、文本)、视觉+传感器(例如图像、LiDAR)等,以及它们对应的任务(例如视频描述、目标检测)。此外,我们还提供了这些方法之间的比较,以及该领域的挑战和未来发展方向。
https://dl.acm.org/doi/10.1145/3649447
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!