2025年的召唤我们正站在一个新时代的门槛:在这个时代,AI 系统将具备惊人的能力,能够推理世界、理解我们的愿望,并付诸行动实现它们。我们该如何运用这些力量?据此,深度学习的大佬吴恩达老师邀请了多位AI领域的领军人物——包括编程、艺术、AI公司创始人、治理部门负责人,分享他们对新一年的展望和期待。正如往年的新年特刊一样,他们的回答展现了令人振奋的愿景,展望了我们可能创造的成果和带来的积极影响。以下为原文。亲爱的朋友们,周三好:尽管我从青少年时期就开始投身 AI 领域,但如今我对 AI 的潜力比以往任何时候都更加振奋,特别是在应用开发方面。我们的领域正焕发出耀眼的火花,2025年必将是一个激动人心的创造之年!AI 带来的诸多突破中,软件原型开发的便捷性尤其引人注目。AI 不仅降低了软件开发成本,还大大拓展了应用的可能性。虽然 AI 在扩展和维护大型软件系统方面很有帮助,但它在快速构建原型和简单应用方面的表现更为出色。比如说,如果你想开发一个为孩子打印练习卡片的应用(我最近就在 o1 的协助下花了几个小时完成了这项工作),或者编写一个监控外汇汇率来管理国际银行账户的程序(这是 DeepLearning.AI 财务团队的真实案例),又或者开发一个自动分析用户评论、快速发现产品问题的工具(DeepLearning.AI 的内容团队正在使用),现在借助 AI 辅助编程,这些应用都能快速实现。我发现 AI 辅助编程在原型开发方面特别高效,主要有两个原因:第一,独立原型所需的环境适配和系统整合相对简单;第二,处于初期测试阶段的原型对可靠性要求不高。虽然生成式 AI 在开发大型关键系统方面也很有帮助,但在这类项目中效率提升并不那么显著。这是因为要让 AI 系统充分理解庞大的代码库环境颇具挑战性,同时还要确保生成的代码足够可靠(比如要考虑各种边界情况)。之前,将原型交付给用户时最棘手的问题是部署。现在像 Bolt、Replit Agent、Vercel V0 这样的平台,通过将生成式 AI 与智能工作流程相结合,不仅提升了代码质量,更重要的是,它们还能直接协助部署生成的应用。(这些系统确实很实用,不过我个人的工作流程通常是:先用 LLM 设计系统架构,然后逐个模块生成代码(如果有多个大型模块的话)。接着测试每个模块,需要时进行修改——有时会使用 Cursor 这样的 AI 集成开发环境——最后将各个模块组装起来。)快速构建原型不仅是验证想法、完成任务的有效方式,也是绝佳的学习途径。更重要的是,这个过程充满乐趣!(至少我觉得很有趣😄) 在新的一年里,你要如何把握这些机遇呢?在制定新年计划时,我建议你:制定学习计划!要成为出色的开发者,我们都需要紧跟这个快速发展的领域。想想看,2025年你每月打算学习几门短课程?不妨和朋友分享你的学习计划,这样可以互相督促。比如,我们最近上线了一个学习总结页面,展示大家学习的课程情况。DeepLearning.AI 团队的几位成员已经约定要来场友好的竞赛,看看谁能在2025年学习更多课程!动手去做!如果你已经掌握编程技能,我建议你在灵感迸发、时间允许的时候就尝试开发原型。如果你还不会编程,现在正是学习的好时机!即使是小小的成功——就像我制作的练习卡片,让我女儿昨晚多花了20分钟练习乘法表——也能让生活变得更美好。说不定你会开发出真正有影响力的作品。即便没有,这个过程也会带给你快乐,让你收获良多。新年快乐!Andrew附:我主要使用 Python 开发。不过如果你喜欢 JavaScript,那就:Happy Array.from({ length: 10 }, (_, i) => i ** 3).reduce((a, b) => a + b, 0)![译注:这段代码计算了0到9的立方和] Hanno Basse:为艺术家服务的生成式 AIStability AI 致力于让各领域的艺术家从繁琐的机械性工作中解放出来,让他们能够将更多时间投入到创作中。因此,我们对2025年最大的期待,就是生成式 AI 能够帮助人们释放创造力,提升工作效率。此外,我希望 AI 社区能够重点关注以下几个方面:安全与诚信:在产品开发的最初阶段就将诚信理念融入其中,确保技术被合理使用,真正为叙事艺术做出贡献,从而打造安全可靠的产品。普惠性:生成式 AI 的产品和工具应当让更广泛的用户群体都能便捷使用。目前,生成式 AI 的使用门槛仍然较高,主要局限于工程师等具备专业技术知识的群体。为了改变这种状况,我们需要在基础模型之上开发更优质的工具,让不同背景的用户都能从中受益。个性化:展望未来,生成式 AI 将走向更专业化的发展道路。除了大型基础模型外,我们预计会涌现出大量经过微调的小型模型,它们将专注于特定甚至是非常细分的应用场景,有些可能只针对单一任务进行优化。这正是生成式 AI 真正潜力的所在。同时,这也是在现实世界中部署生成式 AI 最安全、最负责任的方式。[作者简介:]Hanno Basse 现任 Stability AI 首席技术官,曾先后担任 Digital Domain(数字王国)、微软 Azure 媒体与娱乐部门以及20世纪福克斯电影公司的首席技术官。 David Ding:一体化生成视频的新纪元——音乐、音效与对白的融合过去一年,我们见证了能够生成高质量视频或音频的模型的蓬勃发展。展望2025年,我期待看到更进一步的突破:能够生成配备完整音轨的视频片段,包括对白、音乐和音效。我相信这些模型将为影视创作开启一个崭新的时代。实现这种全方位视频生成的技术基础已经具备。目前已有多家公司推出了极具竞争力的视频模型,而 Udio 等机构则专注于音乐模型的开发。现在的关键是实现视频和音频的同步建模,包括对话和画外音的处理。(事实上,这样的尝试已经出现:Meta 公司的 Movie Gen 就能根据用户描述的场景生成配备音乐和音效的完整视频片段。)诚然,训练这类模型需要海量数据。不过,我认为这可能不会成为开发的瓶颈,因为现有视频生成器的训练数据中很可能已经包含了这些音频元素。这些模型最初的作品可能无法与专业视频编辑的顶级作品媲美。但它们的进步必将神速。很快,它们就能生成在基础质量上接近好莱坞水准的视频和配音,就像现今的图像模型已经能够生成媲美专业摄影作品的图片一样。同时,用户对视频和音频创作的控制能力也将不断提升。举个例子,Udio 刚推出时,用户还无法控制和声的生成。但仅仅几个月后,我们就推出了新功能,让用户能够自主设定调号和调性中心,这样他们就能以不同的调性重新演绎现有歌曲。目前,我们正在研究为用户提供更多控制选项,如声音、旋律和节奏的调整。我相信,视频模型开发团队也在进行类似的可控性研究。 有人可能会对这种能生成完整电影作品的模型感到不安。这种顾虑我非常理解。作为一个热爱摄影和音乐的人,我发现 AI 生成的图像和音频恰恰可以成为创作的良好起点。如果我愿意,可以让 AI 生成一个基础图像,然后在 Photoshop 中进行艺术加工;也可以用它生成的音乐作品作为采样素材或创作基础。这就像 AI 编程助手一样,它们能够生成整个网站的基础文件。虽然这意味着我们不必完全依赖网页开发人员,但如果你与开发者交流,就会发现他们往往也不太热衷于编写网站的样板代码。有了这样的工具来搭建网站框架,他们就能将精力投入到更有创意、更有趣的开发工作中去。同样的道理,你可以先写好剧本,然后快速生成电影的初步样貌。你可以生成上千个镜头版本,选择自己最满意的那个,从中汲取灵感来指导摄影师和演员的工作。艺术的本质在于创作过程中的创意选择。比如说,你我都可以用 Midjourney 来创作风景画,但如果你是一位艺术家,对想要呈现的景象有着清晰的构思,那么你的作品必然会比我的更有感染力。同样,尽管人人都能用 Udio 制作出制作精良的音乐,但如果你具备出色的音乐品味,你的作品自然会更胜一筹。视频永远都是一种艺术形式,因为创作者要决定电影讲述什么样的故事,呈现怎样的画面,传递什么样的情感——而且这些创意决策将变得更加流畅、快捷和互动。[作者简介:]David Ding 是一位终身献身音乐事业的艺术家,同时也是 Udio 的联合创始人。该公司开发的音乐创作网络应用致力于帮助用户创作原创音乐。在创立 Udio 之前,他曾担任 Google DeepMind(谷歌深度思维)的高级研究工程师。 Joseph Gonzalez:通用智能的新纪元展望2025年,随着我们遇到规模化瓶颈和推理成本持续攀升,基础模型训练的发展步伐可能会放缓。但与此同时,我期待看到建立在 AI 基础之上的创新浪潮,比如正在快速发展的智能代理技术栈。我希望能见证更多将 AI 与现有工具和系统结合的创新方式,这将带来令人振奋的新功能,开创全新的产品品类。而最令我期待的,或许是看到人类将如何适应这个崭新的世界。我们已经实现了通用人工智能(AGI)。那么下一步是什么?让我们从 AGI 的长期争论开始讨论——也希望到此为止。我知道这个观点可能有争议,但我认为我们确实已经实现了 AGI,至少从定义上来说是这样:我们的 AI 已经具备了通用性。关于意识和超级智能的更深层次讨论,我愿意留给哲学家们,而我想聚焦于最关键的突破:通用性。过去几十年的人工智能或机器学习虽然很"聪明",但都局限于特定领域。它们往往能在某些具体任务上(如图像识别或内容推荐)超越人类。而今天的模型,以及更重要的是围绕这些模型构建的系统,已经能够胜任极其广泛的任务,其表现通常能够媲美人类,有时甚至更胜一筹。正是这种通用性,让工程师、科学家和艺术家能够以模型开发者始料未及的方式进行创新。这种通用性,再加上市场力量的推动,将让2025年充满无限可能。成为AI 原生代:这些模型的通用性和自然语言交互界面,让每个人都能轻松地使用和探索 AI。而且这个趋势正在加速!我们正在学习如何向机器阐述需求,提供必要的背景信息和指导,并期待获得个性化的解答和方案。在我共同创立的 RunLLM,我们专注于打造高质量的技术支持智能代理。我们发现,用户使用我们的代理系统不仅仅是为了解决问题,更希望能够根据自己的具体需求获得定制化的解决方案。更令我们惊讶的是,用户愿意向 AI 透露的信息,往往比他们愿意告诉真人的还要多。在加州伯克利大学的教学工作中,我也为学生们的创新让我印象深刻。他们会用 AI 重新诠释我的授课内容,或是利用 AI 生成的模拟试题来学习。他们已经找到了运用 AI 来打造个性化学习体验的有效方法。到了2025年,也许当我们需要帮助或想要学习新知识时,会更倾向于选择 AI 而非人类作为向导。纵观这些应用场景,我们显然正在更好地克服大型语言模型的局限性,并以一年前我都无法想象的方式来运用 AI。 AI 投资的回报:2025年,人们的关注点将转向如何从过去的投资中创造实际价值。投资者和企业会期待创业公司和企业 AI 团队从探索阶段转向解决实际问题——降低成本、创造收入、提升客户体验等。这对需要筹措研究经费的学术界来说可能不是好消息(如果你有2024财年的结余资金,欢迎私信我),但对于其他能够搭乘新 AI 功能浪潮的人来说,这无疑是个好机会。我们将看到一场前所未有的竞赛,各行各业都在争相将 AI 融入产品和业务的方方面面。很多时候,我们会看到匆忙上线的聊天机器人和自动摘要功能——这些都是 AI 应用的初级阶段。我希望这些初级产品很快能够升级换代,被更智能的情境代理取代,这些代理能够根据用户需求不断调整,并从互动中持续学习。疫情期间,远程(数字)助手的广泛应用为我们铺平了道路,也让我们看到了一个高度数字化的职场环境,这正是未来智能代理所需要的土壤。这些代理可能会接替一些原本由人类承担的工作,也可能会填补其他智能代理创造出的全新岗位。也许当每个人都在管理自己的定制化智能代理团队时,我们就能说 AI 真正实现了它的承诺。聊天功能只是开始:我对2025年最大的期待是,我们能够超越简单的对话,探索如何让 AI 成就伟大事业!我希望看到更多在后台默默工作的 AI 代理,它们能够无声地协助我们完成日常任务。在我们做决策时,它们会提供恰到好处的背景信息,帮助我们与时俱进。通过对上下文的深入理解和各种工具的运用,它们能够提醒我们注意遗漏的细节,防止我们错失重要机会。未来,我们与 AI 的直接对话可能会减少,但 AI 驱动的代理将能够代表我们完成更多工作。我期待着这样的一天:我们能够放心地离开键盘,将更多精力投入到真正重要的人际互动中去。[作者简介:]Joseph Gonzalez 现任加州伯克利大学教授,是 RunLLM 的联合创始人,同时担任 Genmo 和 Letta 的顾问。 Albert Gu:以更少的数据实现更深的学习构建基础模型需要海量数据。展望2025年,我希望我们能够开发出从有限数据中获取更多知识的模型。AI 领域通过扩展 transformer(变换器)模型规模和扩充数据集取得了令人瞩目的成就。但这种路径可能已经接近收益递减点——这种观点在预训练领域的研究者中越来越普遍,特别是当他们尝试开发下一代模型时。不管怎样,现有的方法确实面临着实际问题:在庞大的数据集上训练超大规模模型不仅耗时,还会消耗大量能源,而且用于训练大型模型的新数据源也在日渐枯竭。事实上,现有模型所需的数据量远超人类学习所需。这个问题我们早就意识到了,只是因为规模化带来的惊人效果而选择了暂时忽视。训练一个模型需要数万亿个标记(token),但人类发展成一个具有合理智能水平的个体所需的数据量却少了几个数量级。这说明我们当前最先进的模型在样本利用效率上远不如人类。人类的学习方式向我们证明,一定存在某种学习算法、目标函数、架构或它们的组合,能够比现有模型更高效地利用样本进行学习。 要解决这个问题,关键在于让模型能够形成更高层次的抽象认知,并能够有效过滤噪音。我认为这个理念,以及由此延伸出的数据效率问题,与 AI 领域目前面临的几个重要挑战密切相关:数据筛选:我们都知道用于训练模型的具体数据质量至关重要。这是业内心照不宣的事实:如今训练基础模型的工作重点主要在数据处理上,而不是模型架构设计。为什么会这样?我认为这与当前模型的学习效率不高有直接关系。我们不得不在训练前投入大量精力准备数据,这可能反而限制了 AI 作为一个自动化数据学习系统的核心潜力。特征工程:深度学习一直在追求更通用的方法。从深度学习革命伊始,我们就在逐步摒弃手工设计的特征,比如计算机视觉中的边缘检测器和自然语言处理中的 n-gram(n元语法)特征。但实际上,这些工程工作只是转移到了流程的其他环节。比如分词(tokenization)过程就包含了隐含的特征工程。这表明在开发更高效利用数据、更能普遍处理各种原始模态和数据流的模型架构方面,我们还有很大的提升空间。多模态整合:让模型同时理解多种数据类型的关键,在于找出不同类型数据之间共通的核心抽象概念,并建立它们之间的联系。这种方法应该能让模型通过协同利用各种模态的信息,从更少的数据中获取更多知识——这正是多模态学习的核心目标。可解释性和鲁棒性:要理解模型为什么会产生某个特定的输出,模型需要具备形成更高层次抽象的能力,同时我们也需要能够追踪它是如何形成这些抽象的。模型在这方面的表现越好,其决策过程就越透明,抗干扰能力就越强,而且很可能所需的训练数据也会更少。推理能力:提取更高层次的模式和抽象概念,应该能够提升模型的推理能力。反过来说,更强的推理能力也意味着模型能够用更少的训练数据达到同样的效果。普惠化:目前最先进的模型开发成本高昂,其中很大一部分是收集和处理海量数据的成本。能够负担得起这种投入的机构寥寥无几。这导致该领域的进展很难惠及那些缺乏充足数据或财力支持的领域。因此,提高数据使用效率的模型将更容易为更多人所用,发挥更广泛的价值。 从这些问题的角度来审视数据效率,我认为它们之间存在着密不可分的联系。虽然现在还难以判断究竟哪个是因、哪些是果,但这种联系是确实存在的。比如说,如果我们在可解释性方面取得突破,为此开发的机制可能会帮助模型提取出更好的特征,从而提高数据使用效率。反过来说,我们也可能会发现,数据效率的提升反而会让模型变得更容易解释。无论因果关系如何,数据效率都是一个根本性的问题,这个领域的进展将成为衡量 AI 整体发展的重要指标。我真诚地希望在2025年能够看到这方面的重大突破。[作者简介:]Albert Gu 现任卡内基梅隆大学机器学习助理教授,同时担任 Cartesia AI 公司首席科学家。他入选《时代》杂志评选的2024年人工智能领域最具影响力人物榜单。 Mustafa Suleyman:AI代理进入现实展望2025年,AI 将获得"视觉"能力,变得更加智能和精准,并开始能够代表我们执行各种任务。目前的 AI 系统还难以全面理解我们所处的环境和背景。它们的感知局限于聊天窗口和有限的交互场景,无法完整把握我们在这些互动之外的行为和目标。要想真正理解我们的意图,AI 需要能够"看到"我们所看到的一切。这项能力现在已经开始显现。AI 可以被整合到我们日常使用的软件中,与我们共同浏览和操作。如果说文本是我们与 AI 交互的第一种方式,语音是2024年的突破性特征,那么我认为视觉能力将在2025年产生同样重要的影响。在微软 AI,打造一个能在浏览器中与用户协同工作的 AI 一直是我的首要任务。这样用户就能够通过对话来讨论他们正在浏览或处理的内容,实现真正的双向互动。视觉能力的引入将带来质的飞跃,这与我们过去使用计算机的方式有着本质的区别。我非常期待在接下来的几个月里看到这项技术的发展。除了视觉能力,我们还将在解决 AI 幻觉(hallucination,即生成虚假或不准确信息)问题上取得重大突破。这一直是制约 AI 广泛应用的关键瓶颈。如果用户无法信任 AI 提供的信息,就会大大限制其使用场景。对 AI 来说,建立信任是最基础的。值得欣慰的是,模型的质量及其检索和实际应用能力正在快速提升。虽然我们可能无法完全杜绝幻觉现象,但到明年此时,这个问题将不再像现在这样令人困扰。在大多数领域,与 AI 对话的可靠性将不亚于使用搜索引擎,甚至可能更胜一筹。这并非源于某个单一的技术突破,而是整个领域持续积累的进步成果。这种进步将带来革命性的改变。最后,我们正在迈入智能代理的新纪元。这是我们期待了几十年的时刻。在我的著作《浪潮将至:技术、权力和21世纪最大的困境》中,我提出了 ACI(artificially capable intelligence,人工能力智能)的概念,它代表着 AI 开始能够代表用户采取具体行动的时代。赋予 AI 行动能力意味着它不再只是与我们对话,而是能够实际完成任务。这是一个关键性的转变,而这一刻已经近在眼前。如果我们能够正确把握这个机遇,就能在提升生活品质、创造更多惬意空间的同时,大幅提高企业和个人的生产效率。但是,赋予智能代理行动能力也意味着我们必须在安全性、系统防护和责任担当方面达到最高标准。与此同时,要开发出真正实用的智能代理,我们还面临着诸多挑战,特别是如何与现有的众多系统实现无缝整合。但发展的势头已经形成,行动的时代即将到来。2025年必将是一个具有里程碑意义的年份。[作者简介:]Mustafa Suleyman穆斯塔发·苏莱曼现任微软 AI 首席执行官。他是 Inflection AI 的联合创始人,同时也是 DeepMind Technologies(深度思维科技)的创始人。 Audrey Tang:让 AI 成为连接人心的桥梁站在2025年的门槛上,我对 AI 最大的期许,是它能够促进社会团结,培养同理心,增进理解与合作,而不是加剧分裂。长期以来,驱动社交媒体的算法就像一台台露天采矿机,它们汲取着人们的注意力,同时也在侵蚀着信任和社会凝聚力。留下的是一片贫瘠的网络空间,同理心难以在此生根,集体智慧也找不到成长的沃土。AI 不仅可以,而且应该帮助我们跨越这些由来已久的鸿沟。要实现这一目标,我们必须从根本上重新设计 AI 系统,将促进社会团结的价值观置于核心位置。推荐算法不应该加剧分化,而是应该引导我们发现"连接性内容",帮助我们找到共同点。这些算法应该能够清晰地识别内容所涉及的各类群体——无论是地域性的、宗教性的、政治性的,还是社会、文化或专业领域的群体——并明确指出它试图弥合的具体分歧。要实现这一愿景,我们需要从根本上转变评估标准。不能再单纯依靠参与度这样的量化指标,而应该采用以价值为导向的评估体系,把建设性对话和相互理解放在首位。比如,我们可以重点推广"意外验证者"——那些能够以建设性方式挑战既有认知的个人和观点,帮助我们重新审视那些看似不可调和的分歧。研究人员和开发者应该携手创造新的内容排序和策划方法,将其整合到广泛使用的平台中,并严格评估这些方法对民主社会的实际影响。与此同时,AI 社区必须采取更具参与性和包容性的开发与治理方式。关于多元化协调的研究表明,AI 系统是在复杂的社会环境中孕育和运作的,只有广纳各方声音,才能有效避免机构的认知盲点。像 Polis 这样的工具已经证明了如何将复杂性转化为清晰的认知——它能够将不同立场可视化,揭示人们难以察觉的共识领域。这种参与式方法能确保 AI 真正反映其服务社会的优先事项和价值观,而不是放大少数群体的偏见。通过秉持这些包容和民主的原则,AI 可以帮助我们共同打造一个促进而非削弱社会凝聚力的数字公共空间。从数据集的构建到治理政策的制定,在每个阶段都纳入集体智慧的投入,这样才能确保 AI 系统真正符合人类多元的价值观,成为增进共识的催化剂。[作者简介:]Audrey Tang(唐凤)现任台湾省数位大使,曾任台湾省数位发展部部长,著有《多元性:协作技术与民主的未来》(Plurality: The Future of Collaborative Technology and Democracy)。【完】 我是不懂经的经叔,国内最早翻译介绍了纳瓦尔的《如何不靠运气获得财务自由》,以及影响了纳瓦尔、中本聪、马斯克等大佬的《主权个人》。不懂经知识星球,众多百万粉丝大V、千万及亿万富翁订阅。专注分享一人企业、一人创投主题,关键词:AI、IP、创投、科技及商业前沿的高杠杆内容。 如果我现在25岁,我会 All In干这两个方向 未来的硬通货食物链:代码=数据=信息=内容=流量=注意力=货币=资本 一块钱顶100万:光速下的通胀与传统经济学的崩塌 15秒成为有钱人:美国版《挖呀挖》及它们共同的成功法则 万字重磅:未来10年财富游戏的金律与金线 马斯克最新荐文:为什么文化会赢?(深度认知战争、科技乃至自媒体)