吴恩达最新文章:我投身AI领域几十载的心得体会

职场   2025-01-16 20:03   广东  

△吴恩达

版权声明

来源:AI深度研究员(AIshenduyanjiuyuan),书享界(readsharecn)

作者:吴恩达,斯坦福大学计算机科学教授、Coursera联合创始人、DeepLearning.AI创始人。

导语

斯坦福大学计算机科学教授、Coursera联合创始人、DeepLearning.AI创始人吴恩达,被全球AI学习者亲切地称为"AI教育第一人"。他创建的机器学习课程让数百万人走进AI领域,他主导的深度学习专项课程更是成为全球AI工程师的必修内容。


在2025年1月1日,这位投身AI教育多年的引路人不仅分享了他对AI技术发展的个人感悟,更重要的是,他特别强调了持续学习的重要性,并向每一位想在AI领域深耕的学习者提出了极具价值的建议。在文章中,吴恩达教授特别指出,在AI技术快速迭代的今天,建立系统的学习计划比以往任何时候都更加重要。有趣的是,他还分享了自己规律学习的小习惯,这让我们看到即便是AI领域的领军人物,依然保持着每月学习AI新知识的节奏。原文如下:


尽管我从十几岁起就开始研究AI,但如今我对它的潜力感到前所未有的兴奋,尤其是在开发AI应用的过程中。我们这个领域正在掀起一股创新热潮,而2025年将成为一个充满创造力的关键年份!

让我感到特别激动的一点是,利用AI构建软件原型变得前所未有的轻松。AI不仅降低了软件开发的门槛,还极大地拓宽了应用的可能性。虽然它能够帮助优化和维护大型软件系统,但它在快速构建原型和简单应用上尤其出色。

比如,你可以为孩子快速开发一个打印学习卡片的应用(我最近用o1的帮助在几个小时内完成了这个项目),或者编写一个监控外汇汇率的程序来管理国际银行账户(这是DeepLearning.AI财务团队的实际案例),再或者开发一个自动分析用户评价的工具,用以快速发现产品问题(这是DeepLearning.AI内容团队的常用手段)。如今,借助AI辅助编程,构建这些应用变得前所未有的高效。

在原型开发方面,AI辅助编程尤为有效,因为(i)独立的原型通常不需要复杂的上下文或深度集成,(ii)原型在alpha测试阶段对稳定性的要求也相对较低。虽然生成式AI在构建大型、任务关键型软件系统中同样大有作为,但在这类场景下生产力提升并没有那么显著。这是因为处理大型代码库需要提供全面的上下文,同时确保生成代码足够可靠(比如覆盖所有关键边界情况)本身就是一项复杂的挑战。

至今为止,将原型交付到用户手中的一大难点在于部署。然而,Bolt、ReplitAgent和VercelV0等平台通过生成式AI和代理工作流,不仅提升了代码质量,更重要的是,它们可以直接部署生成的应用程序。(虽然我认为这些工具非常有用,但我更习惯于按照自己的流程操作:先用LLM设计系统架构,如果有多个复杂模块,则逐个生成代码。之后,我会测试每个模块,在必要时进一步优化代码——有时会用带AI功能的IDE,比如Cursor——最后再将模块整合起来。)

快速构建原型不仅高效实用,而且是测试想法和提升工作效率的好方法,更是一个学习和成长的绝佳机会。更重要的是,它真的非常有趣!(至少我个人觉得如此。😄)

新的一年,你如何抓住这些机会呢?在制定新年计划时,我希望你可以尝试以下两件事:


学习计划:作为高效的创作者,我们需要跟上AI领域不断涌现的新变化。你计划2025年学习几门AI课程呢?与朋友分享学习计划可以帮助大家共同进步。


动手实践:如果你会编程,我鼓励你抓住灵感、利用闲暇时间构建原型;如果你还不会编程,学习这项技能将会为你带来巨大的回报!即便是小小的胜利,也许你还能创造出改变世界的产品。即便没有,你也会在实践中收获知识和乐趣。



祝同学们新年快乐!

P.S. I develop mostly in Python. But if you prefer JavaScript: Happy Array.from({ length: 10 }, (_, i) => i ** 3).reduce((a, b) => a + b, 0) !

附:吴恩达教授推荐阅读的5位AI研究者的新年寄语


吴恩达:我们站在新时代的门槛上:在这个时代,人工智能系统拥有惊人的能力来推理世界,理解我们的愿望,并采取行动来实现它们。我们将如何利用这些力量?我们请该领域的领导者分享他们对来年的希望。正如我们之前的“新年特刊”一样,他们的回答为我们可能构建的东西和我们可以带来的好处提供了鼓舞人心的观点。

1

HannoBasse:为艺术家而生的生成式AI


△HannoBasse,StabilityAI的首席技术官,曾任Digital Domain、Microsoft Azure Media and Entertainment以及20世纪福克斯电影公司首席技术官。

StabilityAI致力于帮助艺术家摆脱重复性、机械化工作的束缚,让他们能够将更多的时间和精力投入到创作中去。我们对2025年最大的期望是,生成式AI能够让人们的创意更有灵感、效率更高。

此外,我希望AI社区能在以下领域取得进展:

  • 安全与可信:在开发之初就将诚信原则融入产品设计,打造安全可靠的技术,确保其被负责任地使用,同时为艺术创作特别是讲故事的艺术带来积极价值。
  • 普及与易用:生成式AI产品应尽可能方便更多人使用。目前,大多数生成式AI工具仍然主要服务于技术背景深厚的用户,如工程师。为改变这一现状,我们需要在基础模型上开发更友好的工具,以便更多背景和技能层次的用户能够轻松使用并获益。

  • 专业与定制:未来,我们相信生成式AI将在专业化方向上取得突破。在大型基础模型之外,我们会看到越来越多的小型模型,它们针对某些特定的、甚至非常狭窄的应用场景进行微调。这不仅是释放生成式AI潜力的关键所在,也是将AI安全、负责任地部署到现实场景中的最佳途径。


2

DavidDing:生成视频与音乐、音效及对话


△DavidDing,Udio的联合创始人,曾任GoogleDeepMind的高级研究工程师

过去一年,我们见证了大量高质量视频和音频生成模型的爆发式增长。今年,我非常期待出现能够同时生成视频和完整音轨(包括语音、音乐、音效)的模型,这或将开启一个全新的电影创作时代。

目前,电影级视频生成的技术条件已经具备。许多公司已经推出了极具竞争力的视频生成模型,而Udio等企业则专注于音乐生成模型。接下来需要攻克的,是将视频与音频(包括对白和画外音)的生成同步整合起来。(事实上,我们已经见到了类似的尝试:比如Meta的MovieGen。用户只需描述一个场景,MovieGen就可以生成带有配乐和音效的完整视频。)训练这样的模型自然需要庞大的数据支持。但我猜测,用于现有视频生成器训练的数据集本身可能就包含了这些音轨,因此数据量未必会成为开发的瓶颈。

在起步阶段,这些模型的效果或许无法媲美专业视频剪辑师的顶尖作品。但它们的进步速度将十分惊人。不久之后,这些模型生成的视频和音轨将接近好莱坞制作的水准,就像当今的图像生成模型已经能够生成与高端摄影作品难分伯仲的图像一样。

随着技术的发展,用户对视频和音频生成的控制力正在逐步增强。以Udio为例,当我们最初推出这款应用时,用户还无法调整生成的和声。而仅仅几个月后,我们就上线了一项更新,让用户可以指定歌曲的调性。这样一来,用户可以将已有的音乐重新混音到新的调中。我们还在研究如何提供更多的控制选项,比如调整声音、旋律和节奏。我相信,视频生成技术团队也在类似的领域展开探索,以提高可控性。

当然,也有人会对完全自动生成电影级视频的模型感到不安。我可以理解这种情绪。我个人热爱摄影和音乐,但我发现图像和音频生成器能够为我的创意提供很好的起点。比如,AI可以生成一张基础图像供我在Photoshop中进一步完善,或者提供一个音乐创作框架供我采样和拓展。再比如,AI编程助手可以自动生成整个网站的模板代码。虽然你不再需要完全依赖开发人员,但开发人员本身也不总喜欢编写那些重复的模板代码。有了这样的工具,他们就可以专注于更有挑战性和创造力的开发工作。

同样地,AI将使电影创作变得更加灵活。你可以编写剧本,然后快速生成电影的粗剪版本,从中挑选喜欢的片段,并用它来指导摄影师和演员的创作过程。

艺术的精髓在于创作者的选择和表达。虽然你我都可以用Midjourney生成一幅风景图,但如果你是一位艺术家,对所描绘的风景有独特的构思,那么你的作品会更加吸引人。同样,任何人都可以用Udio创作高品质的音乐,但如果你具备出众的音乐品味,你的作品将更加出色。在视频创作领域也是如此:每个人都可以决定自己的电影想讲述什么、展现什么样的画面,以及传递什么样的情感。而AI的加入,将让这种创作过程变得更加高效、流畅和互动。

3

Joseph Gonzalez:迈向通用智能的新时代


△Joseph Gonzalez,RunLLM的联合创始人,加州大学伯克利分校教授

展望2025年,我认为基础模型的训练速度可能会放缓,原因是我们将逐渐接近技术扩展的极限,而推理成本也会不断攀升。相较于基础模型的突破,我更希望看到AI应用领域的创新爆发,例如正在快速发展的代理栈技术。我对未来特别期待的是,我们将如何将AI与现有工具和系统结合起来,创造出全新的功能和产品类别。而最让我激动的,或许是人类面对这些变革时所展现的适应能力。

我们已经实现了AGI,接下来该怎么做?


关于人工通用智能(AGI)的争议性话题,我希望我们能够从这个问题开始,并最终结束对它的无休止讨论。虽然这个观点可能有些大胆,但我认为我们已经实现了AGI——至少从定义上看,我们的AI现在已经具备通用性。至于感知能力和超级智能这些哲学问题,我将留给学者们深入探讨,而我更关注一个关键点:通用性。

回顾过去,传统的人工智能或机器学习系统尽管智能,却是高度专业化的。它们通常可以在某些特定任务(如图像识别或内容推荐)上超越人类能力。而如今的AI模型,以及围绕它们的系统,能够在极为广泛的任务中展现出媲美甚至超越人类的表现。这种通用性为工程师、科学家和艺术家开辟了全新的创新途径,而市场需求将进一步放大这种通用性的潜力,使2025年成为AI领域的一个里程碑。

AI的普及与个性化


这些通用模型的特性及其自然语言界面让几乎每个人都能轻松使用AI。我们正在逐渐学会如何向AI描述问题、提供背景信息,并期待它给出个性化的解决方案。在RunLLM,我们开发了高质量的技术支持代理工具。我们惊喜地发现,用户不仅仅用这些代理解决问题,还用它们来定制专属于自己的解决方案。更令人意外的是,用户在与AI交互时,比与真人互动时分享了更多的信息。

与此同时,在加州大学伯克利分校,我看到学生们用AI来重新学习我的讲座内容,或者通过AI生成的模拟试题来备考,他们用AI个性化学习的方式令人惊叹。或许到了2025年,当我们需要帮助或寻求学习时,我们会更愿意选择AI,而不是人类。

在过去一年中,我们明显看到了如何克服大语言模型局限性的进步,并开始以意想不到的方式将AI融入实际应用。

AI投资的回报


到了2025年,AI领域的焦点将转向如何从过去的投资中体现出实际价值。投资者和企业不再满足于概念验证,而是期待初创公司和AI团队转型,开始解决实际问题,比如降低成本、提高收入以及优化客户体验等。这或许对依赖研究资金的学者来说并不友好(如果你在2024财年还有多余预算,欢迎联系我),但对其他行业来说,这是个好消息,他们将搭上AI赋能功能的快车。

我们将迎来一场竞赛,探索如何将AI创新融入产品和业务的各个层面。初期可能会出现许多仓促上线的聊天机器人和自动摘要功能——这只是AI应用的起点。我希望这些功能能够尽快升级为更智能的上下文代理,能够根据用户需求调整,并从用户互动中学习。疫情推动了远程助手的普及,同时展示了一个几乎完全数字化的工作环境,为未来的智能代理奠定了基础。这些代理可能会填补人类传统的角色空缺,甚至承担由其他代理创造的新任务角色。当每个人都能管理自己的定制化代理团队时,AI或许真正兑现了它的潜力。

聊天机器人只是起步


我对2025年最大的期待,是我们能摆脱单纯的聊天互动,发现AI更广阔的潜力!我希望AI代理可以默默地在幕后协助我们完成日常工作。当我们需要做决策时,它们能够提供恰当的背景信息;当世界发生变化时,它们能够帮助我们快速适应。通过上下文和工具支持,它们会提醒我们注意遗漏的细节,并弥补我们的疏漏。未来,我们与AI的交互将更高效,我们可以减少不必要的聊天,而智能代理将为我们完成更多复杂的工作。我期待有一天,我可以毫无后顾之忧地离开电脑,把时间更多地投入到有意义的人际交往中。

4

AlbertGu:更多学习,少用数据

△AlbertGu,卡内基梅隆大学的机器学习助理教授,Cartesia AI首席科学家
入选2024年《时代》评选的最具影响力AI人物榜单

构建一个基础模型需要大量的数据。在未来的一年里,我希望我们能够实现模型用更少的数据学习更多内容。

AI社区通过扩大transformer和数据集规模取得了显著的成功。但这种方法可能正在接近边际收益递减点——这是许多从事预训练的研究者在尝试训练下一代模型时日益广泛的看法。无论如何,这种方法存在实际问题。训练大型模型需要庞大的数据集,这消耗了大量的时间和能源,而我们也逐渐耗尽了用于训练大型模型的新数据来源。

事实上,当前的模型所需的数据远多于人类学习所需的数据。这一点我们早已知道,但由于扩展方法的惊人效果,我们一直忽视了它。训练一个模型需要数万亿个token,而一个人成为一个相对聪明的个体所需的样本数据却少得多。因此,当前最先进的模型与人类在样本效率上存在巨大差异。人类的学习方式表明,存在某种学习算法、目标函数、架构或它们的组合,可以比现有模型更高效地利用样本。
解决这一问题的关键之一是让模型能够生成更高层次的抽象,并过滤掉噪声。我相信这个概念与AI当前的几个问题密切相关:

  • 数据整理:我们知道用于训练模型的具体数据非常重要。如今,用于训练基础模型的大部分工作实际上集中在数据而非架构上。这是为什么?我认为,这与我们的模型学习效率低下有关。我们不得不提前为模型准备数据,而这可能阻碍了AI自动从数据中学习的核心潜力。
  • 特征工程:在深度学习领域,我们一直在向更通用的方法迈进。从深度学习革命开始,我们逐步去除了计算机视觉中的手工边缘检测器和自然语言处理中的n-gram特征。但这些工程只是转移到了其他管道中。例如,分词就涉及隐式特征工程。这表明,在构建更高效、更能处理原始数据的模型架构方面,仍有很大的改进空间。
  • 多模态:训练一个能够理解多种数据类型的模型的关键在于找到它们之间的核心共性并将它们关联起来。这应该能让模型通过联合利用所有模态,从而用更少的数据学习,这是多模态学习的核心目标。
  • 可解释性和鲁棒性:为了理解模型为何产生某种输出,它需要能够生成更高层次的抽象,并且我们需要追踪它是如何捕捉这些抽象的。模型在这方面的能力越强,它就越可解释,越能抗噪声干扰,同时所需的数据也可能越少。
  • 推理:提取更高层次的模式和抽象应该能让模型在这些基础上进行更好的推理。同样,更好的推理能力应该意味着更少的训练数据。
  • 普惠性:最先进的模型成本高昂,包括收集和准备海量数据的成本。只有少数参与者能够负担得起,这使得该领域的进展对数据或资源不足的领域适用性较低。因此,更高效的数据模型将更具普惠性和实用性。

综合考虑数据效率与这些问题,我认为它们是相互关联的。目前尚不清楚哪些是原因,哪些是结果。如果我们解决了可解释性问题,我们设计的机制可能会让模型提取出更好的特征,进而使模型更高效;或者我们可能发现,更高效的数据利用会让模型更具可解释性。

无论哪种情况,数据效率都是根本性的,它的进步将是AI更广泛进步的一个指标。我期待在未来一年里看到重大的突破。

5

Mustafa Suleyman:行动Agents的新时代


△Mustafa Suleyman,Microsoft AI的首席执行官,
Inflection AI的联合创始人,创立了DeepMind Technologies

到2025年,AI将拥有“看”的能力,它将更加智能、更为精准,并且能够真正为我们执行任务。

目前,AI系统在理解我们真正意图方面仍然存在局限。它的感知范围主要局限于聊天窗口和少量交互场景,对我们更广泛的需求和目标缺乏全面了解。为了实现深度理解,它需要拥有与我们相同的视觉能力。

这种能力已经不再遥远。AI现在可以嵌入到我们的软件中,与我们一起协同工作。它能够共同浏览内容,与我们进行基于视觉的互动。如果文本是最初与AI交互的模态,语音是2024年的突破性功能,那么视觉将在2025年扮演同样重要的角色。在MicrosoftAI,我们致力于开发一种能够与你协作的AI工具,它可以在浏览器中与你对话,将交互真正转变为双向且高度智能的过程。

视觉能力的引入将彻底改变人与计算机的互动方式,它比以往任何技术都更加直观、革命性。我期待在接下来的几个月里看到它的进一步突破。

与此同时,我们还将在减少“幻觉”输出方面取得显著进步。当前,错误的生成内容仍然是AI普及的重要阻碍。如果用户不信任AI的回答,其应用场景将受到限制。信任是AI成功的基石。幸运的是,随着模型质量和检索能力的持续提升,这一问题正在逐步缓解。

虽然“幻觉”现象可能无法完全消除,但到明年,我们在大多数主题上对AI的信任将接近或超越传统搜索引擎。这种转变并非源于单一技术突破,而是多方面进步的累积。它将对我们的信任和使用习惯产生深远影响。

最后,我们正迈入一个属于智能代理的新时代。这个时刻是科技领域期待已久的突破。我在《即将到来的浪潮》一书中提出了ACI(人工能力智能)的概念,指AI开始代表用户采取行动的转折点。AI不再只是提供建议或对话,而是可以直接完成任务。这样的转变至关重要,而它就在眼前。

如果我们能做好这一转变,它将既改善我们的生活品质,又推动商业和个人效率的飞跃。然而,要实现这一目标,需要确保最高标准的安全性、可靠性和责任感。此外,开发真正实用的代理系统仍面临诸多挑战,尤其是在与复杂系统集成的过程中。

趋势已经显现,行动能力即将落地。2025年将成为关键的一年!

 

点击“阅读原文”立即购买《AI启示》

书享界
华为管理培训·数字化转型培训。华为原中国区规划咨询总监、《学习华为三部曲》《华为数字化转型》《管理者的数字化转型》作者邓斌先生创办。商务助理 V xin号:15014156681
 最新文章