近日,人工智能学者、实践创业家吴恩达在一场播客中与知名风投Ark Invest两位风险投资委员会成员Brett Winton 和Charlie Roberts展开了一场精彩的对话,吴详尽分享了他近期对人工智能行业的观察、实践及看法,包括大模型成本下降带来的产业影响、AI Agent的潜力、AI应用的机会和突破口,并再次重申了力挺开源的原因。
无论在公共领域还是企业界,吴恩达都享有极高的声誉,在斯坦福大学任教期间,吴恩达奠定了机器学习领域的诸多基础理论,他是Google Brain的联合创始人及前领导者,也是百度的前首席科学家。此外,他还创立了AI Fund,一个专注于人工智能领域的孵化器和加速器,并联合孵化了Landing AI等公司,与大型企业合作解决一系列复杂问题。
在吴恩达看来,AI还远未触达瓶颈,即便GPU等硬件是一个制约条件,但这是一个可解决的问题,且资本动力充足。相比大模型,应用层的潜能巨大,还没有被充分发掘。
据他观察,大模型的训练和推理成本有望下降,这将给AI应用的部署带来好处,但基础模型丰富、评估工具匮乏的现状制约了应用创新效率——大模型将应用原型开发的速度缩短到了1天,但验证和评估原型却需要花费10倍以上的时间,市场需要优质的评估工具。
吴恩达还分享了他在实践中观察到的经验,即AI代理工作流(Agentic Workflows)可以提升AI应用的准确性,不过,推理效率低会制约代理工作流的能力。在他看来,提升推理效率将会让AI Agent在AI应用层爆发中起到推动作用。
此外,吴恩达再次表达了他对AI开源的支持,盛赞甚至感谢了Meta开源大模型的做法发,“开源无疑是全球人工智能技术供应链的重要组成部分,”他认为,开源才会刺激创新,以“安全”为由游说停止开源会扼杀创新,对哪个国家都没有裨益。
以下是这场对话的节选内容。
Winton:尽管关于AI的讨论已经持续了相当长的时间,并且观点各异,但有些人认为AI发展已经遇到了瓶颈,或质疑当前的性能提升是否能够转化为实际的生产力增长。吴教授,在你看来,我们目前在AI能力方面究竟处于何种阶段?未来AI能力的发展又将如何演进?你如何评估和预测这些发展?
吴恩达:过去10到15年间,总有一些声音宣称人工智能已经触及了发展的极限。然而,这些观点一再被证明是错误的。我坚信,我们距离真正的瓶颈还非常遥远,现在依然有人认真地提出这样的观点,这让我感到相当惊讶。
作为一种具有广泛适用性的技术,人工智能已经取得了巨大的进步,并且即将到来的技术突破在短期内就有望实现。我们能够通过AI完成的任务范围正在以惊人的速度扩大。
目前,许多关注点都集中在生成式AI和大型语言模型上。我们能够让这些模型完成的任务类型,坦白地说,远远超出了目前实际部署的范围。实际上显而易见的是,更多的推理能力,例如更多的GPU或其他类型的硬件,才是将AI应用推向更广阔世界的瓶颈。但这是一个我们确信能够解决的问题,因为解决供应链问题,比如GPU或其他类型硬件的供应,有着非常明确的财务动力。
所以,即使在未来几年内人工智能领域不再发明任何新技术,我们仍然可以预见到AI更广泛的部署。当然,更好的消息是,还有许多新技术正在酝酿之中,它们将建立在现有技术的基础之上,进一步推动未来应用的发展。
Winton:你的意思是说我们目前所掌握的AI能力尚未在商业市场中得到充分应用?仅仅通过部署这些能力就可以带来很多生产力的提升?在这个进程中,底层架构的持续改进还能带来额外的能力提升?
吴恩达:实际上,我经常遇到一些人,他们有很好的想法,甚至是能够显著提升投资回报率(ROI)的AI原型。然而,由于各种原因,比如缺乏足够的GPU资源,token成本仍然较高,或者缺乏足够的软件工程师来实现这些想法,所以这些项目还没有完成。
我相信,这些已经得到验证的想法在未来一两年内,随着这些问题的逐步解决终将得到广泛应用。因此,我对AI领域未来将涌现更多有价值项目充满信心,因为制约这些项目部署的瓶颈,如GPU供应链问题,最终将得到解决。随着GPU的增加生产,更多的AI项目也将随之启动。
我对AI Agent或者我们所说的代理工作流(agentic workflows)感到非常兴奋。目前,我们使用大型语言模型的方式大多是给出一个提示,然后模型输出一个结果,这有点像要求一个人写一篇文章,但要求他一气呵成,中间不能使用退格键。尽管人们可以这样写作,但这并不是我们通常的工作方式。
我们最佳的思考和写作过程是通过一种更迭代的工作流程来完成的,比如先拟定大纲,然后编辑大纲,撰写初稿,进行评价等等,这样的迭代过程使我们能够交付更高质量的作品。AI Agent工作流情况也类似,我们已经观察到许多AI应用在采用这种工作流后,准确性有了显著提升。
然而,目前一个制约因素是我们对更快速推理能力的需求。因为在Agent工作流中,为了不断迭代和优化工作成果,需要频繁地调用LLM。不过,许多人正在积极应对这一挑战,我对此充满信心。随着供应链的逐步改善和更高性能芯片的推出,我相信不仅AI训练成本,AI推理成本也将得到显著降低,这将进一步释放这些工作流的潜力。
顺便提一下,我深受你们Ark报告的影响,尤其是你们在报告中预测的训练成本每年下降75%,推理成本每年可能下降86%。虽然这些确切的数字最终是否准确还有待验证,但我确实观察到成本正在迅速降低。我认为这是一个非常积极的趋势,因为成本的持续下降将进一步推动创新的步伐,为AI技术的广泛应用铺平道路。
推理效率是AI代理工作流的突破点
Winton:对于我们来说,核心理念在于成本下降的同时,AI领域的投资热潮也在兴起。因此,结合成本降低与资本涌入,我们预见在未来两到三年内,AI的能力提升可能达到100倍甚至更多。
关于Yann LeCun提出的观点,他认为即使是智能系统,随着时间的推移,错误率也会累积,所以当工作流越长时,生产力就会崩溃,因为错误是累积的。你认为在现有架构下,这个问题可以克服吗?还是我们需要新的架构来让AI Agent工作流真正稳定运行?
吴恩达:对于相对简单的智能工作流来说确实是这样,每一步都必须精准无误。然而,一旦引入了AI Agent工作流,它可以回顾步骤并修复自己的错误,那么这个问题就会得到很大的改善。
我举个例子,这对我来说也是个惊喜。我曾经设置了一个非常简单的Agent,任务是在线研究并撰写报告。有一次我在斯坦福大学做演示,网络搜索调用当场失败了,可能是API的一个限制错误。我当时觉得,这次演示可能要失败了。让我惊讶的是,Agent居然说“网络搜索失败了,那我使用维基百科搜索代替”。我完全忘记了我给它设置了网络搜索和维基百科搜索两种选项。于是,这个Agent在Python中能够机智地在网络搜索失败时自动切换到维基百科搜索,最终成功完成演示。
AI Agent工作流并不是万能的,它们同样会犯错,存在局限。但关键是当它们在步骤中出错时,能回顾、反思并自我修复,这让它们变得更完善。我不想过度强调AI与人类的相似之处,毕竟它们之间存在巨大差异。然而,正如人类在许多任务中首次尝试可能并不成功,但凭借反思、批评和修正,人类能够更加稳健地完成任务。我观察到,AI Agent同样展现了这种能力。
Roberts:你认为我们是否需要一个像Transformer那样规模的架构改进,才能真正实现“代理力”(agenticity)?还是说现有的大语言模型结合强化学习,可能再加上或减去扩散模型或其他技术就够了?你觉得现在这些工具箱中的技术已经足够实现这个目标了吗?
吴恩达:我认为Agent工作流在现有的Transformer神经网络架构下运行得非常好。我知道现在有一些关于MBER、SSRM等替代Transformer模型的研究非常令人兴奋,这些模型看起来很有前景,值得进一步研究和测试。但我认为,即使我们有更好的模型,也不一定绝对需要它们,尽管有了它们当然会更好。还有一个被严重低估的问题是快速推理和快速生成tokens的重要性。
直到现在,很多大公司都在花费大量预算购买GPU进行训练,这非常棒,给我们带来了大型的基础模型,无论是私有的还是开源的。但我发现,快速推理的能力正逐渐成为许多应用的瓶颈。当Meta发布Llama 3 70B这样一个非常出色的开源模型时,如果我们能够将它的推理速度提高10倍,我们就可以让这些代理工作流运行得更快。
作为人类,我们的阅读速度大约是每秒6个token左右,因此生成速度超过这个值对我们来说并没有太大意义。但是,对于Agent工作流来说,AI可能会编写一份草稿,然后评价和修正,因此在人工介入之前,它会生成大量tokens并完成大量工作。有些团队在Agent工作流中可能需要花费25分钟完成工作,如果我们能将这些时间缩短到2分钟,这将促成游戏规则的改变,使用户体验产生巨变。
所以,我认为在更快、更便宜的token生成方面进行更多的工作,将极大地推动下一波AI的发展。当然,训练上的持续投资也是非常重要的。
Winton:AI推理成本的降低带来了一个有趣的现象——当我们在一个系统上投入更多的训练资金,就像Meta那样,我们就能够将更多的信息压缩进一个更紧凑的参数模型中。这样的模型不仅能够以更快的速度和更低的成本运行,而且还减少了推理过程中的延迟,使得成本效益比得到显著提升。我们不仅获得了性能上的飞跃,还实现了成本的大幅度降低,这是一个非常吸引人的良性循环,也是大力投入训练计算资源所带来的直接成果。
吴恩达:对于大型模型而言,许多商业网站类型的大型生成服务提供商现在能够实现每秒生成大约10 tokens的速度,这已经超我的阅读速度。我个人大约每秒能阅读6 tokens,这也是大多数人的阅读速度。
但现在有一些公司,如BRCK GROQ,已经能够每秒生成300 tokens,尽管使用的模型不同,但这样的速度提升非常显著。Samb Nova也有演示,其技术能够实现每秒生成数百 tokens。还有多家半导体制造商,他们也向我透露,正在积极开发快速且经济的token生成技术,我相信这将开启许多新的可能性。
我将“超级快速”的token生成定义为“每秒生成超过100 tokens”。对于像Llama 3 70B这样的模型,这样的速度将使执行复杂任务成为可能。看到越来越多的半导体制造商开始重视推理问题,我感到非常兴奋。
此外,我还注意到一个趋势:一些大型企业已经在GPU基础设施上重磅投资,用于AI模型训练,并组建了专业的GPU团队,打造先进的训练基础设施。基于他们在训练领域的成功,这些团队可能会考虑将同样的策略应用于推理基础设施的构建。
但随之而来的问题是,训练和推理的基础设施是否应该采用相同的架构?目前,许多企业正在深入探讨这一问题,思考训练与推理的根本差异,以及是否需要从软件到硬件设计一个全新的架构。
Winton:确实,诸如在特斯拉这样的车辆终端嵌入专用芯片,便构成了一个独立的体系架构。将处理推理的部分或全部任务迁移至终端设备上,有着充分且有说服力的理由,这一做法从消费者的角度出发,具有明显的实际意义和优势。
吴恩达:在设备上的确如此,即使在云端,我也认为训练和推理之间存在足够的差异,这需要我们从架构和软件类型的角度反思。但在设备端上,我完全同意你的看法。
模型评估工具缺乏制约AI应用创新效率
Roberts:你在教学中一直强调让人们了解机器学习运维(MLOps)在机器学习中的作用及研究需求。你是否认为MLOps未来可能会走向一个新的方向,比如推理完成后再独立训练,甚至是单独协调推理调用的路径?
吴恩达:的确,鉴于许多基于大型语言模型(LLM)的应用尚处于初级阶段,LLM运维(LLMOps)方式也在逐步形成中。构建、部署和维护LLM带来了一系列新挑战。
在人工智能技术栈中,我们正见证着一些变革,目前不仅拥有云服务提供商的硬件层,还有新兴的编排层,例如Harrison Chase在LangChain项目上的工作,以及Jerry Le在LLM Indexes项目上的探索,这些都是在编排层面的创新之举。
此外,还有在这些编排层基础之上构建的应用层,以及一个新兴的领域——代理框架(agentic framework),它可能构成了另一种形式的编排层。
人工智能技术栈正在经历自身的演变,而我主要在应用层投入了大量的时间。在AI Fund中,我发现应用层充满了机遇,而基础模型层的竞争则显得尤为激烈。众多参与者正在向模型训练投入数亿美元甚至更多的资金,这一领域的竞争已经白热化。我认为应用层的机会繁多,且竞争压力并不像基础模型层那么大。
实际上,在AI Fund与众多企业合作伙伴的共同工作中,我们经常遇到一些极具吸引力的应用案例,而这些领域往往鲜有竞争者涉足,因此应用层蕴藏着巨大的潜力和机会。
Winton:对于那些专注于应用层的公司来说,他们如何选择下游的基础模型?他们是直接使用现成的GPT-4,还是会针对Llama进行微调?你怎么看应用层在选择基础模型方面的策略,以及这如何影响下游的竞争?
吴恩达:这个领域的确在以极快的速度演进。许多项目在初步开发阶段,确实倾向于使用像GPT-4这样的基础模型,随后再决定是否将其投入生产环境。在概念验证阶段(Proof of Concept)会涌现出大量项目,而最终真正进入生产阶段的则相对较少,这是一种常见的现象。
最近确实有越来越多的团队开始采用GPT-4,而Claude 3的竞争力也在显著提升。甚至在过去几周,Llama 3也显示出了极强的竞争力。当然,也有许多团队偏好使用Google的产品,比如Gemini 1.5 Pro。目前,大多数团队依然主要使用GPT-4,其使用频率远远超过其他模型。
然而,在这个快速发展的行业中,评估过程正成为一个瓶颈。
一个积极的方面是,开发成本已经大幅降低,我们现在完全有能力在短短一天内构建出出色的应用原型。但问题在于,尽管构建原型可能只需一天,收集数据并进行适当的评估却可能需要长达10天的时间。或者我花了一周时间构建,但评估却需要两个月。换句话说,评估过程可能需要比开发过程多出10倍的时间。
这显然并不理想,这无疑会减缓创新的步伐,而且会让人们不愿意更换模型。因为如果你一开始就使用了GPT-4,而你又没有其他模型的评估数据,你就会继续使用你最初选择的模型。
但我看到,越来越多的人开始构建更好的评估工具,更高效地衡量不同模型的性能,帮助判断它们是否在关键性能指标上具有可比性。如果是这样的话,人们可能就会选择成本最低的提供商。毕竟,有些公司在tokens上的花费已经达到数百万美元,成本节省对于他们来说非常重要。
对于那些每月花费10美元进行原型开发的公司来说,动力可能不大,但一旦规模扩大,我认为拥有更好的评估工具会让人们能够更有效地评估多个模型,并权衡价格、性能和速度后选择最适合他们工作的模型。
在我的闲暇时间,我也在思考和研究评估工具。我认为,拥有更好的评估工具将使得人们在评估不同模型时更加高效,从而选择最适合的模型。这将极大地推动AI应用的发展。
Winton:对于AI应用公司来说,Sam Altman曾说,如果你在为GPT-4的能力设计,那么你实际上是在犯一个巨大的错误,因为更强大的能力可能在不久的将来就会出现。你是否预见到这种战略格局——OpenAI将率先推出重大进展,而其他公司可能在六个月后迅速跟进?那对于AI应用公司来说,这是否会改变他们对AI应用程序的思考方式?这些应用程序可能因为基础技术的快速发展而深具商业化潜力吗?
吴恩达:Sam是一位卓越的领导者,我有幸自他在斯坦福大学本科时期就与他相识,当时他在我的实验室工作。
对于OpenAI,我对他们那种敢于冒险、积极进取的精神表示极大的敬意。尽管我不确定OpenAI是否采用“战时状态”来形容自己,但我非常尊重Sam和他的团队,他们敢于大胆尝试,不断探索新的可能性。虽然不是每一次尝试都能取得成功,但只要有几个尝试能够取得突破性的成果,他们就能够取得卓越的成就。OpenAI似乎在尝试许多不同的方向,我并不想对他们正在探索的所有事情做出无端猜测。
我认为,训练基础模型极其重要,我也非常期待GPT-5或其他后续版本的发布,我相信它们无疑会比GPT-4更加强大。但同时我也非常确信,即便GPT-5也会存在一些无法解决的问题,仍有许多其他的应用可以基于这些模型进一步构建和发展。
我的团队进行了一项小规模研究,结果显示,在处理编程问题时,结合使用GPT-3.5和代理工作流(agentic workflow)的表现实际上超过了GPT-4。因此,虽然从GPT-3.5到GPT-4的进步确实令人兴奋,但相比之下,采用代理工作流所带来的改进更为显著,哪怕是基于GPT-3.5的工作流。
因此,我对GPT-5或其他模型的未来发展持乐观态度,同时我也坚信,即使在现有模型的基础上,通过引入代理工作流等创新技术,我们仍然能够解决许多具有重大商业价值的问题,并开发出多种应用场景。
开源是全球AI技术供应链的重要组成
Roberts:我很好奇你对当前开源模型的优劣势、风险和机遇的看法。这已经成为一个几乎极具争议的话题,尤其是在数据科学和机器学习领域,很少有其他话题能引发如此两极化的观点分歧。
吴恩达:我认为开源非常重要,我们应该竭尽努力去推广它。我相信,更多的开源将使世界变得更好,使更多的人受益。
令我惊讶的是,去年有人进行了一些非常激烈的游说,试图停止开源,这实际上会扼杀美国的创新,也会扼杀全球的创新。可以想象,如果你投入了数十亿美元去训练和发布基础模型,然后有人开源了类似的东西,稀释了你那笔巨额投资的价值,这当然会让一些公司感到不满。
这些游说团体的影响力不容小觑。
起初,他们以“AI可能引发全球性灾难”为由进行游说,但这一论调在华盛顿的立法者中逐渐失去了说服力。尽管如此,这些团体并未停歇,他们转变策略,开始以“AI可能被用于制造生物武器”为新的游说点。然而,众多报告已经表明,即使是电子表格这样的日常工具也有可能被用于不当目的,但这并没有让我们对电子表格产生恐惧。同样,AI技术本身并不是制造生物武器的理想或唯一工具。
我们发布的一份报告清楚地指出,AI与生物武器之间的联系并不像某些人试图宣扬的那样紧密。尽管有人试图夸大这种威胁,但这一论点的可信度在迅速下降。不过,这些游说者依然坚持不懈,他们的最新论点转向了国家安全,声称开源可能会让竞争对手国家获得我们的技术。这种每隔几个月就变换论点以推动封闭开源议程的行为,实在令人震惊。
也许我对一些领导者的知识诚信期望过高了,我想解释一下为什么我会有这样的想法。
开源无疑是全球人工智能技术供应链的重要组成部分。我注意到,技术往往映照出一个国家或开发者群体的核心价值观。例如,Google Docs因其简便的文档共享功能而受到多国用户的广泛使用,它的设计初衷正是为了促进开放和协作,而不是为了限制信息的流通。这在我看来,体现了Google公司内部倡导的开放文化。相对地,iMessage的端到端加密特性则彰显了对用户隐私的重视,这与一些国家倾向于开发便于监控通讯的应用程序的做法形成了鲜明对比。
如果某些国家选择不参与到AI供应链的建设中,其他国家自然会填补这一空缺。当这些AI模型在特定国家被使用时,我们期望它们能够体现民主和自由的价值观。
然而,我深感忧虑的是,一些试图封闭开源的行动极其危险,它们不仅对创新构成威胁,更是对创新精神的扼杀。显然,这些行为对于美国、英国或欧盟的利益并无裨益。我确实感到非常惊讶,一些游说团体居然能够成功说服部分欧洲立法者,通过一些明显与欧洲利益背道而驰的法律。
这种状况提醒我们,技术的价值观和它所服务的社会的价值观息息相关。我们必须警惕那些可能损害开放、协作和创新的短视政策,同时积极倡导和维护那些能够推动技术和社会共同进步的价值观。
Winton:是的,除了对开源的监管压力之外,你是否认为Meta公司投入数十亿美元训练并开源的模型会削弱封闭式LLM基础模型玩家的经济效益?这是否会给像OpenAI和Anthropic这样的公司在实现商业盈利方面带来更大的挑战?
吴恩达:当前,基础模型层确实遭遇着一系列挑战。正如你们在报告中所指出的,成本的年降幅达到75%,这让建立护城河变得非常困难。试想,如果一家公司投入1亿美元来训练一个模型,竞争对手在一年后可能只需2500万美元就能达到相似的成果,再过一年,成本可能又会减少到四分之一。在这样的情形下,企业的护城河何在呢?
但我认为,护城河的构建不应仅限于基础模型层,而应扩展至更广泛的领域。对于消费者而言,目前LLM的切换成本相对较低,可能仅需对提示词进行微调即可适应不同的模型,但我们也期待看到这一领域随着时间推移而发生的变化。我认为未来可能会有其他技术组件来增强护城河的强度,但如果只是基础模型本身,尽管它很重要,我不确定这是否足够强大。
Winton:你认为Meta之所以能够进入这一领域,是否与早期GPT模型尚未展现出明显的商业化潜力有关?当时,研究团队非常开放地分享他们的研究成果,例如公开讨论他们的模型构建方法。即便模型本身基于安全考虑而封闭,但研究人员仍然愿意分享其架构和方法论。然而,随着GPT-4等更先进模型的出现,大家似乎更不愿意公开他们的核心技术了。
吴恩达:确实,我认为在公司之间,人才和想法的流动是相当频繁的,想要长期保密这些核心技术“配方”实际上非常困难。你或许能在短期内保持一定的技术领先,但从长远来看,这种优势可能不会那么稳固。
你提到出于安全考虑的技术保密,但如果我们回顾过去十年,每当有人宣称“我的技术太危险,不能公开”时,通常在一两年后,就会有类似的技术以开源的形式出现。结果往往证明,开源带来的益处远远超过了可能造成的危害。我不是说我忽视了这些危害,因为确实存在不法分子利用开源技术的情况,但开源的版本通常带来的好处更多。
以Meta Llama 3为例,现在有很多人正在基于它开发。例如,Llama 3的原始版本在上下文窗口长度上有一定限制,但因为它开源,开发者们现在可以修改Llama 3,使其支持更长的上下文输入。如果它是一个封闭模型,这些创新就不可能发生。因此,我认为开源所激发的创新力量非常强大。而且,现在有提供商在以每个token为单位广泛地提供Llama模型,开源正在催生大量创新。
当Meta发布Llama时,我看到有人在社交媒体上好奇:马克·扎克伯格究竟在下一盘多高深的棋局?但在我看来,Llama开源背后的商业逻辑并不神秘。
坦白讲,我在Meta对PyTorch的操作中也看到了非常相似的策略。Meta非常清楚地意识到,依赖他人专有平台的风险。例如,iOS更改了隐私规则,这对Meta的业务产生了影响,因为iOS是一个专有平台。因此,当我还在Google Brain时,开发TensorFlow的决策实际上也是为了规避这种依赖风险,我聘请了Rajat Monga来领导这个项目,他是一位杰出的工程师,后来也确实带领TensorFlow取得了巨大的成功。
然而,面对深度学习开发平台可能被竞争对手或专有平台主导的担忧,Meta实际上打了一手漂亮的牌,通过创造并开源PyTorch迅速赢得了业界的广泛支持。确实,这可能分散了他人控制深度学习平台的风险,但Meta不运营大型云计算业务,只需要一个自由的平台来构建自己的社交网络、通信和广告业务就可以了。因此,从商业角度来看,Meta确保生态系统中有一个开源的基础模型是非常合理的,这样Meta就可以在这个基础上开发,而不用担心像iOS这样的封闭平台可能会在某个时候改变规则。
而且,由于Meta不运营大型云计算业务,所以它没有太大的动力去保留一个专有平台或者通过API调用来盈利。
所以,这看起来是一个非常理性的商业决策。但这并不减少我对Meta开源这一宝贵资源的感激之情,我认为我们AI领域的许多人都应该对Meta的开源表示感谢,尽管这也是一个非常深思熟虑的商业决策。
AI潜能巨大,但变革各行业还需更长时间
Roberts:你多年来一直对医疗健康领域非常感兴趣。我记得Mustafa Suleyman的书《The Coming Wave》中提到的一个现代图灵测试的例子,他设想给一个代理系统10万美元,然后让它生成每年100万美元的业务,比如在亚马逊上开设公司、编写营销计划等。这种场景是否也在你的脑海中?你是否也有类似的测试?
吴恩达:我认为人工智能(AI)在本质上与人类智能(生物智能)截然不同,它们各自拥有独特价值。我们常常尝试将AI的能力与人类相比较,这本身并无不妥。然而,鉴于人类智能与AI的差异性,期望AI能够完成所有人类能够完成的任务实际上非常具有挑战性。
尽管我们期望AI在未来能达成这一目标,但在我们尝试使AI匹配人类智能之前,AI已经在许多专门领域展现出超越任何人类的能力,这已经创造了巨大的价值。
我更倾向于关注那些逐步而快速的进展,而非追求完成某些类似“现代图灵测试”的挑战。
Winton:确实如此,基准测试之所以有用是因为它们表明某些具备商业化潜力的应用能够扩展并成为真正有形的现实。你非常专注于将AI带入市场的实际应用,那么在语言生成之外的领域,比如机器人、自动驾驶出租车、医疗健康等方面,你怎么看这些领域的AI应用前景?你对这些进展速度感到兴奋吗?
吴恩达:我认为我们正在逐渐接近这些目标。文本革命最早从大型语言模型开始,但我也看到图像处理的革命正逐渐到来。我不仅指生成图像,还包括图像分析。
Landing AI正致力于大型视觉模型的开发,我认为在接下来的几年内,我们将看到AI在分析图像方面取得显著进展。AI在多个领域的快速推进,显示了它广泛应用的潜力。
在AI Fund,我们致力于保持技术中立性。我们的策略是成为AI技术专家,确保AI技术的构建质量,了解AI的能力和局限。因为AI是一种通用技术,可以应用于医疗、金融服务、物流、教育等众多领域,但我们无法在所有这些领域中同时成为专家。
因此,我们的做法是与拥有深厚行业知识的企业合作,这些企业通常是我们的投资者,但也可以是其他非投资者。通过结合我们的AI专业知识和他们的行业专业知识,我们能够共同打造出非常独特的解决方案。
我们在医疗领域确实开展了一些工作,例如,在我们最近的一个医疗项目中,我们与一个在特定地区拥有深厚专业知识的海外团队合作。他们在市场和市场进入策略上有深刻的理解,这与我们的技术知识相辅相成,使我们能够在美国以外的地方尝试构建一些非常独特的医疗保健解决方案。我们认为,这个特定的市场和地区可能是更易于首先突破的领域。
我发现选择其实非常多。有趣的是,每次我们和大公司一起头脑风暴时,总能产生大量的想法,这些想法的数量总是多到令人既兴奋又有些头疼,因为我们没有足够的资源来一一实现它们。
Roberts:你是否认为在未来五年内能由AI解决的重大问题实际上仍然存在?或者反过来,是否存在一个重大问题能由AI将能够完全解决,但市场或人们尚未充分意识到这一点?
吴恩达:我认为这需要时间。虽然认为“AI能够迅速改变许多行业”的想法很吸引人,但实际上,这些变革可能需要更长时间。
以深度学习和AI为例,我们正在自动化许多工业领域的重复性任务,而我们知道,物理世界的变化步伐是缓慢的。因此,当我们讨论改变生产流程时,尽管我们最终会达到目标,但这通常需要一段时间。
即使在涉及知识文化变革、内部管理变革时,改变的节奏也可能出人意料地缓慢。因此,我们将观察我们能多快帮助众多企业重新思考他们的工作流程。
我对变化速度持乐观态度,但事实证明,当需要变更管理流程时,即使非常微小,有时也需要几年时间。我相信AI确实在改变大量的知识工作,并且我确信今天每个知识工作者都可以通过使用大型语言模型来提升效率,这非常令人兴奋。随着更好的工具出现,我们的选择将变得更加广泛。
你认为现在的AI应用是不够还是太多?