△微软CEOSatya Nadella萨提亚・纳德拉
版权声明
来源:Bg2 Pod频道,先进制造业(amdaily),书享界(readsharecn)
作者:Satya Nadella萨提亚・纳德拉,微软CEO
“AI时代的每一个决策都至关重要。"
2024年12月12日,Youtube平台Bg2 Pod频道发布了微软CEO Satya Nadella(萨蒂亚·纳德拉)专访。"了解我们何时成功,何时失败,并从中吸取教训。"在这次深度对话中,Nadella分享了他的核心理念:模式匹配。正是这种战略思维,帮助微软在每个技术变革周期中找到自己的位置,也让这家曾被质疑"无关性"的公司重新定义了科技创新。
如今,面对2025年这个关键节点,Nadella和微软再次展现出非凡的前瞻性:坚定押注缩放定律(scalinglaws),同时保持清醒的战略认知。"虽然GPT-4.1的链式思维和自动评分等创新正在开创新的可能,但经济现实终将成为模型扩展的限制因素。真正的网络效应在于应用层,而不是简单的模型扩展。
以下为采访内容全文:
1
谈CEO备忘录法则
主持人:你提到的战略重点是识别结构性位置和权限,这确实是一个值得称道的成就。在转向人工智能之前,我还有几个关于过渡的问题。正如Brad所说的,你可能是史上最成功的CEO任命,创造了无人匹敌的三万亿美元的市值。我读到一篇文章提到,你为CEO甄选委员会写了一份10页的备忘录。这是真的吗?如果是真的,那备忘录里写了些什么?”
Satya Nadella:是的,这是真的。当时我们的CEO甄选过程是非常公开透明的。坦率地说,在那个时候,我根本没有想到自己会有这样的机会。回想起来,首先,我从未想过比尔会离开,其次也没想到史蒂夫会离开。加入微软时,我完全没有这样的心理预期。2013年8月,史蒂夫决定退休,对我来说是一个巨大的冲击。当时,我正在负责服务器和工具业务,也就是Azure的归属部门。我那时候乐在其中,甚至都没有主动提出要竞争CEO的职位,因为我根本没想过这种机会会出现。后来董事会逐渐开始考虑内部候选人,并要求我们提交一份备忘录。说实话,那份备忘录里的内容,后来几乎都得到了实现。我在备忘录中使用了‘环境智能’(ambient intelligence)和‘无处不在的计算’(ubiquitous computing)这样的术语。不过后来,我简化为‘移动优先,云优先’,因为公关团队告诉我,‘环境智能’和‘无处不在的计算’这种说法没人能听懂。
备忘录的核心是如何顺应这一代的趋势,理解我们的结构性位置,并充分利用微软的资产。比如,M365是一个非常重要的资产。人们常常按市场细分来理解云,比如IaaS(基础设施即服务)。但我从来没有按照这样的划分来分配资本。我认为云基础设施是公司的核心理论,在其之上有一系列工作负载,比如Azure、M365、Dynamics、游戏等等。备忘录中还提到,我们需要从一个高达98%-99%毛利率的服务器和客户端业务,转向云计算。这是一个巨大的转型。当时,很多人说云计算的毛利率会更低,但我的直觉是虽然毛利率下降,但市场总量会更大。我们可以服务更多的小企业,整体销售额会增加,尤其是消费量的增长。例如,过去我们只是销售Exchange,但现在Exchange、SharePoint、Teams都得到了扩展。
主持人:那么在文化转型方面,你是如何实现的?毕竟很多新任命的CEO都失败了,比如Brad提到的,有人认为微软会成为下一个IBM,辉煌不再。你是如何重塑文化,并让公司走向新的方向的?对于即将上任的CEO,你有什么建议吗?
Satya Nadella:我认为我最大的优势之一是我是一个地地道道的内部人。我整个职业生涯几乎都在微软度过。所以,如果我批评我们的文化,那其实是在批评我自己。这种内部人的身份给了我一个突破点——我的批评不会被认为是一个外来者在指责现有团队,而是一个参与其中的人反思自己。这让我在推动文化转型时更具说服力。我无法批评任何我没有参与的事情,因为我也是这文化的一部分。Bill,我非常清楚地记得微软第一次成为全球市值最高公司时的场景。当时,我走在公司园区,所有人,包括我自己,都表现得好像我们是人类文明中最聪明的一群人。这种自满的文化让我印象深刻,因为我始终认为,从古希腊到现代硅谷,唯一让国家、公司或文明衰落的原因就是傲慢。
我非常幸运,我的妻子几年前向我推荐了Carol Dweck的一本书,这本书探讨了‘成长型思维’(growth mindset)。最初,我是以我孩子的教育和育儿为背景来阅读这本书的。但我突然意识到,这个概念是我们构建学习型文化的最佳框架。我将我们的文化成功很大程度上归因于这一理念。它不仅仅是微软的内部口号,它还超越了工作本身,应用于生活的方方面面。无论是成为更好的家长、伴侣、朋友还是领导者,这一理念都能提供指导。我常说,我们需要从‘无所不知的人’(know-it-alls)转变为‘学习一切的人’(learn-it-alls)。不过,这不是一个可以到达的终点,因为一旦你说‘我已经拥有成长型思维’,从定义上来说,你就不再具备这种思维了。这种文化转变需要时间和耐心,并且需要从上到下,从下到上进行融合。几乎在我主持的每一个会议中,我都会围绕‘使命’和‘文化’展开讨论,这是我框架中的两个关键支柱。自从担任CEO以来,我对这些原则的表述始终保持一致,例如‘环境智能’(ambient intelligence)和‘无处不在的计算’(ubiquitous computing)。虽然这些表达可能已经让我自己感到无聊,但我依然坚持重复,因为它们至关重要。
2
谈投资OpenAI经过
主持人:你提到的几个阶段转变令人印象深刻,我听你说过,作为一家大型平台公司,市场份额的捕获往往在技术阶段转变的前三到四年内决定。而微软此前错过了搜索和移动领域的机会,但抓住了云计算的最后一班车。那么,在考虑下一次重大阶段转变时,你和团队(包括Kevin Scott)似乎很早就察觉到Google在人工智能领域,特别是通过DeepMind,占据了先机。那么,是什么促使你决定投资OpenAI,而不是完全依赖内部的人工智能研究?
Satya Nadella:这个问题非常好,因为这里涉及到几个方面。首先,我们在人工智能领域已经深耕很久了。早在1995年,Bill就创立了微软研究院(MSR),最初的研究方向之一是自然用户界面,首个团队是语音团队。当时Rick Rashid加入了微软,甚至连Kai-FuLee也在这里工作过。我们对自然语言界面一直非常关注。事实上,Geoffrey Hinton曾在MSR任职期间完成了一些深度神经网络(DNN)的早期工作,随后Google聘用了他。老实说,在2010年代初,我们确实错失了一些加倍投入的机会。大约在同一时间,Google投资并收购了DeepMind,这让我感到非常遗憾。
但我们也有一些突破,比如Skype翻译器是我关注的第一个项目。这是第一次我们看到迁移学习的效果,即在训练一种语言对时,可以改进其他语言对的翻译能力。这让我对语言技术着迷,Kevin Scott也是如此。事实上,第一次与Elon Musk和Sam Altman互动时,他们正寻找Azure的计算资源支持。当时,他们主要专注于强化学习(RL)和DOTA2等项目。这让我开始关注他们的工作。后来我们中断了合作,我甚至不太记得具体发生了什么。他们似乎转向了GCP,但之后又回来讨论他们对语言的想法。那是一个关键时刻,他们谈到了Transformer和自然语言处理。对我来说,这和我们的核心业务息息相关。我的思维方式一直是围绕我们的结构性位置展开。我始终认为,如果能在某种模型架构上实现非线性的突破,这将会是一个巨大的机会。比尔在我职业生涯中一直强调,数字领域的唯一类别就是信息管理。他的想法是为世界建立一个结构化的模式,把人、地点、事物等归类整理。微软曾经有一个非常有名的项目叫做WinFS,就是为了把一切都结构化管理,但这个目标几乎是不可能实现的。
于是我们意识到,也许突破点在于语言。人类大脑通过语言、内在的独白和推理来实现信息管理。因此,这也促使我们选择了OpenAI。我对Sam和Greg以及他们团队的雄心壮志感到非常敬佩。事实上,我第一次读到关于‘扩展定律’的备忘录是Dario在OpenAI时写的,Ilya也参与了其中。这让我觉得,既然这种技术具有指数级的性能提升潜力,为什么不全力投入试一试呢?之后,当我们看到GitHub Copilot等产品的成功表现时,加大投入变得更加容易。这一切都源于最初的直觉。
主持人:在以往的技术阶段转变中,一些现有巨头未能迅速跟上,比如你提到的微软错失了移动和搜索的机会。但在这次人工智能的浪潮中,似乎所有人都已经完全醒悟。你是否认同这种看法?你如何看待这场竞争中的关键玩家,比如Google、Amazon、Meta(通过LLaMA)、以及Elon的参与?
Satya Nadella:这是一个很有趣的现象。在上世纪90年代后期,微软是独领风骚的,其他公司远远落后。但现在,人们提到‘MAG 7’(指Meta、Amazon、Google等七大科技公司),甚至可以说是‘MAG8’,因为OpenAI可以被看作是这一代的新生巨头,就像这个时代的Google或Microsoft。这场竞争会非常激烈,但我并不认为这是‘赢家通吃’的局面。当然,在某些特定领域可能存在这样的情况,但在超级规模的基础设施领域绝对不会如此。全球市场,即使不包括中国,也需要多个提供前沿模型的供应商。从结构性位置来看,微软在这方面有很大的优势。Azure的设计与其他云服务不同,我们是为企业工作负载构建的,提供大量的数据驻留支持,分布在超过60个区域,比其他提供商更多。我们并不是为了某一个大应用而构建云,而是为了各种异构的企业工作负载。这种设计将在长期内成为推理需求的核心,因为这些需求将围绕数据、应用服务器等展开。
在基础设施层面会有多个赢家,在模型层面也是如此。每个超级规模提供商都会拥有自己的模型和应用服务器。每个现代应用,包括Copilot,实际上都是多模型应用。这种变化带来了一个全新的应用服务器,就像曾经有移动应用服务器和Web应用服务器一样,现在我们有了AI应用服务器。对于我们来说,这就是Foundry。我们正在构建自己的,而其他公司也会构建他们的版本。在应用层面,网络效应仍将主要体现在软件层,这会是一个非常重要的领域。
3
谈打造ChatGPT类AI产品
主持人:在应用层面,消费者和企业领域的网络效应会有所不同。从结构上分析,竞争会在技术堆栈的不同层次间展开。你提到过,要警惕那些突然出现、对现状进行颠覆的新创业者。我想说,OpenAI就是这样一家已经获得‘逃逸速度’(escape velocity)的公司。谈到应用层,特别是消费者AI,我们可以先聊聊Bing。你我都讨论过,‘10蓝色链接’或许是资本主义历史上最好的商业模式,但它正受到新模式的威胁,比如消费者直接想要答案。以我的孩子为例,他们会说,‘为什么我要用搜索引擎?我直接获取答案就可以了。’你认为,在这个答案为王的时代,Google和Bing是否还能继续发展传统搜索业务?此外,Bing或者你在Mustafa领导下的消费者AI努力需要做些什么,才能与像ChatGPT这样的产品竞争?ChatGPT从消费者的角度看,似乎已经突破了界限。
Satya Nadella:你刚才提到的最后一点非常重要,那就是‘聊天式答案’,这正是ChatGPT的核心。从品牌到产品,它都在转变为一种有状态的工具(stateful)。事实上,传统搜索是无状态的,尽管有搜索历史,但并没有更深入的状态管理。而这些AI代理将变得更加有状态。因此,当Tim和Sam最终达成苹果搜索合作协议时,我非常高兴。我觉得,与其让其他人拿下这个协议,不如让ChatGPT做到,因为我们和OpenAI有商业和投资关系。同时,分发(distribution)也是至关重要的。这是Google的巨大优势。他们是苹果设备上的默认搜索引擎,也是安卓上的默认选择。因此,习惯不会轻易改变。比如,用户仍然会在浏览器的地址栏中直接输入查询,即使他们有其他选择。我自己现在更多使用Copilot,但在一些导航性的搜索上,我仍然会用Bing。不过,对于更复杂的查询,我会直接转向Copilot。这种转变正在全球范围内发生。
我们距离商业意图(commercial intent)查询全面迁移到聊天代理上可能只有一两个关键应用的距离,比如购物或旅行。一旦商业意图的查询开始迁移,那就是传统搜索的‘大坝崩塌’之时。目前,传统搜索业务还能维持,主要是因为商业意图的查询还没有大规模迁移。一旦这种迁移发生,变化会非常迅速。对此,我们的应对方式是在Mustafa的领导下管理三个主要平台:Bing、MSN和Copilot。它们构成了一个生态系统,其中一个是信息流(feed),一个是传统搜索,另一个是新的代理界面。我们与内容提供商之间需要建立明确的‘社会契约’,比如推动流量、支持付费墙或者广告模式等等。在分发方面,我们仍然拥有一个独特的优势,那就是Windows。我们有机会重新争夺浏览器的主导权。我们曾经赢过Netscape,但后来输给了Google的Chrome,这是一个巨大的遗憾。但现在,通过Edge和Copilot,我们正在以一种有趣的方式夺回市场。
另外,无论是ChatGPT还是Gemini,都需要在Windows平台上争取用户,这是一个开放的系统。任何优秀的产品都可以脱颖而出,不需要微软的许可。这种开放性也意味着,虽然我们曾经失去过市场,但现在有机会重新赢回来。实际上,我经常说,Google在Windows上赚的钱比微软所有业务加起来还多。从微软股东的角度来看,这是个好消息,因为我们失去了太多市场,现在可以重新去争取并夺回一些份额。”
主持人:每个人都在谈论这些代理技术(agents)当我们展望未来时,可以想象各种玩家希望能够在其他应用程序和系统上的数据中执行操作。微软的处境很有趣,你控制着Windows生态系统,但同时你的应用程序也运行在iPhone和Android生态系统中。你如何看待这个问题?这涉及服务条款的问题,也涉及合作伙伴关系的问题。比如,苹果会允许微软在iOS上控制其他应用吗?微软会允许ChatGPT在Windows系统上打开其他应用并访问数据吗?这个问题一直延续到搜索和商业领域,比如Booking.com是否会允许Gemini在未经许可的情况下处理交易?
Satya Nadella:这是一个非常有趣的问题。目前来看,这方面的模式尚不清晰。有一种比较传统的思路可以借鉴,就是回顾一下以往各种业务应用程序如何实现互操作性(interoperability)。当时,通过使用连接器(connectors)和连接器许可(connector licenses),形成了一种商业模式。SAP就是一个经典的例子,你可以访问SAP的数据,只要你有连接器。我认为在企业领域可能会出现类似的情况。也就是说,如果一个代理(agent)需要进入另一个代理的操作空间,或者访问其数据模式(schema),那么可能需要某种接口授权(licensed interface)。举个例子,比如我在使用Microsoft的Copilot时,可以通过连接器访问Adobe、SAP以及Dynamics CRM的实例。这种方式非常有趣,因为我们几乎不需要再直接使用这些SaaS应用程序,而是通过AI将其数据整合并操作。
在消费者领域,这种模式尚不明确。过去,消费者价值交换更多依赖于广告和流量,而在代理主导的世界里,这些模式可能会消失。因此,消费者业务模型目前还有待探索。关于你的具体问题,比如允许ChatGPT在Windows系统上随机打开应用并操作数据,这是一个非常复杂的问题。从Windows的角度来看,除了安全防护措施,我无法完全阻止这种情况的发生。我的主要担忧是安全风险,比如如果某种恶意软件被下载,并开始执行危险操作,这将是非常严重的。因此,我们会在操作系统中建立一定的安全机制,比如提升访问权限的控制。最终,用户会在开放平台上掌控这些权限,而在更加封闭的平台(比如苹果或Google)上,他们可能会有更多的控制能力。
4
谈AI的操作系统
主持人:反过来看,你会允许Android系统的AI或iOS系统的AI通过Microsoft客户端访问智能手机上的电子邮件吗?”
Satya Nadella:这确实是一个值得深思的问题。比如,目前我们已经允许苹果邮件通过许可协议访问Outlook的同步服务。这是否导致了价值流失,还是对我们有帮助呢?从某种角度看,这可能确实导致了一些价值的流失。但另一方面,这也是我们能够保住Exchange的原因之一。如果当时我们不这样做,可能情况会更糟。因此,我们正在努力构建一个围绕Microsoft 365的信任体系。我们不能随意允许任何代理进入并执行任何操作,因为这些数据不是我们的,而是客户的数据。我们需要确保客户数据的安全性,同时在开放性和控制之间找到平衡点。因此,最终还是需要客户的许可,企业的IT部门需要批准。这并不是我可以统一设置的某种全局标志。此外,还需要一个可信的边界。我们在M365上正在做的事情可以类比苹果智能系统所做的工作。我强烈推荐大家去体验一下,这是非常有趣的尝试。
主持人:Mustafa提到,2025年将是‘无限记忆’(infinite memory)的一年。Bill和我从今年初就一直在讨论这个问题。我们认为下一个10倍的功能增长可能会是来自GPT的持久记忆,以及代我们执行某些操作的能力。我们已经开始看到记忆功能的初步实现。我相信,2025年记忆的部分可能会得到很好解决。但对于‘行动’,比如我对ChatGPT说,‘帮我在下周二以最低价格预订西雅图的四季酒店’,这种能力何时能实现?你怎么看这件事,目前这是否仍然是一个难题?”
Satya Nadella:最开放的‘行动空间’仍然非常具有挑战性。但你提到的几个方面非常令人兴奋:记忆、工具使用(或行动能力),以及权限管理。这三个要素结合起来,可以让AI代理变得更可控、更具行动能力,并具备记忆功能。以行动为例,如果代理能够在执行任务时做到可验证,并且拥有记忆系统,那么它可以处理更多自主工作。我仍然认为,即使在一个完全自主的世界中,有时也需要提出异常、请求许可或进行调用。这就是为什么我们将Copilot定义为‘人工智能的用户界面’(UI)。它不仅是一个组织层,也是工作、文档和工作流的整合工具。
至于当前的模型,比如GPT-4.0,即使不考虑GPT-4.1,它已经具备很强的函数调用能力。在企业环境中,这种能力比在消费者环境中更有优势,因为消费者网页上的函数调用非常复杂,特别是当后端模式发生变化时。而GPT-4.1或许可以通过一种可验证、可自动调控的流程来实现更好的结果。我认为,这方面的进一步突破可能需要一到两年时间。在企业环境中,我们已经可以在Dynamics中集成10到15个这样的代理,比如销售代理、营销代理、供应链代理等。这些代理可以自主处理更多任务,比如与供应商的通信、更新数据库、调整库存等。
主持人:Mustafa提到‘近乎无限的记忆’(near-infinite memory),你是否可以对此提供一些澄清?是否有内部的技术突破?”
Satya Nadella:某种意义上,这个概念就是为记忆系统建立一种‘类型系统’。这并不是每次启动时从零开始,而是可以根据已有的历史记录进行分类和匹配。我认为Mustafa的意思可能是我们在这方面确实取得了一些技术突破。实际上,我们确实有一个开源项目,可能是由开发TypeScript的团队完成的。他们正在努力将记忆系统结构化,使其可以被更方便地使用。比如,当我在新项目上工作时,它可以根据我以往的操作进行聚类,并通过类型匹配建立记忆系统。我认为这是构建记忆系统的一种很好的方法。
主持人:谈到企业AI,微软的AI业务据报道已经达到约100亿美元的规模。你提到这些收入几乎全部来自推理(inference)需求,而不是通过出租GPU给他人进行模型训练。你认为,目前哪些主要的收入产品正在推动推理收入的增长?它们与Amazon或Google的模式有何相似或不同?
Satya Nadella:这是一个很好的问题。对我们来说,这一切的开展方式需要先理解我们的训练活动。我们与OpenAI的合作主要是投资逻辑,所以这些并没有直接反映在我们的季度收入中,而是以其他收入或损失的形式体现。至于实际的收入来源,目前主要是我们的API业务,以及OpenAI在Azure上的推理需求。换句话说,现在这个时代的热门应用包括ChatGPT、Copilot、GitHub Copilot,以及OpenAI和Azure OpenAI的API。如果列出当前最热门的十款应用,其中四到五个可能都与这些技术有关。这是我们最大的收入驱动因素。我们与OpenAI的合作让我们有了两年的领先时间,这是一项巨大的优势。在这个两年中,我们几乎没有竞争对手,这种情况可能再也不会出现。当然,也可能有人突然发布一些惊人的模型打破现状,但这种机会非常罕见。我们利用这段时间,与OpenAI一起成功建立了ChatGPT的‘逃逸速度’。
在API方面,我们获得了许多新客户,比如Shopify、Stripe和Spotify。这些公司以前都是GCP或AWS的客户,但现在开始在某种程度上使用Azure。这帮助我们打开了更多‘数字原生’客户的大门。对于传统企业来说,我们看到Copilot在一端被试用,另一端客户通过Foundry构建自己的代理。这些设计和项目的推进速度较慢,但正在逐步扩展。这也是我们为何更喜欢这种业务模式,因为与技术初创公司相比,它减少了资源分配的风险。过去,许多技术初创公司都在争抢H100 GPU的小批次分配,这让我想起了Sun Microsystems的困境。如果你追逐每一个试图构建模型的公司,风险会非常高。但现在,投资者的情绪正在变化,更多人希望采用资本轻量化的方式,利用他人的模型进行构建。这使我们能够更有选择性地开展业务。
主持人:所以,你的意思是,其他公司的AI收入中,模型训练和集群可能占据了更大的比例,而微软更多依赖推理收入?
Satya Nadella:我不确定,我只能就我们的业务进行说明。对于其他公司,我不知道它们的热门应用有哪些,模型在哪里运行,或者它们的规模有多大。从我们这边来看,目前最知名的应用有ChatGPT、GitHub Copilot和Copilot。至于Google的Gemini,我对其用户数据感到惊讶。当然,凭借其分发能力,Gemini的增长潜力很大,但从目前来看,真正具有大规模用户量的AI应用并不多。如果让我列举,有哪些应用的日活跃用户数(DAU)超过500万,首先想到的还是ChatGPT、GitHub Copilot和Copilot,以及Gemini。除此之外,你还能想到其他应用吗?
5
谈构建‘AI优先’的原则
主持人:确实,还有一些初创公司的用例开始从底层逐步获得一些发展机会,其中许多构建在LLaMA之上,但如果你要列举十大热门应用,确实不容易想到更多。在企业AI领域,微软的AI业务已经取得了显著的成功,比如Copilot的应用非常受欢迎。不过,关于Copilot的方法论,比如Mark Benioff对此的批评(称其为Clippy2),你怎么看?是否担心有人从零开始构建‘AI优先’的产品,而不是基于现有基础设施,例如Excel或CRM?
Satya Nadella:这是一个非常重要的问题。我们在业务应用(BizApps)上的方法至少是基于这样的理解:传统业务应用的逻辑可能会在代理(agent)时代彻底改变。如果你思考这些应用程序的本质,它们基本上是带有大量业务逻辑的CRUD数据库(创建、读取、更新、删除)。但未来,这些业务逻辑可能会被转移到AI层,而AI代理将能够跨多个数据库操作,而无需关注后端的具体实现。一旦逻辑层迁移到AI代理,人们可能会逐步替换后端系统。目前我们看到Dynamics在这一领域的表现非常强劲,无论是CRM还是财务与运营(finance and operations),我们都看到了更多‘AI原生’业务应用的需求。这些应用希望逻辑层由AI代理进行编排,从Copilot到AI代理再到业务应用的衔接变得无缝衔接。
至于Excel,你可能会问,‘我们还需要Excel吗?’但令人兴奋的是,现在的Excel加入了Python,就像GitHub的Copilot一样。Excel不再只是一个简单的数字工具,而是一个数据分析师的可视化工具。Copilot可以在Excel中生成计划,执行计划,并将其用作数据分析的草稿本。我们的方法是将Copilot定位为AI的组织层(UI)。它可以集成所有代理,包括Excel和Word等特定工具。Excel是Copilot的代理,Word也是代理,它们是专门为特定任务设计的‘画布’。无论是处理法律文档还是数据分析,Copilot都可以无缝协作。这是一种全新的工作与工作流模式。”
主持人:关于AI的投资回报率,许多人对此感到疑虑。微软拥有超过22.5万名员工,AI是否帮助你们提升生产力、降低成本或推动收入增长?你能举一些最显著的例子吗?比如,当Jensen Huang接受采访时,他提到通过拥有10万个代理,他预计营收增长2-3倍时,员工数量只会增加25%。那么当Azure的收入增长2-3倍时,你是否也期望看到类似的杠杆效应?”
Satya Nadella:这是一个非常关键的问题,不仅对微软如此,对我们的客户也是如此。我最近在研究工业公司如何通过精益(lean)实现增长。这些优秀的工业公司通过精益实践,实现GDP增长的同时还能附加2-3个百分点的尾风效应。他们的精益方法是‘增加价值,减少浪费’,这让我想到AI对知识工作的影响。我认为AI是知识工作的精益工具。我们正在学习如何重新设计业务流程,提高流程效率并实现自动化。这让我想起1990年代的‘业务流程再造’(business processre-engineering)。现在,这种方法以全新的方式回归。企业需要从端到端审视流程,思考如何通过AI优化效率、自动化操作,并提升整体效能。
6
谈AI应用场景
主持人:客户服务似乎是一个显而易见的AI应用领域。你们投入了大约40亿美元用于从Xbox支持到Azure支持的所有服务。AI的前端拦截率带来了显著的变化,而最大的好处在于代理的效率提升。代理更高效,客户更满意,同时成本也下降了。这似乎是一个非常明确的领域。还有哪些应用场景对AI的采用起到了推动作用?
Satya Nadella:确实,客户服务是一个非常明确的应用场景,我们的联络中心应用表现非常出色。另一个重要的领域是GitHub Copilot,特别是Copilot Workspace。这是代理(agent)功能首次全面展示的地方。你可以从一个问题开始,生成计划和规范,然后执行多文件编辑。这彻底改变了团队的工作流程。M365 Copilot是另一个关键领域,它几乎涵盖了所有场景。比如,我自己每次与客户会面时,整个准备流程都已经完全不同。我可以直接在Copilot中发出查询,让它告诉我关于客户的一切信息,包括我的CRM、电子邮件、Teams会议记录以及网络上的信息。这些数据被整合并生成一个页面,我可以实时与我的团队共享。这种方式完全改变了以往从零开始准备简报的流程,现在只需一个查询就可以完成。
另一个例子是供应链管理。有人将供应链比作交易平台,但缺乏实时信息。通过AI,这些实时信息变得触手可及,比如告诉你一个数据中心的合同应该包含哪些条款。所有这些实时情报正在改变工作流程和工作成果。我们的目标是通过AI实现运营杠杆作用。我相信,我们的总人力成本会下降,而人均成本会上升,同时研究人员的人均GPU配置也会增加。这就是我对未来的设想。
主持人:你之前提到关于模型扩展和资本支出的观点。微软的资本支出从2020年的约200亿美元可能增长到2025年的700亿美元。虽然资本支出与收入之间的关联性很高,但一些人担心这种关联可能会被打破。你对此有何看法?这样的资本支出水平是否让你感到不安?增长速度何时会开始放缓?
Satya Nadella:这是一个重要的问题。有几点需要注意:首先,作为一个超级规模服务商(hyperscaler),我们在这一领域已经有很长时间的实践经验。数据中心的生命周期是20年,电力支出是按使用付费的,设备的使用周期是6年。通过优化利用率,我们可以显著提高资本回报率(ROIC)。更重要的是,超级规模服务商的独特优势在于软件驱动能力。早期,有人质疑超级规模服务商如何赚钱,而我们的答案是软件。软件是区分传统托管服务与超级规模服务的关键。这一点同样适用于GPU的资本支出。目前,我们处于‘追赶’阶段。过去15年,我们建设了云计算基础设施,但突然间,一个新的计量单位出现了,那就是AI加速器。每个应用现在都需要数据库、Kubernetes集群和运行在AI加速器上的模型。这使得我们必须迅速建设这些AI加速器以满足需求。这种增长会逐渐正常化。一旦建成,这些负载会逐步稳定,就像云计算的增长路径一样。我们还需要确保需求的多样化,而不是单纯依赖供应侧建设。此外,利润率会有所不同,比如原始GPU的利润率与添加了Foundry或Copilot的GPU的利润率会完全不同。因此,构建一个多样化的投资组合是关键。
主持人:微软在云计算领域今天的溢价表现非常突出。你们规模比亚马逊更大,增长速度也更快,利润率也更高。这显然与微软在多个层次的投入有关。在AI领域,也有很多关于模型扩展和推理成本的讨论。过去有种说法是模型集群的规模会持续扩大,比如每次扩展10倍。然而,最近有人提到,这种模式可能不再持续,推理成本的降低让人们更关注于推理而非训练。你怎么看待大规模语言模型的扩展和训练成本?未来的发展方向是什么?
Satya Nadella:我对缩放定律(scaling laws)深信不疑。事实上,我们在2019年的投资就是基于扩展定律的赌注,我至今仍然坚持这一点。也就是说,不要低估扩展定律的潜力。但同时也要认识到,扩展的难度会随着集群规模的增大而增加。比如,随着集群规模的增长,分布式计算的问题变得更加复杂。这是挑战的一方面。不过,我仍然认为训练模型并没有结束。OpenAI的成果,比如他们在GPT-4.1上展示的链式思维(chain of thought)和自动评分(auto-grading),是令人兴奋的进展。这种方法利用推理阶段的计算能力(test-timecompute),将生成的token反馈到预训练中,从而进一步增强模型能力。这种推理阶段的计算有两个好处。一方面,当用户使用GPT-4.1时,他们正在生成token供预训练使用,这类似于训练。另一方面,客户在使用GPT-4.1时会消耗更多资源,这为我们提供了经济模式上的支持。这种方法让推理变得不仅仅是成本,而是一个新的经济机会。
微软的优势在于我们在全球60多个数据中心的布局。这些数据中心有不同的硬件架构,分别支持训练和推理。这种方法的核心是实现一种稳定的比例状态(stable state),就像Jensen Huang提到的,你需要每年都进行一些采购,而不是集中采购。通过这样的方式,我们可以逐步老化设备,比如先用最新的硬件进行训练,第二年用于推理,从而优化利用率和资本回报率(ROIC)。最终,经济现实也会成为模型扩展的限制因素。即使你每年将能力翻倍,但如果无法销售这些资源,就会产生‘赢家的诅咒’(winner’s curse)。更糟糕的是,即使你拥有了领先的能力,其他人也可以通过蒸馏或逆向工程实现类似的效果,并且可能更加高效。这种现象会让人们更谨慎地追逐模型扩展。此外,网络效应主要体现在应用层(app layer)。与其在模型能力上花费巨资,我更愿意投资那些能带来应用层网络效应的地方。
7
谈百万GPU的集群
主持人:所以,Elon Musk提到要构建一个拥有一百万GPU的集群,Meta也提到了类似的计划。但你提到,这种扩展可能会受到经济理性的限制。你是否同意?
Satya Nadella:是的,我同意。虽然目前大家都想争第一,但随着时间的推移,经济现实会让每个人都更加理性。最终,投资的重点将转向那些真正能带来网络效应和经济价值的领域,而不是单纯地追求更大的模型规模。
主持人:与年初相比,基于你在预训练和扩展方面的观察,你是否调整了基础设施规划?另外,你提到o1的推理和后训练(post-training)工作,这是否表明微软不会参与最大规模的模型训练竞争?
Satya Nadella:这是个好问题。我们确实在努力平衡这种‘10倍扩展’的需求。这里的关键是保持经济模型的合理性,比如如何清理库存并让设备的折旧周期与需求匹配。你不能提前无限制地购买设备,除非GPU的物理性能能直接反映在P&L(利润和亏损表)中,并且能保持与超大规模服务商(hyperscaler)相当甚至更好的利润率。所以我们的目标是持续推进推理需求,同时高效地提升能力。我完全支持OpenAI的Sam Altman,他可能会有不同的目标,比如更专注于AGI的发展。因此,在某些方面我们可能存在一些张力。Mustafa说过,微软不会参与最大的模型训练竞争,这其实是合理的。我们与OpenAI的合作已经集中化了我们的计算资源。没有理由重复训练同样的模型集,因为我们已经拥有了IP的所有权。我们的战略是专注于后训练和模型验证,同时针对不同的使用场景开发特定的模型权重和模型类别。
主持人:你提到与CoreWeave的合作是为了应对ChatGPT带来的需求激增。这是否也与GPU回报率(ROI)的平衡有关?
Satya Nadella:确实如此。我们所有人都被ChatGPT的需求浪潮打了个措手不及。2022年11月的情况完全出乎意料,那是一次巨大的冲击。我们没有时间进行传统的供应链规划,所以我们不得不快速采取行动。无论是与CoreWeave的合作还是其他供应商的采购,都是为了应对需求的快速增长。这是一次性事件,而现在我们已经基本赶上了需求的增长。目前在电力方面我们仍然面临一些约束,但芯片供应已经不再是问题。我们确实在2024年面临过芯片供应的限制,但正如我们向外界表示的那样,我们对2025财年上半年感到乐观,并预计到2026年及以后会有更好的发展。”
主持人:关于o1的测试时计算(test-time compute)和后训练工作,你提到这带来了非常积极的结果。这种方法生成了大量token,并将这些token重新循环到上下文窗口中,这个过程会快速叠加,显著增加计算需求。JensenHuang提到,他预计推理需求会呈现‘百万倍或十亿倍’的增长。你是否认为你们的长期计划足以支持这种推理需求的扩展?
Satya Nadella:这是一个很重要的问题。要理解这种需求,必须考虑整个工作负载。特别是在代理(agentic)世界中,推理的工作负载不仅仅是模型运行,还包括其他增长快速的服务,比如OpenAI的容器服务。这些代理需要一个‘暂存区’(scratch pad)来处理自动评分(auto-grading)和样本生成等任务。这些需求推动了计算资源的快速扩展。
主持人:你提到在AI应用中,代码解释器运行在Azure Kubernetes集群上。你还提到在推理需求的背景下,AI其实已经成为云计算的核心部分。尤其是在一个每个AI应用都具有状态化(stateful)和代理(agentic)特性的世界中,经典的应用服务器、AI应用服务器和数据库都需要协同工作。这是否是微软为60多个Azure区域准备AI应用的原因?”
Satya Nadella:完全正确。我们建立的60多个Azure区域不仅仅是为传统云计算准备的,更是为全面的AI应用做好了准备。每个区域都支持经典的应用服务器、AI应用服务器和数据库的协同工作,这是现代AI应用所需要的完整基础设施。这使得我们能够应对未来的AI应用需求,同时也让云计算与AI深度融合。”
8
谈微软与OpenAI合作
主持人:让我们聊聊OpenAI。你们之间有巨额的投资和深度合作,同时也在某些领域存在竞争。微软如何平衡这种关系?你是否认为ChatGPT会在消费者市场上占主导地位,而微软则在企业市场上与OpenAI分工合作?”
Satya Nadella:目前,OpenAI已经是一家非常成熟且成功的公司,拥有多个业务线和细分市场。在这种情况下,我从几个角度看待我们与OpenAI的关系。首先,作为投资者,我们需要确保双方的利益对齐。其次,作为IP合作伙伴,我们通过提供系统IP,获取OpenAI的模型IP。这种深度合作对双方的成功都至关重要。第三,OpenAI也是我们的一个大客户,我们致力于像服务其他重要客户一样支持他们。最后,在某些领域,我们是竞合关系(coopetition)。比如,在消费者市场上的Copilot和M365中的Copilot,我们有一些重叠,但也有明确的分工。即使在这种竞合关系中,像OpenAI与苹果的合作协议,实际上从微软股东的角度来看也是有利的。因为这些合作推动了OpenAI的API使用,而这反过来也会惠及微软的成本和收益。
主持人:“硅谷和整个商业界对微软与OpenAI的关系非常感兴趣。比如,在最近的DealBook峰会上,Sam Altman被问到关于公司利润化(conversion to profit)的重组,以及Elon Musk的一些评论。你能分享一些关于这种动态关系的看法吗?
Satya Nadella:这些问题主要由OpenAI的董事会、Sam、Sarah、Brad和他们的团队来决定,我们的角色是支持他们。我们非常关心OpenAI的成功,因为这符合我们的利益。从更广泛的视角来看,OpenAI是这一平台转型中的标志性公司,它的成功对整个行业和世界都是有益的。因此,我们的立场是支持他们,并希望他们继续取得成功。当然,在这种合作关系中总会有张力。这种张力一部分来源于竞合关系,另一部分可能来自Sam作为一位具有远见和雄心的企业家,他希望以更快的步伐推进目标。在这种背景下,我们会努力保持合作,同时支持OpenAI的愿景。因此,我们需要在平衡中找到答案,也就是说,Sam的目标需要微软的支持,而我们也需要确保自身的纪律性和约束力得以体现。过去五年对双方来说都非常重要,我们已经取得了很大的进展。从我的角度看,我希望这种合作关系能够尽可能长久地持续下去。长期稳定的合作对双方都有利。
主持人:OpenAI的独立融资和未来的路径,微软是否希望推动这一进程加速?你是否认为OpenAI成为一家公开上市的公司是一个好的方向,还是维持现有的合作关系更为合适?
Satya Nadella:在这一点上,我希望谨慎行事,避免越界。毕竟,我们既不是董事会成员,也只是投资者。最终的决定权在于OpenAI的董事会和管理团队。我的立场很明确,我会支持他们的任何决定。对我们来说,最重要的是保护我们在商业和IP合作中的利益,并确保OpenAI的成功。我认为,Sarah、Brad和Sam是非常聪明的人,他们会根据OpenAI的使命和目标,做出最适合他们的决定
主持人:非常感谢你今天抽出时间与我们交流。
Satya Nadella:非常感谢你们的时间与支持,祝一切顺利。
点击“阅读原文”立即购买《AI启示》