王坚院士：AI、AI+以及AI基础设施

科技 2024-12-01 22:10 北京

编者按：这篇文章是王坚院士在9月5日开幕的2024年外滩大会上的演讲实录。在题为《AI、AI+以及AI基础设施》的演讲中，王坚院士分享了他对AI、AI+以及AI基础设施的思考。这里面有很多他个人角度新颖的洞察，值得我们花点时间仔细读几遍。

精彩观点：

今天的人工智能跟80年代初大家讲的同一个人工智能，是一个完全不同的人工智能。

当你做不出一个比ChatGPT好的这样一个东西的时候，至少有两个原因在约束你。第一个当然是你的技术，就是基础，就是模型。第二就是你对这个问题理解的深度，你能不能真正找到这个领域的问题，事实上是你约束的最大的一个前提。

一旦有一个事情要谈到基础设施的时候，我觉得这是一个技术渗透的终极的形式。大家可以理解，你看人类发展历史上任何技术的发展，什么技术会对人类产生最长远的影响，就是它变成了基础设施。

数据是基础设施的核心的组成部分。数据不只是一个模型的附属品，这个数据也不只是一个计算的附属品。只有所有这些东西变成一个完整的基础设施的时候，我们才会有那一次更加激动人心的创新。

当你看AI、AI+跟AI基础设施的时候，你就会发现这个世界不但技术在革命，机制也在革命，基础设施也在革命。没有比这三项革命在同一个时间发生再令人激动了。

各位来宾，非常感谢有这次机会，把过去几年甚至几十年有关的一些想法、一些教训或者一些经验在这跟大家分享一下。

今天我自己找了三个关键词，就是AI、AI+、AI基础设施。

其实这三个关键词都绕不开一个词叫AI。刚才Michael也讲了，其实AI这个词可能一千个人有一千个人的理解，一千人有一千人的想法。但是今天碰巧这三个不同的方面，就是AI、AI+跟AI基础设施在今天被结合在一起了。

我经常说的一句话，人工智能有很长的过去，只有非常短的历史。其实这是一个非常纠结的一件事情。事实上我觉得最困惑的就是，到今天为止，人工智能到底在说什么事情呢？还是值得探讨一下。

我想用一张图，当时我看到以后，为什么让我会想起人工智能有一个很长的过去，只有很短的历史？你今天看到那个红线画的地方，就是大概在40年代末50年代初，就是图灵写了篇文章叫intelligent machines。

我自己觉得这是一个很长过去的一个开始，如果你要追溯关于机器智能的事情，可能可以追到几百年以前。在图灵这篇文章里边，他谈了一些很有意思的事情。这篇文章50年代发表的时候，是发表在心理学一个哲学的杂志上。第一次在探讨关于机器跟智能之间的关系。

大家要知道在那个时候，其实计算机这个词还没有完全出来。所以那个时候大家还习惯把它叫做computing machinery。这就是为什么美国计算机学会会叫ACM，也是这个原因。

事实上那个时候没有计算机这个词，但是图灵在那篇文章也是第一次用了数字计算机（Digital Computer）这个词。所以这篇文章它的深远的意义，到今天为止看，都是非常值得重新来思考。我们很多最早的概念可能都是从这边来的。

当然大家都会讲到达特茅斯这个会，我自己（觉得）很有意思，刚才Michael特别讲到了Cybermetics，我听完以后就很感触，如果当年那个会不在达特茅斯开，可能这十个人的想法就被winner给灭掉了。

那可能我们今天还是叫Cybermetics来称呼我们今天说的人工智能。但事实上，说不定从单词角度可能用Cybermetics可能会更好一点，但人工智能就这么流行了。

那为什么在Herbert Simon（赫伯特·西蒙）这边我打了一个红的框呢？就是我自己对人工智能的理解，就是从Herbert Simon开始的。

这个人很神奇，他是个心理学家，但是去参与了这个会，得了诺贝尔经济学奖。他第一次访问中国是1972年，是以美国计算机学会的名义到中国来的。他80年代初又以美国心理学会的名义到了中国来。

那个时候我在大学读三年级，他到我们去讲了关于人工智能。所以大家可以设想一下看，一个大学三年级的学生，在中国，在80年代初有一个人告诉你，人工智能在下面十年会有一次天翻地覆的变化。

你大概可以设想一下，那时我有多么的激动。但事实上，等了十年没有什么东西发生，所以后来就该干什么就干什么去了。

但事实上，里边的很多最基础的东西在那个时候也被提到了，甚至大家今天知道的神经网络。我印象很深，当时在80年代末的时候，有一本教科书叫PDP，就《parallel distributed processing》，那里面讲的通篇都是神经网络的理论。

那时候讲的都是每一层两个节点，只有三层，大概你能做到那个程度就结束了。但今天的规模跟那个时候没法比。

所以我想说的一件事情，今天的人工智能跟80年代初大家讲的同一个人工智能，是一个完全不同的人工智能。我刚才讲，我觉得Michael刚才也讲到了这一点。

那为什么算是一个非常短的的历史？

如果你看再回到刚才这张图上，现在这个红线里边就讲到了2017年，就是 Google开始提出了transformer这件事情。

所以我想今天我们能够谈，今天人工智能又重新回到了大家的视野，又重新在产业上有那么大影响的话，那就是从2017年开始。所以我相信2017年以前的人工智能，跟我们今天说的人工智能，还是有非常不同的差别。这就是我说只有七年历史的这个原因。

当然这段历史就是从一篇文章开始的，这个大家都知道。但是我想强调一下的事情就是，这文章的 8 个作者现在都不在谷歌。听说有一个最近大概又回去了。Anyway也就是说，尽管它发明了很多东西，但是没有谷歌什么事。

那这里边有些今天大家被忽视掉的发明。比如说第一次有了token这个概念，听起来好像也没什么了不起。大家都知道今天一个商业服务，大家都是用token来计价的。大家可以设想一下看，如果你连最基本计价的逻辑都不清楚的话，大概是不会有一个好的产业的。更不用讲待会我这个主题里面会讲到的关于基础设施的事情。

同样，大家都知道在谷歌发表这篇文章的前后，就有一家公司叫OpenAI。OpenAI的出现，站在我的角度，就是让我们重新思考一下创新的机制是什么。所以这就有了在2022年这个GPT的发布。

这两件事情结合在一起，我总是觉得一件很怪的事情。所以我说了一句话就是：谷歌很行，谷歌也很不行。

这个谷歌很行是什么呢？特别是在中国，大家都会讲0到1的创新。所以大家可以设想一下看，谷歌是100%的完成了我们讲的0到1的创新是吧？甚至还要多一点。

但为什么谷歌不行呢？我觉得大家都可能知道埃里克·施密特（Eric Schmidt）前段时间在斯坦福大学有个发言，搞得沸沸扬扬的，就是说的谷歌非常不行。那确实也不行，为什么呢？他没有创造出一个东西，像OpenAI创造出的那么有价值，对社会（而言）。

所以我想，这中间事实上要让我们重新思考这个创新的机制到底是什么。它不是一个简单的从0到1创新，不是简单的你有一个好的想法。这中间的机制是远远超出今天学者甚至产业界可以来理解的。

这也是我觉得对我们一个最大的挑战。所以我用了一个谷歌很行，谷歌也很不行。

但在这个ChatGPT后面，它的光芒事实上是对大众而言的，不是对业界而言的，是被掩盖了很多事情。但大家都知道有alphafold，对吧？特别是alphafold 3出来了。

但是很少人会说它其实背后还是transformer加diffusion。可能今天大家在讲这个能生成一个图片，能生成一些大家觉得视觉上可以满足大家生成的视频。大家会讲到transformer加diffusion，可是很少人理解，其实为什么谷歌那篇文章有那么fundamental。也就是说到最后大家今天听到的一些最基本的东西，到最后也离不开transformer。

当然就是说从alphafold 2到alphafold 3，事实上他那个名字稍微做了一些改变？所以在alphafood3时候，他就用那个Pairformer，但大家都知道背后最基本的东西还是这个transformer。

再往下看，其实大家也知道，其实从ChatGPT到alphafold，到今天大家在媒体上也经常会看到关于天气预报的时候，这是一个三个跨度非常大的应用。但是他们到背后，我觉得有一个最基本的东西就是脱离不掉，就是transformer。

所以我想这个AI为什么只有七年历史？

大家再回过头来看，我们事实上是你愿意不愿意，我们生活在transformer这样的一个阴影下，也可能是一个以后是一个阳光灿烂的东西。所以我有时候会讲到说，当你在这样的一个背景下，再回过头来看，去年在政府工作报告当中，多次谈到了人工智能，同时提到了这个人工智能+。

所以大家设想一下看，在transformer这个逻辑下，我们要理解的人工智能+到底是什么。所以大家可能今天一谈到人工智能+的时候，就会简单的加一个行业进去。我用我自己的话来讲，其实这是没有比在人工智能+后面加一个行业把人工智能庸俗化的做法了。所以就是反复思考的人工智能+到底是什么？

所以我们再来看这个GPT，或者是我们今天要说的这些事情的话，那可能是需要有一次重新的思考的。所以这个ChatGPT如果在人工智能+这个逻辑上，大家可以认真想一下看ChatGPT不是个应用，它是个应用平台。

就像在上一个年代这个office一样，它不是一个应用，它是应用平台。但如果把GPT再拆一拆，刚才讲过了，它如果把它变成个基础模型的话，事实上chat就是一个应用。所以ChatGPT就是GPT加chat，这是我的理解。

但是我想多说一句的话，chat不是一个简单的应用场景。

大家都知道microsoft跟OpenAI这个合作过程当中，不只是做了ChatGPT。其实他们到比尔盖茨家里讨论了很多GPT这样东西可以用到什么场景。最后只有ChatGPT是最革命的，所以变成了产品。

他们做了一大堆也很有用，但没有革命的东西，后来都写成了书。所以有时候经常开玩笑说，这个书是很危险的，就是不是革命的东西都写成了书，可能最革命的东西做成了产品，这是我们今天真正发生的事情。

所以我想没有比OpenAI的这个公司的人对chat本身有更深的了解。

所以今天我还是要讲一句话，就是说当你做不出一个比ChatGPT好的这样一个东西的时候，至少有两个原因在约束你。第一个当然是你的技术，就是基础，就是模型。第二就是你对这个问题理解的深度，你能不能真正找到这个领域的问题，事实上是你约束的最大的一个前提。我们往往在很多时候，其实对这个问题不理解，以为有了GPT就可以解决很多的问题。

当然我今天讲的重点是这个+到底是什么？这个+就让我想到了，大家都知道当时这个chat做这件事情的时候，事实上只是反映了比尔-盖茨当年的一个愿景，就是让计算机能听能说。所以我想今天因为有了ChatGPT以后，就当这台计算机变成了一个手机以后，我们今天就做到了这一点。

那么这背后的真正的+的机制就是ChatGPT。当我们讲那个加的时候，不是加什么东西，而是怎么加，更加重要的是一个机制的创新。这句话听起来很抽象，再把它回过头来，大家可以看一看ChatGPT什么意思，这个家就是OpenAI这家公司。没有OpenAI这家公司，GPT和chat是不会变成这样一个影响大家的产品。

那OpenAI这家公司为什么是一个机制的创新呢？

到今天为止，其实大家都知道OpenAI是一个怪物，也就是说它有nonprofit的OpenAI，也有OpenAI LP这样的东西。所以大家可以设想一下看，一个noprofit一个机构跟一个商业机构在OpenAI这么一个主体里边，被这样莫名其妙的存在在一起。所以我想就是发生的过去发生的事情都跟OpenAI，其实大家讲的OpenAI都是讲的OpenAI LP。

可是当大家知道它最早创办是一个非营利机构的话，大家可以想象它中间的机制是多么复杂的一件事情。所以我经常跟投资人讲，你用传统的方法是投不出 OpenAI这样一家公司来。

当然因为这样的成功，让我们重新反思了一下。就是黄仁勋说了一句话叫ChatGPT是人工智能的iPhone时刻。

其实这句话被很多人引用，我自己一开始听的时候也很激动。但是后来想了一想，这个就不知道在说什么，为什么呢？因为ChatGPT是什么也没有完全说清楚，人工智能是什么也没有完全说清楚，那iPhone到底是什么也没有说清楚，就是把这三个说不清楚的东西放在那里变成了一句话，这是让我困惑了很长时间。

其实大家也不要觉得说清楚iPhone是什么是一件很困难的事情。我说一个现象就知道了。大家说起这个iPhone都觉得app store是它非常重要的事情。

今天任何一个人发言都说生态多么重要，可是很少人理解。你们去看，Steve Jobs发布第一代的iPhone时候，是没有APP store。完了如果你要讲它的生态系统，当年跟Steve jobs一起发布iPhone第一代的那些公司，今天都不见了。所以他到底是什么？也是值得我们非常深思的。

当然这句话，我自己觉得他其实抄袭了另外一句话。这是当年我自己听了看了非常激动的。就是当alphafold出来的时候，alphafold 2出来的时候，有人说了一句话，大家说是alphafold是生物学的imageNet时刻。我自己觉得这个是真正反映了技术发展的背后的。

当然这个就回到了那篇文章，就是杰弗里·辛顿（Geoffrey Hinton）跟他的两个同学两个学生写的。

这篇文章，至少在做机器学习也好，图像识别也好，一定知道这篇文章。但你把这篇文章抽象出来，它就三个东西，就是今天构成我们人工智能，大家天天在讲的三个东西，就是：imagineNet，就是有组织的数据，完了有一个模型，那时候叫CNN，完了加GPU。这是第一次一篇文章完美地把三个东西结合在一起。

只不过是这三个东西在那个时候都谈不上是新的，imageNet也存在了很久，CNN 也不是一个新的算法，GPU那个时候在每个网吧里面都有。

但是是这篇文章，这三个学生把它结合在一起，使得GPU、模型和数据成为做这个行业的一个最基本的标准。特别是GPU，是在那篇文章之后，它才成为学术界的标准，在他这篇文章之后才成为工业界的标准。

而当时他们用了两块GPU卡，是一个非常普通的GPU的卡。尽管这两张GPU的卡在当时大概已经超过了上万个CPU核的算力，但是这是在中国的每一个网吧里面都有的GPU卡。但是因为这样发生了一次非常大的变化，所以算力重不重要？算力重要。但是在创新阶段，大家都知道没有比人的创造力再重要的事情。

那么到了今天发生的变化，为什么会引出要引出基础设施呢？就是因为规模。

也就是说当数据、模型、算力的规模都变成了一个巨大的变化的时候，这个时候一定要引入了新的东西，不然它没法解决了。这个也是做IT、做程序设计的，看到这句话也很激动。

这是Pascal的发明人曾经写过一句话，他说一个婴儿的速度的1000倍就是一架喷气机。

也就是说在我们世界里面，任何的事情的规模增加了1000倍，它就会发生天翻地覆的变化。大家都知道在我刚才讲的三个组合的规模上，在每一个单元都超过了1000倍。正是这1000倍，使得今天我们绕不开一个最基本的东西，就是AI的基础设施。

大家知道一旦有一个事情要谈到基础设施的时候，我觉得这是一个技术渗透的终极的形式。大家可以理解，你看人类发展历史上任何技术的发展，什么技术会对人类产生最长远的影响，就是它变成了基础设施。

当然是AI基础设施不是我发明的，今天大家都在谈的。所以我想为什么从AI到AI+到我们今天可以讲AI基础设施的话，是一个非常值得我们深思的。那下面我也会很快说一下，这是红杉在一次研讨会上用的一个幻灯片。把它拿过来了。拿过来的目的，只是为了看大家最下面一行，他就会叫做基础设施。

大家看一看在云时代，在移动时代，在AI时代，他们觉得的基础设施就是云计算。这里很有意思，他把苹果是划到了基础设施这一类的。同样的大家可以看到在今天，他把英伟达也划到了基础设施那一类。所以这是一个非常有意思的一个分类方法。这个也不奇怪，为什么？英伟达大家都觉得他应该去做云计算。

作为做云计算的，我看到这张图的时候也非常激动。这张图不是我画的，但是解释是我的解释。就是这张图大家看到这是六个在美国的做AI的独角兽，那你看它背后的基础设施的支持很有意思。

就是 OpenAI，大家都知道它得到了100亿美金的投资，它背后是microsoft，第二名的背后是AWS。大家可以看到在这些企业真正背后的排名是什么？就是全世界排名第一、第二、第三、第五、第六的云计算服务商，都是今天美国独角兽公司的背后支撑的来源。

这里大家看到很很神奇的一件事情，在这里有第一、第二、第三、第五、第六，就是没有第四，对吧？那第四就是阿里云。我想就是说，这种基础设施对将来这些事情的影响，从计算这个角度也能看得出来。但是我想从另外的角度也反映了这个产业之间的差距到底在哪里。

所以从这个角度，让我想起了另外一句话，我觉得微软很不行，但是微软也很行。也就是说，它在人工智能领域没有做出transformer这样的东西。但是它因为云，因为这个基础设施，它在跟OpenAI创造出这么一个今天我们可以看到的东西出来的话。你从另外一个角度也可以看得出，好像微软不行，但是微软还是很行。

所以我想在AI、AI+跟AI基础设施这个逻辑上，所有人都是可以做自己可以创造历史的事情。

我前几天看到一个创业公司，为了证明他这个创业的重要性，画了一张图。我觉得很有意思。就是我相信今天我们老是讲数据，讲计算，讲算法。但是大家设想一下，这些东西不在一个基础设施里边，事实上是没有价值的。

我把这个红框里面画出来，其实这张图很有意思地告诉大家，数据是基础设施的核心的组成部分。数据不只是一个模型的附属品，这个数据也不只是一个计算的附属品。只有所有这些东西变成一个完整的基础设施的时候，我们才会有那一次更加激动人心的创新。

如果大家看最前面它里面讲到那个事情，去做了两个区分，就讲是在传统的IT时代的云计算，以及在AI时代的云计算。尽管这两种计算有差别，但都是云计算。同样数据也做了这个区分，就是在传统意义上的数据，跟在AI这个意义上的数据，它是做了这么一个细微的区分的。今天这个我就不展开讲了。

最后总结一下：就是事实上，当你看AI、AI+跟AI基础设施的时候，你就会发现这个世界不但技术在革命，机制也在革命，基础设施也在革命。没有比这三项革命在同一个时间发生再令人激动了。所以我想这些革命正在创造未来。

谢谢大家。( 来源：智能超参数）

必达智库

人工智能、区块链、大数据、云计算、工业互联网、物联网、未来网络、下一代互联网、虚拟/增强现实等信息通信领域的技术、业务、标准、政策、合作等