云计算这个美国对华封锁的重点领域,二次长征势在必行

科技   2024-12-19 20:51   上海  

【文/观察者网专栏作者 青岚】

2010年3月,深圳五洲宾馆。

在一场李彦宏、马化腾、马云齐集的高端对话中,BAT三巨头对当时IT产业热门话题:云计算,进行了一番日后将被反复提及的讨论。

技术专家出身的李彦宏和马化腾,在肯定网络原生应用前景的同时,不约而同强调了传统IT架构“上云”的现实挑战:

“未来我也相信会有越来越多的基于云计算的这种互联网应用会出来,但是如果大家想我现在是一个传统软件产品,我想用云计算方式多赚点钱,我感觉这个活会比较累”。

“如果说它提到未来以后各种各样综合性业务软件,包括企业中的各种各样企业管理系统都可以去云端处理,都可以不是在本地局域网服务器处理,而是公共网络公共设施,把计算能力、处理能力甚至逻辑组件都能够像水和电一样,的确是有想象空间的。可能你过几百年、一千年后,到阿凡达那种确实有可能,现在还是确实过早了”。

相比两位资深IT工程师的谨慎,“最不懂技术”的马云,却发表了看起来最为大胆的预测:

“我最怕的是老酒装新瓶的东西,你看不清他在玩什么,突然爆发出来最可怕。雅虎当年做搜索引擎,然后Google出来了,雅虎很多人认为跟我们也差不多,后来几乎把他们搞死。所以一个新的东西出来后,我们认真思考一下、关注一下,可能会有一些新的问题。我们自己公司对云计算是充满信心、也充满希望,我们不是觉得这又找到一个新的矿产,我们阿里巴巴拥有大量消费数据、支付宝交易数据,我们觉得这些数据对我们有用,但是可能对社会更有用,比如我们从小企业的信息掌握到整个中国经济、世界经济的问题......所以这是客户需要,如果我们不做,将来会死掉”。

马云发言的底气,无疑来自于当时国内最“懂”云计算的技术专家、阿里云创始人、未来的中国工程院院士王坚。这位颇具个人魅力的技术布道师,正带领林晨曦等骨干,进行着一场自主研发云计算底层技术的“长征”。

(IBM同样是中国计算产业史上早期重量级玩家,早在2008年,IBM在无锡建立了国内乃至全球第一个云计算中心,将之视为为传统行业客户降本的理想解决方案,华裔高管Dennis Quan是这一时期IBM云计算战略的核心推手,促成了谷歌与IBM两大vendor的战略合作)

以今天的眼光回顾,巨头们的判断乍看起来高下分明,也俨然呼应了今天中国云计算市场格局。

然而极有必要指出的是,三人当年所探讨的“云计算”,其技术、场景内涵其实与今天亚马逊AWS为代表的主流模式大有不同。

在那个云计算概念“炒作之巅”,谷歌大数据论文“老三篇”和雅虎Hadoop实践,才是公有云技术路线的公认模板,其预想的使用者则有意无意限定于有超大规模数据需求的用户,这一点,在马云的话语中其实也有清晰体现。

正是基于这种共识性图景,阿里云的早期探索也明显受到谷歌路线影响,以至于在2016年出版《在线》一书时,尽管王坚已着力订正阿里云“岁月史书”,强调“世界上有一家半公司是阿里云的榜样,一家是亚马逊,另外半家是谷歌”,但在对“飞天”操作系统的技术架构介绍中,仍然坦率承认“底层架构与亚马逊差别很大……除阿里云外,世界上只有谷歌能够做到这一点”。

以今天的眼光衡量,从对标Hadoop重造“云梯”、再到YunOS押下重注,早期阿里云战略决策不乏可争议之处。在Netflix与亚马逊历史性合作照亮市场后,一众拿着OpenStack大干快上“抄作业”的国内竞争者,似乎也令阿里所下的“笨功夫”得不偿失。

不过底层技术正向研发所能带来的工程经验,终究不是照抄AWS“作业”所能比拟,王坚团队的开创性贡献,也已被时光洗刷为一段始于远见、终于收获的佳话。

在那个倏忽而至的云计算泡沫期,时任工信部软件服务业司副司长陈英曾毫不客气地警告:“全国各地政府投资建设的云计算中心已经超过十个,这些云计算中心多为国外的企业来主导建设,软硬件设施多数采用国外的产品,利用率不是很高,部分云计算中心还处于寻找业务模式的闲置状态”。而在虚拟化等关键核心技术上,国内产业链“掌握有限,缺乏有竞争力的产品和技术能力”。

如果当年没有那么一批舍得下“笨功夫”、“苦功夫”的技术人才汇聚于阿里云,中国IT产业史的云计算章节或许又将平添几许无奈与屈辱。

当然,从商业逻辑看,阿里云最终能够在云计算产业“范式切换”中稳住阵脚,更重要因素还是其资本实力以及与亚马逊共通的电商基因。AWS早期发展史业已证明,类似于Marketplace的第三方卖家服务,为云计算商业落地提供了天然的“杀手”场景。

历经十余年“长征”,中国云计算产业无疑已取得长足发展,不仅阿里云拿下了亚太地区云计算市场“一哥”地位,华为云、腾讯云、百度智能云乃至几大运营商云,也已形成各自的稳固市场地位。

但在成绩之外,与美国云计算三巨头相比,中国同行们的日子普遍谈不上滋润。

以阿里云为例,直到2022财年,该业务板块才首次实现年度盈利,已经是当时“中国唯一实现盈亏平衡的云服务商”,而根据上月末发布的阿里巴巴2025财年中报,阿里云(云智能集团)在今年二三季度合计实现营收约561亿元人民币,营业利润率在拆分钉钉后虽然收获同比翻番增长,但仍然仅能达到9%左右,对比美国三强中敬陪末座的谷歌云,同期营收为217亿美元,营业利润率则可达到约14%。

看到此处,或许已经有人一键开启反思模板,痛斥中国企业的“劣根性”。的确,在跳出互联网客户群,向政企市场开拓大客户的这些年,国内云计算厂商遭遇的“毒打”、踩过的“深坑”数不胜数,即便如此努力刻苦,其中的佼佼者依然只能勉强看到美国云计算三强的背影。

不过稍加横向对比,就不难发现在云计算产业版图中,中国与美国,已经是唯二有资格上桌的玩家,曾经的软件产业重镇欧洲、日本,已经沦为中美云计算厂商跑马圈地的沃土。

故此,与其“反思”中国云计算产业为何落后,更正确的问题或许是,美国的产业生态为何如此特殊?在计算存储资源与基础设施解耦后,为什么美国用户会表现出对服务买单更高的积极性和信任度?

从渠道体系到商业习惯,这些问题的答案甚至可以追溯到近一个世纪之前。

早在IT产业“史前”的1932年,蓝色巨人IBM就成立了服务局部门(SBD),在美国各大城市自建制表机“机房”,通过人力配送“互联网”传输打孔卡“数据”,为辐射范围内的中小企业提供算力服务,使其无需承担昂贵的硬件购置或租赁费用。尽管SBD营收从未超出过5%的贡献度,但这种伴随着一整代美国“新市民”与“新白领”共同成长起来的水平分工与服务付费生态,最终嵌入了美式管理资本主义的“基因编码”,从而在电子计算机时代也依然顺畅运转。以Tymshare公司为代表的多用户远程终端分时服务,同样曾在微型计算机问世前兴盛一时。

对于中国云计算乃至更广义的软件服务业而言,与其艳羡这种“放之四海而不准”的特殊生态系统,更好的做法理当是审视自身的特殊禀赋并发扬光大。

没有历史包袱、敢于拥抱变化,正是中国高科技产业一次次被验证的可贵“后发优势”,而在云计算产业,随着生成式AI浪潮席卷而来,十年一遇的变革窗口也已开启。

得AI者得天下,无疑是当前云计算产业简单粗暴的主导法则。

顺之者昌,逆之者亡。

有OpenAI作为招牌的微软Azure,攻城略地势如破竹,而因AI算力不足丢掉大客户xAI的甲骨文,股价应声而落。

今年年初,甚至曾有投资人大胆预测,按照微软Azure与亚马逊AWS市场份额之间此消彼长的速度,Azure可能到2026年反超AWS,实现云计算行业历史性的“霸权交接”,其判断依据正是微软在AI算力与标杆客户上的领先布局。

除了其与OpenAI家喻户晓的密切关系,微软在娱乐应用上与英伟达早已培育了长期的互信合作关系,因此在面向AI应用的GPGPU“囤货潮”中,也总能得到英伟达的回报。

根据瑞银明星分析师蒂莫西·阿库里(Timothy Arcuri)判断,微软对2024财年英伟达总营收的贡献达到惊人的19%,是名副其实的最大合作伙伴,超过亚马逊和谷歌两大买家总和。如此紧密的利益纽带,将之称为新时代WINTEL联盟也并不为过。

不久前心智观察所与《奥尔特曼传》作者周恒星的独家对话中,对于这套已然成型的“微软模式”也有精彩概括:“谷歌就是一直吊打微软,到纳德拉成为CEO之后,可能云计算方面开始让微软稍微扳回了一局,因为谷歌虽然也有云计算,但其实不是它的优势。纳德拉觉得应该做一些谷歌还不是特别擅长的东西,就看准了AI,他也说服了比尔盖茨,之后就跟OpenAI结盟了”。

面对微软Azure挟AI业务搅动的变局,亚马逊已经难以继续保持从容。对标“微软模式”,亚马逊一面不断加大对Anthropic投资,试图为自己确保一张在基础大模型上的参赛门票,另一方面,在英伟达GPU供货争不过微软的情况下,亚马逊对自研大算力AI芯片也日益重视,旗下Annapurna labs用于大模型训练的Trainium 2芯片及实例已在上周正式发布,研发团队内部人员直言,“我们的mission是打破英伟达的垄断,democratize AI for everyone。所以我们一切都是对标英伟达......完整的技术栈加上和AWS强大的基建和用户基础,是我们和英伟达叫板的最大底气”。

(Anthropic创始人、如今美国AI产业界大佬Dario Amodei出身百度美研,与他的同事们几乎最早揭示了大模型“规模定律”的存在)

攻防的冲动,当然不仅仅存在于美国云计算产业,在国内,头部玩家也不约而同对标“微软模式”,开启了基础大模型与智算中心投资(Artificial Intelligence Data Center,AIDC)的“军备竞赛”。

相比基础大模型开发,智算中心建设的资本与技术挑战同样巨大。随着模型参数量提升,对算力需求已经达到了传统通用计算难以设想的高度。在2024年尾声,GPU万卡训练集群已近乎成为国内外AI大模型头部玩家“标配”,万卡乃至更高数量级集群,不仅需要特殊的数据中心网络架构以调度计算存储资源,在供电和散热上也面临全新挑战,以910B组成的万卡集群为例,仅加速卡额定功率就高达9800千瓦,年耗电量约8500万度。

令技术难度进一步加剧的是,在这个云计算产业重排座次的关键阶段,美国人似乎格外容不得其他竞争者。

从开源大模型到先进芯片乃至云端算力访问权限,美国朝野正以极其罕见的高效和细致,筑起对华封锁的高墙。以所谓的《远程访问安全法案》为例,就明确提出要堵塞中国公司通过“全球任何地方的云服务提供商”使用先进计算芯片的可能。

这种人为的敌意,显然为中国云计算产业带来了空前挑战。如果说2010年代,行业比拼的主要是资本实力和市场策略,高端芯片的可及性并不构成约束条件,甚至中国市场成为英特尔、AMD、英伟达、博通等公司最前沿数据中心产品的“试验场”,那么在供应链实质性割裂的形势下,AI算力基础设施就成为了最为关键的“咽喉点”(choke point)。

为了挣脱卡住咽喉的枷锁,中国云计算产业第二次“长征”已势在必行。

不难想见,这场长征假如未竟全功,那么不仅中国云计算产业此前十余年辛勤开垦的市场份额将不进反退,中国通用人工智能的发展,也将被“锁死”在中低端。

正是因为其关乎巨大公共利益,国内智算中心建设已经形成了产学研用协同攻坚的局面,从以软补硬到器件结构、制程工艺、计算架构乃至计算介质,展开了堪称“饱和式”的技术攻坚。

在工业界,国内几大云计算巨头的万卡智算集群,已普遍运用了各具特色的新一代数据中心网络架构,例如某企业计算研究部提出的新一代光电混合交换网络架构,能够将集群规模(NPU/GPU数量)扩展至128K,同时满足ns-µs量级快速链路切换。集群节点内可通过波长切分器件带来快速的光链路切换,节点间通过MEMS器件带来集群规模弹性扩展。

而在学术界,中国研究者在存算一体等新型计算架构上的探索,已经走在了全球微电子领域最前沿。

根据公开信息,在科技部2024年度“先进计算与新兴软件”重点专项启动的20项任务中,就包括了“基于存算一体的分布式近数据处理计算系统”和“面向大模型训练的异构存算系统”。

前者考核指标为:研制一款存算一体的近数据智能计算原型芯片及原型设备,实现大模型等典型人工智能应用的原型验证。近数据处理加速器聚合吞吐率达到120GB/s,存储密度超过0.15Gb/mm2,存储与计算的片间带宽达到1.6TB/s;近数据计算处理系统实现的等效能效比和等效吞吐率较传统方案提升1个数量级;智能计算模块的算力密度突破6TPP/mm2(作为对比,美国商务部先进芯片禁令中的性能密度限制则为TPP不得高于5.92/mm2),支持整数型和浮点型数据格式的全精度计算。

第二项任务的考核,则更贴近实际生产场景,目标是研制一套面向大模型训练的异构存算系统,支持基于国产AI加速卡的远程存储直通技术,融合高带宽内存、DRAM、非易失性存储、固态硬盘等多级存储,支撑千亿级以上参数大模型高效训练,单卡训练可支撑参数规模超过百亿,数据I/O时间占总训练时间的20%以内,平均检查点恢复时间小于60s。

在这个时间点上,对于智算中心技术攻坚乃至中国云计算产业的未来前途,科技观察家保罗·特里奥洛(Paul Triolo)最近的一段话恰可作为总结:

“鉴于美国及其盟友实施的严格控制以及未来技术路线图的复杂性,中国半导体行业似乎不太可能“赶上”世界其他地区。但是,在2023年,美国政府中没有人认为华为和中芯国际能够像Mate 60那样生产基于7纳米SoC的智能手机。明年,中国半导体行业可能会再次震惊世界”。

科工力量
观察者网科技工业新闻小组官方账号
 最新文章