▎不同厂商都开始用自己的方式降低“英伟达依赖”,其中又以云服务商为最。
作者|张帅
编辑|盖虹达
本文首发于钛媒体APP
面对芯片备受限制的困境,中国云计算产业能做什么?
12月3日,中国半导体行业协会、中国互联网协会、中国汽车工业协会和中国通信企业协会先后发布声明,呼吁国内企业谨慎采购美国芯片,扩大与其他国家和地区芯片企业合作,积极使用内外资企业在华生产制造的芯片。
就在前一日,美国商务部工业和安全局(BIS)发布了最新的对华半导体出口管制措施,将136家中国实体列入了所谓“实体清单”,涉及半导体制造设备、电子设计自动化工具等多个种类的半导体产品。
2022年、2023年的10月份,BIS均发布了针对中国半导体限制的措施,今年由于美国大选影响迟迟未发,但加强版的限制措施还是不出意料地到来。四大协会所在的领域代表着万亿级别的市场,“美国芯片产品不再可靠、不再安全”的表达,也传递出直接的态度。
与以往不同,本次禁令着重对高带宽内存(HBM)管制,明显针对人工智能领域,HBM是大模型等高端AI任务中必需芯片,适用于海量数据的高速传输,HBM的主要制造商:包括韩国的SK海力士、三星电子以及美国的美光科技。
芯片是数字基础设施的基础,除了芯片之外,从全球范围观测,云计算厂商正在扮演中坚力量的角色。大模型时代的云计算,向上接入操作系统、应用软件等,基于云的开发方式成为主流,向下定义硬件,自研芯片、服务器、操作系统等底层技术,这一趋势更为明显。
而对于中国云计算而言,在芯片层受到的限制更为严峻,IT从业者们正在从不同维度、不同层面发力,试图解决或者缓解芯片禁令带来的影响,云计算在重压之下被赋予了更紧要的使命。
云厂商,“苦英伟达久矣”
英伟达GPU芯片客观上促进了大模型的爆发,但是英伟达的垄断地位,攫取了大模型产业发展至今的绝大部分利润,已经引起产业各方的抱怨,不同厂商都开始用自己的方式降低“英伟达依赖”,其中又以云服务商为最。
据报道,今年早些时间,美国司法部近期收到了包括AMD和AI芯片初创公司在内的英伟达竞争对手的投诉,称英伟达会将芯片与其他产品捆绑销售,同时可能存在限制客户购买英伟达竞争对手的行为,比如涨价或者降低采购数量等。
云服务商是芯片产业的最大客户之一,据 TrendForce 统计数据,2022 年 AI 服务器采购中,北美四大云服务商微软、谷歌、Meta、亚马逊位居前列,合计占比 66.2%。而随着大模型竞争门槛的提高,巨头集中效应还在加剧。
不论国内还是国外,基础大模型的预训练,都以大算力集群的云基础设施为主。OpenAI早期的大模型都是在微软Azure上训练出来的,目前双方正在共建一个代号为 “星际之门” 的巨型数据中心项目,项目预计成本超过 1150 亿美元,将配备数百万块 GPU。
再如,在AWS re:Invent 2024上,Anthropic联合创始人Tom Brown宣布了下一代Claude大模型将在AWS的Project Rainier上进行训练,这将是一个拥有数十万Amazon Tranium2(亚马逊自研机器学习训练芯片)的算力集群。
除了海外云服务商,国内云服务商以华为、阿里为代表,也在数年之前就开始研发芯片,美国禁令让这一目标的实现难上加难,注定了中国云服务商需要更多的替代式创新,从而弥补芯片层面的不足。
根据SIA和Techinsights数据,2023年中国大陆约占全球半导体市场需求的30%,而产值约占全球7%,对应自给率约23%,其中12%为中国本土企业(狭义自给率),11%为外企在中国大陆制造。
云巨头自研芯片做系统创新已经成为共识,一位国内云厂商战略人士表示,以大模型为代表的AI技术革命,可以认为是对整个计算机科学的一次革命,AI和云的结合,会重新定义AI,也会重新定义从芯片到服务器等所有软硬件。
半导体产业是一个技术复杂、产业结构高度专业化的生态体系,规模扩张建立在技术成熟、分工进一步细化的基础上,而目前x86体系数十年建立的体系正在被大模型冲击。一位行业人士表示,如果没有大模型,产业还会沿着原有的方向,格局固化、技术小改,英特尔的衰败和英伟达的崛起,也不会发生,但是技术革命必然会出现。
“美国因为人工智能对中国加以限制,实际上也是因为产业秩序正在重新建立,美国赢在了x86通用计算的时代,智算时代会涌现出新的领导者,美国当然不希望出现在中国。”他补充说道。
目前,全球领先的大模型公司已经有了共识,追求端到端的全链路协同优化。做模型的公司希望能和计算公司走到一起,把自己对于模型最前瞻的理解和下一步演进的态势和云计算公司做沟通,希望云计算公司对他的模型做优化,云计算公司又会进一步再向下传递,与芯片公司做沟通。
整个体系革新互为牵引,AI竞争的终局是能够在全栈体系里面做端到端的系统级优化,不仅AWS、微软和谷歌等云厂商,通过自研、投资等方式和大模型厂商深度绑定,就连英伟达也投资了云计算公司,并且做了自己的大模型。
图片系AI生成
用异构计算和算力堆叠
换芯片产业发展时间
在可预期的数年时间里,随着大模型产业的高速增长,芯片产业还将呈发散式的扩张逻辑,芯片的种类会更多,技术路线也较难收敛,多种芯片共存的现状不会改变。
“一云多芯”,对于中国云厂商有独特的意义。海外云厂商不受芯片限制影响,更多是出于业务自由选择兼容自研芯片等,而国内云厂商采用“一云多芯”的方式,能够在一定程度上屏蔽不同芯片的差异。
起初,云厂商的解决方案是,每一种类型的芯片集群都单独建云,在形成多云后通过云管理平台从软件层面进行统一管理,但是多朵云分资源统一调度难,多云/多AZ对客户的机房规划、建设预算艳秋高等问题,注定该方案不是最佳选择。
“一云多芯”将所有异构算力统一纳管,把不同的芯片等硬件封装成标准算力,从客户视角看无需太过关注芯片,兼容适配等工作由云厂商解决,这也是当前芯片形式下的必经之路,其中的关键是云操作系统,典型如阿里云的飞天操作系统、百度的万源操作系统。
不同的芯片之间很难互联,且不同芯片间没法在同一张网里面跑同一个任务,目前只有少部分厂商实现。狭义的“一云多芯”是指在一个云平台内可同时采用多种异构CPU等类型的国产芯片,而广义的“一云多芯”要求提供从CPU扩展到GPU、网络设备,以及各类行业生态应用、客户自建应用的全域兼容能力。
譬如在CPU层面,云服务商需要支持intel、海光、鲲鹏、飞腾等共多种芯片,在GPU层面支持Nvidia、华为昇腾、海光DCU、寒武纪等主流AI芯片。
另外一种方式是多芯片堆叠,用算力集群来解决单芯片能力不足的问题,尤其在AI芯片层面禁运形势严峻的情况下,是大家正在探索的高端AI算力解决方案。不过当芯片数量增加到一定程度时,由于芯片之间的通信和互连限制,系统的性能反而会下降。
例如华为云今年推出的下一代云基础设施CloudMatrix,一方面,华为受到美国制裁更早,更有动力研究替代创新方案;另一方面,华为有自研的昇腾芯片系列,如何发挥芯片堆叠的效果,用云计算探索新的基础设施也在预料之中。
据了解,CloudMatrix也是先实现了“一云多芯”,将服务器内的 CPU、NPU、DPU、存储和内存等多样资源的统一池化并灵活配置,以此形成大规模、紧耦合的多元算力池化架构,之后的关键是高效传输网络。
CloudMatrix 通过超高带宽 ScaleUp 网络从“传统以太网”向“共享总线以太网”演进,实现池化算力的高速互联,新的网络协议实现跨物理服务器的统一标识、统一的访问和消息通信机,从而实现 CPU、NPU、存储内存等多样资源的跨服务器统一池化,通过资源全部对等连接,既可以水平扩展,更可以垂直扩展。简单一句话,就是在一定范围内,堆叠之后的芯片可以实现近乎线性的算力增长。
展望未来,中国云计算行业不得不面对芯片长期受限的形势,既要与国际主流发展趋势接轨,也要兼顾国产芯片的特殊环境,中国云计算厂商需要在软硬件设施层面协同创新,方能解决缓解部分芯片产业的难题,用异构计算和算力堆叠等方式,换取芯片产业发展的时间。
(本文首发于钛媒体APP)
2024T-EDGE全球创新大会【活动正在进行中】点击“阅读原文”进入活动官网,更多重磅嘉宾和精彩演讲抢先看!