官方交流社群
添加微信:Buddha_Research
(备注信息:公众号读者)
数据中心里的交换机是比较高端的产品。一般会先分为两种市场定位,分别是传统企业与互联网公司。以端口的最大数据传输量来看,一般有25G、100G、400G和800G的。在业内,一般是以交换机芯片的等级来区分交换机的档次。针对企业网,3.2T的交换机芯片基本上算是天花板了。
6.4T已经不生产了。再往上还有12.8T、25.6T和最新推出的51.2T,这三款的定位就是互联网公司。因此,在比较不同交换机的类别的时候,也需要甄别不同的市场定位。不同的市场对交换机的使用也是泾渭分明的。2.4T用不到互联网公司里,互联网的12.8T也不能用在普通企业里,这都是不冲突的。
云计算服务器里基本上是从12.8T的交换机开始使用。博通占交换机芯片领域的市场份额是70%,Marvell占20%,剩下的10%是一些小型芯片公司。在交换机整机方面,Arista占大概20%,思科占大概16%,华为占10%左右的份额。白牌交换机占到份额很大,占30%多一些的份额,其中份额最大的是台湾智邦和他在美国的品牌,份额比例也很突出。广达、富士康等的份额都相对较小。
专家:用得比较多的还是Arista。Arista占了60%-70%的份额,思科占20%,还有10%左右就是以台湾智邦为主体的厂商们。AI领域,特别是大模型领域,分为训练和推理两种应用,其中训练占80%,推理占20%。训练可以用到以太网交换机,而推理就基本上都是IB。推理需要快速得出与用户需求相匹配的完美答案。
如此一来,推理就需要交换机速度快,时延低。这些正好是IB的特长。训练对速度和时延的要求就会低一些,因为训练对时间不是很敏感。有些公司会训练1个月,有些公司会训练2个月,这取决于训练模型的大小。训练更对的要求在于无损网络,保证不丢数据包。训练就会用到RDMA或是RoCE(RDMA over Converged Ethernet)等网络协议的交换机。
训练期间,其实就是数据之间的传输。假如出现丢失数据包的情况,那么就需要重新传输,特别浪费时间。在训练方面,使用以太网交换机和IB交换机在训练时长上没有特别大的差别了。正常情况下,IB交换机的造价是同档次以太网交换机的两倍。很多客户也不希望英伟达成为唯一的供应商。以太网交换机有很多厂商可以供货。由此,客户也会得到一定的议价权。
虽然IB网络确实是比较领先的技术,但是在目前这样的国际形势下,国内厂商都想要有一个IB网络交换机的备选方案,以备不时之需。国内公司在AI领域最厉害的就是华为了。华为也是一直在研发传统的以太网交换机。其他的国内AI公司,比如寒武纪等,跟华为的技术能力都有两年的差距。华为本身就是做网络出身,有属于自己的交换机芯片,可以自己进行配套。近期,也是有互联网公司,比如科大讯飞,在力推华为。
专家:购买英伟达IB交换机完全就是捆绑销售。英伟达的整套系统优化得好一些,IB交换机又只有他一家有。因此,这里肯定是存在捆绑销售的情况。早些时候,超算中心的市场还不是很大,玩家也不够多,各家对这个情况并不是很介意,也没有想过用以太网去替代IB网络。随着AI的火爆,各家发现IB交换机并不是一个必须要的东西,而且IB交换机卖得太贵,各家也是在寻找一些其他的替代方案。
现有以太网和IB网络还是稍微有一些技术差距,互联网公司们也是详尽办法去实现能够与IB网络媲美的以太网网络架构。以太网和IB的差距主要体现在时延上。以太网的时延很高,但IB的时延就很低。IB是200毫秒的时延,而以太网就要达到800-1000毫秒,相差了4-5倍。
这不是马上就能解决的问题。刚刚提到,微软和Meta在以太网上部署了很多年,可以很熟练地在训练方面运用以太网,也知道如何扬长避短,但是他们并不愿意公开自己的技术。剩下的客户面对以太网就可能无从下手去改造。这也是美国创建UEC的原因,UEC里面也包括了博通,希望能够改造以太网,追赶上IB的性能。对于普通客户来说,他们就会有一个现成的产品能够直接替代掉IB交换机。
专家:我认为这些高端硬件的发展和中国市场没有关系,这些产品都会受到出口限制。即便IB和NVLink融合,也只会用在极大规模的计算,而不是A100、H100等小服务器,国内外基本不会有客户,比如GH200只有Meta和微软在使用。所以和普通的企业以及互联网公司影响不大。
华为在AI领域采取了相对务实的策略。他们的交换机产品主要是为他们自家的AI服务器提供支持。最近,华为发布了910b的服务器,该服务器的性能与英伟达的A100对标,支持200G网络。华为拥有制造6.4T芯片的能力,因此他们可以在速度和端口数量之间进行平衡。
虽然他们无法制造像12.8T或25.6T的交换机那样高规格的产品,但他们可以生产更多支持200G端口的6.4T交换机。在AI领域,华为与英伟达位于同一水平,因为他们不仅可以制造AI芯片和服务器,还可以制造存储设备、机柜和交换机。然而,对于中国的其他AI公司,如寒武纪、燧原等,他们只能制造AI芯片,而无法制造服务器和图像卡。这些公司通常需要外包这些部分,包括网络设备,因为它们没有这方面的技术能力。
因此,华为可能会在国内AI芯片市场领先相当长时间。最近出台的美国对AI芯片限制政策产生了一定的影响,英伟达取消了原计划的30天缓冲期,立即停止供货。这导致市场上A800等服务器非常火,供不应求,市场价格上涨,这也让许多客户转向了华为的解决方案。在这种情况下,可以说华为受益匪浅,获得了市场上的领先地位。
专家:交换机芯片市场目前博通占70%,Marvell占20%,其余的10%分散在很多家小公司。比如英特尔旗下的Barefoot和独立第三方芯片公司。Barefoot已于今年春节前后放弃了交换机芯片业务。盛科在10%的份额中也在逐渐崭露头角,盛科量产的2.4T的网络交换芯片,虽然在性能上相较于博通的12.8T和25.6T有所不足,但它的目标市场主要是国内的信创领域(企业网)。
国内的国有企业、央企等传统行业在网络安全性方面有更高的要求,而互联网公司通常不受这种要求的限制,例如银行、电力和高铁等行业都属于企业网范畴。在这个领域,网络速度的需求相对较低,因此主要芯片规格为3.2T和2.4T,因为这些行业的服务器通常以10G为主。相比之下,互联网公司通常以100G为起点,而在中国,100G网卡通常由Mellanox提供。在这一市场背景下,盛科专注于企业网市场,满足了国内企业的网络需求。2022年盛科的收入能做到7亿,今年预计能做到10亿。
博通的技术发展过程实际上也受到台积电的制程发展计划的影响。随着台积电推出先进的制程,博通能够设计出性能更强的芯片。3.2T对应14纳米,12.8T对应7纳米,21.6T对应6纳米,51.2T对应5纳米。所以3纳米可能对应102.4T,再往下至少要到3年后,台积电宣传称2025/2026年会推出2纳米。
博通、苹果等设计公司都是fabless,芯片的性能和可行性直接取决于制程技术的进步。目前盛科的2.4T芯片还可以在台积电生产,但之前流片的25.6T芯片就受到了管制。美国的政策限制对于芯片制造、英伟达的GPU、网卡都有限制,目前国内在积极准备国产化替代。
专家:在2020年,思科进行了一次大规模的裁员,中国地区有60%的员工被裁减,而留下的员工主要是那些较年轻且薪资较低的员工。此次裁员将其在中国的业务重心缩减到了与合资工厂或独资工厂合作,主要是面向国际市场。因此,思科在中国的交换机市场份额相对较低,不到4%的份额,而华为和华三都占据了大约40%的市场份额,锐捷则占有大约12%-13%的份额。