大厂自研白盒交换机:是技术控的倔强,还是钱包君的呼救?

科技   2024-12-10 15:14   江苏  

当一群“高品质”的同事聚餐...
品牌连锁饭店内
口腔溃疡的同事A:
来个椒麻鸡,不要麻不要辣!
服务员:……
精致生活的同事B:
这道菜能摆个“花开富贵”的造型吗?拍照好看!
服务员:……
患有通风的同事C:
能不能把这道菜里嘌呤高的食材都换掉?
服务员:……
十分钟过去,
领导扶额苦笑:
“要不,咱们换个地儿,找个能私人定制的餐馆?”


从“标准套餐”到“私人定制”


品牌连锁饭店以其标准化、快速化的服务赢得了无数人的喜爱。黑盒交换机也是如此,它们通常来自知名的厂商,内置了完善的系统和功能,用户无需过多操心配置和管理。开机即用,简单方便,就像你走进饭店,点一份套餐,无需等待太久,美味即刻呈现。


但与此同时,传统黑盒交换机是完全封闭的,当用户想根据自己的需求去改变时,问题就出现了。就像你非得让川菜大厨给你整盘减脂餐,人家只能无奈摊手:“哥,咱这儿只炒得了火辣辣的人生,炒不出清淡如水的减脂梦啊!”


黑盒 vs.白盒


黑盒交换机存在的问题,说白了就是这些:


商业网络设备软硬件对咱们用户来说是个谜。作为网络的核心部件,它要是出问题,整个网络都得抖三抖。

功能嘛,想改就改?不存在的!系统太复杂,开发周期长,交付慢,数据中心的需求可等不起。

云计算时代,多供应商是常态,但每家运维方式都不同,自动化管理?难啊!

设备出问题?找厂商吧!那流程,又长又繁琐,时效性?不存在的!



白盒交换机的三大杀手锏就是:灵活、省钱、还能随心定制!而且它还是个“百搭王”,啥网络协议、啥硬件,它都能轻松搞定,集成、扩展都不在话下,特别适合大型数据中心和云环境这些大场面。



网络操作系统


除了强健的“体魄”(硬件)外,一个有趣的“灵魂”(NOS)也同样重要。


白盒相当于把硬件和网络操作系统这对“好基友”给解绑了,让标准化的硬件和各式各样的软件协议能自由配对。



作为白盒交换机的智慧大脑白盒网络操作系统掌控着整个网络的命脉。


NOS就像是一个超级指挥官,它不仅负责协调硬件与软件之间的默契配合,还要确保网络的高效、稳定、安全运行。它拥有强大的网络协议栈,能够轻松应对各种复杂的网络通信需求。同时,NOS还具备高度的可扩展性和灵活性,可以根据企业的实际需求进行定制和优化,满足各种特定的业务需求。


更重要的是,NOS还具备智能化的特点。它能够实时监控网络状态,及时发现并处理潜在的网络故障,确保网络的持续稳定运行。而且,随着人工智能和大数据技术的不断发展,NOS的智能化水平也在不断提升,它可以根据历史数据和网络行为,预测未来的网络需求,并提前进行资源调度和优化,让网络运行更加顺畅。


所以,白盒网络操作系统,那可是白盒交换机的核心所在,没有了它,白盒交换机也就失去了灵魂。而拥有了一个强大、灵活、智能的NOS,白盒交换机才能真正发挥出它的最大价值,为企业打造一个高效、稳定、安全的网络环境。



但正所谓“鞋子合不合脚,自己穿了才知道”。除了去市场“淘宝”,自研也是一个不错的选择。


想象一下那些大厂们,用户多得数不清,网络环境复杂得跟迷宫似的,他们对交换机的要求那叫一个高:性能得杠杠的,稳定得像座山,安全还得密不透风。市面上的白盒交换机虽然挺灵活,软硬件分离,还有开源软件助阵,但遇到大厂那些独特的业务需求,可能还得再雕琢雕琢,定制优化一番。这时候,自研就成了香饽饽,大厂可以按自己的需求定制,加点高级特性,去掉不必要的冗余功能。这样一来,迭代修复嘎嘎快,性能噌噌涨,运维成本嗖嗖降,简直双赢!



再者,交换机是数据中心网络的“心脏”,架构、软件、管控,哪个环节都不能掉链子。要是处处依赖外人,那自己的进化之路就得受限,大规模网络的稳定性和效率也得打问号。自研一出手,这些问题统统不是事儿,大厂们可以挺直腰板,自己做主!



最后,咱们得聊聊钱袋子。商业交换机给你的可能是“满汉全席”,但咱可能只需要个“经济小炒”。白牌设备加上自研软件,关键部件再自研或定制一下,成本能瞬间降好几档。大厂们每年买交换机的钱,数都数不过来,自研省下的可不是一星半点。


总结一下,大厂们为啥爱自研?还不是因为自主可控更踏实,成本更低廉,运维更方便,功能极简可定制!这么多好处,谁不心动呢?


“定制”模式


白盒交换机就像是一道私人定制菜,它没有固定的菜系和烹饪方式,食客可以根据自己的口味和需求,让厨师为你量身定制。当前大厂自研白盒主要有以下几种不同的模式:


01

OEM模式




这是最初级的模式,也就是大家常说的贴牌。菜品(交换机软硬件整机)由厨师(制造商)提供,大厂只需要装盘(贴标,最多修改下软件界面),就变成自家的品牌。

02

ODM模式




食客(大厂 )告诉厨师自己的口味偏好和特别需求,食客往往有自己的调料配方(软件研发能力),由厨师根据要求来完成整个菜品的烹饪(硬件设计和生产)。在白盒时代,这种模式非常受欢迎,因为它能在保持品牌特色的同时,实现硬件的灵活定制。

03

JDM模式




这好比是食客与厨师一起合作,共同设计并烹饪一道新菜。食客和厨师从选材(硬件选择)、调味(软件设计)到烹饪方法(开发过程)都深度参与,确保最终出品完全符合自己的个性化需求。在JDM模式中,大厂能够深度参与产品的设计和开发,以实现真正的深度定制。

03

CM模式




这就像是食客自己写了一份详细的菜谱,然后交给厨师来烹饪。食客拥有菜谱的完整知识产权(产品设计与知识产权自主权),他们负责设计每一道菜品的细节,而厨师只负责根据菜谱进行制作。换句话说,CM模式中的产品完全由大厂自主设计,制造商只需依照设计方案生产即可。


食客亮相




江浙菜爱好者


阿里


阿里自2018年就开始了自研数据中心白盒交换机之旅,还基于开源的SONiC自研了AliNOS。2022年,阿里提出了“可预期网络”的理念,其核心在于通过端与网的深度协同与融合,确保网络带宽的稳定性和延迟的可预测性。这一理念的实现前提在于端侧与网侧的透明化,而交换机的自主可控则是构建这一基础的关键一环。


阿里自研的 51.2T Tigatron白盒交换机前端接口采用了模块化设计,支持128个400G端口(风冷)、64个800G端口(风冷)、128个400G端口(液冷)三种模块类型;采用QSFP112光模块,无PHY设计,支持400G-VR4/SR4/DR4/FR4以及LPO光模块。据悉,Tigatron交换机自2022年12月起开始上电调试,并于2023年7月正式量产。



上图是Tigatron交换机的系统架构。底部的硬件平台将数据平面、控制平面和管理平面分离;采用标准开放的CPU模块(OCM)和BMC模块,以及可插拔的交换模块,为系统的灵活扩展和升级提供了可能。软件平台方面,Tigatron在SONiC的基础上融入了阿里的努力成果,例如DevOps Warden Docker、Telemetry Docker等,可实现高效、稳定的网络管理。如今,阿里的自研网络硬件已广泛部署在其数据中心、DCI等位置,成为支撑整个网络架构的基石。


紫金山实验室


2021年,紫金山实验室发布全球首个骨干网可编程网络操作系统(UniNOS),支持运营商级骨干网络功能,适配博通、Intel、Mellanox、国产盛科等各类主流异构交换芯片。UniNOS拥有开放成熟的生态,支持个性化定制,适配各类芯片,能屏蔽底层差异,兼容传统与新型网络场景。目前UniNOS已成功应用于长三角区域骨干网白盒平面与紫金山无损数据中心,实现白盒交换设备支持SR骨干级路由协议,支撑PB级算力数据中心的大规模落地验证。



UniNOS操作系统继承了原有的SONiC架构,并在原本社区功能的基础上进行了增强开发。针对数据中心场景,UniNOS增加了MC-LAG、INT、DCI、Telemetry等特性,在骨干网场景补充了SR Policy、SRv6、BGP EVPN、L3VPN、L2VPN,还增强了QoS、Port Shaping、Mirror、ACL等特性。


基于UniNOS操作系统的白盒交换机,可实现200G/400G接入,400G/800G汇聚,支持PFC、ECN、DCQCN等协议实现无损传输,支持逐包负载分担及集中流量调度机制实现均匀高效承载,构建超宽无损千卡/万卡互联网络。



京味儿狂热粉


字节跳动


为了更好地满足超大规模网络运维的自动化与定制化需求,字节跳动自2019年起便开始布局数据中心白盒交换机。经过数年的技术积累和持续迭代,终于在2023年成功推出全新的51.2T 800G自研交换机——B5020。目前,字节跳动已大规模部署的100G/400G网络均由其自研交换机承载。


B5020交换机采用固化64端口800G接口设计,支持1分2作为128端口400G使用,所有端口均支持LPO直驱。据字节称,B5020不仅是全球首款全端口支持LPO的51.2Tbps交换机,也是全球率先实现800G实际规模化部署的产品。在硬件研发方面,B5020采用了JDM与CM相结合的模式。在软件层面,字节基于开源的SONiC,自研了Lambda OS操作系统,以满足特定网络环境下的定制化需求。



在板卡设计方面,B5020采用一张MAC-PCB板,大幅减少生产功率和成本。整机内部仅用三条连接线缆,不仅简化了生产流程,还显著降低了故障率。这一设计充分体现了DFM(Design For Manufacturing)理念,实现了高效生产与故障点的有效控制。在端口扇出(Fan out)设计上,字节团队摈弃了传统扇出方案,开创性地提出了大芯片布线空间复用方案。另外,为了简化运维,B5020的管理引擎采用了插卡式模块化设计,替换方便。同时,管理引擎上的BMC、SSD、DDR内存等组件,均采用了扣卡式设计,极大地降低了运维难度与复杂度。


天翼云


中国电信天翼云成功发布了他们研发的首款 P4 可编程白盒交换机,同时已经完成了部分云业务的灰度上线。这款自研的 P4 可编程白盒交换机已经成功接入云网数据中心,并且已经开始承接现有网络业务。P4 可编程白盒交换机是一种基于硬件转发的白盒交换机,相比传统的 x86 网元,它具有更高的带宽、更低的时延和更低的故障率。这种交换机可以根据业务需求进行编程,为用户提供更可靠的解决方案。中国电信天翼云成功发布首款自研的 P4 可编程白盒交换机标志着其在云网络领域取得了重要的进展。


2023年12月,天翼云成功发布了自研交换机操作系统TeleNOS,完成首款自研白盒交换机(48端口25G + 8端口100G)研发适配,成为首个将自研白盒交换机接入云网数据中心的运营商。



TeleNOS操作系统使用Docker技术和数据库技术,实现软件之间松耦合,保证应用的独立性;架构上采用软硬分离技术,通过SAI接口屏蔽硬件差异,可快速适配不同类型的硬件产品。首款交换机硬件采用业界通用25G白盒设备,当前TeleNOS已在白盒交换机上稳定运行,并具备支持网络业务的能力。


广东菜拥趸者


腾讯


腾讯于2018年启动自研交换机项目,采用“白盒硬件”加“自研NOS”模式,软件方面基于开源SONiC深度自研的TCSOS(Tencent Cloud Switch Operating System),自2019年在25G数据中心首次批量部署,目前已经在基础网络重要场景中落地。TCSOS继承了SONiC的主要优点,包括Linux内核、中央数据库、容器化部署等,并在监控、管理、控制、转发层面对系统做了很多重要的优化。


腾讯自研交换机主要采用ODM联合开发模式,ODM厂商负责提供白盒交换机硬件和BSP驱动,腾讯自研团队负责审核硬件设计和开发上层NOS软件。这种合作模式理论上可以让双方更聚焦于各自擅长的领域,提升开发效率和系统质量。2023年9月腾讯在全球数字生态大会上发布最新TCS9500白盒交换机,交换容量 51.2T,支持128端口400G(QSFP112),两极组网即可实现 8K GPU 集群全互联。



在结构设计方面,结合框式产品可插拔易维护的特点,在采用固定业务口方案的同时,将控制系统做成一张独立的插卡,位于设备前面板,故障时可以很方便的进行更换,提高了产品维护效率,降低现网故障对 AI 模型训练时间的影响。在散热设计方面,产品支持风冷、冷板式液冷两种散热模式,可根据GPU服务器散热需求,选择对应产品配置,最大限度降低PUE。在SI设计方面,严格约束损耗、串扰、阻抗的关键指标,充分结合仿真与测试结果,系统级优化高速链路,最终实现整机无PHY芯片的同时,全部端口可以支持线性直驱光模块的应用。


食客与厨师共烹白盒盛宴


在这场关于网络设备的盛宴里,黑盒交换机如同餐馆里的标准套餐,虽然方便快捷,却难以满足每一位食客追求独特的“味蕾”。于是,白盒交换机,这道私人定制菜品应运而生,它以其独特的灵活性和可定制性,成为了食客们心中的新宠。


随之而来这些聪明的食客也不再满足于被动接受菜单上的选项,而是亲自下场,与厨师携手,共同烹制属于自己的美味佳肴。从OEM的贴牌小试牛刀,到ODM的调料配方融入,再到JDM的深度合作共创,直至CM模式的完全自主设计,大厂们一步步解锁了自研白盒交换机的各种可能。


如今,随着自研白盒交换机技术的日益成熟,食客们与厨师的合作也将更加紧密。在这场没有硝烟的竞争中,大厂们不仅比拼着技术的深度与广度,更在探索着如何更好地将白盒交换机的优势转化为企业的核心竞争力。在这个快速变化的时代,只有不断创新,勇于尝试,才能在这场技术变革中立于不败之地!


如果您对白盒感兴趣,欢迎与我们交流!


添加微信请备注「白盒」


*本文图片均来源于网络,如有侵权,可联系删除


参考链接:
https://mp.weixin.qq.com/s/now6Cp1ATPCI9x_y9imfVA
https://www.sdnlab.com/26415.html
https://baijiahao.baidu.com/s?id=1785674252898716438&wfr=spider&for=pc
https://cloud.tencent.com/developer/article/2331331



【投稿】:SDNLAB原创文章奖励计划

SDNLAB
SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台,涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域,提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。
 最新文章