阿里云孙成浩:简单易用的智能云网络,让客户专注业务创新

科技   2024-11-25 14:00   江苏  
“在云计算、AI、5G/6G等前沿技术的浪潮中,通信网络正以前所未有的速度迈向智能化,为现代产业的升级与创新提供了强大的驱动力。作为ICT领域的先锋技术,SD-WAN和SASE已成为构建“算力应用+端+网+云”一体化生态的关键要素,云计算产业也迈入了“深度用云”的新阶段,全方位重塑着现代化产业体系的架构与发展路径。在此背景下,备受瞩目的第七届SD-WAN & SASE大会暨云网络大会于2024年11月16日在北京金茂万丽酒店盛大召开。”

阿里云智能集团资深总监、云网络产品负责人孙成浩在主论坛带来《简单易用的智能云网络,让客户专注业务创新》的主题分享,阐述了近年来云网络产业的发展方向和技术演进变化,以及阿里云网络的优势、特点与实践。孙成浩表示,阿里云网络一直秉持着让网络更简单,加速客户业务创新,以支撑企业加速上云、拥抱AI、积极出海的战略;坚持长期主义,支撑企业持续创新之路,其提供的可观测、自动化和全球化的确定性云网络服务有四大核心特征:为网络可靠、性能和弹性增加确定性;深度可观测,持续优化客户网络架构;提升全球网络服务,助力企业敏捷全球化;高效自动化,让客户专注业务创新。


以下是演讲全文(约6000字,阅读约10分钟):
大家好!
很高兴再次来到SD-WAN和云网络大会现场,给大家汇报一下我们对云网络产业在2024年所发生变化的一些观察以及阿里云网络自身的最新实践。
今天我给大家分享的主题是《简单易用的智能云网络,让客户专注业务创新》,这个主题和去年分享的主题一样,今年我们更强调“让客户专注业务创新”,这也是阿里云网络的长期主义愿景所在,让网络更简单,业务无感知,让客户可以更加专注在业务创新上。
前面各位专家介绍了非常丰富的网络技术,我觉得在云计算时代里,云网络很多情况下会成为我们面向客户的第一界面,我接下来会给大家分享一些客户的故事,以及云网络在2024年发生的一些变化。
首先,这是我们在2024年服务过的一些客户,和我们这些客户在云上的一些新的场景。
第一个是娃哈哈,娃哈哈是我们今年服务的一个传统企业上云的非常典型的代表,它在2024年完成了从IDC到云的变化,使用了云网络一些相对比较基础的产品,如负载均衡、EIP等,同时也应用了云网络的一些可观测性的产品能力。
第二个是MINIMAX,是大模型企业里一个非常典型的代表,除了在智算网络里会有网络需求之外,在长距离的传输、数据的传输、数据的获取等都对云网络提出了新的要求。
第三个是MiHoYo,其实它并不是云网络的一个新客户,从第一天开始就长在云上了,为什么现在会把它重新拿出来讲呢?是因为我们看到了互联网公司开始大规模积极布局海外业务,对云网络又提出了新的要求。
从这几个非常典型的客户,我们也可以看到几个非常典型的业务趋势,包括传统企业加速上云,先进企业开始拥抱AI大模型,更多企业积极布局出海。云网络在2024年发生了什么样的变化以承载这样的客户趋势呢?
首先,作为云计算的核心组件和上云的第一步,云网络应该把简单、普惠、透明、公正的云计算特质作为其发展的基础,这个基础在今年会被更多地提出来,是因为我们认为这是客户信任云网络以及建立客户黏性的基础。
在这之上是几个重要的云网络产品能力趋势:
第一,确定性。确定性也是我们看到的云网络在2024年的一个非常典型的趋势。一直以来云网络聚焦在提升可靠性、弹性、性能维度的一些能力指标,但到了2024年,如何给这些能力增加确定性是一个非常重要的话题。
第二,可观测。同样是云的一个非常重要的特质,当传统的网络指标的可观测越来越不能满足客户需求,云网络需要给客户提供更深层级的网络架构维度的可观测,让客户可以看到自己本身网络架构维度各种各样的问题,去做相应的网络架构的优化。
第三,全球化。全球化是企业出海所带来的非常重要的趋势,也需要云网络提供相应的能力满足客户出海的需求。
第四,自动化。自动化是客户在使用云计算到达一定深度之后,自然而然会产生的需求。如何让客户专注业务创新,就需要云网络在提升自动化效率上做更多工作。
总结,在纵向产品能力视角上,确定性、可观测、全球化、自动化是我们认为在2024年云网络发生的四大类重要趋势。
首先,我们看下确定性,来自我们一个客户的原声诠释了确定性在客户业务架构里的重要作用。这个客户说,“增强确定性是保障他们业务长期发展的精益工程”;随着云上客户越来越多,我们也发现客户云网络架构变得非常复杂,云、边、端一体化这么复杂的架构里,在某一个小的环节上如果确定性出现问题,客户的业务就有可能受到非常大的影响,这是触发我们去思考如何提升整个云网络确定性的前提。
1、确定性的可靠
云网络首先考虑提升的是确定性的可靠,因为云的可靠性是一个云的基座,作为云里最基础的云网络,可靠性更是融合在整个产品技术演进和设计的基因里的。我们怎么去理解确定性的可靠?
当我们去构建整个基座可靠性的时候,会发现无论做多少测试去提升质量、优化架构,仍然没有办法确保线上生产系统不会出问题;所以需要考虑去多做容灾演练,我们认为经过容灾演练之后,整套架构的健壮性可以得到有效提升,你也可以提前找到实际生产架构里的问题,从而做到防患于未然;其实从去年开始,阿里云网络就在逐步构建云上网络相关产品的容灾演练能力,我们先在负载均衡、专线等在用户云上网络里使用最多场景的组网类产品上支持了相应的容灾演练能力,今年我们又把这个场景进行了扩展和丰富,同时把整个演练过程帮用户做了分析,希望通过这样的演练和分析,客户能获取到传统网络更加确定的可靠性。
2、确定性的性能
另外一个视角是性能,我记得17、18年我们还会去做线上跑分,包括虚拟机的转发性能到底能跑到多少;而随着做云的深入,我们发现把性能做得越来越好,不如把性能做得越来越确定,给客户的价值更大。
举个例子,在云网络领域,很多客户对这样的延时是不感知的,但它存在这样的客群,比如量化交易的客群,就需要我们给他提供一个更低、更稳定的延时。
云网络的技术是基于物理网络之上构建的,我们一般都会有一个Overlay层,我们就在想,当底层的物理网络出现抖动时,Overlay层是不是可以做些什么措施绕开物理网络的抖动,于是我们就在Overlay基础上去实现了一套对物理网络抖动的监测和数据包重新调度的 “ZooRoute技术”,它可以非常好的提升我们跨域网络的SLA,同时降低抖动的影响。
从2023年阿里云网络在跨域网络里集成了ZooRoute技术之后,今年我们把专线网络和互联网接入网络上也集成了相应技术,未来会把数据中心的组网做集成,希望通过ZooRoute技术的大规模落地,可以把云网络整体延时优化到一个确定性的区间之内。
3、确定性的弹性
再看弹性,云诞生时就伴随着弹性,大家都在讲,讲起来非常容易,但实际在客户使用过程中会碰到很多问题;最大问题是当客户想要的时候你没有,这时候就会出现故障。阿里云网络一直在思考到底什么样的弹性才能够满足客户要求;让客户真的不再需要去关注到底应该准备多少资源才能满足客户的业务增长,真正实现让网络更简单,让客户不再关注资源,专注于业务创新。
去年,我们给大家分享了对自适应弹性的理解,并下了一个定义是它可以满足客户大部分负载需求,但我觉得差一个“最后一公里”,我们认为在弹性里始终存在“最后一公里”的问题;今年我们重新定义了确定性弹性,以及确定性弹性的三要素:初始能力、可衡量的弹性能力和资源预留。
左下角这个图,我认为非常形象地展示了这三个要素的能力如何在业务负载规划中发挥作用。当一些很常规的负载开始基于云网络进行构建的时候,我们认为初始能力就足以发挥作用;当出现一些大规模波动性负载时,我们认为可衡量的弹性就会发挥作用,这时候也完全不需要关心你的负载是什么样的,因为它是常规性的;当出现了一些超大规模大促的场景,比如双11,就需要做到资源预留。
从去年开始,我们持续把产品的弹性能力用一种可衡量的方式呈现出来,相应的负载均衡类产品、加速类产品等网元类产品,都暴露了自己弹性的速率,希望基于弹性速率的评估,用户可以知道这样一个弹性到底能满足你什么样的业务类型上涨和下降。同时,也实现了资源预留能力,通过资源预留去满足大促场景,我们认为结合我们弹性三要素,规划在云上的负载就会变得非常简单和可管理。
可观测的需求,也来自于我们云上实际客户的一些场景。我们发现我们客户的网络运维同学,每天的工作可能都会集中在看监控、处理报警、考虑怎样让故障快速恢复;但也发现对于他们来讲,一直非常痛的问题是这些其实都是一些事后的措施,是通过观测到一些网络异常去处理的,他们也一直在想怎样可以把这些事后的措施做到事前,这是促使我们去做这个事情最主要的思考,客户一直希望我们可以提供一个更好的架构去更好的使用和管理云网络,因此我们就在思考这样的问题。
其实,阿里云在管理和运维自己的云网络时也发现了一些有价值的规律,从我们自己的运维视角去分析,对我们的用户也是非常有借鉴意义的——我们发现云网络的架构越合理,越是能够发挥云网络的最大价值。
比如,我们的服务团队会处理客户日常对我们的需求、故障排查的需求,在处理过程里,发现很多客户受到故障影响而出现业务问题是因为它的网络架构是不够合理的。举个例子,我们最近碰到了机房火灾/掉线等故障,但我们发现在这样的故障下,有的客户是没有感知到故障影响的,而有的客户受故障影响非常大,当整个机房重新恢复之后,客户也没有办法很快地让它的业务恢复,这就触发了我们的思考,如果这些客户也能够采用一个更健壮、更合理的云网络架构,就有可能更大限度地规避此类故障给业务带来的影响。
另外一个视角来自我们的解决方案团队,他们负责给客户提供整体的云网络解决方案。我们发现往往是当客户业务出现瓶颈的时候,他(才)会求助于我们去设计一个更合适的架构级别的升级来满足业务增长的需求。但是当客户的业务出现瓶颈时,他的业务相对已经比较复杂了,这时候再动手去改造的代价也是非常大的;如果这些能放到业务之前思考,从一开始就选择一个比较有成长性的弹性的云网络架构,可能对于客户的业务可持续性的价值会更大。
从这几个内部视角我们发现,你如果能够越早发现网络里的风险,越早去使用一种更好的云网络架构,客户的业务受益也越大。传统上做运维,我们都会去观测网络指标,那能不能去观测网络架构?于是,我们就把我们通过日常去服务客户线上真实的案例,去复制、放大、应用到更多客户场景里,把架构的可改进点告诉客户,让客户可以提前做出应对举措。这可以有效降低故障的影响,也能有效降低未来改造的成本。所以,今年我们就通过网络智能服务(NIS)来提供网络架构的巡检能力,对网络架构进行深度观测。
再来看下全球化。
从客户视角看,全球化客户要求非常直接,就是你能不能非常快速地帮客户搭建一张全球化的云上网络,里面可能包含全球化的组网以及全球化的客户覆盖,这也给全球化的网络服务提出了新的需求。
全球化的客户需求,我们分了两个层次:
第一,云网络本身的产品是不是在全球范围内具备竞争力。云上的IPv6是一个话题,按量付费也是一个话题,在这两个能力上需要跟得上客户业务全球化的脚步。
第二,如何帮助客户覆盖它自己的全球化用户。用户在去做全球化展业时,一开始更期望的并不是每个国家去部署一套他自己的应用去做覆盖,更希望的可能是在某一个大区里选择某一个国家,这个国家可以帮助它去覆盖周边的国家,这也驱使整个云网络去构建一种通过一个区域/节点去覆盖一个业务大区的能力,这也是阿里云网络弹性公网IP在2024年主要增强的产品能力方向。
也有另外一部分客户,希望通过某一个区域的能力覆盖整个全球能力,这驱动我们在全球加速产品上做协议优化,调度优化。希望通过这样的互联网接入,应用交付能力的提升,让应用可以快速覆盖到全球的客户,使业务本身可以快速展业实现全球化。
自动化,在整个云计算领域里讲得比较多,但在网络领域里讲得比较少。我们有一个客户是做在线教育的,他自己业务经营有一个非常好的理念,希望通过技术把语言学习变得更加简单、更加有趣,同时我们发现他在自己IT基础设施的管理上也应用了同样的理念,只用一名运维同学就完成了整个云上架构的管理,这里面最主要得益于运维自动化的能力。
我们认为自动化代表了一种更优的用云的方式。
我们发现大客户中有70%的客户是通过API来管理云网络的,而中小客户这个比例只有40%;我们也发现相比于海外先进企业,我们的自动化能力也是落后的;比如在Terraform视角上,海外企业自动化调用量级远远超过国内企业(海外客户调用是10亿级别,而国内企业客户调用只有50万),我们发现先进的企业大多都在用API,都在用自动化去提升它的运营效率。
自动化里首先有一个很关键的基础能力,就是API。从云计算角度,API讲得比较多,但从云网络视角,API就讲得相对较少。阿里云网络近几年持续在提升整个API的健壮性,包括API的各种企业级能力的补齐。
今年,阿里云网络的可观测类产品NIS也支持了OpenAPI,相应的拓扑、巡检、性能观测等能力都提供了商业化的OpenAPI,我们认为对于客户来讲运维系统同样是生产系统,所以它需要一个更严谨、更可靠以及具备SLA的商业化的OpenAPI,才能满足日常生产和运维需求。
仅仅是API还不够,因为API距离客户的场景还有一定的差距;客户在用网络的时候,并不直接去使用OpenAPI,要解决的是例如混合云如何连接到云上,如何构建一个互联网出口,如何交付一个应用等。因此,我们在帮助客户更好地自动化时又往前走了一步,为客户提供了云网络Network  Module。在前不久我们刚刚发布了第一个Hybrid-cloud-network  module,发布之后,也发现很多客户在基于我们的Module去部署它的资源,可以非常快速地进行资源的部署和管理,接下来还会发布更多的Module。
自动化其实是一个持久的话题,云网络是整个云计算里最为基础的组件,这是我们本身的责任,把自动化的过程、客户用云的自动化进行深度的推进。
卓越架构也是一个云的概念,我们也认为云网络同样也需要卓越架构帮助用户更好的用云,下午我们会有一个专场的分论坛去分享我们在卓越架构维度的思考,希望围绕客户用云的多个场景,通过卓越架构让用户获取到云网络的稳定、安全、性能、可观测、自服务等相应能力。
最后回到我们的基础 ,“简单、易用”,这个词也不是从我们这里开始讲的,《易经》里就提到过 “乾以易知,坤以简能”,大道至简,把云网络做得越来越简单、越来越易用,才能更好的达成我们让客户业务可以快速发展的目标。
我们也做云网络十几年了,也发现我们的产品越来越多,因为你面向各种不同细分场景的客户时,就会做相应的能力。但功能越来越多之后,也是个双刃剑,满足了更多细分场景的客户,整个云网络也变得越来越复杂了,我们近两年持续解决的一个问题是让网络配置更简单,让网络里的产品、商品、计费模型、计量模型都可以更统一。
今年我们还关注到了另外一个事,在网络计量和计费模型上,云网络需要去采用整个业界共识的计量和计费模型,以达成云网络普惠、公正和透明的定位,这是阿里云网络在今年特别关注和特别去构建的一个产品特质,也代表了阿里云网络的承诺。
在简单、易用的角度,我们也在不断地发现和解决客户用云网络里的一些卡点问题,我们感觉到用户在使用IP地址上会有很大的提效空间,所以我们就在2024年发布了IPAM产品,帮助用户有效的管理云上的IP地址、混合云的IP地址,客户同时可以非常快速的从现有IP地址管理里生成它的IP地址管理库,帮助他提升在IP地址管理方面的效率。
我们始终会有一个目标去贯穿着整体发展和特性趋势演进,这就是“让网络更简单”,这也是云网络在十几年发展里所贯彻的长期主义思考。
云网络从1.0、2.0到3.0,不断地在满足不同应用场景客户的需求,从互联网客户到全球化客户,到物联网客户、AI客户,背后其实代表的是各种不同类型的应用;我觉得到3.0之后,云网络开始回归初心,化繁入简、简单易用,其实云网络只有做到更多朝着简单易用角度演进,才能让客户在使用云网络的同时又感知不到云网络,这样客户才能够把更多的时间、更多的精力聚焦在他的业务架构、业务问题里,这也是我觉得从去年到今年,在明年我们仍然会去坚持的云网络的长期发展趋势,就是构建一张简单易用的云网络,让客户专注在业务创新上。
我今天的分享就到这里。谢谢大家!




【投稿】:SDNLAB原创文章奖励计划

SDNLAB
SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台,涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域,提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。
 最新文章