沙开波:腾讯云AI infra的每一步都算数|数据猿专访

科技   科技   2024-09-19 17:23   北京  





大数据产业创新服务媒体

——聚焦数据 · 改变商业


在数字化浪潮中,有这样一群人,他们以代码为舟,以数据为桨,航行在科技的海洋中,探索未知的领域。
正如电影《星际穿越》中的宇航员们穿越虫洞,寻找人类新家园一样,腾讯云也正在穿越巨大的数据虫洞,寻找智能计算的新大陆。
在AI infra的大陆不断探索新的机遇


在数字化转型的浪潮中,AI已经成为推动企业创新和增长的关键力量。而在这场智能化革命的幕后,是强大的AI infra在支撑着一切。
随着大模型逐渐步入应用阶段,对于模型训练和推理过程的效率、性能以及成本优化都变得尤为关键。AI Infra以其高效的计算资源和优秀的数据处理能力,有效提升了模型训练和推理的速度,确保了大模型在落地应用过程中的高性能和经济性,AI Infra的重要性不言而喻。
根据市场研究公司MarketsandMarkets的数据,全球大模型训练和推理市场规模预计将从2023年的125亿美元增长到2028年的563亿美元,AI Infra具有巨大的市场潜力和商业机会。
另据中金数据预测,目前,AI Infra产业处于高速增长的发展早期,未来3-5年内各细分赛道空间或保持30%+的高速增长。随着大模型应用的不断落地,AI Infra作为支撑这些应用的基础设施,其重要性将进一步凸显。
AI infra,是一个不断进化的过程。从最初的云计算服务出发,到生成式AI技术的兴起,以及自然语言处理和计算机视觉等领域的突破,AI应用需求不断提高的同时,也对AI infra提出了更高的要求。沙开波指出,生成式AI模型的训练和推理需要巨大的计算资源和数据吞吐量,这对基础设施的稳定性和可扩展性是一个巨大的挑战。
既然挑战如此巨大,那么机会在哪里?答案是机会就藏在未来的趋势中。
对于未来AI infra的发展趋势,腾讯云副总裁沙开波有着清晰的展望。他认为,未来AI infra将朝着更加智能化、集成化和自动化的方向发展,主要有以下几点。
第一,大模型规模还将持续增加。规模增加之后对AI infra的要求可能会更高,可能需要有更大的集群。在这个更大集群下如何确保产品性能仍然可以满足用户的业务要求,保证稳定性、应用性。
第二,多芯的能力。多芯一方面是来源于目前的供给侧面临挑战,需要AI infra产品具备能够适配各种芯片的能力。另一方面,央国企还有一些国产化的诉求,这些国产化诉求也需要我们去兼容、适配国产化的芯片。
第三,应用发展。在沙开波看来,目前AI的整体发展还处于比较前期的快速发展的阶段,应用落地层面,从训练开始,到训练结束,AI应用的落地可能会越来越快。从这个角度看,未来的推理比重可能也会逐步地增加。
第四,AI的场景也会变得越来越广泛。很多行业对于AI目前都处于早期探索阶段,虽然现阶段在业务层面还没有特别爆款的应用,但是很多客户都有着强烈的诉求,未来肯定会有一些创新业务应用的一些落地。
第五,对数据安全的需求很强烈。对于很多行业来说,模型的数据、用于训练推理的一些业务数据,都只能在本地完成。那么AI infra如何把系列产品的能力部署到客户的业务计划里面,也是客户的一个诉求趋势。
在腾讯云看来,AI infra是基础更是核心。“我们面临的挑战是如何构建一个既能满足当前客户需求,又能预见未来技术发展的AI infra”沙开波解释说,“这不仅仅是技术的挑战,更是对市场需求和客户洞察的挑战。”
在AI infra的演进与挑战中,腾讯云团队展现出了对客户需求的深刻洞察。从大模型算力集群,到星脉网络,再到后来的云存储、智算套件,还有向量数据库等。从整体的计算、网络、存储、向量数据库,到面向大模型的训练和推理的场景的加速软件和框架,腾讯云AI infra不仅为客户提供了强大的智能计算支持,也为整个AI行业的发展树立了新的标杆。
腾讯云的AI infra,就像电影《头号玩家》中的绿洲,是一个充满可能性的世界。在这里,每一个计算节点都是一个星球,每一条数据传输路径都是一条星际高速公路。
智算:帮助客户加速释放AI生产力


智算品牌,是腾讯云在AI infra领域的一次重要战略布局。那到底智算是什么?沙开波解释道:“智算本身是聚焦在云基础设施,面向生成式AI的训练、推理及一系列的底座能力。这个底座包含诸如高性能计算、高性能网络、高性能存储,以及一些训练推理框架加速的一整套AI infra智算产品的组合。总体来看它是一套算、存、网、数高效一体的高性能底座,主要满足大模型的客户在大模型训练推理场景中对云基础设施以及一些高性能、高稳定性、可运维、应用性等方面的诉求。
智算品牌的价值体现在多个维度。首先,它为客户提供了一站式的AI infra解决方案,包括高性能计算平台、高速网络和大容量存储等,帮助客户快速构建和部署AI应用。其次,智算品牌通过不断地技术创新,提升了其自身的性能和效率,降低了客户的使用成本。
那么落到细处,智算品牌到底是通过哪些核心技术的支撑来实现对外赋能?
HCC:高性能计算的集大成者。HCC是腾讯云智算品牌的重要组成部分,专为AI训练和推理设计。沙开波在采访中提到,“HCC具备极高的训练启动时效和集群稳定性,其产品本身其实是去帮助客户构建一个高性能、稳定、大规模的计算集群,证明我们能制造千卡、万卡这样的级别。”
星脉网络:AI时代的数据高速公路。星脉网络是腾讯云为AI应用设计的高性能网络解决方案。沙开波强调,数据的快速传输对于AI模型的训练和推理至关重要,星脉网络正是为了解决这一问题而生。
“星脉网络是基于自研交换机实现的高速网络,可以通过流量和拓扑的自动感知来进行流量替换中心的调度,从而提升整个网络的吞吐。当发现故障的时候,可以迅速定位到具体链路,并迅速对问题链路进行调度以及异常处理,包括最终治愈,从而让整个训练可以不中断或者少中断地继续往下执行。”
Turbo FS:存储性能的新篇章。在AI应用中,数据存储的性能同样不容忽视。Turbo FS是腾讯云推出的高性能文件存储系统,专为AI和大数据应用优化。沙开波说“在训练过程中,我们用TurboS为Checkpoint数据读写做支撑。TurboS支持千卡以上的读写能力,充分解决了中间数据高效读取的写入,提高了训练效率。”
Goosefs:为AI而生的分布式存储。Goosefs是腾讯云自主研发的分布式文件系统,专为AI和大数据分析设计。沙开波指出,Goosefs在存储容量、数据访问速度和容错性方面都有着出色的表现,能够无缝地与HCC和星脉网络集成,为客户提供了一个完整的AI基础设施解决方案。
TACO加速框架:AI推理的加速器。TACO是腾讯云推出的AI推理加速框架,旨在提高AI模型在实际应用中的性能。沙开波解释了TACO是如何通过加速吞吐和降低延迟占领用户心智。
他说:“首先是提升吞吐。通常要衡量AIGC时代有IUM大模型的性能,我们都会以每秒能处理多少Token的数量作为一个评价的指标。假如在给定的运算设备上,我们用社区性能最好或者厂商性能最好的软件部署可以达到每秒处理100 Token,那么在使用了TACO AUM之后,就可以每秒处理200甚至300 Token。也就是说用户可以以同样数量的运算设备去支撑更多的客户的请求,这样对于客户来讲有更好的体验,对于服务商或者业务方来讲整个的运营成本会降低。”
“其次是降低延迟。那么,何谓降低延迟?简单来说,吞吐的处理性能从每秒100 Token提升到200 Token,对应的每个Token的延迟也会下降一倍。从用户角度来讲,直观地感受就是在使用大模型的时候返回问题的时间会缩短,而且缩短幅度非常高,用户可以体验到更为敏锐的反应。”
之于智算品牌来说,以上的技术创新只是代表并非全部。在沙开波看来,智算品牌不仅仅是一系列产品的简单叠加,它更是一种服务理念,是一种对客户的承诺。这种理念贯穿于腾讯云的产品设计、技术研发和服务等全生命产品周期的各个环节。
沙开波坦言:“我们的目标是让智算品牌成为客户在AI领域的可靠伙伴。由腾讯云来提供场景和性能领先、多芯兼容的智算产品技术能力,更好地帮助客户,加速释放AI的生产力。”
竞争一直都在,我们更关注产品与未来


竞争无处不在,竞争一直都在。
在强手如林的残酷市场竞争中,腾讯云智算品牌的定位和发展策略显得尤为重要。
沙开波说:“不管是智算还是通用计算,每一家的优势都不太一样。对于腾讯云智算来说,相比外部竞争我们更关注自己的产品能力。本质上来说,我们更多的产品其实都是围绕着客户的诉求,深入挖掘哪些产品能够在客户的场景真正发挥价值,这是我们核心的策略。对于产品我们有三个核心关键词:兼容性,开放性,以及公私一体的战略。”
在沙开波看来,腾讯云智算品牌的优势不仅仅在于其全面的技术布局更在于其深厚的行业积累。从高性能计算到高速网络,再到大容量存储,腾讯云智算品牌提供了一站式的AI infra解决方案,这在市场中是独一无二的。
沙开波认为:“对于我们来说,新的趋势,新的变化,对产品来说都是很好的需求的来源。基于这些需求或者来自客户的诉求,我们需要不断去打磨产品能力、提升性能,包括应用多芯,去兼容不同芯片的能力,以及灵活部署的能力。”
同时,腾讯云也深知生态的重要性——不仅关注技术的研发,还积极与行业合作伙伴建立合作关系,共同推动AI技术的创新和应用。“我们致力于打造一个开放、合作的AI基础设施生态。”沙开波说,“不管是芯片硬件厂商,还是IDC,我们都是以一个很开放的策略及态度跟大家合作,进行优势互补,共同推进行业的整体发展。”
与此同时,公私一体的战略更是不可或缺。“我们希望把在公有云中积累的实践能力持续输出的同时,也能在私有场景或者专有场景中把通过公有云打磨出来的软件能力1:1的输出到私有环境中,帮助用户,将智算中心的硬件资源和软件能力结合起来,形成合力,构建属于自己的AI infra能力体系,赋能业务。”
沙开波强调:“我们主要聚焦于大趋势,包括大的技术趋势,聚焦于我们的能力能解决客户的哪些问题。围绕这个大的趋势以及客户的需求去打磨我们有竞争力的产品出来。”
未来,随着AI技术的不断发展和市场需求的不断变化,腾讯云智算品牌将继续保持其领先地位,推动AI infra的进步,为全球客户提供更加优质、高效的服务。
在文章的结尾,我们再次回到那个广袤的数据海洋。腾讯云坚定目光穿过数字海洋,看到了更远的未来。他们知道,智算的未来正如这片海洋,充满了无限的可能和挑战。

文:晴天 / 数据猿
责编:凝视深空 / 数据猿

数据猿
关注大数据产业的技术应用新媒体。数据猿致力于以大数据的产业应用视角,关注报道金融、工业、医疗、消费等为代表的全行业,并以大数据视角,重点关注人工智能与云计算领域。数据猿也将持续关注物联网、半导体、新能源等重要领域的大数据技术应用及发展情况。
 最新文章