//
随着数字化转型的浪潮席卷全球,云计算和AI智算已成为推动创新和增长的关键力量。在这一背景下,腾讯专有云TCE凭借其前瞻性的技术理念和扎实的实践成果,站在了云计算与智算融合发展的前沿。TCE这三个字母,不仅是Tencent Cloud Enterprise的缩写,还代表了引领时代的先进技术(Technology),同时也是全面协同(Collaboration)和生态共赢(Ecosystem)理念的践行者。从全国最大的面向互联网行业的政务业务云,到全国首个区块链算力中心,从面向特种行业集团央企的私有云,到全国服务领先的股份制银行的AI算力集群,TCE在各个领域的成功案例不断证明其平台的稳定性和适应性。本文将带您一探腾讯专有云TCE如何在云计算和智算的浪潮中,引领行业迈向新纪元。
2024年10月19日,在由CIO时代主办、新基建创新研究院作为智库支持的“科技至卓 同行至远 | 第十届中国行业互联网大会暨CIO班19周年年会CIO百人会”部委专场上,腾讯云专有云首席架构师方天戟带来了主题为《大模型时代的国产化云计算平台》的精彩演讲。
腾讯云专有云首席架构师 方天戟
精彩观点:
国产化替代也好,AI智算也好,都是一个复杂的生态,我们要把整个生态去整合起来,要去开放兼容业界多个厂商的产品,这样才能够帮我们的用户把服务于前沿技术的平台给做好。
以下为主题演讲的精华内容,经编辑后的文字实录:
云计算和智算的未来发展趋势及挑战
云计算和智算领域正在经历快速的发展和变革。自2008年Google推出云原生开发框架GAE以来,云原生技术经历了一段蛰伏,直至2017年左右,云原生技术才开始在国内外得到广泛应用,尤其在金融和互联网等领域。云原生技术使得金融与互联网用户,能够快速为互联网访问的业务进行迭代,例如手机银行就是典型的基于云原生技术的应用。
与此同时,在国内,信创成为一大趋势,旨在推动国产化替代,减少对进口技术的依赖。这包括硬件如CPU和GPU的国产化,以及软件层面的中间件和操作系统。例如,中国网络空间安全协会就建议对英特尔进行网络安全审查,这可能促使国内企业加速替换现有处理器。AI技术所依赖的GPU国产化也是进行中的一个热点,如海光和华为昇腾GPU在AI智算领域的使用。此外,国产中间件和操作系统的替代也是未来发展的重点之一。
AI智算领域面临的挑战之一是如何有效利用大规模的算力资源。尽管用户可以通过购买算力卡来增加计算能力,但仅仅增加硬件数量并不能线性提升整体计算效率。网络带宽、单点故障、网络丢包和存储瓶颈等因素,都可能影响训练效率。数据显示,全球大部分大规模训练集群,平均连续训练两天后就会出现故障引起训练中断,而排除故障的平均时间长达三到四天。这意味着大量投资可能被闲置,电费等运营成本也被白白浪费。
因此,建设能够结合AI智算能力,融合国产化软硬件的云计算平台成为政府、互联网、金融及大型集团企业的当务之急。云计算平台的发展始于2004年AWS的诞生,这标志着云计算的商业化起步。到了2018年,以腾讯云为代表的第三代云计算技术已经成熟,能够支持大型公有云软件的私有化部署,并管理不同芯片和硬件。展望2024年,我们需要一个能够适应国产化需求,支持AI智算的云原生平台,这将是云计算和智算领域需要面对的挑战。
TCE国产化云平台与智算方案
腾讯专有云团队针对云计算和智算领域的挑战,提出了一个安全可控、面向应用、开放兼容的全栈智算云解决方案——腾讯专有云TCE。TCE既是Tencent Cloud Enterprise的缩写,也代表着技术引领(Technology)、全面协同(Collaboration)和生态共赢(Ecosystem),也是腾讯专有云的核心理念。
架构与特性
TCE的架构分为四层:最上层是提供普通应用和智算应用的接口,可支持各类AI智算算力卡,特别是国产化卡的兼容;PaaS层提供了一系列国产化中间件、数据库和容器平台。特别地,TDSQL数据库,它不仅支撑了腾讯的支付应用,还支持了一系列国有大型银行等国计民生相关客户的业务。TCE的PaaS平台依托于IaaS智算底座,能够支持大规模服务器和GPU卡的集群,实现一云多芯的部署,支持多种CPU和GPU,基于多region多az的架构,实现全球部署和平滑扩展。
TCE的总体架构是源自公有云的技术下沉,在腾讯公有云的技术上进行小型化,十几台服务器即可部署到用户机房并可靠运行。随着业务的扩容,TCE也可以平滑扩展,扩展节点、AZ和地域的过程,对用户使用无任何冲击。
技术优势
腾讯云拥有100万台以上服务器的规模,远超开源OpenStack能管理的500至1000台服务器。腾讯云采用了完全自主可控的路线,从早期的QQ空间分布式存储技术,到自主研发的计算调度平台Vstation,腾讯云走出了一条不依赖开源OpenStack的技术路线,形成了完全自研的云平台。在业界虚拟化主流技术KVM开源的社区,腾讯云的贡献长期位于全球前十。同时,腾讯TCE还在长期的发展中,积累了40多项专利和20多项软件著作权。
在信息安全方面,腾讯云在商用密码评测中得分位于国内领先地位,同时具备了通过计算机安全等级保护评测的等保4级能力。腾讯云能够管理大量服务器并使其高效运行,得益于其独有的软硬件协同技术,包括针对国产化硬件的特殊优化。例如,针对海光处理器的缓存组织和多核协作进行了操作系统内核的优化,使其运行一些应用的性能表现,超出了业界预期。
云边协同与一云多芯
为了帮助用户的数字化从云端直达末梢,TCE通过在边缘部署CDC(分布式云)来解决计算与数据距离太远的矛盾。此外,腾讯云从2018年开始支持一云多芯,可以兼容鲲鹏、海光、飞腾等国产化处理器。针对飞腾处理器早期的兼容性与性能问题,腾讯云还对操作系统内核和编译器进行了优化,确保了一系列关系国计民生的重要应用能够在飞腾处理器上高效运行。
最佳实践分享
在云与AI智算领域,腾讯专有云TCE团队通过一系列创新实践,展示了其技术实力和解决方案与客户需求的高度契合。以下是一些最佳实践案例:
1. 某大型部委对社会业务上云
某大型部委拟在全国范围内建设对社会的智慧业务,并建设云平台作为业务应用运行的平台。腾讯云为此客户总部构建了两套云平台,分别服务于政务外网和互联网。同时,在每个省市自治区及计划单列市,也部署了类似的云平台。总部及部分省份的云平台采用双活架构,以确保高可用性。为验证技术方案,腾讯在飞腾服务器上进行了严格测试,结果表明,通过优化操作系统内核,可以显著提升平台与应用在飞腾处理器上的运行性能,能够符合用户对应用承载能力的预期。这一项目在全国范围内的成功实施,充分证明了TCE平台的稳定性、兼容性和交付能力。
2. 全国首个区块链算力中心
为向北京市范围内的委办局、央企、国企等用户提供区块链算力与区块链应用,腾讯云与合作伙伴共同创新,基于合作伙伴开发的国产化区块链芯片与计算卡,腾讯云建设了相关的算力调度云平台,在云平台上的应用通过专用硬件执行区块链算法,提高了效率并节约了成本。在北京的三个机房中,腾讯云交付了1198台服务器,其中1000个节点为区块链计算节点。这一项目展示了腾讯云在云计算、区块链与异构算力融合领域的技术实力和创新能力。
3. 全国排名靠前的大型央企上云
某大型央企最初使用OpenStack构建私有云,但遇到了存储性能差、虚拟机启动慢等问题。2022年以来,在建设腾讯TCE平台后,不仅解决了这些问题,还实现了自动化的计量计费,满足了为集团内部各单位精确计费的运营需求。此外,腾讯云平台还提供了丰富的PaaS产品,并成功集成了该央企自研的数据库,进一步增强了云平台的功能。
4. 全国首个股份制商业银行建设的AI算力集群
某大型股份制商业银行是全国首家将核心系统改造为云原生架构并迁移至云端的银行,且核心系统在海光处理器上运行。腾讯为其建设了支持一云多芯的云原生平台。此外,腾讯TCE还同时管理了两个AI算力集群,一个使用鲲鹏920处理器和昇腾910B训练卡,另一个使用Intel处理器和英伟达GPU卡。
结 语
云计算和AI智算等技术,在快速发展的同时也面临诸多挑战,腾讯专有云TCE通过技术创新的实践案例,展现了其在构建安全、高效云平台方面的实力,成功应对了技术、市场和政策等挑战,证明了其在异构硬件环境下的稳定性和适应性,以及服务于国计民生相关用户的能力。
·END·