交通银行数据中心总经理 孙磊
背景分析
为全面贯彻党中央、国务院决策部署,提升科技引领能力,加快建设数字化新交行,根据《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,交行制定了《交通银行股份有限公司“十四五”时期(2021—2025年)金融科技发展规划》(以下简称《规划》)。
《规划》以习近平新时代中国特色社会主义思想为指导,坚决贯彻党的二十大精神,坚持胸怀“国之大者”,深刻理解把握金融工作的政治性、人民性,围绕集团战略,把技术创新和数据要素作为实现金融高质量发展的关键驱动力,促进技术与业务深度融合,加快数字化新交行建设。
《规划》以坚持安全可控为基本原则,坚定不移贯彻总体国家安全观,牢固树立以创新促发展,以安全保发展的理念,牢牢守住信息系统安全、稳定、可靠的底线,增强技术自主可控。《规划》将数字新基建作为主要任务,打造业界具有示范引领作用的分布式和云计算核心技术平台,以企业级技术平台赋能业务新动能,努力实现高效敏捷、弹性调度、融合创新的技术架构,确保核心关键业务的自主可控。
数据中心在《规划》指导下启动建设一云多芯云平台。项目建设立足于维护国家金融基础设施安全,全力保障关键核心技术自主可控,化解供应链风险,围绕“一云多芯”“多地多活”“云上云下一体化运维”“云上云下一体化安全防控”等技术亮点,建立高自主、高可用、高安全的云平台,构建以客户体验为中心的云服务体系,满足交银集团业务多元化经营需求和多样化监管要求,形成具有交行特色的信创技术体系,并规模化输出金融信创云能力,赋能行业,加速国家信创目标落地,展现国有大行担当。分布式云平台为交行建成“当代领先,世界一流”的新一代金融数据中心贡献了强大力量,是交行《规划》和数字化转型战略落地的一项里程碑式建设。
交行传统技术栈主要包括VMware虚拟化、集中式存储、小型机、大型机,软件层面以IBM中间件及数据库为主、开源中间件及数据库为辅。基于传统技术栈,交行于2018年构建了第一代IaaS+PaaS云平台。
随着交行数字化转型快速推进,业务和技术上都面临新的挑战。业务方面,银行业务逐渐呈现互联网化,对TPS和并发要求越来越高;业务创新速度越来越快,对IT响应速度提出更高要求;业务连续性要求越来越高,银行系统要保障各种极端故障场景下国民经济不受影响;全集团一体化管理需求,需要统一标准和规范,降低技术壁垒和学习成本,通力协作,快速完成全集团治理。技术方面,关键核心技术非自主可控,传统环境以主机、小型机和VMware虚拟化为主,不满足自主可控要求;传统灾备架构切换时间长,传统容灾技术栈以冷备为主,很难保障应用运行时的状态一致性,切换周期长;云原生提高了应用开发和运维复杂性,应用架构设计、版本发布和大规模运维充满挑战;严格的监管要求和复杂的网络环境,对信息安全提出更高的要求。
基于上述情况,交行拟依托于云平台建设,构建一套完整的信创体系,搭建“云+应用运维”“云+安全防控”两大纵横管理平台,锻造并沉淀四项关键技术亮点,即一云多芯、基于单元化架构的多地多活、云上云下一体化的应用运维及安全防控,支撑集团多样化业务的发展。
一云多芯,全面自主可控
交行云平台使用一套云操作系统管理不同芯片的物理硬件及多种类型的软件组件,可兼容主流国内CPU/GPU/交换机、国内OS/中间件/数据库等。通过单集群、多集群、组件级、机房级、区域级、云平台级等多维度的不同芯片服务器混部,实现灵活的调度(如图1所示)。根据应用实际情况制定不同的上云策略,可采用平迁、容器化或者微服务化改造方式,保证应用最小代价上云。在运行阶段依据服务器在线轮转替换能力,以云底座统一管控多芯服务器为基础,结合云实例和应用在线迁移、主备切换、流量调拨等方式将对应用的影响降到最低。
图1 一云多芯多维混部
多元容灾,为业务连续性保驾护航
云基础设施架构层面,交行结合IT资源整合、统一治理的发展要求,从全局角度进行顶层架构设计,形成同城双云+异地热备的整体布局,随着内蒙和贵州异地数据中心的建设,最终演进为多地多云架构。基础设施的规划决定了可以为应用提供同城单云/跨云容灾、异地容灾、异地多活的“多层次立体化”的容灾能力,应对单服务器、单机房、单Region、单云及城市级故障。
应用架构及数据层面,从全行规划企业级单元化设计逻辑,根据应用系统的重要性及业务特点设计应用高可用容灾架构及相应的演进路线。在架构分层上,形成接入层、应用层、数据层、运维层四层标准。对于数据可拆分的场景,数据拆分成多个分片,分布在不同的数据库集群上。对于数据不可拆分场景,数据分布在单个集群内。对于每个集群,单云内采用5副本架构,由Paxos协议保证数据的一致性,并且在另外一朵云内部署备份实例,最终形成跨云主备高可用架构,此架构具备高内聚低耦合的特点,可最大程度保证数据的可用性。同时建设统一容灾管理平台,可实施预先编排好的容灾预案,实现各层的路由规则推送、流量配比、数据的分片切主等的一键执行(如图2所示)。
图2 基于单元化的多活架构
云上云下一体化应用运维,让应用用好云
传统应用上云除了要考虑自身业务,还需要从全栈角度考虑高可用能力、分布式环境下的版本发布等。为降低应用上云难度,交行云平台从应用治理、资源技术标准及规范、运维管理、安全管控等层面构建统一治理平台,实现“云+应用一体化运维”,应用只需关心自身业务,提出架构及高可用需求,其他由基础设施团队负责,提高了应用业务创新速度和IT的标准化能力。主要的技术点包含如下两方面。
一是应用和云资源及传统资源进行统一的建模,包括应用的逻辑组成、策略基线、部署架构、云资源定义、发布策略等,自上而下构建了5层模型,核心在于将云服务实例和云平台资源的配置数据同上层的业务与应用进行关联,打通各层配置数据。
二是声明式终态运维,在应用架构蓝图的基础上,使用声明式API描述应用的目标状态,将平台内部的自动化运维场景编排封装起来,通过平台自身实现的逻辑驱动创建所需的IaaS和PaaS层资源,由应用运维平台保证应用能够达到终态。这种基于声明式API的面向终态的运维,不同于传统面向过程的运维,不需要应用实现处理逻辑,只需明确目标状态,更易于应用使用者理解,也有助于保持运维过程中配置信息的一致性。
在能力建设上,“云+应用一体化运维”并不仅仅完成运维工具的建设,而是从规划阶段的环境规划与应用“逻辑态”管理入手、到部署阶段的应用资源创建与应用发布部署的“部署态”、再到运维阶段的应用监控运维的应用“运行态”,实现了应用全生命周期的“三态”纳管。
此外,通过一体化运维平台的建设,将所有云平台进行统一纳管。一体化运维平台具备跨云、跨异构云,以及传统基础设施统一管理,生产操作、监控告警、配置管理等统一运维能力,做到所有操作可管可控,所有记录可查、可审,所有指标可查、可析,CMDB覆盖全生命周期,关系覆盖全交易链路。
云上云下一体化安全防控,全方位保障信息安全
云上安全体系建设主要包括IaaS、PaaS、云安全服务、第三方云安全服务和云原生应用安全五个部分。IaaS、PaaS和云安全服务主要体现云内生安全能力;第三方云安全服务主要解决云内生安全无法覆盖的安全能力;云原生应用安全更关注容器安全,针对微服务和无服务的应用新形态,重点考虑其安全隐患和防护措施。
根据“纵深防御、综合防范”的原则,交行将云特性融入到交行安全管理体系以及安全技防体系,形成云上云下一体化的安全防控能力,如统一账号管理、统一安全基线及安全漏洞管理、统一安全运营中心(SOC)。通过了公安部网络等级保护2.0四级的测评。
云原生架构下容器安全显得尤为重要,交行整个容器安全体系依托于云平台物理/硬件/虚拟化及云产品安全能力,在云平台安全层之上分别通过CI/CD安全、运行时安全构建容器安全防护体系。
容器基础设施安全:通过容器编排安全、合规检测、策略管理、主机加固和入侵检测等能力,提升容器基础设施环境的安全性。
容器构建时安全:通过对容器镜像扫描和CI/CD安全集成等能力,确保容器在构建时的安全。
容器运行时安全:提供在传统安全威胁检测基础上,解决容器逃逸,并采用容器微隔离防止东西向攻击。
此外,交行在分布式改造后的微服务安全层面做了创新性改造。
系统间服务访问控制:通过策略平台,控制服务方和请求方的访问权限,只有开放权限的系统之间才能进行微服务调用。
身份鉴权控制:为防止请求方身份伪造,注册中心层面通过令牌机制实现身份认证,每个微服务在拉取注册中心信息时会携带令牌信息,当一笔请求过来后,服务方会根据本地令牌缓存验证令牌的真实性和时效性,从而实现访问控制。
云平台为交通银行业务发展赋能,通过构建完善的云服务体系,为业务系统分布式信创改造上云提供全面、稳定、高效的基础设施环境,提供集约、安全可靠的一体化算力服务,提升了数据资源、业务应用等全要素、全环节安全保障能力。云平台具备关键业务数据零丢失,容灾切换演练常态化,满足应用大规模、高并发场景,符合等保2.0四级的能力,规范了应用上云技术标准体系和要求,提供高效的自助资源供给能力。
总结与展望
目前交行云平台整体规模已达18000台左右物理服务器,为总行、境内外分支机构、子公司及行业客户提供云服务。其中总分行已部署了包含核心系统、贷记卡系统、手机银行、数字化客服等在内的300余套应用系统。分布式贷记卡系统完成单元化架构改造后,于2022年7月9日完成全量主机下移;分布式核心系统零售业务在2022年从主机逐渐下移至云平台,对私业务已全部下移,对公业务正在下移中。同时云平台也为杭州地铁、雄安党建、昆明医保等行业客户提供服务。
未来,交行将建设内蒙古、贵州异地中心,至2026年中,交行将形成上海、内蒙古、贵州三地多云布局,确保各区域数据中心的高效协同与资源优化配置,最终实现交行IT区域集中治理。应用层面,进一步加快信创改造,2025年底前完成核心系统下移及一般业务系统信创改造。
一云多芯云平台为数字化新交行打造安全规范、稳定可靠、服务高效的信息系统运营支撑体系,锻造安全稳定、高效敏捷、灵活多变、数智协同、开放智慧的技术服务能力,确保核心关键业务的自主可控,同时服务集团用户和生态客户,实现合作共赢的生态汇聚,面向行业形成示范效应。信创云平台的建立体现了交行坚持走中国特色的金融发展之路的决心,为全面建成社会主义现代化强国贡献金融力量。
(此文刊发于《金融电子化》2024年12月上半月刊)
推荐阅读(点击图片查看精彩内容)
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪