金融行业私有云上平台的建设与运维实践难点(同行交流共识)

科技   2024-11-18 07:35   海南  


在金融行业,私有云的建设与运维面临诸多挑战。安全方面,安全合规要求极高,需满足严格监管标准,确保数据安全与隐私保护。可靠性方面,高可用性和可靠性也是关键,金融业务不能间断,需采用冗余设计和备份恢复策略,同时金融交易对系统响应速度要求严苛。此外,还存在复杂的集成需求,新建的私有云需要与现有系统无缝衔接,对接难度大。日常运维过程中,私有云的复杂运行环境考验着运维人员对多种技术组件的掌控能力,对人员技能要求高,需掌握新兴技术。分析这些难点,有助于金融机构更好地应对私有云建设与运维挑战。本文内容来自社区针对此主题的同行交流活动,特整理并总结同行共识供大家参考。
主笔专家:
Yjytianti 河南某银行 系统工程师
答疑专家:
feng5371 某银行 云计算研发工程师
Steven 某金融企业 IT顾问
Robot9527 某股份制城商行 系统架构
三虎 中国邮政储蓄银行 系统运维工程师

Smltc 乌海银行 CTO


难点1】私有云建设过程中,可能引入多个云厂商,如何进行多云的统一化,集中化管理?

feng5371 某股份银行 云计算研发工程师:

并不建议引入过多不同厂家的云平台产品同时使用,这样会带来很高的管理和兼容成本,各家有各家的产品设计和约束,很难用一套统一的多云管理平台实现多品牌云平台 的统一无缝和谐管理,市面上应该基本没有这样的现成商业产品。如果无法改变厂商多的现状,必须要兼容,那自研或定制符合自身需要的多云管理平台是可能的选择,但难度和成本都很高,需要自身具备足够雄厚的技术实力和人才队伍。站在长远的角度考虑,建议形成统一的私有云架构,PaaS和IaaS一体化融合是趋势,在产品选择时可重点考察这方面的兼容能力。

Robot9527 某股份制城商行 系统架构师

在降本增效的大背景下,这个问题还是需要企业结合自身云环境建设历程及建设需求,平衡采购成本和管理成本,选择适合的技术栈和管理平台。

总体来说需要注意几点:

1.制定统一的多云战略和规划,明确各厂商的角色和职责,并确定其与现有IT基础设施的关系。

2.选择适合企业的多云管理工具或平台,多云管理平台可以帮助企业管理多个云环境,实现自动化部署、监控和管理。

3.统一云资源命名规范和标签体系,确保不同云厂商之间的资源能够被识别和区分。

4.建立跨云厂商的安全策略和合规性控制,以保障数据隐私和安全。

5.实现多云间的互操作性和集成性,例如通过API网关或中间件等方式,将不同云厂商的服务连接起来,以便于业务应用的开发和部署。

6.对多云管理和运维人员进行培训和支持,提高整体技术水平和能力,确保多云系统的稳定运行和高效维护。

【难点2】私有云资源管理过程中,如何兼顾效率(快速交付)与成本(弹性供给)?

Robot9527 某股份制城商行 系统架构师

在降本增效的大背景下,面对业务系统负载波动较大的情况,如何快速完成资源交付确实是一个挑战。以下是一些策略和方法:

1.自动化的资源调度

自动化伸缩:利用自动化工具根据预设的规则或监控指标(如CPU使用率、内存占用等)自动调整资源分配。这包括自动增加虚拟机实例来应对流量高峰,以及在低峰期减少实例数量。

预测分析:基于历史数据进行负载预测,提前做好资源准备。可以采用机器学习模型来提高预测准确性。

2.精细化的资源规划(容量管理)

容量规划:定期评估现有资源利用率,并结合未来业务增长预期进行合理的容量规划。

资源池化:将物理服务器上的资源进行池化处理,使得资源能够更灵活地被分配给需要的应用和服务。

3.容器化技术

微服务架构:采用微服务架构设计应用程序,使得各个服务可以根据实际需求独立扩展。

Kubernetes:使用Kubernetes这样的容器编排平台来管理容器化应用,它支持水平扩缩容、滚动更新等功能,非常适合动态环境下的资源管理。

4.按需采购硬件

模块化基础设施:构建一个可扩展的基础架构,允许按照实际需求逐步添加新的计算节点、存储单元等。

混合云策略:在私有云资源不足的情况下,可以通过混合云模式临时借用公有云资源来应对突发流量。

5.成本控制机制

预算编制:制定年度IT预算,并将成本分摊到各个部门或项目中,提高成本透明度。

细粒度计费:确保能够对每个部门甚至项目级别的消费情况进行追踪和分析,促进成本意识,减少资源浪费。

6.持续监控与优化

性能监控:持续监控系统性能,及时发现并解决瓶颈问题。

定期回顾:定期检查资源配置是否合理,是否存在过度配置的情况,并作出相应调整。

智能告警:设置智能告警规则,当检测到异常情况时及时通知相关人员,并触发相应的应急响应流程。

【难点3】私有云运维过程中,如何进行架构统筹规划?

三虎 中国邮政储蓄银行 系统运维工程师:

从已有的建设经验回头看,云底座就是一个大的资源池,在建设初期要考虑的核心问题是:

1.“池子”的大小问题,建多大最合适,这其实类似于单个业务系统在建设时的规划问题,既要能满足后续的业务增长需求,又不能建设得过大。

这里的业务增长,是说后续新增、扩容、改造的系统情况,信息化建设一般都会有一个大致的规划,从第二年计划建设的系统资源需求,来定底座资源池需要的资源数较为合适,以年为单位来规划,在成本控制上较好,另外对新技术的应用、更迭也能有较快的反应。

建设过大,主要是别一次性投入过多,因为信息化系统建设的需求是和市场行情、业务发展需求紧密相连的,留有足够的冗余就好,一口吃个胖子的想法是不可取的,毕竟现在挣钱难,花钱要精打细算。

2.架构选型,当前主流的私有云,商业版的VMware和基于开源OpenStack的国内的云厂商,选型时首先要考虑兼容问题,一是向上的软件兼容,二是向下的硬件兼容问题。

先说硬件,因为金融等领域面临国家的政策要求,xc化改造势在必行,私有云能够支持的硬件架构就很关键,这样看,VMware在国产芯片的支持力度上就比较吃亏了,外加又是国外产品,以后要用应该越来越难,还是提早转的好。

再说软件,其实云平台本身的兼容问题比较少了,不管商用的还是开源的,都迭代了这么多年,很成熟了。那就看谁家更好用一些,应该说是各有千秋。如果在二者都允许的前提下,对于小客户来说,VMware可能更容易上手,更加友好,管理灵活度更好,但还是说回来,前提是还能一直用……

楼上也有同仁提到了资源监控,那就要说说云平台在弹性扩、缩容的灵活度方面了,OS其实一般,VM更好一些,纯个人观点。

Robot9527 某股份制城商行 系统架构师

私有云运维过程中的架构统筹规划是一个复杂但至关重要的任务,它需要综合考虑多个方面来确保系统的稳定性、安全性及可扩展性。这里提供一些建议:

1.虚拟化和容器融合

技术选型:首先确定采用哪种虚拟化技术和容器技术(如KVM、PVE、Ovirt等作为虚拟化;Docker、Kubernetes等用于容器)。选择时要考虑它们之间的兼容性以及对现有基础设施的支持程度。

资源管理:实现一个统一的资源管理层,能够同时管理和调度虚拟机与容器资源,提高资源利用率。

安全隔离:确保虚拟机之间以及容器间的严格隔离,防止安全漏洞扩散。

持续集成/部署(CI/CD):利用CI/CD工具链促进快速迭代开发,并支持从虚拟机环境向容器环境平滑过渡。

2.云管平台兼容性

开放标准:优先选用遵循开放标准的解决方案,比如OpenStack,这样可以更好地与其他系统或服务进行集成。

API接口:所选云管平台是否提供了丰富且文档详尽的API接口,便于未来扩展或定制开发。

跨云支持:考虑到长期发展可能涉及多云战略,选择支持混合云或多云管理能力的平台。

3.信创改造

国产化替换:积极响应国家政策号召,逐步将关键软硬件替换为符合国家安全标准的国内产品。2027年,完成信创100%替代。

4.人工智能与自动化

智能运维(AIOps):通过集成机器学习算法到运维流程中,实现问题预测、自动故障排除等功能,从而提升系统稳定性和运营效率。

智能化决策支持:基于大数据分析和AI技术提供更加精准的商业洞察力,帮助企业管理层做出更好的战略决策。

总之,在进行私有云架构规划时,不仅要着眼于当前的技术需求,还需具备前瞻性眼光,充分考虑到未来可能出现的变化和发展趋势。此外,还需注重团队建设和人才培养,构建一支既懂技术又熟悉业务的专业运维队伍。

【难点4】批量化操作方面,私有云是否可以根据个性化配置?

Robot9527 某股份制城商行 系统架构师

目前大多数私有云只能做到操作系统内基本的个性化配置,比如主机名、IP地址、DNS等配置,部分厂商支持Excel表格方式批量创建虚拟机。操作系统内软件部署或者参数配置通过云管平台调用编排软件进行实现。云管平台内集成的编排软件功能与专业编排软件对比还是有较大的差距。

三虎 中国邮政储蓄银行 系统运维工程师:

关于批量化操作,其实是想解决快速交付的事,除了建虚机外,能够配置虚机OS的环境及上层软件。

据了解,大部分个性化设置,主要通过cloud-init可以实现。

有不少云厂商,对cloud-init进行封装,提供修改主机名、配置静态地址、个性化配置等等功能。

我们行目前通过云管平台来调用cloud-init,完成各种个性化配置,而且自有人员参与到个性化配置的开发后,可实现OS基线配置、监控等Agent部署、各基础软件部署等功能,这其实是一种新的能力,在给项目组提供资源交付能力外,还提供服务交付能力。

【难点5】私有云如何进行容量规划?

Steven 某金融企业 IT顾问:

这个通常要基于实际部署的业务特征、资源可扩展能力、服务管理能力等综合考虑。

基于经验,节点规格不宜过小,可以32C/128G或64C/256G,磁盘空间2T 的虚拟机,物理机用128C/512G, 4-8T磁盘(Raid后磁盘空间不宜太小),配置规格通常也基于部署服务的需求。另外节点能否动态扩容,扩容消耗时间越多,资源冗余容量可以更小,否则必须保证意外情况下的资源容量。

服务配额规则则根据实际运行监控调整,初始往往不知道配置多少合适,通常会配置的比较大,运行一段时间后可以根据资源历史使用情况调整, 高峰流量资源需求不高于配额的70%。

资源容量规划可能需要过往长期资源使用的可观测数据,基于资源使用趋势、承载的服务和流量、未来需要承载的服务和流量等来确定。

很多人也提出通过超分等提高资源使用率,但这种方式我不建议。最好的方式是优化调度,动态调度减少资源碎片,但调度算法实现并不容易,所受的限制因素很多。是一个动态的多目标规划问题。

三虎 中国邮政储蓄银行 系统运维工程师:

关于资源规格的分配问题,如果学习到操作系统原理,可以拿操作系统内存管理来作类比。

像Linux操作系统使用buddy来管理内存,将可分配的内存空间按照一定的算法来切分成不同粒度的块,一般是PAGESIZE为起始(4KB或64KB),逐级翻倍增加。这样在分配时只要分配不同粒度的连续页块即可,如用户申请6KB,那分配2KB+4KB的页块即可。

这样做的好处是提高内存分配和回收的效率,同时减少内存碎片化。

说回到咱们的资源分配,首先楼主提到的资源类型包括CPU、内存、磁盘、网络等,我们一个个的分析一下:

1.CPU和内存。内存一般是CPU核数的数倍(假设n),为了CPU和内存都能被同时利用,避免其中一种不够或者闲置,我们建议在定制虚机模型时按照服务器本身的CPU和内存比来设定。举例来说,一台物理机的可用core(含超线程后)有128个,内存512G,那么虚机模型建议内存:core = 4 :1 ,当然这个比值只是大致的,不一定特别精确,在一些时候,云平台层面看到的可用cpu数量和内存数量会有缩减(因计算方式或预留等原因)。

另外CPU一般较少,所以分档模型的CPU数量应该是总CPU的1/2、1/4、1/8 …… 这样分配虚机时,保证剩余的资源足够创建一个小模型的虚机,比如128 core的主机,最后剩余16c也还是可以创建一个虚机的。

2.磁盘。磁盘一般多为外接磁盘,要么是分布式或者集中式存储,这带来的好处是,分配时不会造成剩余空间不可用,那么划分磁盘从管理方便的角度考虑,一般以100G为单位进行分配。

3.网络。因为网络IO波动较大,如果做配额管理,使用防火墙等手段控制,估计对性能有一定损耗,如果的确需要给虚机独享网络IO,可能是关键类业务的虚机,或者是大IO的批量处理类虚机,完全可以在虚机规划时,将这些虚机分配到单独的计算节点上,而不用对整个云平台再配置。

feng5371 某股份银行 云计算研发工程师:

上云系统的规格 ,一般指单个pod的配置和总的副本数。对于副本数,一般建议测试环境不限制,生产环境须不小于2。对于单个pod的配置,有两种做法可参考:

1.在一定范围内不限制单pod的规格(CPU和内存),由用户自定义。并建议可有几个约定,一是单pod最大资源配置不超过容器云平台计算节点容量的一定比例(比如30%),二是request默认为limit的一定比例(比如20%),三是通过性能测试确定单pod的最优资源配置和副本数。这种做法给了用户充分的自由度,也能充分利用资源,减少资源浪费。但对容器云平台运维方要求高,需要建立良好的容器云平台资源池监控和告警机制,可快速扩容,并使资源池保有一定的冗余量,以应对可能发生的业务量突增,。

2.固定几个pod规格(比如2C4G、4G8G等)供用户选择,如要突破需单独申请。这种做法便于运维方管理,但会带来一定量的资源浪费,一定范围内增加容器云平台的资源成本投入。具体哪种方做法适合己方单位,还需根据自身条件综合评估。

对于磁盘,建议应用系统将日志接入到日志中心,业务文件保存到文件平台或数据库,其他一般不特别限制pod使用宿主机磁盘空间。

对于网络,一般不建议pod使用hostnetwork模式,而通过ingress对外提供访问。

【难点6】基于私有云如何进行容器云的架构规划部署?

Steven 某金融企业 IT顾问:

私有云上部署容器云需要考虑私有云能支持的容器网络模式,可能会跟容器云厂商的网络模型有关,另外可能需要考虑多集群和是否跨数据中心、跨网络安全域访问等问题,也就是企业是否存在严格的网络安全域,跟容器云注册发现中心部署、配置中心部署等可能都有关系。

私有云如果仅在一个安全域,相对就简单很多。

还有可能就是容器上部署的服务的灾备、不同level高可用的问题。

虚拟化一层性能肯定要差些,可观测性如果无法打通,底层私有云就是个黑盒,出现私有云故障等情况下会比较麻烦些,不过在实现资源弹性时可能简单很多。

三虎 中国邮政储蓄银行 系统运维工程师:

容器云在部署上,相比前期云平台底座的部署,相对要简化一些了。

容器云在网络方面和云部署有所差异,在主机层面和网络环境配置上,都要沟通清楚,并提前做好规划。

容器如果建在虚机上,则会有虚拟化的损耗,建议直接部署在物理机(裸金属),提高性能。

容器是进程级的,能灵活扩缩容,可以提前部署一些容器底座,方便在业务高峰时段,仅通过配置副本数等即可实现负载能力的扩展。

【难点7】私有云上业务系统数据如何备份及恢复?

Steven 某金融企业 IT顾问:

1.建议采购部署专业的备份恢复工具,不同架构的云和系统备份方式可能是不一样的,另外也需要考虑数据备份的合规要求等因素。

2.备份的数据也需要区分,研发数据、业务运营数据、系统运行数据、审计数据等备份策略和存储方式、地点可能都不一样。

建议基于实际合规等要求、分类分级通过专业的工具定义备份策略,完成备份,恢复时也能通过工具快速恢复。

Robot9527 某股份制城商行 系统架构师

在私有云环境中,确保业务系统的数据备份及恢复能力是至关重要的。对于多品牌、多架构的私有云环境来说,制定有效的数据保护策略尤为关键:

1.备份软件支持多平台兼容

选择跨平台解决方案:寻找能够支持多种操作系统(如Windows、Linux等)、虚拟化平台(如VMware、KVM等)以及容器技术(如Docker、Kubernetes)的备份软件。

应用程序一致性:确保所选备份工具可以实现应用程序级别的备份,比如数据库(MySQL、Oracle等)和邮件服务器的一致性快照。

文件系统与对象存储:考虑到不同的存储需求,备份方案也应能处理传统文件系统及现代的对象存储服务。

备份存储分层:在线、近线、离线数据存储选择合适的方案节省成本。

2.根据业务场景配置不同的备份策略

定期全量与增量/差异备份:根据数据的重要性和变化频率设定合理的全量备份周期,并结合每日或更频繁的增量或差异备份以减少存储占用。

RPO与RTO定义:明确恢复点目标(RPO)和恢复时间目标(RTO),据此调整备份频率和方式。对核心业务应用可能需要更短的RPO/RTO。

数据加密与压缩:为保障安全并节省空间,备份过程中应当启用数据加密功能,并尽可能利用压缩技术来减小传输和存储成本。

3.多中心部署业务实现DR容灾

异地复制:通过网络将重要数据同步到另一个地理位置的数据中心,这不仅有助于防范自然灾害,也能应对局部故障导致的服务中断。

冷热站点规划:根据实际情况决定采用热站(始终保持运行状态)、温站(部分资源常开,其余可快速启动)还是冷站(仅提供基础设施,需较长准备时间)作为灾难恢复计划的一部分。

定期演练:制定详尽的灾难恢复流程,并定期组织模拟演练,检验现有方案的有效性及团队响应速度。

监控与报警:建立完善的监控体系,实时追踪备份任务的状态,一旦发现问题立即通知相关人员采取措施。

4.其他考虑因素

长期保留策略:对于法规遵从性要求较高的行业,还需考虑如何经济有效地保存多年的历史记录。

自动化管理:尽可能利用自动化工具简化日常操作,包括但不限于备份作业调度、介质轮换以及过期数据清理等。

持续评估与优化:随着业务发展和技术进步,原有的备份恢复策略也需要相应调整,保持其有效性。

smltc 乌海银行 CTO:

传统来说,银行的数据备份建议采购部署专业的备份恢复工具,不同的业务系统备份要求不一样,在涉及交易的业务系统层面,建议每日备份一个全量备份,在报表级业务管理类系统中建议每月全量备份一次,每周/日增量备份一次,保留最近的12月的全量备份。

对研发数据、业务运营数据 ,应根据业务实际要求设置备份策略。建议不要超过每周一次全量备份。

系统运行数据、审计数据等建议对数据进行区分,保留基础数据、异常数据和报表数据,大量的系统正常数据建议保留一周或一个月即可。

同行共识总结
本次活动旨在对金融行业私有云上云平台的建设与运维实践难点进行探讨,通过分析和分享为更多同行提供应对难点的实践参考。综合同行交流形成的共识,目前存在以下的难点和解决方案总结如下:

1.安全合规要求高

金融行业受到严格的监管,对数据安全和隐私保护有极高的要求。建设私有云需要满足各种安全标准和合规性要求,如网络安全等级保护、PCI DSS 等。这涉及到复杂的安全架构设计、加密技术应用、访问控制策略制定等,增加了建设的难度和成本。

2.高可用性和可靠性需求

金融业务通常要求 24/7 不间断运行,对系统的可用性和可靠性提出了极高的要求。私有云建设需要确保在硬件故障、软件故障、网络中断等各种情况下,业务能够持续运行,不出现长时间的停机。这就需要采用冗余设计、高可用架构和备份恢复策略。例如,服务器、存储设备和网络设备可以采用冗余配置,通过负载均衡和故障转移机制实现高可用性。同时,要建立定期的数据备份和恢复计划,确保在灾难发生时能够快速恢复业务。

3.系统集成复杂性

金融机构通常拥有复杂的 IT 系统架构,包括多个业务系统、数据库、中间件等。私有云建设需要与现有系统进行集成,实现无缝的数据交换和业务协同。
这涉及到不同技术平台、协议和接口的整合,需要进行大量的兼容性测试和系统调试。例如,将私有云与传统的核心银行系统、风险管理系统、客户关系管理系统等进行集成,需要解决数据格式转换、接口适配、业务流程整合等问题。

4.环境管理难度大

金融行业私有云通常包含多种技术组件,如服务器、存储、网络设备、虚拟化平台、容器编排系统等。运维人员需要熟悉这些技术的特点和操作方法,进行有效的环境管理。例如,要对服务器进行性能监控和故障排除,管理存储资源的分配和使用,优化网络配置以提高性能和可靠性。同时,要对虚拟化平台和容器编排系统进行维护,确保其稳定运行。

5.安全管理挑战大

金融行业的私有云面临着各种安全威胁,如网络攻击、数据泄露、恶意软件等。运维人员需要建立完善的安全管理体系,包括安全策略制定、漏洞管理、入侵检测和防御、数据加密等。例如,要定期进行安全漏洞扫描和修复,加强对用户访问的控制,监控网络流量以发现异常行为。同时,要建立应急响应机制,在发生安全事件时能够快速响应和处理。

6.人员技能要求高

金融行业私有云的建设和运维需要具备专业技能的人员。运维人员不仅需要熟悉传统的 IT 运维知识,还需要掌握云计算技术、虚拟化技术、容器技术等新兴技术。金融机构需要加强对运维人员的培训和技能提升,建立一支高素质的运维团队。同时,要引入专业的云计算服务提供商,借助其专业知识和经验,提高私有云的运维水平。
综上所述,金融业私有云建设面临诸多难点。首先,安全合规要求极高,需满足严格监管标准,保障数据安全隐私。其次,高可用性和可靠性是关键,要确保业务不间断运行。再者,性能优化挑战大,需满足金融交易的高速响应需求。同时,集成现有系统难度高,且要合理控制建设成本。这些难点要求金融机构在私有云建设过程中,精心规划,选择合适技术和方案,以确保建设的顺利进行和有效应用。


如有任何问题,可点击文末阅读原文,到社区原文下评论交流

觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区 "私有云" 技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。地址:http://www.talkwithtrend.com/Topic/4315

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章