银行数据中心搬迁准备工作和注意事项

科技   2024-12-16 07:35   海南  
现如今,银行的各项业务已基本数字化,数据中心作为银行“心脏”部门,其重要性不言而喻。而银行业务在不断变化的过程中,数据中心可能需要进行搬迁调整来满足发展需要。具体来说分以下几种情况开展搬迁工作,首先是租赁机房到期,需要更换机房场地;其次是数据中心整体规划调整,如业务系统重要级别、监管要求、分支机构管理要求限制、网络区域调整等因素;另外原基础环境因场地面积、功耗等因素不能满足业务扩展要求进行的整体性搬迁。上述不可抗逆的搬迁需求给数据中心带来了巨大挑战,如何在搬迁中降低风险、避免或减少业务中断时间?
本文来自社区多位同行专家参加的线上交流,重点对银行业数据中心搬迁的准备工作和过程中的注意事项进行了分享和总结,供大家参考。
主笔嘉宾:
三虎 某国有大行 系统运维工程师

答疑嘉宾:
微笑笑西西 某城市商业银行 系统工程师
czjing 某城市商业银行 系统运维工程师
fan 某城市商业银行 系统架构师
笑看风云淡 自由IT顾问
梦奇 某城商行 系统架构师
金祥 某证券 网络通信队长


1、数据中心搬迁前应该做的准备工作有哪些?

@三虎 某国有大行 系统运维开发:

根据已实施过的同城机房搬迁工作,总结过程发现较容易出现偏差的地方包括:

1.人员安排不到位。虽然在搬迁前已对人员进行了明确分工,但难免还是在一些环节出现人员不到位,以及突发的人员不足问题。具体来说,如某项工作因实施中发现工作量较大,为不影响整体进度,临时抽调多人协助,而其他工作可能得不到保障了。另外在恢复业务期间,排查问题需要大量时间,若短时间未解决,需要协调安排好多人轮班制去排查、解决问题。

2.因设备老旧、搬迁暴力等因素导致硬件无法启动。这种情况发生概率较大,故要提前规划好,首先和相关业务方做好沟通解释,对应用、系统、网络、动环等各个层面有应急预案措施能够应对突发情况,包括备品备件的准备等等,提前做好演练,在搬迁前整体停机断电,再恢复直至业务可用,过程中详细记录好各项操作记录,并要求按照操作记录进行二次演练,确保整个操作过程准确、有效。

3.各种关联关系的梳理。从底层硬件开始梳理,如存储等设备内各个组件之间的互联关系;再到设备之间的互联关系,具体到端口与端口之间的连接;再到应用程序之间的互访关系,具体到地址+端口。这要求各项表格数据,标签准确无误,至少做到一人整理,另一人核对,前期把这项工作做细,后续减少很多返工!

4.实地勘察及早发现“堵点”。在实际搬运过程中,经常出现拥堵,比如说将200台设备搬迁到某个机房,那到达这个机房的过道就容易成为搬迁中的“堵点”,人再多,不能都集中到过道,很容易出现“塞车”情况。这就需要提前对场地勘察,做好现场设备部署实施的具体安排工作。

@微笑笑西西 某城市商业银行 系统管理/架构分析:

1.需求分析及搬迁建设目标沟通

搬迁项目组需要与领导层、相关业务部门就搬迁项目的整体需求及建设目标进行充分分析与沟通,根据业务连续性要求,确定各个业务系统的搬迁方式,通过搬迁新建机房和重新搭建架构的机会,重新设计规划各系统架构,增强系统的可用性、稳定性和扩展性。

2.待搬迁业务系统信息梳理和关联性分析

这是搬迁成功与否最关键的一步准备工作,各系统之间联系复杂,对于数据中心整体搬迁来说,由于银行业务的特殊性,要求停机时间尽量缩短,通过详细分析梳理应用系统之间的关联性,最终决定了系统的搬迁方式以及整体搬迁方案的走向。

3.搬迁方案的定制与细化

具体包括了业务关联性分析方案、搬迁细化方案、搬迁环境准备方案/业务数据备份方案、搬迁业务连通性及性能测试方案、搬迁实施方案、搬迁回退方案、搬迁风险评估方案等。

4.搬迁切换演练

分为桌面演练与实战演练两部分,演练旨在为迁移过程中所设计的个方案资源提供一次互相熟悉与配合的机会,保证预先进行详细推演和合理紧密分工。

@笑看风云淡 IT顾问:

我来补充几点:

1.数据中心规划、数据中心搬迁是个大工程,也是一个企业架构(EA)自上而下优化与调整的完美机会,所以不单单是信息科技部门的重大事件,而是全行一个企业架构优化和信息科技治理的重大的机会。这点很重要,一定要行领导认识到。各相关部门应该尽全力参与(机会只有一次)。

2.我想提的是时间计划,众所周知全行的大型停业窗口1年就那5-6次。而数据中心搬迁至少要经过2轮以上的演练才敢保证,所以时间计划千万不要匆忙,宁愿给前期规划、测试与优化调整、演练时间久一点。

3.监管报备,早一些与监管机构专人专项沟通,报备材料提前准备。

4.还是得再次强调演练,只有通过多次演练才能有效评估我们真实存在的风险,才能看出我们的应急预案是否完善与可行,是否落实到位。

2、数据中心在搬迁过程中应当注意什么?

@czjing 某城市商业银行 系统运维工程师:

1.搬迁前的准备。搬迁的需求、方案、计划安排都是需要再搬迁实施前就明确和沟通好的。方案和计划是贯穿在整个搬迁实施过程中的,方案的好坏决定了搬迁成功的与否。应该充分考虑业务连续性的需求、数据迁移切换的安全和可靠性。

2.物理环境的可靠性。对于网络设备的连通性,包括弱电端口的畅通性等问题,都是新数据中心物理环境部署过程中需要验证确认的问题。在真正实施搬迁前,需要对新数据中心的基础环境进行全面的可靠性验证,不仅包括网络,还有供电、制冷等。供电需要满足双电要求。

3.方案的测试验证。需要完整覆盖搬迁的信息系统环境和全生产的业务流程。无论搬迁的方案是采用新旧系统切换割接还是采用原系统的搬迁迁移实施,均需要有有效的方案,并对方案进行完成的测试。同时也要对切换或者搬迁后的系统进行完成测试验证,包括系统高可用性、网络、性能处理能力等。可以重点关注搬迁前后系统的处理能力比较,确保新系统的并发处理能力不低于原系统。

4.准备好对应的应急预案,对于搬迁迁移过程中可能出现的问题,需要做好应急的回退步骤。目标是尽可能降低业务中断的时间,应急预案应该至少要覆盖服务器、存储、操作系统、网络环境、系统高可用架构等等。必要时,可准备必要的备用服务器,毕竟物理设备的搬迁不可避免带来设备的损坏。

@fan 某城市商业银行 系统架构师:

如果是物理设备的搬迁,首先要规划搬迁方案,确定每台设备搬迁后的对应机柜的U位、连线方案、标签方案。然后制作对应的明细表格,例如设备表、连线表、任务表等。在目标机房提前布好线,贴好标签,测试布线的可用性,做到设备到位后插线可用。设备上线和连线最好有双人复核。

如何保证网络设备的连通性?常规就是,搬迁时注意包装到位,上下架注意不要发生激烈碰撞,这些需要与执行人员明确要求。再有就是提前准备相关的备件,包括整机、模块,也需要提前备份各设备的配置,以便在新设备里恢复配置。一般来说,设备的常规维保不包括搬迁造成故障的备件更换,需要与维保厂商确认,是否需要追加费用,或者由搬迁实施供应商来解决。

我行上次搬迁总体顺利,仅出现一个插线错误的问题,经过排查也快速解决。

@梦奇 某银行 系统架构师:

搬迁数据中心,说起来不复杂,做起来需要耐心细致。

总共分三步,计划、实施、善后。以下是几点建议:

1.计划:理清资产清单,实地考察新数据中心,根据实际情况制定搬迁方案,确定新机房的基础设施,考虑风险,包含设备损坏风险、操作风险和人员风险,详细的搬迁方案、准备工作和测试是降低风险的关键。

2.实施:选择合适的时间,协调相关部门,尽量提前迁移业务,注意设备拆装和运输。

3.善后:重新制定设备、布线表单,考虑设备的利旧与回收。

@金祥 某证券 网络通信队长:

1.找一家有数据中心搬迁经验的公司提前做好搬迁方案,做好有A、B,2套不同的方案做选择;

2.对于原有机房需要搬迁设备相关资料统计的准确性要提前做好,并有双人复核与验证,避免和减少搬迁后错误发生;

3.方案中对于人员、时间、设备备件等都要有专人统筹负责,并对接各个业务系统,做好沟通与衔接工作;

4.做好应急预案,要考虑到最极端的可能性,所有的设备维保CASE提前开好,为可能发生的故障风险提前做好备案;

5.搬迁前提前对新数据中心做好压力测试与应急演练,强电、弱电、设备配件、运营商等多方面做好提前沟通和保障工作;

6.设备的电源、模块等备件提前做好余量的准备,光纤与网线建议都用新的耗材互联。

3、金融行业数据中心搬迁由什么团队牵头组织最合适,各自承担什么角色?

@微笑笑西西 某城市商业银行 系统管理/架构分析:

根据我行搬迁实际经验,数据中心搬迁由行内行政一把手(即行长或董事长)牵头最为合适。因为数据中心搬迁为一项浩大的系统性工程,不仅仅为科技部门的事儿,必须由行内一把手牵头才能自上而下地贯彻搬迁指导思想,动员全行力量一鼓作气完成搬迁目标。

搬迁项目自上而下分为领导团队、项目管理团队和实施团队,其中实施团队又可以细分为系统团队、网络团队、应用开发团队、业务团队、相关厂商团队。

1.领导团队:负责统筹监督整个搬迁项目;

2.项目管理团队:负责具体搬迁计划制定、项目进度管理、项目人员调配、项目风险把控等;

3.系统团队:负责新系统生产环境准备、系统割接配合、系统底层高可用配置、设备和系统健康状态检查;

4.网络团队:负责双中心网络搭建,保障网络连通性;

5.应用开发团队:负责新生产系统应用程序部署、功能测试、压力测试、连通性测试等,应用系统割接时保障;

6.业务团队:负责系统业务测试、功能测试配合;

7.相关厂商团队:负责技术支持、演练支持和割接技术支持。

@fan 某城市商业银行 系统架构师:

针对执行层面,我行的情况是,由运维的某个团队来牵头组织,考虑到搬迁涉及机房和基础环境的工作量较大一些,开发主要承担业务系统的搬迁方案和执行,总体还是由运维来统一规划串联,包括方案、组织、演练、报备等等。

评估搬迁影响到的业务系统,对应的业务部门必须参与,包括方案对业务的影响性、配合演练和验证、搬迁日的工作、对客户的公告和解释等。

在协同方面,科技内部最好由领导参与和确认为重点工作,确认牵头团队,各团队配合。涉及其它部门的调动,因为搬迁一般也是需要报监管的大事,要报分管行领导或者行长,得到认可后,自然可以与其他部门沟通调派资源参与,方式可以通过行内的公文流程或者单独沟通。

具体各行的组织架构和工作方式不同,仅供参考。

4、如何开展搬迁演练工作,确保实际搬迁过程中操作人员指令清晰,时间可控?

@微笑笑西西 某城市商业银行 系统管理/架构分析:

最好的方式还是通过事先配置好的系统流程去实现。

我行建立了自动化切换平台,将搬迁流程集成到了该平台上,后期也可集成灾备切换平台。

图示是一个灾备切换大屏展示,可以看到整体进度、阶段性进度、细分任务进度,在细分任务进度中可以看到计划开始时间、计划完成时间、执行人、复核人,若该项任务超时,任务将标红,同时短信发送至相关责任人,以确保操作人员指令清晰、时间可整体把控。

@fan 某城市商业银行 系统架构师:

我们的做法是通过一个专门“投产指挥”系统管理任务,每个任务清晰包括编号、名称、简要操作步骤、执行时间、执行人、复核人、前置依赖任务。通过演练,不断完善搬迁日的任务。由专门人员下发和监控任务的执行情况,发现任务执行的风险及时汇报,执行人和复核人需要及时对收到的任务进行反馈,状态包括收到、执行中、执行完成、复核完成、执行异常等。确保数百个任务的正确执行。

如果没有类似系统,通过表格管理任务应该也可以,只是工作量可能比较大,需要分模块由多人管理。如果任务较少,也可以考虑在工作群里及时下发和反馈。

5、搬迁过程中可能涉及新旧数据中心间系统相互访问,或系统与数据库的跨中心访问,有没有什么风险,如何最大程度规避此类风险 ?

@微笑笑西西 某城市商业银行 系统管理/架构分析:

我行搬迁时主要涉及系统切换风险和物理搬迁风险,以下罗列几个要点:

1.系统切换风险

风险点1:应用切换中的数据安全和数据一致性以及数据丢失,将直接影响应用系统的正常运行

规避措施:制定详细的数据迁移方案与应用部署方案,并在应用切换前进行数据迁移测试以及应用切换演练工作以此从技术、人员、流程三个方面保证切换的成功。

风险点2:当前的切换方案针对数据库的升级工作复杂,数据库升级失败将直接导致切换失败。

规避措施:制定详细升级方案,对升级工作进行完善的测试与演练,保证升级工作的顺利进行。

2.物理搬迁风险

风险点1:设备的物理搬迁可能会遇到物理损坏或其他技术问题,同样对应用系统影响非常严重。

规避措施:设备搬迁防震、防潮保护与包装;搬迁路径详细方案规划;设备以及其他产品的技术问题,将通过供应商以及银行的共同协作下协调相应的技术资源及时地处理,以保证应用切换的顺利进行。

风险点2:应用模块搬迁不完整,导致应用无法运行

规避措施:做好应用对应的物理设备梳理、做好物理共享信息梳理、制定详细的搬迁批次。

@笑看风云淡 IT顾问:

1.首先您说的新旧数据中心间的互访问问题的原则是杜绝系统跨数据中心访问。
由于您没有说明新旧数据中心是同城还是异地,所以得区分来说。

同城之间由于DWDM,且网络延时较小,在完全测试压力足够支撑业务需求的情况下。有一些系统例如ESB、统一身份认证认证等双活或三活的系统是有跨中心的数据流的,但其并不跨数据中心服务。

异地之间,网络延时很大,是必须禁止系统跨数据中心访问的。

2.测试与演练是发现风险的唯一且有效的手段,我们不知道网络延时对业务的压力响应到底有多大,不能靠猜。

@三虎 某国有大行 系统运维开发:

在前面几位专家提的基础上补充如下观点,供各位参考!

搬迁过程中的风险点可能还包括:

1.业务系统评估不足。跨物理中心的访问延迟和物理距离直接相关。应用程序对延迟的容忍程度需要具体测试,集群内数据访问等一般无法容忍跨中心访问,建议还是整业务系统搬迁,防止后续因链路抖动等不确定因素造成业务中断。此外搬迁前对系统地址、互访关系调整等情况应做好充分评估,防止应用难以恢复。

2.现场搬迁人员管理混乱,人员扎堆但进度缓慢,导致搬迁耗时长。对于搬迁而言,后期的网络导通、服务恢复、异常情况处理、业务验证等才是搬迁用时的“大头”,万不可在前期搬迁物理设备阶段过于“恋战” 。

3.硬件故障风险。搬迁一般都是带着程序和数据搬迁的,对于搬迁涉及的数据尽量做好备份及恢复验证,还需要准备好系统、网络整机设备和设备配件应对突发的硬件故障,当故障无法恢复,及时用备机顶上,做程序和数据的恢复。

4.搬迁中避免暴力搬迁,避免设备倒置。搬迁中可能会有大量临时力工,需安排人员现场监督搬迁实施过程,确保上下架、运输中操作规范。

6、数据中心整体搬迁前期,如何对机房进行选择?需要考虑哪些要素?

@微笑笑西西 某城市商业银行 系统管理/架构分析:

结合我行建设新机房和异地灾备机房经验,对机房选择主要有两大方面,一是机房区域环境评估,二是机房基础设施评估。

区域环境方面,主要考察机房所在地理位置的气候、地质灾害、交通、 人才引进等方面因素,以确保机房免于频繁受到洪涝、地震、泥石流等地质灾害影响。若为灾备机房选址,还需考虑交通便捷性和当地人才招聘的问题。

机房基础设施方面,主要考察机房设计的高可靠性和高可用性,具体体现在机房建设标准(银行业主数据中心一般要求满足国标A级和Tier3+标准)、配电容量、平均PUE(小于1.5)、双回路市电供应、油机和UPS按照2N冗余配置等。

@fan 某城市商业银行 系统架构师:

如果要选择机房,那就是租赁?首先是要满足《商业银行数据中心监管指引》要求 ,租赁供应商要具有相应的资质,能提供机房等级报告等资料。大的供应商一般都能满足要求,最好是选择一个已经有金融机构租赁的地方,与对方交流一下,是否通过监管认可,那就比较放心、监管需要的资料也会有。

另外有几点注意事项供参考:

1.租赁机房如果是同城,考虑与现有数据中心的距离,监管要求不小于15km,同时也要考虑距离过长带来的延迟。

2.租赁机房的电信运营商接入情况,与本行现在使用的匹配度。

3.租赁机柜收费的灵活性,按个数、加电个数、用电功率…,费用是否包含电费等,结算方式,退租流程。

4.租赁机柜的动环监控是否可以按权限提供使用,机房进出的流程管理,提供监管需要的机房外包及运行资料等。


议题共识综述

从上述各位专家对机房搬迁准备工作的解答不难看出,机房搬迁这项“大工程”是一项系统性工作,涉及人员范围包括业务、开发、运维等各条线,需大家通力协助,来确保实施顺利。从事前计划、事中管控、事后收尾的角度进行总结可获得如下经验:

1、事前计划

成立搬迁专项工作团队。包括负责总体指挥和协调各方的领导小组,负责推进项目实施的项目管理组,以及负责具体实施工作的系统、网络、动力等专业技术组,各方明确工作职责,共同推进机房搬迁工作。
制定搬迁总体方案。以对业务连续性影响较小、对支撑业务未来发展较优为主要目标,制定搬迁总体方案,包括计划搬迁范围、业务影响性、搬迁总体计划、风险点及应对措施等。另外对新机房环境充分调研,包括机房选址、建设标准、运行商接入情况、收费情况、机房管理等各方面进行考量。
不断细化实施方案。首先明确搬迁过程中各方人员分工,确保各环节有专人负责对应,确定各外包人员在具体步骤、具体时段承担的工作内容,并在搬迁前通过会议、检查清单等形式将职责明确告知相关人。其次对系统信息梳理及关联性分析,包括应用系统关联和物理互联,确保在同一系统、同一网络及同一云环境下的关联设备同时搬迁。此外对搬迁涉及的所有设备及配件进行梳理、编号、标记,规划好各设备的目标位置,明确主机地址、业务端口、设备端口编号的互访关系表等。
可提前开展的工作。对新机房进行勘察,确认新机房环境与原机柜或设备的兼容性,包括机房机柜空间、单机柜功耗是否满足条件,设备导轨与机柜立柱是否匹配,新老IT、数通设备接口是否匹配等;各网络线缆(光纤、网线)一般不做利旧,需重新部署,故需根据规划的设备位置提前布放到位,并做好连通性、传输质量检查。对于设备里存放有重要数据的,一般要提前踩点搬运路线,搬迁当日要派人跟车或派车押运,确保数据和设备的运输安全性。已明确搬迁计划的,按照监管的时限要求,提前完成新机房启用、旧机房停用的报备工作。
搬迁前的演练工作。分为系统演练及人员沙盘演练。已经建立灾备的可结合灾备切换平台完成演练,否则要对系统内各集群进行高可用切换演练,防止单点故障造成业务中断。对已充分细化后的搬迁步骤,可采用沙盘等形式组织人员模拟搬迁,提前发现搬迁环节的疏漏之处。如果搬迁后业务系统间有跨中心访问,还需评估验证网络延迟、带宽是否满足要求。
数据备份及有效性验证。数据安全是根本,故搬迁开始前,要做好业务数据的全量及增量备份,如果没有足够的备份空间,可根据数据核心程度选择性备份。数据备份后还应尽可能做数据恢复验证,确认已备份数据的有效性。
应急预案准备及风险评估。与业务方面共同制定系统中断等突发故障情况下的应急处置措施,同时要求维保厂商在现场准备搬迁相关设备的备机或备件,以随时应对大概率会出现的硬件故障。

2、事中管控

按照计划执行。所有角色根据事前规划的计划步骤各司其职、确保各项工作落实到位,加强现场的管理,对于突发情况应及时协调人员处理。为减少排查、返工带来的时间开销,在端口插线、服务恢复等过程中,应严格实施文档步骤执行,并且增加双人复核,提高准确性。建议引入专门的任务管理工具,或者由专人调度任务的执行与反馈,确保割接日众多任务的有序执行、管理组及时感知和应对出现的风险。
设备运输管理。因搬迁的设备多旧设备,尤其是存储设备,在经过颠簸后故障率较高,故设备包装运输过程中避免防撞防震,减少颠倒,降低故障率。

3、事后收尾

验证工作安排。在搬迁完成后,先组织运维从程序运行状态、日志报错、资源饱和度等角度进行技术性验证,同步组织业务方模拟验证交易情况。另外搬迁后的一周可能是问题高发阶段,部分潜在问题未触发暴露,故需对交易、系统运行状态加强监控和巡检,以随时应对突发性故障。
总结搬迁经验。对照搬迁实施过程,及时总结经验教训,形成规范或技术要求,指导后续的搬迁或设备调整工作。
资产及信息管理。对搬迁中已下线设备进行回收或再利用处理,另外及时更新CMDB等资产管理系统中的设备信息,保证数据的准确性。

综上所述,机房搬迁是一项需要整体通盘规划,多方协作,过程繁杂且风险较高的工作,搬迁前的准备工作是否足够细致,将决定了搬迁是否能成功。此外在可能的情况下,先在小系统上试点搬迁,再逐级推广的方式更为稳妥。


点击文末阅读原文,可以到原文下留言交流

觉得本文有用,请转发、点赞或点击在看,让更多同行看到


 资料/文章推荐:


欢迎关注社区 "运维"技术主题 ,将会不断更新优质资料、文章。地址:

https://www.talkwithtrend.com/Topic/4549

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场封面图片由版权图库授权使用,本文授权不同时授权封面图片

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章