三虎 某国有大行 系统运维工程师
答疑嘉宾:
微笑笑西西 某城市商业银行 系统工程师
czjing 某城市商业银行 系统运维工程师
fan 某城市商业银行 系统架构师
笑看风云淡 自由IT顾问
梦奇 某城商行 系统架构师
金祥 某证券 网络通信队长
1、数据中心搬迁前应该做的准备工作有哪些?
@三虎 某国有大行 系统运维开发:
根据已实施过的同城机房搬迁工作,总结过程发现较容易出现偏差的地方包括:
1.人员安排不到位。虽然在搬迁前已对人员进行了明确分工,但难免还是在一些环节出现人员不到位,以及突发的人员不足问题。具体来说,如某项工作因实施中发现工作量较大,为不影响整体进度,临时抽调多人协助,而其他工作可能得不到保障了。另外在恢复业务期间,排查问题需要大量时间,若短时间未解决,需要协调安排好多人轮班制去排查、解决问题。
2.因设备老旧、搬迁暴力等因素导致硬件无法启动。这种情况发生概率较大,故要提前规划好,首先和相关业务方做好沟通解释,对应用、系统、网络、动环等各个层面有应急预案措施能够应对突发情况,包括备品备件的准备等等,提前做好演练,在搬迁前整体停机断电,再恢复直至业务可用,过程中详细记录好各项操作记录,并要求按照操作记录进行二次演练,确保整个操作过程准确、有效。
3.各种关联关系的梳理。从底层硬件开始梳理,如存储等设备内各个组件之间的互联关系;再到设备之间的互联关系,具体到端口与端口之间的连接;再到应用程序之间的互访关系,具体到地址+端口。这要求各项表格数据,标签准确无误,至少做到一人整理,另一人核对,前期把这项工作做细,后续减少很多返工!
4.实地勘察及早发现“堵点”。在实际搬运过程中,经常出现拥堵,比如说将200台设备搬迁到某个机房,那到达这个机房的过道就容易成为搬迁中的“堵点”,人再多,不能都集中到过道,很容易出现“塞车”情况。这就需要提前对场地勘察,做好现场设备部署实施的具体安排工作。
@微笑笑西西 某城市商业银行 系统管理/架构分析:
1.需求分析及搬迁建设目标沟通
搬迁项目组需要与领导层、相关业务部门就搬迁项目的整体需求及建设目标进行充分分析与沟通,根据业务连续性要求,确定各个业务系统的搬迁方式,通过搬迁新建机房和重新搭建架构的机会,重新设计规划各系统架构,增强系统的可用性、稳定性和扩展性。
2.待搬迁业务系统信息梳理和关联性分析
这是搬迁成功与否最关键的一步准备工作,各系统之间联系复杂,对于数据中心整体搬迁来说,由于银行业务的特殊性,要求停机时间尽量缩短,通过详细分析梳理应用系统之间的关联性,最终决定了系统的搬迁方式以及整体搬迁方案的走向。
3.搬迁方案的定制与细化
具体包括了业务关联性分析方案、搬迁细化方案、搬迁环境准备方案/业务数据备份方案、搬迁业务连通性及性能测试方案、搬迁实施方案、搬迁回退方案、搬迁风险评估方案等。
4.搬迁切换演练
分为桌面演练与实战演练两部分,演练旨在为迁移过程中所设计的个方案资源提供一次互相熟悉与配合的机会,保证预先进行详细推演和合理紧密分工。
@笑看风云淡 IT顾问:
我来补充几点:
1.数据中心规划、数据中心搬迁是个大工程,也是一个企业架构(EA)自上而下优化与调整的完美机会,所以不单单是信息科技部门的重大事件,而是全行一个企业架构优化和信息科技治理的重大的机会。这点很重要,一定要行领导认识到。各相关部门应该尽全力参与(机会只有一次)。
2.我想提的是时间计划,众所周知全行的大型停业窗口1年就那5-6次。而数据中心搬迁至少要经过2轮以上的演练才敢保证,所以时间计划千万不要匆忙,宁愿给前期规划、测试与优化调整、演练时间久一点。
3.监管报备,早一些与监管机构专人专项沟通,报备材料提前准备。
2、数据中心在搬迁过程中应当注意什么?
@czjing 某城市商业银行 系统运维工程师:
1.搬迁前的准备。搬迁的需求、方案、计划安排都是需要再搬迁实施前就明确和沟通好的。方案和计划是贯穿在整个搬迁实施过程中的,方案的好坏决定了搬迁成功的与否。应该充分考虑业务连续性的需求、数据迁移切换的安全和可靠性。
2.物理环境的可靠性。对于网络设备的连通性,包括弱电端口的畅通性等问题,都是新数据中心物理环境部署过程中需要验证确认的问题。在真正实施搬迁前,需要对新数据中心的基础环境进行全面的可靠性验证,不仅包括网络,还有供电、制冷等。供电需要满足双电要求。
3.方案的测试验证。需要完整覆盖搬迁的信息系统环境和全生产的业务流程。无论搬迁的方案是采用新旧系统切换割接还是采用原系统的搬迁迁移实施,均需要有有效的方案,并对方案进行完成的测试。同时也要对切换或者搬迁后的系统进行完成测试验证,包括系统高可用性、网络、性能处理能力等。可以重点关注搬迁前后系统的处理能力比较,确保新系统的并发处理能力不低于原系统。
4.准备好对应的应急预案,对于搬迁迁移过程中可能出现的问题,需要做好应急的回退步骤。目标是尽可能降低业务中断的时间,应急预案应该至少要覆盖服务器、存储、操作系统、网络环境、系统高可用架构等等。必要时,可准备必要的备用服务器,毕竟物理设备的搬迁不可避免带来设备的损坏。
@fan 某城市商业银行 系统架构师:
如果是物理设备的搬迁,首先要规划搬迁方案,确定每台设备搬迁后的对应机柜的U位、连线方案、标签方案。然后制作对应的明细表格,例如设备表、连线表、任务表等。在目标机房提前布好线,贴好标签,测试布线的可用性,做到设备到位后插线可用。设备上线和连线最好有双人复核。
如何保证网络设备的连通性?常规就是,搬迁时注意包装到位,上下架注意不要发生激烈碰撞,这些需要与执行人员明确要求。再有就是提前准备相关的备件,包括整机、模块,也需要提前备份各设备的配置,以便在新设备里恢复配置。一般来说,设备的常规维保不包括搬迁造成故障的备件更换,需要与维保厂商确认,是否需要追加费用,或者由搬迁实施供应商来解决。
我行上次搬迁总体顺利,仅出现一个插线错误的问题,经过排查也快速解决。
@梦奇 某银行 系统架构师:
搬迁数据中心,说起来不复杂,做起来需要耐心细致。
总共分三步,计划、实施、善后。以下是几点建议:
1.计划:理清资产清单,实地考察新数据中心,根据实际情况制定搬迁方案,确定新机房的基础设施,考虑风险,包含设备损坏风险、操作风险和人员风险,详细的搬迁方案、准备工作和测试是降低风险的关键。
2.实施:选择合适的时间,协调相关部门,尽量提前迁移业务,注意设备拆装和运输。
3.善后:重新制定设备、布线表单,考虑设备的利旧与回收。
@金祥 某证券 网络通信队长:
1.找一家有数据中心搬迁经验的公司提前做好搬迁方案,做好有A、B,2套不同的方案做选择;
2.对于原有机房需要搬迁设备相关资料统计的准确性要提前做好,并有双人复核与验证,避免和减少搬迁后错误发生;
3.方案中对于人员、时间、设备备件等都要有专人统筹负责,并对接各个业务系统,做好沟通与衔接工作;
4.做好应急预案,要考虑到最极端的可能性,所有的设备维保CASE提前开好,为可能发生的故障风险提前做好备案;
5.搬迁前提前对新数据中心做好压力测试与应急演练,强电、弱电、设备配件、运营商等多方面做好提前沟通和保障工作;
3、金融行业数据中心搬迁由什么团队牵头组织最合适,各自承担什么角色?
@微笑笑西西 某城市商业银行 系统管理/架构分析:
根据我行搬迁实际经验,数据中心搬迁由行内行政一把手(即行长或董事长)牵头最为合适。因为数据中心搬迁为一项浩大的系统性工程,不仅仅为科技部门的事儿,必须由行内一把手牵头才能自上而下地贯彻搬迁指导思想,动员全行力量一鼓作气完成搬迁目标。
搬迁项目自上而下分为领导团队、项目管理团队和实施团队,其中实施团队又可以细分为系统团队、网络团队、应用开发团队、业务团队、相关厂商团队。
1.领导团队:负责统筹监督整个搬迁项目;
2.项目管理团队:负责具体搬迁计划制定、项目进度管理、项目人员调配、项目风险把控等;
3.系统团队:负责新系统生产环境准备、系统割接配合、系统底层高可用配置、设备和系统健康状态检查;
4.网络团队:负责双中心网络搭建,保障网络连通性;
5.应用开发团队:负责新生产系统应用程序部署、功能测试、压力测试、连通性测试等,应用系统割接时保障;
6.业务团队:负责系统业务测试、功能测试配合;
7.相关厂商团队:负责技术支持、演练支持和割接技术支持。
@fan 某城市商业银行 系统架构师:
针对执行层面,我行的情况是,由运维的某个团队来牵头组织,考虑到搬迁涉及机房和基础环境的工作量较大一些,开发主要承担业务系统的搬迁方案和执行,总体还是由运维来统一规划串联,包括方案、组织、演练、报备等等。
评估搬迁影响到的业务系统,对应的业务部门必须参与,包括方案对业务的影响性、配合演练和验证、搬迁日的工作、对客户的公告和解释等。
在协同方面,科技内部最好由领导参与和确认为重点工作,确认牵头团队,各团队配合。涉及其它部门的调动,因为搬迁一般也是需要报监管的大事,要报分管行领导或者行长,得到认可后,自然可以与其他部门沟通调派资源参与,方式可以通过行内的公文流程或者单独沟通。
4、如何开展搬迁演练工作,确保实际搬迁过程中操作人员指令清晰,时间可控?
@微笑笑西西 某城市商业银行 系统管理/架构分析:
最好的方式还是通过事先配置好的系统流程去实现。
我行建立了自动化切换平台,将搬迁流程集成到了该平台上,后期也可集成灾备切换平台。
图示是一个灾备切换大屏展示,可以看到整体进度、阶段性进度、细分任务进度,在细分任务进度中可以看到计划开始时间、计划完成时间、执行人、复核人,若该项任务超时,任务将标红,同时短信发送至相关责任人,以确保操作人员指令清晰、时间可整体把控。
@fan 某城市商业银行 系统架构师:
我们的做法是通过一个专门“投产指挥”系统管理任务,每个任务清晰包括编号、名称、简要操作步骤、执行时间、执行人、复核人、前置依赖任务。通过演练,不断完善搬迁日的任务。由专门人员下发和监控任务的执行情况,发现任务执行的风险及时汇报,执行人和复核人需要及时对收到的任务进行反馈,状态包括收到、执行中、执行完成、复核完成、执行异常等。确保数百个任务的正确执行。
5、搬迁过程中可能涉及新旧数据中心间系统相互访问,或系统与数据库的跨中心访问,有没有什么风险,如何最大程度规避此类风险 ?
@微笑笑西西 某城市商业银行 系统管理/架构分析:
我行搬迁时主要涉及系统切换风险和物理搬迁风险,以下罗列几个要点:
1.系统切换风险
风险点1:应用切换中的数据安全和数据一致性以及数据丢失,将直接影响应用系统的正常运行
规避措施:制定详细的数据迁移方案与应用部署方案,并在应用切换前进行数据迁移测试以及应用切换演练工作以此从技术、人员、流程三个方面保证切换的成功。
风险点2:当前的切换方案针对数据库的升级工作复杂,数据库升级失败将直接导致切换失败。
规避措施:制定详细升级方案,对升级工作进行完善的测试与演练,保证升级工作的顺利进行。
2.物理搬迁风险
风险点1:设备的物理搬迁可能会遇到物理损坏或其他技术问题,同样对应用系统影响非常严重。
规避措施:设备搬迁防震、防潮保护与包装;搬迁路径详细方案规划;设备以及其他产品的技术问题,将通过供应商以及银行的共同协作下协调相应的技术资源及时地处理,以保证应用切换的顺利进行。
风险点2:应用模块搬迁不完整,导致应用无法运行
规避措施:做好应用对应的物理设备梳理、做好物理共享信息梳理、制定详细的搬迁批次。
@笑看风云淡 IT顾问:
1.首先您说的新旧数据中心间的互访问问题的原则是杜绝系统跨数据中心访问。
由于您没有说明新旧数据中心是同城还是异地,所以得区分来说。
同城之间由于DWDM,且网络延时较小,在完全测试压力足够支撑业务需求的情况下。有一些系统例如ESB、统一身份认证认证等双活或三活的系统是有跨中心的数据流的,但其并不跨数据中心服务。
异地之间,网络延时很大,是必须禁止系统跨数据中心访问的。
2.测试与演练是发现风险的唯一且有效的手段,我们不知道网络延时对业务的压力响应到底有多大,不能靠猜。
@三虎 某国有大行 系统运维开发:
在前面几位专家提的基础上补充如下观点,供各位参考!
搬迁过程中的风险点可能还包括:
1.业务系统评估不足。跨物理中心的访问延迟和物理距离直接相关。应用程序对延迟的容忍程度需要具体测试,集群内数据访问等一般无法容忍跨中心访问,建议还是整业务系统搬迁,防止后续因链路抖动等不确定因素造成业务中断。此外搬迁前对系统地址、互访关系调整等情况应做好充分评估,防止应用难以恢复。
2.现场搬迁人员管理混乱,人员扎堆但进度缓慢,导致搬迁耗时长。对于搬迁而言,后期的网络导通、服务恢复、异常情况处理、业务验证等才是搬迁用时的“大头”,万不可在前期搬迁物理设备阶段过于“恋战” 。
3.硬件故障风险。搬迁一般都是带着程序和数据搬迁的,对于搬迁涉及的数据尽量做好备份及恢复验证,还需要准备好系统、网络整机设备和设备配件应对突发的硬件故障,当故障无法恢复,及时用备机顶上,做程序和数据的恢复。
6、数据中心整体搬迁前期,如何对机房进行选择?需要考虑哪些要素?
@微笑笑西西 某城市商业银行 系统管理/架构分析:
结合我行建设新机房和异地灾备机房经验,对机房选择主要有两大方面,一是机房区域环境评估,二是机房基础设施评估。
区域环境方面,主要考察机房所在地理位置的气候、地质灾害、交通、 人才引进等方面因素,以确保机房免于频繁受到洪涝、地震、泥石流等地质灾害影响。若为灾备机房选址,还需考虑交通便捷性和当地人才招聘的问题。
机房基础设施方面,主要考察机房设计的高可靠性和高可用性,具体体现在机房建设标准(银行业主数据中心一般要求满足国标A级和Tier3+标准)、配电容量、平均PUE(小于1.5)、双回路市电供应、油机和UPS按照2N冗余配置等。
@fan 某城市商业银行 系统架构师:
如果要选择机房,那就是租赁?首先是要满足《商业银行数据中心监管指引》要求 ,租赁供应商要具有相应的资质,能提供机房等级报告等资料。大的供应商一般都能满足要求,最好是选择一个已经有金融机构租赁的地方,与对方交流一下,是否通过监管认可,那就比较放心、监管需要的资料也会有。
另外有几点注意事项供参考:
1.租赁机房如果是同城,考虑与现有数据中心的距离,监管要求不小于15km,同时也要考虑距离过长带来的延迟。
2.租赁机房的电信运营商接入情况,与本行现在使用的匹配度。
3.租赁机柜收费的灵活性,按个数、加电个数、用电功率…,费用是否包含电费等,结算方式,退租流程。
1、事前计划
2、事中管控
3、事后收尾
综上所述,机房搬迁是一项需要整体通盘规划,多方协作,过程繁杂且风险较高的工作,搬迁前的准备工作是否足够细致,将决定了搬迁是否能成功。此外在可能的情况下,先在小系统上试点搬迁,再逐级推广的方式更为稳妥。
点击文末阅读原文,可以到原文下留言交流
觉得本文有用,请转发、点赞或点击在看,让更多同行看到
资料/文章推荐:
欢迎关注社区 "运维"技术主题 ,将会不断更新优质资料、文章。地址:
https://www.talkwithtrend.com/Topic/4549
长按二维码关注公众号