某银行开发测试准生产机房基于虚拟卷技术实现“信创数据库+信创虚拟化+信创SAN存储”实践分享

科技   2024-11-08 07:36   海南  
【摘要】某银行在推进信创进程中,面对老旧EMC VNX5500和HDS G1000存储设备无法满足开发测试及准生产环境需求的情况,采用华为OceanStor Dorado闪存和DCS进行了设备替换。迁移过程中,通过新建集群、数据迁移以及存储割接等步骤,实现了对现有VMware虚拟化环境(vSphere 5.5/6.5)及FusionCompute(DCS eSphere)的升级和平滑过渡。项目中使用了eVol技术简化存储管理,并提高了存储空间利用率。整个迁移过程未影响上层虚拟机服务,并且克服了如SSL证书替换、VASA对接存储限制等挑战,为后续信创进程提供了实践经验。

【作者】陈舜玉,现任某城商行主机存储工程师。对主机,存储,虚拟化,数据库有一定的运维经验。
近日,随着我行整体信创进程的推进,且存量EMC VNX5500及HDS G1000存储已不满足我行开发测试和准生产功能及容量需求的背景下。为简化我行开发测试准生产设备搬迁难度,使用了华为OceanStor V6存储和DCS完成了上述设备的替换动作,且过程中未影响上层虚拟机服务。在此做个简单的分享,希望能给大家一点启发。


一、项目建设的背景及需求分析

我行开发测试及准生产IT基础设施及人员须根据总体规划搬迁至新地点,在此期间同时完成集群升级、整合和老旧设备的替换工作。

我行原有开发测试环境VMware虚拟化及FusionCompute(现名DCS eSphere)集群,分为内网与互联网环境;内网与互联网集群根据VMware vSphere版本由分为新旧集群各一套,分别为5.5和6.5版本共计4套外加内网FusionCompute一套。数据库由IBM PowerVM和小型机IBM Power 740/750承载。存储共用EMC VNX5500及HDS G1000各一套。

准生产VMware虚拟化及FusionCompute集群为内网准生产、互联网准生产及内网信创虚拟化各一套。数据库由IBM PowerVM和小型机IBM Power 740/750承载。存储共用EMC VNX5500及HDS G1000各一套。

如图所示:

架构示意图:开发测试(左)准生产(右)

由于EMC VNX5500和HDS G1000设备过于老旧,运维和配置尚需要依赖Java 1.6和Flash,且操作限制较多,反应迟钝,配置体验相当不友好,且维保难以为继。此次将作为设备替换的重点目标,将对存量2台EMC VNX5500和2台HDS G1000进行下线。而我行处于信息系统集中信创改造的重要阶段,时间紧任务重,需要将设备替换对开发测试虚拟机和数据库可用性影响降到最小,所有操作要求在线。为配合设备机房搬迁实施项目,需要提前对开发测试和准生产设备进行替换和整合,减少设备类型,调整设备柜位,规范化线缆及标签。

在此基础上,为存储选型调研时,考虑到开发测试类环境频繁的容量变更,及过多申请容量的现状。为简化信创存储运维环节,选择了具备eVol功能的华为OceanStor V6存储,本功能旨在实现虚拟化存储一体化管理,不再需要VMFS格式化LUN,也不需要考虑单LUN磁盘数量和容量等问题,还自带精简,能够很好的提高存储的容量利用率。


二、迁移架构设计

考虑到如上需求场景,本次设备替换的思路采取的是新建集群->迁移数据->存储割接的路径。

最终需要完成以下几个目标:

1.老旧虚拟化节点IBM X3850 X5/X6设备替换下线,规范化虚拟化计算节点柜位、线缆及标签。

2.vSphere集群升级合并。

3.将原有vSphere标准交换机改造成分布式交换机,并应用LACP聚合。

4.FusionCompute版本升级。

5.使用虚拟卷技术简化虚拟化存储管理,并提高存储空间利用率。

6.信创存储替换,老旧存储下线。

7.开发测试小型机下线。

最终开发测试由内网和互联网Vsphere 6.7,使用vVol存储管理的集群各一套,虚拟化计算节点采用华为FusionServer 2288H V5,板卡配置双口万兆网卡*2,双口HBA卡*2。信创虚拟化FusionCompute 8.5.0 使用eVol存储管理的集群一套,计算节点采用华为泰山2480,板卡配置双口万兆网卡*2,双口HBA卡*2。华为OceanStor Dorado 5600 V6的信创存储承载所有数据。准生产与开发测试基本一致,外加基于IBM PowerVM的小型机数据库分区,由华为OceanStor 5510 V6承载所有准生产数据。

迁移架构设计如下图:

迁移架构设计:开发测试
迁移架构设计:准生产


三、迁移步骤以及难点

由于准生产与开发测试的整体步骤大体一致,下面将介绍开发测试虚拟化和准生产小型机分区的迁移步骤:

新建集群阶段:

1.OceanStor Dorado 5600 V6和OceanStor 5510 V6存储上架连线及基础配置,存储接口采用4个FC 16Gb/s 接口,FC-SCSI协议。

2.新建vSphere 6.7版本集群,使用华为FusionServer 2288H V5作为开发测试虚拟化计算节点。使用一对10GE万兆网口作为管理网络,承载管理和数据迁移流量,另一对10GE万兆网口作为业务网络,配置业务VLAN。所有网络平面使用分布式交换机并配置LACP上行。

3.FusionCompute版本升级至8.5.0SPC100,以支持eVol特性。

4.存储划分普通LUN及PE LUN各一个并映射至对应虚拟化集群主机,普通LUN作为管理虚拟机、镜像和虚拟机模板存储,PE LUN作为vVol/eVol协议端点。

5.签发并替换vSphere, FusionCompute虚拟化集群以及存储SSL证书。

6.vSphere 6.7集群建立VASA(esdk storage plugin),对接存储,注册存储提供程序,测试虚拟机创建、迁移、虚拟机HA等基本功能。

7.FusionCompute 8.5.0 eVol对接存储,测试虚拟机创建、迁移、虚拟机HA等基本功能。

迁移数据阶段:

8.原vSphere 5.5集群在线升级至vSphere 6.0U3

9.vSphere 6.7控制台同时纳管 6.0U3和6.5集群,并对各虚拟机启动跨物理集群的计算和存储资源迁移,存储选择vVol卷。

10.FusionCompute虚拟机迁移存储至eVol卷。

11.映射原数据库使用EMC VNX 5500/HDS G1000的LUN至华为存储。

12.NPIV分区/主机操作系统安装UltraPath多路径软件。

13.利用华为存储的SmartVirtualization功能,建立eDevLun并映射给相应NPIV分区/主机。

14.利用主机多路径软件和操作系统指令,主机侧剔除原存储LUN。

15.使用SmartMigration能力迁移原存储数据至华为存储。

16.原有开发测试小型机IBM DB2 DPF集群迁移至X86虚拟机IBM DB2 DPF集群,完成开发测试小型机下线。

存储割接阶段:

17.断开原存储LUN映射,使得信创存储单轨运行。

18.原有虚拟化节点及存储下线。

迁移实施过程中所碰到的难点:

1.需考虑到vCenter对不同版本vSphere集群的纳管兼容性,本次迁移过程中5.5版本无法被6.7版本vCenter识别,故升级至vSphere 6.0U3。

2.FusionCompute 8.2.1不支持eVol,而在升级FusionCompute 8.5.0之前,集群SSL证书已经过期,需要将证书更新至有效,才可以升级。而升级结束后为了对接存储,又重新自签发SSL证书做统一替换。替换过程SSL证书的过程相当复杂,存在页面替换校验成功实际替换失败的情况。例如tomcat证书,由于其所接受的证书格式和标准crt证书不同,文档中又无任何相关提示,页面上传校验又正常通过,也无法确认是否证书链缺失问题,导致问题排查处理的效率低下。

3.VASA是以虚拟机形式建立在vSphere集群中的,各vSphere集群都需要至少一个普通LUN作为datastore卷,用于存放操作系统镜像,虚拟机模板,vCenter虚拟机和VASA虚拟机。若全存放在vVol中,一旦VASA和vSphere出现故障将完全无法修复。

4.vSphere SSL证书签发,根证书、解决方案证书、SSO证书的替换。我个人签发了很多次,终于摸清楚其证书的签发的相关要求,只能说现阶段可以参考的相关文档太少了,算是一个小难点。

5.存储与VASA对接也存在一些存储产品设计上的限制:

(1)仅可以使用存储设备管理口与VASA进行对接(不支持业务网口开启管理功能,在我行环境测试未通过,且已与厂商支持确认),而在我行生产规范中,设备管理口需要与业务网络实施物理隔离。

(2)存储设备管理口为RJ45接口,不支持万兆,接入万兆接入交换机需要自备光转电模块。

(3)存储设备管理口无法配置端口绑定和浮动IP ,而VASA(版本2.5.1)仅支持配置单个IP,一旦出现线缆松动的情况,vVol将不可用,存在单点故障风险。

(4)VASA对接存储仅支持全局租户,无法使用多租户管理特性,不利于存储侧 LUN管理。

(5)vVol LUN存储会限制虚拟机的命名,部分特殊字符会导致创建磁盘失败。

6.eVol对接存储的场景下,存储层主机命名,LUN命名都难以阅读,不利于问题排查。

7.VASA虚拟机被误删除的情况,没有任何其他的手段对已创建并绑定的vVol LUN进行运维管理操作。

8.SmartMigration功能涉及在线接管和离线接管两种方式,官方公开的文档里没有使用在线接管以达成完全不停业务读写的方法,且部分内容需要命令行实现。


四、总结

实施结束后对DCS eSphere虚拟化数据存储做了一个简单的性能测试,使用fio工具在读70写30场景下进行16k的IO测试,eVol相对于传统ocfs2(FusionCompute)和VMFS 6(VMware vSphere) 在IOPS指标上略有些微下降,可以忽略不计。目前信创存储已完全承载我行所有开发测试及准生产环境虚拟机全部数据,为后续我行整体信创进程的推进提供了实践依据。

综上所述,整体信创虚拟化和存储替换是相对平滑且顺利的,虚拟卷技术功能带来的些许实施挑战可以克服,但此功能设计上还可以进一步打磨,现阶段的功能设计基本上满足金融行业对于隔离及冗余的相关要求,并且极大的简化了虚拟化存储的运维工作,总体来说使用便利性大于实施复杂度。除此之外华为存储的SmartMigration功能的迁移方式很有竞争力,但操作并不太好理解,还希望能够进一步完善文档,使其能够普遍应用。下一步着重探究Nvme Over Fabric和Nvme Over RoCE协议以及智能无损存储网络的应用,为积极建设下一代存储网络打下坚实的基础。

协作反馈专家

侯昌威 蓝海银行 虚拟化运维经理

赵子翊 北部湾银行 数据中心技术经理

王振华 兴业银行 虚拟化管理岗

李先科 江西裕民银行 系统架构师

王之军 山东城商行联盟 资深工程师

审核专家:

宋浩 某银行虚拟化专家


如有任何问题,可点击文末阅读原文,到社区原文下评论交流

觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区 “虚拟化”技术主题  ,将会不断更新优质资料、文章。地址:

http://www.talkwithtrend.com/Topic/23

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章