中小银行关键系统信创数据库如何实现自动化备份和恢复?(同行交流共识)

科技   2024-11-20 07:35   海南  

随着信息技术的迅速发展,尤其是在“信创”(信息创新)领域的不断进步,银行业务的数据处理、存储和备份需求也在不断增长,目前国产化数据库厂商能力不一,版本更新迭代快速。有的接口丰富,有的接口封闭。如何更有效和简单的实现不同类型的国产化数据库自动化备份和恢是我们一直关注的问题。社区今日组织的交流活动深入探讨了信创数据库如何实现自动化备份和恢复问题,本文对此进行了梳理总结,通过专家对重点议题的经验分享分析以及形成的同行共识,为银行行业的IT决策者提供一个更加清晰的选择决策逻辑和经验参考、促进银行从容应对数据库的自动化备份和恢复。

议题主持:

聂嘉 某证券 系统架构师
参与议题协作同行:
李华 某股份制银行 备份管理岗
李威 某国企企业 系统架构师
周远平 某股份制银行 备份管理员

黄宏韬 某股份制银行 备份工程师
任守航 辽宁农商银行 系统工程师

(文中采用社区ID)

相关同行交流共识还可阅读:

金融行业关键系统信创数据库备份选型需要关注的难点问题

信创数据库环境下如何确保备份解决方案的合规性?


1、国产信创数据库备份如何选择?

【问题描述】目前国产化数据库厂商能力不一,版本更新迭代快速。有的接口丰富,有的接口封闭。如何更有效和简单的实现不同类型的国产化数据库备份是我们一直关注的问题。问题可能有以下几个:

1.是先选择国产化数据库的选型还是在国产化数据库选型的同时一并对备份系统做选择?

2.国产化备份系统如何选择?随便选择国内大品牌,有过相关金融项目案例的即可?

3.在前期POC测试中是否有必要把备份系统与国产化数据库的兼容性作为重点考察项?

4.数据库无法提供接口的,备份系统如何实现数据备份和对接?

5.除了信创数据库备份的需求以外,我们对其他如虚拟化、文件系统的备份应该如何考虑?

nkj2021 某证券企业 系统架构师

1.国产化数据库的选型与备份系统的选择:在金融行业中,选择合适的国产化数据库是确保数据安全和业务连续性的关键步骤。同时,考虑到备份系统的兼容性和效率也同等重要。因此,建议在国产化数据库选型的同时,一并考虑备份系统的选择。这样可以确保所选的备份系统能够充分支持数据库的特性,包括自动容灾、自动备份等功能,从而提高数据中心的可用性和可靠性。

2.国产化备份系统的选择:在选择国产化备份系统时,不应仅仅基于品牌知名度或是否有过相关金融项目案例。更重要的是要评估其技术实力、产品稳定性以及是否具有良好的客户服务和支持。可以参考第三方机构的分析报告,了解不同厂商的市场表现和技术能力。同时,考虑到实际业务需求和预算限制,选择性价比高的解决方案。
3.POC测试中的兼容性考察:在前期的POC测试中,将备份系统与国产化数据库的兼容性作为重点考察项是非常必要的。这可以帮助发现潜在的技术问题,并确保在实际部署时能够顺利进行。兼容性测试应涵盖数据备份和恢复的全过程,以确保在发生故障时能够迅速响应并恢复数据。
4.无接口数据库的备份实现:对于无法提供接口的数据库,备份系统可以通过其他方式实现数据备份和对接。例如,使用文件系统级别的快照技术来捕获数据变化,或者利用数据库自身的日志文件进行增量备份。这些方法虽然可能不如直接使用数据库提供的接口那样高效,但仍然可以在一定程度上保证数据的可恢复性。
5.虚拟化和文件系统的备份考虑:除了信创数据库的备份需求外,还需要考虑其他如虚拟化环境和文件系统的备份。虚拟化环境通常可以利用虚拟化平台自身的备份功能,或者采用CDM/CDP等技术手段进行备份。文件系统的备份则可以采用传统的拷贝、打包等方式,或者使用专业的备份软件来提高效率和安全性。
小瓜 某全国性股份制银行 系统架构师:
1.国产数据库选型和国产数据库备份系统选型可以同时进行,在国产数据库环境已经具备的情况下,引入国产备份软件直接进行 POC 即可。
2.国产备份软件选型维度众多:厂商角度,比如 IDC 排名,银行业客户案例,厂商售后服务能力,厂商研发实力等,产品维度,比如支持的国产数据库类型、备份一体机和备份软件国产化程度和能力、国产数据库单机和分布式架构支持的广度、备份软件备份与恢复能力(备份类型、备份颗粒度、备份策略、恢复类型、恢复粒度、备份集容灾恢复能力等)、备份软件用户体系、备份软件系统管理和系统安全、远程复制和多备份域管理能力、重复数据删除能力等等。
3.有必要。
4.当前国产备份软件厂商已有研发出多种不同类型的应用接口类型来满足分布式数据库的备份与恢复。比如 XBSA 流式数据接口:基于国际标准化组织 OpenGroup 的标准备份协议,应用端实现 XBSA 协议,流式传输数据到备份服务端。比如 EOBS 对象存储接口:备份服务端提供 S3 对象存储协议,应用端兼容标准 S3 读写情况下,可直接将数据备份至备份服务端,等等。
5.虚拟化和数据库的要求一致,均存在国产化要求。
Jerry Miku 某国企企业 系统架构师:
1.数据库的选择更多的是源于业务需求的驱动,因此优先级更高。备份恢复系统是数据保护方向的选择,除了数据库外,还涉及更多的基础架构组件。备份恢复系统选型是应尽可能覆盖更多的基础架构组件,考虑到POC一般业务先行、备份后起。
2.国产备份恢复系统起步时间相对较晚,而且在市场上的培育时间不及国际主流备份恢复软件,因此选型时要更关注国产备份恢复系统在真实环境的POC实测结果,同时备份恢复系统呈规模后对其架构、性能、效率等会有很大的冲击挑战,高效管理1TB备份恢复数据和管理1PB备份恢复数据难度并不是线性的,而是类指数级增长,因此要求有同行业大型备份恢复系统的落地案例。
3.有必要。兼容性差几乎意味着备份恢复的数据副本不可靠,而备份恢复系统几大核心要求首位就是要求可靠性,因此兼容性部分在POC场景要占据大量比重,尽可能覆盖真实业务场景和可见的未来需求。
4.备份恢复软件可以使用手工编写脚本进行备份,PRE阶段配合数据库脚本定期导出、检查导出数据大小无误,再进行文件备份,POST阶段检查备份状态是否成功,不成功Retry。

5.最符合期望的做法就是POC测试,按照数据保护的预期,针对备选方案逐一测试。


2、备份解决方案如何提供简便的操作和强大的管理能力,支持自动化备份和恢复,降低运维人员的工作负担?

nkj2021 某证券企业 系统架构师:
在金融行业中,备份解决方案的简便操作和强大管理能力对于降低运维人员的工作负担至关重要。以下是一些策略和措施:
简化操作界面:备份解决方案应提供直观、易于使用的图形用户界面或命令行界面,使运维人员能够轻松地进行数据备份和恢复操作。
自动化备份流程:通过设置自动备份计划,系统可以按照预定的时间和频率自动执行备份任务,无需人工干预。这有助于减少人为错误并提高备份效率。
集中管理平台:使用集中管理平台可以统一监控和管理多个备份任务,提供实时状态更新和历史记录查询,简化了管理流程。
弹性扩容能力:随着数据量的增长,备份解决方案应具备弹性扩容的能力,以便按需增加存储容量,而无需复杂的配置变更。
灾难恢复演练:定期进行灾难恢复演练可以帮助运维人员熟悉恢复流程,确保在实际发生故障时能够迅速响应并恢复数据。
zysolo_twt 某股份制银行 存储管理员:
在金融行业等对数据可靠性和业务连续性要求极高的领域,备份架构的自动化对于提高效率、减少人为错误、保证RTO和RPO至关重要。实现自动化的备份架构,通常需要从以下几个方面入手:自动备份、自动恢复演练、监控和告警、以及持续优化。
  • 自动备份
自动备份的关键是使用工具和策略来确保备份任务定期、可靠地执行,且不会影响生产系统。以下是一些实现自动备份的步骤和技术:
备份调度:
通过备份软件(如Veritas NetBackup、Commvault、Veeam)设置备份任务的自动调度。可以根据业务系统的运行情况选择定时备份(每日、每周)或按事件触发(如快照触发的自动备份)。
使用任务计划器(如Linux的Cron、Windows Task Scheduler)与备份脚本相结合,实现备份任务的自动化和可编排。
需要考虑业务低峰时段执行备份,避免对生产系统产生影响。
策略驱动备份:
根据业务需求配置备份策略,包括全量备份、增量备份或差异备份。现代备份系统可以根据数据变化量自动选择最合适的备份方式。
设置数据保留策略,自动执行备份数据的过期清理,防止存储空间占用过多。
自动化存储位置选择:
根据数据重要性,自动选择备份数据的存储位置(如本地存储、异地存储或云存储)。通过定义规则,自动将重要数据备份至多个位置以增强可靠性。
例如,使用备份软件中的”存储生命周期管理”功能,自动将数据从快速存储迁移到较慢的长期存储中,优化存储成本。
备份脚本与API集成:
通过编写脚本(如Bash、PowerShell)或使用备份软件的API,自动化备份操作流程。许多现代备份工具提供API接口,便于集成自动化。
结合CI/CD管道,在部署更新前自动触发系统备份,确保在发布失败时可以快速恢复。
  • 自动恢复演练
定期进行备份恢复演练是确保数据在灾难发生时能顺利恢复的关键步骤。自动恢复演练通过自动化测试来验证备份数据的完整性和可恢复性。实现自动恢复演练的步骤如下:
脚本化恢复过程:
编写自动恢复脚本,定期从备份中恢复选定的数据集到隔离的测试环境中,模拟真实恢复场景。使用Ansible、Chef或Puppet等自动化工具,可以简化恢复步骤。
恢复脚本需要涵盖数据恢复的各个步骤,包括数据下载、解压缩、重建索引、应用数据等。测试环境应与生产环境相隔离,以避免对业务造成影响。
自动化测试环境创建:
使用虚拟机或容器技术(如Docker、Kubernetes),自动创建临时测试环境,用于恢复演练。通过自动化工具快速创建一致的测试环境,可以确保每次演练条件相同,简化流程。
利用云平台或虚拟化平台(如VMware、OpenStack)的API,动态创建测试虚拟机或容器实例,并在恢复演练后自动销毁,以节省资源。
定期与随机恢复演练:
配置自动恢复演练的时间表(如每周或每月),确保演练频率符合合规要求。还可以设计随机的恢复演练计划,通过抽取不同的数据集进行恢复,全面验证备份数据的可靠性。
通过自动化工具自动选择不同的备份点进行恢复,以模拟不同时间点的数据恢复需求。
自动化恢复验证:
在恢复数据后,自动化系统应验证恢复的数据完整性和一致性。可以通过数据库校验、文件一致性检查等方式自动验证恢复的数据是否正确无误。
在金融行业中,还可以集成业务验证逻辑,自动检查恢复后的系统是否能够正常处理交易或生成报表。
自动生成报告与告警:
自动生成恢复演练的报告,包括恢复的成功率、时间、数据完整性等信息,并将报告发送给相关团队进行审核。
如果恢复演练失败,系统可以通过电子邮件或企业IM工具(如Slack、Teams)自动发送告警,提醒运维人员及时处理。
  • 监控与告警自动化
备份与恢复过程的健康监控是自动化架构中的重要一环,自动化监控和告警能够及时发现问题并采取措施。
实时备份状态监控:
通过备份管理系统的监控功能,实时监控备份任务的状态。如果出现任务失败或延迟,系统会自动触发告警。
集成Prometheus、Grafana等监控工具,创建备份任务的可视化仪表板,实时展示备份成功率、耗时等关键指标。
智能告警与处理:
通过机器学习或规则引擎分析历史数据,设置智能告警阈值。例如,当某个备份任务超过平均时间时,可以自动发送告警提醒团队检查。
自动化故障处理:对于常见故障(如网络中断或存储容量不足),系统可以自动执行修复操作,减少人工干预。
  • 持续优化与调整
自动化备份架构并不是一劳永逸的,需要持续进行优化和调整以适应业务需求和数据增长。
自动化资源调配:
通过集成云平台API或虚拟化技术,自动调整备份存储和计算资源。例如,定期分析存储使用情况,当存储容量接近阈值时自动扩容,避免因存储不足导致备份失败。
自动化策略调整:
利用历史数据分析备份成功率和恢复演练结果,自动优化备份窗口、频率和存储策略。金融行业业务峰值时间较为固定,可以通过分析历史趋势,动态调整备份时间点,确保备份对业务影响最小。
结论

实现备份与恢复演练的自动化,可以极大地提升金融行业的运维效率、数据可靠性和业务连续性。通过备份调度、脚本化恢复演练、自动化监控告警和持续优化,企业能够降低人为错误,提高备份的自动化程度,确保在灾难发生时能够快速、准确地恢复关键数据。


3、信创数据库如何备份对数据库性能不产生影响?备份的NAS如何选型?

【问题描述】信创数据库如何备份对数据库性能不产生影响?有什么工具推荐?备份的NAS如何选型?是采用专用的备份NAS存储,还是跟业务的NAS存储共用,会不会产生性能冲突?
把酒祝东风 某全国性股份制银行:
关于如何降低备份对数据库性能的影响,主要还是选择合适的备份窗口和备份节点,采用全量+增量等方式。选择无对外服务或者低峰期进行备份,备份时减少全量备份次数,多采用增量的方式,降低整体备份时长等,整体思路还是减少资源争强,CPU、内存、磁盘IO\网络等。
关于备份NAS选型方面,我们这边主要还是一体机作为备份数据的直接存储,NAS基本上作为二级存储使用,主要也是考虑尽可能提供较好的备份读写效率,提升恢复能力。建议还是从实际出发做测试,看看是否满足自己的效率要求。
小瓜 某全国性股份制银行 系统架构师:
1.从国产数据库架构维度看,比如必须支持从节点或者从从节点的全备、增备、日志备份和时间点恢复等基本功能。
2.从备份类型维度看,要能够支持永久增量备份。只需一次全备,再配合永久增量备份,既可以减少对数据库系统的性能影响,又可以极大降低备份时间窗口。
3.在上述基础之后,可以实现基于不同备份数据副本的挂载恢复。
4.备份存储采用专用设备,比如备份一体机比采用备份 NAS 更好,对业务性能影响最小,在备份一体机基础之上,建设备份专网,实现备份数据流和业务数据流的完全隔离。
nkj2021 某证券企业 系统架构师:
1.备份NAS的选型,建议采用专用的备份NAS存储设备,以避免与业务系统共用存储资源导致的性能冲突。专用备份NAS可以提供更高的数据传输速率和更低的延迟,确保备份操作不会对业务系统的性能产生负面影响。选择具备分布式架构的NAS设备,这种架构能够通过多节点并行处理提高备份效率,减少单点故障的风险。具备高效重复数据删除功能的NAS设备可以在保证数据完整性的同时,大幅减少备份数据的存储空间,提升备份速度和效率。
2.避免性能冲突的策略,为备份流量配置独立的网络通道,避免与业务网络争抢带宽,确保备份操作的顺利进行。通过负载均衡技术将备份任务分散到多个存储节点,避免单一节点过载,提高整体系统的备份性能。采用增量备份策略,只备份自上次备份以来发生变化的数据块,减少备份数据量,降低对数据库性能的影响。
3.备份策略的制定,定期进行全量备份,以保证数据的完整性;在两次全量备份之间进行增量备份,以减少备份时间和存储空间的占用。遵循备份3-2-1原则,将备份数据存放在两种不同的存储介质上,并在异地保留至少一份备份,以提高数据安全性。设置自动化备份计划,减少人工操作的错误和遗漏,确保备份任务按时完成。
zysolo_twt 某股份制银行 存储管理员:
信创数据库备份如何不影响性能,我结合我们行业的经验可以谈谈我们的方案,常用的方案如下:
1.主从架构,对从节点进行备份;
2.同城架构,对同城节点库进行备份;
3.分布式架构,指定某个节点进行备份;
NAS备份优先考虑支持ndmp协议的备份软件,ndmp备份会才用快照进行备份,而且支持增量同步,减少带宽需求,主流的nas设备都支持ndmp协议,具体可以咨询厂商。
解决信创数据库的性能上大致就是这些方案,希望这些方案可以给你们带来帮助和价值参考,
Jerry Miku 某国企企业 系统架构师:

在非信创环境存在一种非常规的方案能满足你的要求,基于存储的CDM,直接利用存储的元数据库快速复制目标数据,达到快速备份而不对原应用的性能产生明显波动影响。这种方式仅在主流高端存储上,同时要求全闪,而且对上层的应用及版本有要求。


4、备份解决方案供应商如何提供强有力的技术支持和快速响应的服务,确保在问题发生时能够迅速得到解决?

【问题描述】在银行行业选择基于信创数据库的备份解决方案时,供应商的技术支持和服务响应速度是很重要的因素。强有力的技术支持和快速响应的服务能够确保在备份系统遇到问题时能够迅速得到专业的帮助,最大程度地减少业务中断的时间。那么备份解决方案供应商通常提供哪些类型的技术支持和服务?他们一般如何保证在紧急情况下能够快速响应并有效解决问题?

nkj2021 某证券企业 系统架构师:
在银行行业选择基于信创数据库的备份解决方案时,供应商的技术支持和服务响应速度是至关重要的因素。以下是备份解决方案供应商通常提供的技术支持和服务类型,以及如何保证在紧急情况下能够快速响应并有效解决问题:
1.技术支持和服务类型,提供全天候不间断的技术支持,确保在任何时间点都能获得帮助。通过电话、电子邮件、在线聊天等多种渠道提供服务,以便客户可以根据自己的需求选择合适的联系方式。拥有经验丰富的技术专家团队,能够提供专业的咨询、故障排除和优化建议。在必要时提供远程桌面共享或远程控制服务,以快速解决技术问题。对于复杂的问题,可能需要派遣技术人员到现场进行诊断和修复。
2.保证快速响应的措施,与客户签订服务级别协议,明确响应时间和解决时间的承诺。定期进行系统检查和维护,以预防潜在问题的发生。实施监控系统来检测异常情况,并通过自动报警机制及时通知相关人员。提供详尽的培训材料和在线知识库,使客户能够自行解决一些常见问题。确保有足够的备件和资源储备,以便于快速更换故障部件。
lnrccrsh 辽宁农商银行 需求管理工程师:
1.建立专业的技术支持团队:招聘具有丰富经验和专业知识的技术人员,涵盖不同的备份技术和相关领域。
2.提供 24/7 服务热线:确保客户在任何时间都能联系到技术支持人员。一些关键行业,如金融、医疗等,对备份的及时性要求极高,24/7 服务热线能在问题发生的第一时间提供帮助。
3.优化服务流程:建立清晰、高效的问题上报和处理流程。当客户报告问题时,能够快速分类、分配给合适的技术人员,并跟踪问题解决的进度。
4.建立知识库和常见问题解答:积累常见问题的解决方案和技术文档,方便技术人员快速查找和参考。同时,也可以为客户提供自助查询的途径,减少一些简单问题的处理时间。
5.投资于监控和预警系统:主动监测客户的备份系统,提前发现潜在问题并发出预警。
6.定期进行培训和技术更新:确保技术支持团队成员了解最新的备份技术和产品更新,提高解决问题的能力。参加行业研讨会、培训课程,保持技术的前沿性。
7.建立合作伙伴关系:与硬件供应商、软件开发商等建立良好的合作关系,在遇到复杂问题时能够协同解决。
8.提供定期的健康检查服务:主动为客户的备份系统进行全面检查,提前发现并解决潜在的问题。
9.设定服务级别协议(SLA):明确规定不同级别问题的响应时间和解决时间,对自身服务进行约束和承诺。

10.收集客户反馈:定期收集客户对技术支持服务的反馈,不断改进和优化服务质量。


同行共识总结  
本次活动针对中小银行关键系统信创数据库自动化备份和恢复的有效实现,形成以下共识,供更多同行参考。

1、选择低负载时段进行备份:

分析生产系统的运行数据,确定系统的性能低谷和负载较轻的时间段。可以选择在夜间、周末或业务低谷期执行备份操作。将备份任务安排在这些低负载时段进行,以最小化对生产环境的影响。

这样做可以减少备份活动对用户体验和系统性能的潜在负面影响,同时确保备份过程不会因为资源竞争而失败或延迟。

2、并行处理和分布式架构:

利用并行处理技术和分布式架构,将大型数据集的备份任务分解成多个小任务,并在多个节点上同时执行。

这样可以显著提高备份速度,缩短备份窗口,同时分散了单个节点的负载,提高了整体系统的可靠性和容错能力。

确保每个节点都有足够的资源来处理分配给它的任务,并且网络带宽足够支持并发数据传输。

3、自动备份计划:

配置自动备份计划,让系统根据预定的时间和频率自动启动备份过程,无需人工干预。

这可以通过备份软件的调度功能实现,允许管理员设置一次性或周期性的备份任务。

自动化减少了因人为疏忽导致的备份失败风险,并确保了备份的一致性和及时性。

4、集中管理平台:

使用集中管理平台来统一监控和管理所有备份任务,该平台应提供直观的界面和丰富的功能。

通过集中管理平台,管理员可以轻松查看每个备份任务的状态、进度和历史记录,及时发现并解决问题。

平台还应支持报警通知机制,当备份失败或出现异常时,能够立即通知相关人员进行处理。
欢迎点击文末阅读原文到社区阅读和讨论交流

觉得本文有用,请转发或点击在看,让更多同行看到

 资料/文章推荐:


欢迎关注社区 "备份"技术主题 ,将会不断更新优质资料、文章。地址:

http://www.talkwithtrend.com/Topic/1195

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章