英方软件技术
大数据产业创新服务媒体
——聚焦数据 · 改变商业
本发明公开了一种基于分布式拷贝的大数据备份系统及方法,该系统包括:HADOOP集群,部署HJOB模块,通过HJOB模块与灾备机交互获取文件状态主表,在接收到备份/恢复指令时,根据文件状态主表生成待备份/待恢复文件状态列表,启动并划分Mapper任务,通过Mapper任务根据输入的待备份/待恢复文件状态列表中的文件项,向灾备机发送相应的备份文件或文件读取指令;灾备机,部署Node模块在接收到HADOOP集群节点传输的待备份文件的文件流数据后,通过第二File模块处理文件流写入灾备机,在接收到文件读取指令时,通过第二File模块读取文件流并发送给所述HADOOP集群节点。
1、背景说明
DistCp(Distributed Copy,分布式拷贝)是用于大规模集群内部或者集群之间的高性能拷贝工具,其与在Linux上执行CP(Copy,拷贝)、SCP(Secure Copy,安全拷贝)实现效果是一致的,不同的是,CP(Copy,拷贝)是将本机的文件和目录拷贝到本机的其它地方,SCP(Secure Copy,安全拷贝)则可以将A机器的文件或者目录拷贝到B机器,而Distcp分布式拷贝则可以实现的是A(HDFS)集群的数据拷贝到B(HDFS)集群,其中HDFS指Hadoop分布式文件系统。
分布式使得数据拷贝时,可以实现A集群的DN节点同时向B集群的DN节点发送数据,突破了单机拷贝的网卡速率限制,拷贝效率更高,同时Distcp拷贝使用Map/Reduce任务实现文件分发,错误处理和恢复,以及报告生成,它把文件和目录的列表作为Map任务的输入,每个任务会完成源列表中部分文件的拷贝(实际上Distcp分布式拷贝只用到了Map,没有用到Reduce)。
然而,目前的分布式拷贝只能是备份到集群HDFS文件系统,即其目标文件系统只能是HDFS,不能是如Linux、Windows等可以运行JAVA虚拟机的任意基础OS的文件系统。
2、技术内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于分布式拷贝的大数据备份系统及方法,以实现其备份的目标文件系统可以是Linux、Windows等可以运行JAVA虚拟机的任意基础OS的文件系统,并在不影响基于HDFS的应用业务运行的前提下进行大数据HDFS备份任务。
为达上述目的,本发明提出一种基于分布式拷贝的大数据备份系统,包括:
HADOOP集群,部署HJOB模块,通过所述HJOB模块与灾备机交互获取文件状态主表,在接收到备份指令时,根据文件状态主表生成待备份文件状态列表,启动并划分Mapper任务以保持HADOOP集群的负载均衡,通过Mapper任务根据输入的待备份文件状态列表中的文件项,向灾备机发送相应的备份文件;接收到恢复指令时,根据所述文件状态主表生成待恢复文件状态列表,启动并划分Mapper任务以保持HADOOP集群的负载均衡,向灾备机发送文件读取指令,并于接收到灾备机发送的文件数据后写入HDFS源文件;
灾备机,部署Node模块,在接收到所述HADOOP集群节点传输的待备份文件的文件流数据后,通过第二File模块处理文件流写入灾备机;在接收到文件读取指令时,通过第二File模块读取文件流并发送给所述HADOOP集群节点。
优选地,所述HJOB模块进一步包括:
文件状态主表获取模块,用于通过第一Net模块与灾备机交互获取文件状态主表;
文件状态列表生成模块,用于在接收到备份/恢复指令时,将需要备份/恢复的目录中的文件跟获取的文件状态主表进行对比生成待备份文件状态列表/待恢复文件状态列表;
Mapper启动模块,用于根据待备份文件状态列表/待恢复文件状态列表对待备份/待恢复文件划分Mapper任务,启动Mapper任务;
第一File模块,用于在Mapper任务的控制下获取待备份文件的文件流通过第一Net模块发送给灾备机;当通过第一Net模块接收到灾备机发送的文件数据后,将接收的文件数据写入HDFS源文件;
文件读取指令发送模块,用于通过Mapper任务向灾备机发送文件读取指令;
第一Net模块,用于实现所述HADOOP集群节点与灾备机的网络传输。
优选地,所述Mapper启动模块对待备份/待恢复文件按文本行进行划分,一行代表一个文件,一个文件对应一个Mapper任务进行数据传输。
优选地,所述灾备机进一步包括:
Node模块,用于提供灾备机的入口,接收HADOOP集群节点传输的待备份文件的文件流数据,并于接收到文件读取指令时,启动第二File模块读取相应的文件流,以通过第二Net模块发送至HADOOP集群节点;
第二File模块,用于在所述Node模块接收到HADOOP集群节点传输的待备份文件的文件流时,查询灾备机磁盘状态,根据查询结果写入灾备机;在所述Node模块接收到文件读取指令时,根据文件读取指令读取相应的文件流,并通过第二Net模块发送至HADOOP集群节点;
第二Net模块,用于实现所述HADOOP集群节点与灾备机的网络传输;
Data模块,用于记录磁盘空间、备份文件状态以及备份记录。
优选地,所述Node模块集成了与控制机交互的RPC框架以及TIMER定时任务框架,通过定时任务向所述HADOOP集群节点的HJOB模块发送备份恢复指令。
优选地,所述第二File模块在接收到所述HADOOP集群节点传输的待备份文件的文件流时,调用所述Data模块,通过所述Data模块检查灾备机磁盘的空闲空间大小,根据查询结果将接收的文件数据写入灾备机磁盘。
优选地,所述系统还包括控制机,用于与所述灾备机的Node模块交互,提供各灾备机数据节点的注册,向各灾备机数据节点下发备份规则。
为达到上述目的,本发明还提供一种基于分布式拷贝的大数据备份方法,包括如下步骤:
步骤S1,于HADOOP集群节点上部署HJOB模块,通过所述HJOB模块与灾备机主节点交互获取文件状态主表;
步骤S2,当接收到备份指令时,HJOB模块根据所述文件状态主表生成待备份文件状态列表,启动并划分Mapper任务以保持HADOOP集群的负载均衡,通过MAPPER任务根据输入的待备份文件状态列表中的文件项,向灾备机发送相应的备份文件;
步骤S3,当接收到恢复指令时,HJOB模块根据所述文件状态主表生成待恢复文件状态列表,启动并划分Mapper任务以保持HADOOP集群的负载均衡,向灾备机发送文件读取指令,并于接收到灾备机发送的文件数据后写入HDFS源文件。
优选地,步骤S2进一步包括:
步骤S200,在接收到备份指令时,将需要备份的目录中的文件跟从灾备机获取的文件状态主表进行对比生成待备份文件状态列表;
步骤S201 ,对待备份文件划分Mapper任务,启动Mapper任务;
步骤S202,在Mapper任务的控制下根据输入的待备份文件状态列表中的文件项,向灾备机数据节点发送相应的备份文件。
优选地,步骤S3进一步包括:
步骤S300,在接收到备份恢复指令时,将需要恢复的目录中的文件跟从灾备机获取的文件状态主表进行对比生成待恢复文件状态列表;
步骤S301,对所述待恢复文件状态列表的待恢复文件划分Mapper任务,启Mapper任务;
步骤S302,通过Mapper任务向灾备机发送文件读取指令;
步骤S303,当HJOB模块通过第一Net模块接收到灾备机发送的文件数据后,将接收的文件数据通过第一File模块写入HDFS源文件。
与现有技术相比,本发明一种基于分布式拷贝的大数据备份系统及方法通过对分布式拷贝DistCp进行改进,实现了一种介于DistCp和scp中间的新的拷贝方式,其备份的目标文件系统可以是Linux、Windows等可以运行JAVA虚拟机的任意基础OS的文件系统,本发明可在不影响基于HDFS的应用业务运行的前提下进行大数据HDFS备份任务。
i2Backup英方数据备份恢复与管理软件
i2Backup作为企业级数据备份与恢复功能的软件,支持常见文件系统、数据库、大数据平台备份和恢复。提供灵活的备份恢复策略、数据重删、压缩加密等特性,确保数据安全性;通过直观的图形化界面简化了日常任务管理,同时提供定时任务实时监控、多链路备份集复制、详细的统计报表、审计日志等功能,为企业核心业务数据保驾护航。
·带队负责人姓名:周华
周华,英方软件CTO、副总经理,曾任Oracle研发中心高级软件工程师和高级售前顾问。告别外企螺丝钉性质的工作,周华深度分析市场需求,探索技术空白,最终决定在数据复制、容灾备份领域开展业务。在国内技术尚未成熟的情况下,他带领英方从一众外资供应商中杀出重围,成为行业首家在上交所科创板上市的企业,英方软件也被誉为国内数据复制第一股。
团队其他重要成员姓名:苏亮彪、胡军擎
·隶属机构:英方软件
英方软件是一家专注于数据复制的软件企业,主营业务系为客户提供数据复制相关的软件、软硬件一体机及软件相关服务。公司构造了“容灾+备份+云灾备+大数据”等多层次、多策略、全域应用的四大产品系列,相关产品覆盖了容灾、备份、云灾备、数据库同步、数据迁移、文档共享与AI管理等经典应用场景,同时也推广到了智能灾备管理、数据副本管理、数据流管理、大数据收集分发、大数据平台实时同步、数据脱敏等更多应用领域。
公司是国内数据复制及容灾备份领域唯一的一家上市企业,产品广泛应用于金融、党政、医疗、教育、能源、运营商、制造等百行千业。在金融领域,公司已形成了良好的口碑,已为众多境内证券公司、银行、保险公司、基金公司和泛金融机构提供数据复制相关软件产品或服务,代表客户包括中国工商银行、中国建设银行、上海证券交易所、上海黄金交易所、海通证券、国泰君安、中信建投证券、太平保险、广发基金、汇添富基金、富国基金等。
通过英方i2Backup企业级数据备份管理软件,对我司生产中心的文件服务器、NAS存储、容器文件提供完整的数据保护。管理员能够通过图形界面管理各类应用备份和恢复的所有操作,制定企业统一的备份策略。对文件做保护的同时也对Oracle、SQL Server 和MySQL等数据库,提供库级备份和恢复解决方案。
——叠纸游戏
通过英方i2Backup定时备份各类数据库文件和非结构化数据,针对Oracle、SQL Server等数据库提供恢复解决方案。整个数据级灾备策略采用实时+定时的方案,全方面保护各类数据安全,确保逻辑错误、病毒攻击、火灾等事件发生时,有最新的数据可恢复,为我校“智慧校园”建设及数字化转型进程的加速提供了可靠支撑。
——辽宁大学
提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。