利用OushuDB实现Native ORC格式增量备份
文摘
科技
2023-12-25 17:30
广东
随着数据量的不断增长,有效的数据管理和保护变得至关重要。其中,数据库备份是确保数据安全的关键组成部分,尤其是增量备份,通过快速高效的方式来保持数据的最新状态。ORC(Optimized Row Columnar),是一种高效的列式存储格式,对大数据应用兼容非常友好。它提供了出色的压缩比、快速的读取速度和对复杂数据类型的支持。由于这些优点,ORC格式成为了数据分析和湖仓一体解决方案的首选格式之一。性能和效率:ORC格式通过高效的压缩、列式存储和向量化查询,大幅降低磁盘I/O需求,加快数据读取速度,从而提升整体查询性能。优化的存储:ORC提供了轻量级索引和丰富的元数据,支持分区裁剪和数据类型的灵活编码,这些特性共同作用于减少存储空间并优化数据访问。生态系统兼容性:ORC格式与多个大数据工具和平台兼容,如Hive、Presto和Spark等,确保了良好的集成和数据处理能力。由于上面提到的诸多优势,目前不少厂商都选择了对ORC格式的支持,偶数科技的OushuDB支持的也是原生ORC,其查询性能相比Parquet 更有优势,同时还可以实现和HIVE 数据类型的直接转换。相比非原生ORC格式的数据库厂商,这样做的好处在于数据的兼容性更强、灵活性更高。传统的备份带来的痛点主要来自于两方面:一是全量备份不仅时间漫长,而且体积巨大,浪费大量存储空间。二是离线问题,由于无法在线备份,导致每次备份都需要停机,这对于需要高可用性和7*24运行的业务影响较大。在OushuDB中实现了增量备份,相较于全量备份恢复,增量备份恢复减少了备份和恢复时间,提供更快的数据恢复速度。同时,相对于传统的离线备份(需要停止数据库服务),在线备份减少了停机时间,行业客户对数据平台的安全性愈发看中,在线增量备份恢复变得越来越必要,它在保障数据安全的同时,降低平台维护成本,减少业务干扰,提高系统可用性。ORC格式的高压缩率意味着即使是增量备份,所需的存储空间也大大减少。这不仅节省了存储成本,还减少了在网络上传输备份数据时的带宽需求。由于ORC文件的列式存储和轻量级索引,增量备份可以快速执行,因为系统只需处理变化的列而不是整个数据集。这种方法不仅加快了备份过程,同样也加快了恢复过程,因为恢复时可以直接访问所需的列。ORC格式的向量化查询和丰富的元数据提供了更快的查询性能。这意味着在备份或恢复过程中,需要访问数据以进行验证或其他目的时,可以实现更高效的数据访问。随着数据量的不断增长,企业需要更高效、更可靠的数据备份解决方案。Native ORC格式为增量备份提供了一个强大的存储格式,通过提高压缩率和读取速度,减少了备份和恢复的时间和成本。OushuDB通过Native ORC简化了备份管理过程,未来,也可以预期Native ORC增量备份将成为数据保护和备份策略的一个关键组成部分,帮助企业夯实数据资产。
偶数成立于2016年,是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案,自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京,在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强,Gartner Cool Vendor,IDC Innovator。点击下方阅读原文获取行业报告