PB级数据量下的MPP数仓+Hadoop的传统大数据平台向信创环境迁移,有哪些难点?

科技   2024-10-18 07:36   北京  

社区探讨,供大家参考:



PB级数据量下的MPP数仓+Hadoop的传统大数据平台向信创环境迁移,有哪些难点?

银行眼下均在往信创迁移,比较关注的疑难点:

1、落地实践经验的信创方案

2、数据一致性如何保障?

3、数据的多样性和数据格式的兼容,多数据源的支持如何?

欢迎同业老师交流指导!

问题来自社区会员@大Andy 银行 系统工程师,以下分享均来自社区会员



@jinhaibo 昆仑银行 技术管理:

PB级数据量下的数据平台迁移有以下的难点:

基础环境的成熟性:信创领域技术产品众多,性能和稳定性参差不齐。银行需要在众多的国产数据库、服务器、操作系统等产品中进行选择,建议选择主流的供应商和产品,不要另辟蹊径。另外需要在行内进行POC工作,将行内应用在信创产品上测试一下,主要关注性能和兼容性问题,和供应商沟通好适配工作内容和同业经验。

影响范围广:银行的业务系统通常较为复杂,与大数据平台紧密集成。迁移到信创环境需要通过数据平台屏蔽对上下游系统的业务影响,这不仅涉及到技术层面的调整,还可能影响业务流程和用户体验。改造过程中需要确保业务的连续性,不能因为迁移而导致业务中断,这对项目的规划和实施提出了很高的要求。

信创产品人才短缺:信创技术相对较新,熟悉信创技术的专业人才相对较少。银行在迁移过程中可能面临人才短缺的问题,难以找到足够的技术人员来实施和维护信创环境下的大数据平台。

数据迁移过程中的一致性问题:PB 级数据量的迁移是一个复杂的过程,可能会出现数据丢失、重复或不一致的情况。在迁移过程中,需要采用可靠的数据迁移工具和方法,确保数据的完整性和准确性。不同数据源之间的数据格式和编码方式可能存在差异,这也增加了数据一致性的保障难度。

业务系统对数据一致性的要求:银行的业务系统对数据一致性要求非常高,任何数据不一致都可能导致业务错误或风险。在迁移过程中,需要确保业务系统能够正确地读取和处理信创环境下的数据,保证数据的一致性。

@jillme 组某大型银行 CIO:

向信创迁移,首先建议选择相同产品的信创版本,这样能够避免很多不同版本之间数据差异性的问题。

以hadoop为例子,可以采用x86与ARM的混合部署,将2者部署到一个集群内,然后1个1个将x86节点的组件下线,删除并移除节点。实现集群内部的数据转移,解决迁移过程中数据不一致性的问题。在迁移的过程中,外部数据依旧可以访问/调整访问集群的入口进行数据写入,达到受到的影响最小。

多数据源和数据格式的多样性,可以考虑使用doris或者数据湖解决。

@Infrastructure 某银行 系统工程师:

目前技术适配看来是最容易解决的,因为无论是信创版本还是非信创版本,开源大数据组件在社区层面都会做相应的适配尽可能减少业务迁移的难度。数据一致性在不同版本的大数据组件中,一般都可以得到向下兼容的保障。

难点主要还是老集群的平滑演进,需要配合的相关方较多,一个数据湖承接了上百套应用,需要逐个推动改造,更多的成本在于数据迁移、业务迁移过程中的不可控因素。

基于此问题,我们还是建议从技术手段尽可能减少业务迁移的工作量,例如开发统一的JDK工具,域名改造,自动化程序迁移工具等。

  您怎么看?

欢迎来探讨

欢迎点击文末阅读原文到社区阅读和讨论交流,发表您的看法

觉得本文有用,请转发或点击在看,让更多同行看到


 资料/文章推荐:


欢迎关注社区 “大数据平台”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Topic/21469

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章