阳光保险于 2005 年 7 月成立,成立不到 3 年就完成集团化组建,是具有保险全牌照的集团公司,成立 5 年即跻身中国企业 500 强,并连续 14 年被世界品牌实验室评选为“中国 500 最具价值品牌”,现已成为行业成长速度最快的中型保险公司。
截止 2023 年末,阳光保险总资产突破 5000 亿,年度原保费收入过 1000 亿,员工数超 5 万人,服务客户规模超 3000 万人。其中,阳光财险成立不到 2 年即实现盈利、阳光人寿成立 6 年即实现盈利,均打破行业记录,且在发展速度、盈利能力等方面远优于同期成立公司。作为一家快速成长且充满活力的头部中型保险公司,阳光保险始终致力于创新机制,积极承担社会责任,在支持国产自主创新方面投入大量精力,随着数字化升级趋势的不断加速,阳光保险决定进行数据库国产升级。
在 2024 OceanBase 年度发布会上,阳光数智科技技术创新孵化产品团队负责人杨清华受邀分享了《阳光保险关键业务系统数据库升级最佳实践》。他表示:阳光保险集团数据库升级范围现已覆盖产、寿、资管等多个关键业务场景,涵盖一般业务系统与核心业务系统,截止目前,全集团已累计搭建 OceanBase 集群 20 余个,已完成 200 余个业务系统近 400 个数据库实例的替换,整体替换占比近四成,所有已上线系统均稳定运行。
在阳光保险的数智化升级过程中,集团始终注重科技赋能业务发展和国产化自主创新,坚决落实监管要求,快速响应行业趋势,推动信息科技架构持续升级变革。阳光的科技演进主要历经四个主要阶段。
早期阶段(2004-2014):系统化阶段,聚焦线上化改造工作。研发一系列核心业务系统,将部分业务人员从繁杂的表单工作中解脱出来,彼时这部分系统以外采为主,自研比例相对较低;
1.0 阶段(2015-2017):互联网化阶段,注重基于分布式架构和配置化思想实现互联网业务的进一步适配。尤其自 2015 年开始的新一代核心业务系统的建设是比较有代表性的。在这个过程中,阳光借鉴了很多同业经验,实现了包括同城数据中心,还有流程引擎、规则配置化等能力,进一步提升了互联网化水平。
2.0 阶段(2018-2022):开始布局移动化、数据化和云原生。在应用领域,开始注重移动化能力提升,研发一系列 2C 和 2B 的 APP,注重提升用户体验。在数据化方面,着手搭建数据中台能力。在云原生方面响应行业浪潮,进一步探索落地服务治理、容器化和 DevOps 等技术,由难到易,首先对核心系统进行云原生架构改造。
3.0 阶段(2023-现在):开始往智能化方向迈进。随着 AI 浪潮的发展推广,阳光保险逐渐向智能化转型,在高层“一台机器与一群客户”思想指导下,基于自研人工智能和大模型能力,实现了智能决策、智能预警、机器人员工等智能化能力,同时进一步夯实了云原生基础。
随着业务的快速增长和技术架构的不断革新,应用架构和业务需求的复杂化为数据架构带来更多挑战。具体在数据库侧,体现在以下三方面挑战:
自主掌控:国产化转型方面,如何实现技术栈平滑升级成为数据管理方面一大难点。 多数据源管理:伴随着集团云原生和智能化进程推进,阳光保险很多业务系统都已调整为微服务架构,部分大的核心系统甚至包含几十、上百个微服务,造成了更多的数据库实例、更多数据库选型以及数据资产管理问题。 性能、可用性、扩展性:在数据库性能、可用性以及可扩展性等非功能性需求方面,也分别遇到了相关瓶颈。过去基于传统的技术栈实现新业务需求的成本较高,尤其是在应对一些互联网业务时,常常遇到数据层可用性和扩展性不足,由此带来了成本和风险的攀升。
阳光保险整体数据库国产升级策略共包括三个方面:
应替尽替。所有新上的业务系统,包括核心业务系统功能必须要基于国产数据库进行升级。 分层替换,专项推进。集中开展数据库、中间件等关键产品的替换,与此同时,专门成立内部专家小组解决过程中的各类升级问题,保障整体过程平滑顺利。 真实使用。国产产品必须以真实使用为原则,避免长期双轨运行,这样才能真正验证核心业务在国产数据库上是否可用。
基于以上策略,杨清华分享了选择 OceanBase 的原因:“可靠+经济,这两点是我们进行技术选型的方法论。”
在可靠性层面,阳光保险重点关注三方面:其一,数据库产品自主掌控。OceanBase 全栈自研完全匹配阳光保险国产升级要求,当在升级过程中有一些个性化的需求或问题,厂商能够快速介入和解决;其二,技术可靠。OceanBase 拥有分布式、性能高可用、可扩展架构三方面优势,且技术足够成熟,可以在行业内找到借鉴参考;其三,服务可靠。OceanBase 配备专职专业的服务团队配合数据库实施和后续运维。
在经济层面,阳光保险同样关注三点:其一,资源成本。主要体现在计算资源和存储资源,OceanBase 天然具备多租户池化资源分配 + LSM-Tree 存储压缩优势,可以高效满足业务发展的更高要求;其二,过程成本。在迁移过程中,OceanBase 具备完整的迁移方案,且周边配套工具足够完善,保证迁移过程足够平滑;其三,运营成本。主要指的是数据库厂商要有完善的运营体系,OceanBase 通过 OCP 集群管理 + OAS 诊断 + OAT 部署,协助运营人员快速定位问题和处理日常运维工作。
基于以上两大层面和六大因素考量,阳光保险最终确认使用 OceanBase 进行数据库升级。从 2022 年起,开始全面加速推动传统数据库升级工作。
目前,OceanBase 已覆盖阳光保险集团和产、寿、资管等多个关键业务场景,涵盖众多一般业务系统与核心系统。截止目前,全集团已累计搭建 OceanBase 集群 20 余个,已完成 200 余个业务系统 近 400 个数据库实例的替换,整体替换升级占比近四成,各数据库实例均稳定运行。
在发布会上,杨清华重点分享了阳光保险“极短险”应用落地经验。极短险系统主要承接阳光产险的部分互联网短期保险出单业务,其日单量能够达到 300 万单,单表数据最高可达 20 亿级,在极短险数据库系统进行分布式升级以前,采用物理分表来实现扩展性。总的来说,该场景的特点是接入渠道多、日业务量大、流量大,单均保费低,且该系统对出单时效、稳定性和经济性有较高要求。
基于以上背景,承载极短险系统的数据库需要具备六大能力:高并发、低延时、强一致、高可用、省资源、少改动。
下图展示了阳光保险的极短险系统数据库迁移的几个阶段。
第一,分析阶段,借助 OceanBase 迁移评估工具(OMA)对原传统集中式数据库进行比较长时间调研和监控,协助分析哪些函数不适配,或者 SQL 语句有问题。在这个过程中也遇到了一些挑战,如存储过程和全局唯一 ID 问题。其中对于存储过程问题,阳光选择了在开发层面禁用以规避,对于 ID 发号问题,阳光基于ZK 搭建了分布式命名服务实现了高可用的连续 ID 发号功能。
第二,结合同业经验和自身业务需求,对关键数据库 SQL 进行统一梳理,确定最经济高效的数据库表结构和分区方案。梳理表之间的关联关系和查询条件,确定分区键和表组。依赖 OceanBase 分布式计算能力充分利用计算资源提升性能,并解决大数据量的扩展性难题。
第三,在实际迁移过程中,按需决定是否进行表分区。比如核心数据必须进行分区表设计,最大限度保证性能和扩展性;对于汇总表,则无需分区,降低成本和复杂度;对于一些公共基础数据表,基于 OMS 在新库当中建立一些复制表,以满足查询要求。整体是三种结构融合的解决方案。
第四,确定数据结构设计后,开始迁移。利用 OceanBase 数据迁移工具(OMS)建立批量和实时同步通道,保障过程中平稳顺滑迁移。
杨清华介绍:OceanBase 的分布式架构可有效保证稳定性和扩展性,提高数据库的资源利用率;LSM-Tree 数据压缩策略,助力阳光保险硬件资源成本可节省 50% 以上;借助多租户管理能力,在保证数据和资源相互隔离的前提下,大幅降低了阳光保险的运维管理难度。
AI 浪潮势不可挡,围绕热门的多模数据融合和 TP & AP 融合趋势,杨清华也表达了自己的看法和展望。
随着业务需求的多样化和人工智能技术的发展,企业需要处理的数据类型越来越丰富,包括结构化数据(如关系型数据库中的核心业务数据),以及AI相关的半结构化数据(如 JSON、XML 格式的数据)和非结构化数据(如文本、图像、视频等),这种多模态数据的存在为数据的集成、存储、检索和分析带来了新的挑战。
但传统的数据管理系统无法很好支持广泛的数据类型,因此需要多技术栈组合服务,这无疑大大增加了企业的运营成本和风险,因此希望 OceanBase 可以提供场景维度的多模数据融合能力,来实现阳光保险不同类型数据的有效整合与分析,更好地满足集团降本增效和业务创新诉求。
关于 TP & AP 融合,在阳光的业务场景中,存在事务处理(TP)与分析处理(AP)融合的需求。目前,阳光保险使用的是 Oracle Exadata 来支撑这部分业务,但在面对未来更加复杂的数据管理和业务增长需求时,希望积极寻求更加先进且可扩展的国产解决方案。如果能够基于 OceanBase 一体化能力实现 TP & AP 融合,这不仅有助于简化现有 IT 架构,优化总体拥有成本,还能进一步提升业务处理效率和公司的数据洞察力,从而积极响应未来数据管理趋势,助力阳光保险在科技创新道路上持续前进。
致谢:阳光数智科技技术创新孵化产品团队负责人杨清华 ❤️