大数据产业创新服务媒体
——聚焦数据 · 改变商业
回顾OceanBase的发展轨迹,从2010年蚂蚁金服内部的技术探索,到现在发展为国产数据库的头部玩家,OceanBase用短短十几年时间,实现了从无到有、从边缘到核心的蜕变。
但新的浪潮已经涌现,AI大模型如暴风骤雨般席卷全球,传统数据库正在经历前所未有的挑战。OceanBase能否抓住这次机会,再次站上技术革新的浪潮顶端?
这不仅是OceanBase的自我超越之路,也是中国数据库产业崛起的一个缩影。从分布式数据库的崛起,到云数据库的全面推广,再到今天面向AI的突破,OceanBase的每一步,都有一定的参考价值。它的故事,值得我们一一回顾和探讨。
不忘初心,方得始终。
要捋清楚OceanBase的发展方向,就要回到梦最开始的地方。
2010年,支付宝正面临前所未有的技术压力。每年的“双11”购物节,流量洪峰让系统濒临崩溃,而依赖的传统数据库Oracle显得力不从心。高昂的成本、无法应对的高并发,以及对国外技术的严重依赖,让整个团队焦头烂额。
怎么办?继续加机器、扩带宽?这不过是权宜之计。为避免被流量“压垮”,支付宝痛下决心,自研数据库!
这一年,OceanBase诞生了。怀着“救火”的紧迫感,它从一开始就瞄准高并发和高可用——解决支付宝的核心痛点,成为系统里的坚实“防火墙”。
经过4年的研发与打磨,OceanBase迎来了它的“成人礼”。2014年的“双11”,OceanBase首次被用于支付宝核心账务系统。在那一天,它承载了1.8亿笔交易,确保每一笔付款准确、迅速地完成。
这个成绩意味着什么?在流量压力下,OceanBase不仅稳定运行,还帮助支付宝全面替代Oracle。这是中国数据库历史上一个具有里程碑意义的事件——国产数据库第一次在金融核心系统中取代国外巨头。
OceanBase的成功,源于它在分布式系统技术上的两大突破:
分布式事务与强一致性:
OceanBase通过对Paxos协议的深度优化,实现了分布式系统中的强一致性。这一突破确保了在多节点间,数据能够同步更新、保持一致,这在金融级别的系统中尤为关键。
高可用多副本架构:
OceanBase采用多副本存储模式,即使在数据中心发生故障时,也能通过切换副本,快速恢复业务,确保系统的高可用性。
2014年的那场“双11”,不仅验证了OceanBase的技术能力,也标志着中国分布式数据库的自研成功。它用实践证明:国产数据库不仅可以做到技术上的自主可靠,还能在核心业务中实现超越。
从此,中国金融行业在数据库技术上有了更可靠、更自主的选择。OceanBase也由此踏上了重新定义数据库技术的征途。
2015年,中国市场掀起了云计算的浪潮。企业开始意识到,未来的IT基础设施不再依赖庞大的物理机房,而是向云端迁移。数据管理也进入了一个全新的阶段,传统的分布式数据库已经难以满足弹性、灵活、多样化的业务需求。云原生数据库的时代,悄然来临。
这对OceanBase来说,既是机遇,也是挑战。
经过2014年“双11”的成功试炼,OceanBase已经在分布式数据库领域站稳了脚跟。但它并没有停下脚步。团队意识到,如果不能顺应云计算的趋势,OceanBase将很快失去竞争力。于是,一场针对云原生架构的转型悄然启动。
2017年,OceanBase开始内测云数据库。2020年正式在阿里云推出相关服务,伴随着一些企业的出海需求,开始在多云上进行探索和打磨,2022年正式对外商业化,推出OB Cloud。
OB Cloud是一款支持多云架构的云数据库产品。它的核心理念是“无缝跨云”,即客户可以在不同的云环境(比如阿里云、腾讯云、华为云、谷歌云、亚马逊云科技)之间切换,而无需担心数据的兼容性和安全性。
这一点,抓住了企业用户的痛点。多云架构不仅提供了更高的灵活性,还大大降低了企业的云服务成本。
在技术层面,OceanBase在云原生转型中取得了两项关键突破:
首先是多租户架构。这一架构允许OceanBase在云端同时服务于多个客户,通过资源隔离确保每个客户的性能和安全性。无论是大型企业的复杂业务,还是中小企业的轻量化需求,OceanBase都能轻松应对。
其次是动态扩展与容灾能力。面对业务高峰,比如电商的“双11”,OceanBase能够在短时间内实现秒级扩容,确保系统稳定运行。同时,它的全球数据同步能力,即便在跨地域灾难中,也能迅速恢复业务,保证数据不丢失、不出错。
凭借这些技术创新,OceanBase迅速在中国云数据库市场上站稳了脚跟。不仅帮助无数企业实现了云端数据管理,还在多个关键领域对标国际巨头。
从分布式到云原生,从单一部署到多云协同,OceanBase的每一步,都在重新定义中国企业的数据管理方式。而这场云端的征程,还远未结束。
传统数据库,长期以来都活在一个“分裂”困境中。
一方面,企业需要在线事务处理(OLTP)系统,来快速完成用户的订单、支付、转账等操作。另一方面,他们还需要在线分析处理(OLAP)系统,用于实时统计、分析这些数据,为业务决策提供支持。
问题在于,这两种任务的需求截然不同:事务处理强调数据的一致性和快速写入,而分析处理则需要对海量数据进行复杂查询,强调吞吐量和计算性能。为了兼顾两者,企业往往需要分别部署两套系统。这不仅增加了架构复杂度,还导致数据在系统间的频繁流转,效率低下,甚至可能造成数据延迟和一致性问题。
这就是传统数据库的“分裂”困境。
OceanBase早在2017年就意识到了这一痛点,那时,它已经在金融领域证明了自己在高并发事务处理中的实力,但客户对实时数据分析的需求愈发迫切。如何在一套系统中同时完成事务处理和实时分析,成了OceanBase的下一个技术目标。
经过两年的研发,2019年,OceanBase推出了HTAP(Hybrid Transactional/Analytical Processing)能力,并在今年4月推出OceanBase 4.3,实现全新的列式存储引擎,进一步加强TP+AP一体化。
在传统数据库中,事务数据通常以“行存储”的方式存放,因为这种方式能更快地进行逐条数据的插入和更新。而分析型数据库则偏好“列存储”,可以大幅提升数据扫描和聚合性能。而OceanBase巧妙地结合了两种存储方式,基于LSM-Tree架构推出列式存储引擎,实现可行存、可行列混存和可列存的多种存储方式,同时融入分布式TP核心能力小事务写入技术,满足更严苛的AP事实分析需求。
这一技术革新很快在金融行业中得到了验证。以某大型银行为例,以往需要在核心账务系统完成日常事务处理后,将数据同步到分析系统,进行延迟数小时的业务统计。而在引入OceanBase HTAP能力后,这家银行实现了“实时账务+实时分析”。数据延迟从数小时缩短到秒级,分析效率提升了10倍。
更重要的是,这种一体化的架构,减少了企业原本对多套系统的依赖,大幅降低了IT成本和维护难度。企业再也不需要为了兼顾事务和分析,拼命堆砌各种复杂的技术方案。
从此,HTAP成为OceanBase的一张新名片。在一个需要“实时决策”的时代,OceanBase不仅帮助企业简化了架构,还为它们带来了更快的业务洞察能力。
它的意义远不止于技术层面。这是一种全新的数据库思路:以最小的资源和复杂度,满足企业从事务处理到实时分析的全方位需求。在数据驱动一切的商业环境中,OceanBase的HTAP能力,正在帮助越来越多的企业赢得先机。
大模型的爆发,正在重塑数据库的世界。
如今的AI应用,涉及海量的结构化(如交易记录)、半结构化(如日志数据)、以及非结构化数据(如图像、视频)。单一数据类型的存储和查询,早已无法满足业务需求。
更大的挑战来自高维向量数据,推荐系统、图像搜索、语义理解等AI场景,需要处理数十亿条高维数据。这些数据不仅体量庞大,而且计算复杂。传统数据库在面对这样的任务时,表现得如同“慢吞吞的老爷车”,让人望而却步。
为应对AI时代的新挑战,OceanBase在2024年发布了重磅版本——4.3.3。它为AI场景提供了专属“武器”,将SQL与AI深度融合,构建了更适合AI时代的一体化数据库。
整体来看,OceanBase4.3.3版本,主要的技术亮点可以概括为三个方面:
1. 多工作负载:
能够同时处理在线事务处理(如支付、订单等高频交易场景)和复杂的实时分析查询。这种混合工作负载能力使企业不再需要为事务型和分析型数据分别设计不同的数据库架构,从而减少系统间的数据传输延迟,避免数据冗余。在确保数据一致性的前提下,满足实时分析的需求并提高决策的实时性。
2. SQL+AI融合:
OceanBase 4.3.3通过集成向量检索和混合搜索功能,显著简化AI技术栈。通过统一的架构支持包括关系型数据、向量数据、GIS多模混合查询,使得用户不仅可以通过SQL执行常规的关系型数据操作,还能够无缝集成向量检索,用于AI模型的推理、推荐系统、智能搜索等应用场景。
3. 多模态数据支持:
为应对多样化的数据需求,OceanBase新增了Array类型,并优化了Roaringbitmap性能。这些改进进一步扩展了OceanBase对复杂数据类型的支持,使其在多模态数据场景中表现更为出色。
技术能力的提升最终要落地到应用中,OceanBase在多个场景中展示了强大的实际效果。
在这次发布会上,OceanBase展示了望小京AI Demo。在一个典型的AI查询场景中,OceanBase支持空间查询、关系过滤、向量计算等多重任务,轻松应对复杂查询。这一Demo不仅是OceanBase能力的展示,更为开发者提供了参考模板。
此外,“支小宝”和“蚂小财”是蚂蚁集团的明星AI管家,它们分别为用户提供生活和财务管理支持。未来,OceanBase将为这两款AI助手提供了底层数据支撑,实现了从多模态数据融合查询到实时响应的全流程支持,这让用户体验到更加智能和精准的AI服务。
在传统开发模式下,企业需要为AI应用引入多种工具和框架:一个存储数据,一个进行分析,一个用于AI推理,彼此之间数据流转复杂且容易出错。OceanBase以“一体化数据底座”打破了这种局面。
它提供了一套涵盖存储、查询、分析、推理的完整解决方案。企业无需在多工具之间切换,直接在OceanBase内完成所有数据操作。
这种技术栈的极简化,为企业带来了两大好处:
1. 开发效率提升:开发周期大幅缩短,甚至中小团队也能快速上线复杂的AI应用。
2. 运维成本降低:统一的数据平台减少了管理开销,同时提升了系统的稳定性和安全性。
OceanBase用一体化数据库,回应了AI大模型时代的复杂需求。
但是,我们需要指出的是,AI大模型的好戏才刚刚开始,即使是OceanBase也才刚刚摸到一点点门道,问题还远没到最终解决的时候。
过去十几年,OceanBase从Oracle的“备胎”成为中国数据库的旗帜。从2014年在“双11”中替代Oracle,到如今在金融、电信等核心行业全面部署,它用自主创新扛起了国产数据库的大旗。然而,站在AI大模型时代的门口,过去的胜利已经无法保证未来。
AI的浪潮滚滚而来,大模型的普及让数据库的角色发生了根本性变化。它不再只是存储和检索的后勤兵,而是直接参与实时计算和决策的核心引擎。OceanBase能否在这个全新的战场上,继续从容应战?答案还未可知。
因为,AI大模型对数据库提出的难题,还有很多没有解决,甚至有些都还没找到解决的方向。
事实上,上面提到的非结构化数据、高维向量数据的处理难题,仅仅是挑战的一部分。
要深挖问题本质,AI数据库至少还面临四大技术难题。
1. 高维数据处理的性能极限
高维向量的检索不同于传统的索引查询,它涉及大量复杂的数学计算,尤其在推荐系统、图像识别等场景中,需要在极短时间内完成数百万甚至数亿条向量的比对。当前的向量检索技术如LSH(局部敏感哈希)、HNSW(层次化小世界图)等,尽管在性能上有突破,但如何在海量数据场景下进一步提升查询速度,同时保持高召回率,是一个尚未攻克的难题。
2. 多模态数据的高效融合
在AI场景中,数据类型的多样化导致查询需求复杂多变。如何在同一套系统中高效存储和管理不同类型的数据(如结构化交易数据、非结构化图像、视频),并在查询时快速融合,依然是技术界的一大挑战。现有的数据库多采用分层存储与查询,但这会带来数据同步和延迟问题。
3. 事务与分析负载的冲突
虽然现在的HTAP数据库,在某种程度上找到了事务型(OLTP)和分析型(OLAP)任务之间找到平衡,但目前的方案还远谈不上完美。尤其是在AI场景下,事务任务需要快速响应,而分析任务则要求对历史数据进行深度挖掘,两者对资源的争夺很容易导致性能瓶颈。如何实现更智能的负载调度和隔离,成为AI数据库亟待解决的问题。
4. AI推理与数据库查询的协同优化
数据库与AI模型的结合本质上是数据与计算的融合,但两者的性能特性截然不同。AI推理的计算密集型特点与数据库查询的IO密集型特点天然矛盾。如何通过软硬件协同,优化查询路径,让AI推理在数据库内部“原生”运行,是未来数据库必须跨越的技术门槛。
虽然,OceanBase的SQL+AI一体化能力,为它打开了面向AI时代的大门。但面对更复杂的AI场景,OceanBase还需要进一步提升。在多模态数据查询和事务与分析任务的调度优化上,OceanBase的表现仍有改进空间。
从替代Oracle到挑战国际巨头,OceanBase用十余年的时间完成了一次次自我超越。然而,在AI大模型时代,它面前的战场更加广阔,敌人也更加强大。它能否在这场技术变革中继续引领行业,让我们拭目以待。
文:一蓑烟雨 / 数据猿
责编:凝视深空 / 数据猿