OceanBase探索数据库技术应用与未来,VLDB 2024圆满落幕

科技   2024-09-04 18:06   浙江  

8 月 26 日至 8 月 30 日,数据库领域国际三大顶会之一 VLDB 2024(50th International Conference on Very Large Databases)在广州举办。作为数据库领域的三大顶级会议之一,VLDB 汇集了全球数据库领域顶尖学者,集中展示了当前数据库研究的最前沿方向以及工业界的最新应用,吸引了众多全球顶级科技公司和研究机构的参与。


在本届 VLDB 会议上,OceanBase 的 2 篇论文《Replicated Write-Ahead Logging for Distributed Databases》和《Native Distributed Databases: Problems, Challenges and Opportunities》入选,获得了国际学术界的高度认可。


在 VLDB 数据库一体化趋势 workshop 环节 ,OceanBase 与全球知名数据库学者,做了一场关于分布式和一体化数据库的深度探讨。诸多数据库领域大咖分别就“一体化数据库”、“数据库隐私安全”、“AI 与数据库技术融合”等话题进行深入交流,从学术研究与应用实践的角度出发,共同探讨数据库的未来发展。


此外,在  Sponsor Talk 环节,OceanBase CTO 杨传辉分享了 OceanBase 从 OLTP 到一体化数据库的技术发展。OceanBase 数据库实验室研究员徐泉清在 Quality in Databases (QDB) workshop 上做主题报告,并与来自 AT&T 的 Divesh Srivastava 博士(VLDB Endowment Chair)和来自 Google 的 Fatma Ozcan 博士一起参与圆桌讨论。 


 

全球顶尖学者共话一体化

共探分布式数据库的未来  


随着分布式数据库技术的成熟,一体化技术逐渐成为了分布式数据库未来演进趋势的热门话题。一体化技术通过整合多种工作负载、数据模型和存储引擎,实现了对海量、异构数据的统一管理与实时处理。这种范式转变不仅简化了现代数据架构的技术栈,更促进了数据与业务的深度融合,从数据底层显著提升企业的数字化转型能力。



在 VLDB 会议上,OceanBase 特约邀请清华大学杰出访问教授、美国国家工程院院士 C. Mohan,华东师范大学教授、中国计算机学会数据库专委会主任周傲英,南洋理工大学教授丛高,香港科技大学教授易珂,香港電訊企业架构师 Ivan Law,OceanBase 首席科学家阳振坤、OceanBase CTO 杨传辉等来自世界各地的数据库领域专家学者与实践先锋,共同出席 OceanBase Workshop:数据库一体化技术趋势研讨。从理论到实践、从学术界到工业界,全面深入地探讨未来分布式数据库一体化技术的发展方向。


(一)一体化将成为数据库未来发展趋势


🎙️ C. Mohan:香港浸会大学杰出教授、清华大学访问教授,美国国家工程院院士


C. Mohan 教授从全球硬件、软件、公共政策等角度出发,深入浅出地阐述了数据库的需求变革以及市场空间发展情况,对全球数据库市场从 OLTP 走向 OLAP、催生出各种专业化数据库产品的发展历程进行了回顾,并对当前数据库全球市场格局进行了深入解读,进一步通过案例解读,从 HATP、AI 与数据库的融合、大语言模型与数据库的融合、安全与隐私的融合、多种形态的融合等多种一体化的视角,对未来数据管理的一体化技术趋势进行了前瞻分析。


在分享中,C. Mohan 教授指出,随着市场需求不断迭代,数据系统架构变得愈发复杂,市场中同时存在多种功能重叠且 API 互相不兼容的数据系统,从而导致了数据孤岛和集成困难等问题。未来,随着 TP 与 AP 融合、AI 与数据库融合、多种模型形态融合等技术趋势,数据库会逐渐走向一体化,从而增强用户体验,成为未来社会经济数字化转型的基础。


(二)数据库和数据中台将走向一体化


🎙️ 周傲英:华东师范大学教授、中国计算机学会数据库专委会主任


周傲英教授在分析中指出,大变局时代,数据作为新能源,是推动互联网时代创新和社会变革的新动力。互联网时代的来临与数字化转型的驱动,赋予了数据更高的价值,数据作为“新能源”,已成为促进经济变革和数字文明的关键。在此背景下,数据库作为基础设施,其发展就是一体化数据赋能,而数据赋能平台(数据中台)代表数据技术的大众化和平民化,驱动企业进行数字化转型。周傲英教授从分布并行数据库、区块链、云原生、开源等角度深入解读了数据技术的发展趋势和中国数据库的机遇、“应用驱动创新,开放成就创新”。


他最后总结道,数据是第五生产要素,是新基建的核心。我们处在数据库发展的最佳时机,随着技术的进步和应用的不断拓展,在创新的商业模式和丰富的应用场景下,数据库将向着更加一体化和智能化的方向发展。


(三)AI 和机器学习将激发数据库的更多潜能


🎙️ 丛高:新加坡南洋理工大学教授


丛高教授全面介绍了人工智能和机器学习技术在数据库领域的应用,从机器学习赋能数据库基础、数据访问方法、数据库测试与管理等层面,分享了表示学习、机器学习增强的索引和数据分区、数据库生成、查询重写等与 AI 和机器学习相关的前沿数据库技术研究成果,并对未来的潜在机遇与研究方向进行了分析解读。


丛高教授认为,当前 AI 和机器学习在数据库领域已开展了许多创新技术研究,出现许多创新研究成果,未来仍存在许多机遇和挑战,例如探索如何将多种数据库组件各自分散的 ML4DB 技术在数据库系统中进行整合,如何构建更高效的训练和推理模型,如何更好地应对数据和工作负载变化,如何获取高质量的训练数据,如何建立基础通用的与训练模型,以及如何在数据库领域充分发挥大语言模型的价值等。


(四)隐私数据保护已成为数据库的重要议题


🎙️ 易珂:香港科技大学教授


易珂教授从商业需求对个人信息的使用、以及政策法规对隐私信息保护的视角,论证了数据安全隐私的重要性。他认为,在数据管理中,隐私数据的安全保护日益受到重视,并已经产生了多种技术创新和原型实现,但当前,商业数据库在隐私数据查询实现方面,与理论研究之间还存在一定差距。


在分享中,易珂教授介绍了差分隐私、加密数据计算、可信执行环境(TEE)、多方安全计算(MPC)等数据安全隐私领域的前沿技术研究与成果,并且对数据安全隐私领域的未来研究方向进行了分析解读。他指出,目前与通过 SQL 查询隐私数据相关的研究还稍显薄弱,值得进一步探索;此外如何将数据安全隐私技术整合到数据库系统中,实现从理论向实践的转化,也将成为未来此领域的重要课题。


(五)云 + 数据库的未来  


🎙️ 阳振坤:OceanBase 创始人&首席科学家


阳振坤老师认为,数据库作为一项产品和服务,提升系统性能和降低客户总成本都是至关重要的命题,这就对数据库的扩展性、应用灵活性和成本提出了要求。现阶段,云数据库已成为数据库管理系统市场的主要趋势之一,是追求数据库成本与性能平衡的选择。


OceanBase 基于 LSM-Tree 架构,可以更好地压缩数据并实现更高效的读写操作,满足垂直与水平方向的灵活扩展需求,支持 HTAP,OB Cloud 云数据库通过资源多路复用等方式,在保障性能的同时,有效提升资源利用率,降低建设与运维成本,满足客户多种需求。


(六)从云原生到多基础设施的云原生,一体化数据库将成为未来数据管理的重要方向  


🎙️  Ivan Law:香港電訊企业架构师


HKT(香港电讯集团)是香港最大的电信运营商,提供固定电话、移动通信、宽带和企业解决方案等广泛服务。在数据管理需求日益增长和技术不断进步的背景下,HKT 迫切需要一款安全可靠、灵活扩展、高度兼容 SQL、支持实时迁移、且支持多基础设施混合部署的数据库系统。


Ivan Law 在分享中提到,OceanBase 支持基于多基础设施的混合部署,保障可靠性的同时提供了灵活扩展、HTAP 实时分析等多种能力。OceanBase 的兼容性保证了与传统 SQL 的无缝对接,并且提供了无停机迁移功能,极大方便了 HKT 的数据迁移过程。安全方面,OceanBase 的一体化架构采用行业领先的加密标准,提供丰富的访问控制,以帮助 HKT 保护敏感数据。通过此次数据库架构创新,HKT 实现了成本效益的最大化,并且能更好地利用多基础设施环境中的人工智能、数据分析等先进技术,助力其为用户提供更好的电信服务。


(七)圆桌讨论:一体化数据库,解决 80% 场景问题


随着分布式技术走向成熟,为了响应数据库用户更加丰富的应用需求,一体化的技术趋势成为了分布式数据库的热点方向,诸如 TP 与 AP 能力的融合,AI 与数据库的融合,安全隐私与分布式架构的融合等等。


在 Workshop 最后的圆桌讨论环节,C.Mohan 教授领衔各专家学者,就一体化技术趋势等数据库领域前沿热点问题进行了交流与解答。席间,OceanBase CTO 杨传辉对 OceanBase 数据库对一体化的思考与底层技术实现进行了解读。


OceanBase 作为为关键业务负载打造的原生分布式数据库,基于 LSM-Tree 架构,Paxos 协议、创新性二阶段提交协议等技术实现,解决了数据库的扩展性、可用性和一致性等问题。同时,OceanBase 创新性地推出了单机分布式一体化架构,在提供灵活扩展特性的同时保障系统高性能,同时提供 HTAP、多租户、多模以及未来对 AI 的融合能力,支持不同的工作负载和应用场景。OceanBase 致力于打造一体化的数据库系统解决用户 80% 场景的问题,始终走在数据库一体化技术发展的前线。


此外,圆桌环节,各专家学者还对分布式数据库与 AI 和机器学习技术的融合、数据库语言的应用融合、数据库安全隐私的未来发展方向、云数据库、数据库混合基础设施、OceanBase 在现实应用场景中的选型和实践思考等问题展开了精彩的讨论。



一体化数据库

满足企业级复杂数据处理需求的领先选择


在  Sponsor Talk 环节,OceanBase CTO 杨传辉分享了 OceanBase 从 OLTP 到一体化数据库的技术发展。OceanBase 是一款原生分布式数据库,最初作为一个 OLTP 数据库,应用于支付宝的所有关键业务系统,至今已拥有超过 1000 家外部客户,越来越多的客户将其应用于在混合工作负载场景中,如 OLAP、NoSQL 和多模型。杨传辉从列存储、资源隔离、复杂查询和分布式 SQL 数据库中的多模型等角度,分享了从分布式 OLTP 到一体化数据库所面临的技术挑战。



一直以来,OceanBase 研发团队不断探索数据库核心技术、扩展技术边界及与国际学术界合作,构建共赢的生态系统,OceanBase 凭借其强大的技术支持和持续的产品创新,已成为满足企业级复杂数据处理需求的领先选择之一。


OceanBase 数据库实验室研究员徐泉清博士应邀在 International Workshop on Quality in Databases (QDB) 2024 上做了题为“Data Quality in OceanBase”的学术报告,并与Divesh Srivastava 博士(AT&T)和Fatma Ozcan 博士(Google )一起参与 Panel 讨论。


徐泉清博士介绍了 OceanBase 发展历程及其关键特性,并从 OceanBase 应用场景入手,从多源数据的数据质量、数据新鲜度、数据清洗、数据评估、数据质量改进等角度介绍了 OceanBase 在数据质量上的研究进展。未来 OceanBase 会在数据质量方面持续关注以下几个方面:第一,如何在超大规模数据库中高效合理地修复数据;第二,我们的数据库往往包含来自多个实体的记录,如何保证多源数据的一致性;第三,如何进一步将机器学习应用于数据质量提升和数据价值评估。



随后,在南洋理工大学 Sourav S Bhowmick 副教授的主持下,徐泉清博士与来自 AT&T 的 Divesh Srivastava 博士和来自 Google 的 Fatma Ozcan 博士进行了激烈的 Panel 讨论。在讨论中,他们指出了工业界目前面临的主要数据质量挑战,而一些挑战尚未引起学术界的足够重视。在数据质量研究中,学术界已经关注到一些问题,但尚未与实践相关,数据质量研究从学术界到工业界的转移的现状需要改善。



2 篇论文入选,理论创新再获国际顶会认可


在本届 VLDB 大会上,OceanBase 共有两篇论文入选,OceanBase  高级开发工程师陈斌,与 OceanBase 数据库实验室研究员徐泉清,在 VLDB 现场分别对两篇论文进行了宣讲,这代表着 OceanBase 技术创新能力再次荣获国际顶会认可。


入选论文 1《PALF: Replicated Write-Ahead Logging for Distributed Databases》创新性地提出并阐述了分布式日志系统 PALF(Paxos-backed Append-only Log File System),该日志系统已成功应用于 OceanBase 4.0 及后续版本中,有效支持了 OceanBase 数据库的高可用、高可靠、高性能特性,以及物理备库、备份恢复等重要功能。



入选论文 2《Native Distributed Databases: Problems, Challenges and Opportunities》由 OceanBase 团队与华东师范大学合作完成。论文从学术界与工业界结合的视角,以 OceanBase 作为典型案例,从数据同步、一致性模型、分布式事务、查询处理等多个方面,揭示了当前分布式数据库面临的主要技术挑战及其解决方案。



继《OceanBase Paetica: A Hybrid Shared-nothing/Shared-everything Database for Supporting Single Machine and Distributed Cluster》、《OceanBase: A 707 Million tpmC Distributed Relational Database System》等论文之后,此次两篇论文入选,标志着 OceanBase 的学术水平再上一个台阶。OceanBase 通过学术论文的形式,与业内分享支撑关键业务负载的最核心的分布式内核沉淀和一体化分布式数据库背后的底层技术逻辑,实现学术界与工业界互相启发,共同推动数据库技术的进步与创新。


写在最后


近年来,OceanBase 在 SIGMOD、VLDB、ICDE 等国际数据库顶会及相关期刊上成功发表 20 多篇论文,充分利用其本身的技术实力,与国内外顶尖科研团队强强联合,共同推动分布式数据库技术的创新、应用和学术进展,在数据库领域的技术能力和创新成果得到全球数据库领域学术界的认可。


未来,OceanBase 将继续加大在基础研究和工程研发上的投入,砥砺自研,探索分布式数据库与大数据分析、AI 应用等更广泛领域的融合,并将最新的技术突破和创新方向与全球技术开发者分享,助力客户构建现代数据架构,为数据库领域的技术和产业发展提供价值,助力客户应对市场变化和技术革新的挑战。


往期推荐

▼ 点击「阅读原文」,进一步了解OceanBase

OceanBase
OceanBase专注原生分布式数据库研发,自研分布式技术,在普通的PC服务器上实现了金融级的高可用,拥有企业版、OB Cloud、社区版三大产品,已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号,感谢您的关注。
 最新文章