倒计时2天|阳振坤谈大模型时代下数据库变革之路

科技   2024-10-21 18:01   北京  

距离 2024 OceanBase 年度发布会

倒计时 2 天!

近日,2024 金融业数据库技术大会在北京成功举办,大会以“大模型时代下的数据库创新发展 ”为主题,吸引了众多国内外知名金融机构、科技企业、专家学者以及政府领导参加,通过分享最新的研究成果和技术趋势,共同探讨在大数据、人工智能等技术快速发展的背景下,金融行业如何通过数据库技术创新实现高质量发展。


 OceanBase 首席科学家阳振坤受邀出席,并发表了《大模型时代的数据库思考》主题演讲。在演讲中,阳振坤指出:大模型时代下,海量数据带来高昂成本,云和分布式技术可以提高资源利用率,降低数据库使用成本,将是数据库技术未来的发展方向。以下为演讲实录:


 

海量数据和分布式数据库是大模型时代的基石

各位领导,各位专家,很高兴跟大家分享我对大模型时代数据库的一些想法。大模型的时代,一个很大的挑战就是海量数据。海量数据同时也带来了高昂的成本。数据库应该如何应对海量数据和高昂成本的挑战,我觉得有两个基本点,一个是分布式,第二是云化。

可能有人对此有不同的看法,认为金融出于安全、保密等各方面原因,离云很远。我认为,不完全如此。最核心数据还会放在自己的机房里,但是会有更多的东西会逐步走向云。后面我也会跟大家分享云的价值。

我们先看分布式。大家的认知里,可能有两种分布式,一种是乐高积木搭出来分布式,一种是真正的原生分布式。乐高积木搭出来的分布式就像小飞机,小飞机可以运载一些人员和轻型设备,真正的重型设备需要大飞机运输,这是小飞机无法做到的。乐高积木式的分布式在大模型、实时报表、实时分析等场景下,也难以实现复杂的数据分析与管理。

上云是降本增效的战略选择

为什么很多企业在一段时间内大量采用云服务?原因逃不过四个字:降本增效。如果我们可以帮助企业提升业务效率、降低运营成本,那么企业一定是欢迎的。云在降本增效这两个方面成效显著。


一个是效率。因为企业需要的计算资源、存储资源,如果自己去购买,最小也是以天为单位计费,但在云上就是以秒计算,多了随时可以退掉,少了可以随时追加,规模效应下的动态伸缩、按需使用的计算与存储服务,将极大提升企业的效率。

另外是成本。好的技术如果增加了企业成本,也很难被人接受。云通过规模效应下资源的池化与复用,大幅降低了企业成本。

资源复用在生活中很常见。举个例子,大家都有 5G 手机,带宽是几十兆至一百兆。实际上,我们所有人都在共享这一个 5G 平台的带宽。有线网络也一样,北京几百万家庭,如果每家家庭网络是独栈的,这将一个巨大的负担。

大负载企业的计算机的利用率通常是个位数,如果云通过集中化把这个比例提高一倍到 20%,用一份硬件投资买两份硬件,这里产生多余的一份硬件几乎是纯利用,但是这个纯利用不可能自己获得,还有一部分返给了相应企业,一定程度也可以降低企业成本。

存储也是如此。当很多台机器每个都是本地硬盘的时候,为了防止本地硬盘写满爆掉,很难把利用率做到 70%-80%。如果把这些硬盘池化,将资源集中使用,那么有 20%-30% 的池化富余作为缓冲给所有资源使用,相当于整个池子可达70%-80% 的利用率。

另外是人的成本。我们派一个技术人员去金融机构,大量时间耗费在路上,还有门口的安全、保卫、登记措施,浪费大量的时间,假如跨地域服务还涉及到差旅。原来我们一个人一天最多服务一两个客户,但在云上,一个专家一天可以服务 8-10 个客户,在线就可以解决相关问题。

 
从全球数据库的市场份额可以看到,今天全世界云上的数据库的市场份额占有率超过 60%,已经显著超过云下,且每年的增量份额,云上占了超过 90%,这意味着云上数据库市场未来几年还会进一步扩大。


如何做好资源复用?单机数据库和分布式数据库之间存在巨大的差异,云上资源的复用至关重要。资源复用率高,整个成本就能降低。这些 CPU 被申请之后,单台的物理机上 CPU 一定会呈现碎片化的趋势,整体还有余量,但单台 CPU 已不够用。如一个 711 的便利店,晚上流量很小,中午、早上流量很大。业务低峰 2 个 CPU 就够用,但是业务高峰要需 6 个 CPU。这里有 5 台机器,每一台机器的 CPU 都不足以支撑业务。如果是分布式数据库,则可以利用更多的资源,6 个 CPU 不够,用 8 -10 个就可以支撑业务,提升整个系统的资源利用率。

最后,我对今天的分享做一个简单的总结。数据库其实和 IT 三大件、CPU、操作系统一样,和地域文化相关度非常小。过去很多年,是别人引领潮流,无论是商业数据库还是开源数据库,是别人构筑了这个潮流带领我们使用。分布式数据库和大模型、互联网一样,其实是给我们提供了一个机会,让我们能真正构建分布式数据库,来引领这个世界的潮流。

10 月 23 号,2024 OceanBase 年度发布会将在北京召开,届时阳振坤老师将发表《云时代数据库的思考》主题演讲,更多关于云和 AI 时代数据库的发展趋势,欢迎大家通过《全议程公布!想想想想想想见你!》了解全部议程详情和报名参与本次年度发布会,进一步走近 OceanBase,认识 OceanBase!💪

⏰ 不能去现场👉速速拿捏直播
💡 想知道哪些嘉宾在👉点这里全议程
😊 立即报名👉阅读原文
后天见!


往期推荐

▼ 点击「阅读原文」,报名年度发布会

OceanBase
OceanBase专注原生分布式数据库研发,自研分布式技术,在普通的PC服务器上实现了金融级的高可用,拥有企业版、OB Cloud、社区版三大产品,已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号,感谢您的关注。
 最新文章