从数据特征的演变解析流式数据库的关键优势

文摘科技 2024-06-20 17:35 北京

作者： Rayees｜RisingWave Labs Head of Product

“数据像鱼一样，越放越臭，不像酒，越陈越香。”

上述观点可能显得有些尖锐，但也有其道理所在。随着企业努力利用数据来实现新的商业模式，现有的数据栈明显无法继续满足需求，因为传统数据栈设计之初并未考虑到如今企业对于“超低延迟”的要求。

在深入探讨新应用不断涌现的需求之前，让我们回顾大约十年前的数据和分析领域的主要趋势，毫无疑问是“大数据”运动。思想领袖们用三个 V 来定义“大数据”：体量（Volume）、速度（Velocity）和多样性（Variety）。

简而言之，“大数据”指的是来自新来源的大量且复杂的数据集。这些数据集对于传统软件来说过于庞大，但可以用来解决以前无法解决的业务问题。

企业有巨大的潜力从海量数据中提取有意义的信息。然而，由于缺乏处理如此庞大数据集的工具，这一潜力尚未被充分发挥。大家引入 Hadoop 这类技术期望能够释放这一潜力，但这些大数据技术主要关注解决体量方面的问题，大多数用户没有看到其必要性或价值，所以没有被广泛使用。

为什么会这样呢？

原因有很多，但主要原因是数据的有限保质期。数据从业者面临实时访问数据的挑战，准确地说是在数据的内在价值还很高时实时访问数据的挑战。简单地将原始数据存储在数据湖中类似于数据倾倒，而不是利用数据。

另一个重要原因是即便数据可访问，其原始形式通常也不足以进行有效分析。要从数据中提取有价值的信息，复杂的提取-转换-加载（ETL）过程变得必要。数据依然被隔离在独立系统中，并与特定应用紧密相连。数据源的集成最近才通过消息队列和 CDC 连接器得以改善。

1数据特征的演变

传统数据从业者都会关注以下特征：

数据从业者关注的传统数据特征：Accuracy (准确性)；Completeness (完整性)；Reliability (可靠性)

数据库管理系统用 ACID （Atomicity, Consistency, Isolation, Durability）原则支持这些特征。

原子性（Atomicity）：通过全有或全无的语义确保完整性。
一致性（Consistency）：通过约束确保数据准确性。
隔离性（Isolation）：为数据完整性和准确性提供保证。
持久性（Durability）：基于不可变写入确保数据的可靠性。

ACID 原则在满足各种业务需求方面是有效的。当前的数据处理系统确保在任何数据栈中对这些特征的强大支持，所以企业能够处理依赖于静态数据快照的工作量。虽然业内已经通过各种优化来提升处理工作的速度和实时能力，但这些改进仍不能满足需要。

数据圈内，越来越多的人达成共识，认为应将数据视为连续无限的流，而不是快照。企业不再满足于了解过去发生了什么，他们更加关注预测未来结果，这需要对数据进行“实时”分析。在这种情况下，“实时”是由数据延迟定义的，而不是查询延迟。为了更好地理解，我们需要为数据的定义建立一套新的特征。

为了解决这些特征，新的数据处理范式是必要的。这个范式将：

处理离散事件数据。
连续处理实时数据。
集成多个数据流进行状态处理。

2早期流处理解决方案

要支持上一节讨论的新的数据处理范式，新的数据处理栈是必要的。这个数据栈应具备以下特征：

事件数据语义以保持事件数据的一致性。
增量计算模型以对实时数据进行连续更新。
熟悉的关系数据模型，将流视为表，以实现各种数据源的无缝集成。

第一代流处理系统：流处理系统已经在满足这些需求方面努力了一段时间。第一代流处理系统，如 Spark Streaming、Apache Heron 和早期版本的 Flink，在某些方面证明了其价值。例如，它们在微批处理方面表现出色，适合特定的使用场景。Spark Streaming 对于希望将流处理纳入现有工作负载的 Spark 用户来说，是一个有价值的补充。总体而言，这些系统继承了成熟的批处理模型的许多优点。

然而，它们也从传统批处理模型中继承了调度和协调问题。它们不支持真正的事件时间语义，这对于在事件驱动架构中构建应用至关重要。此外，这些技术仅关注数据处理方面。缺乏数据存储意味着需要一个单独的数据存储来实现持久化，从而导致应用性能下降和运营开销增加。此外，这些系统主要为早期采用者设计，他们习惯于使用低级 API 和接口。因此，这些技术在快速轻松构建实时应用方面没有显著进展。

3新一代流处理解决方案

为了使流处理更加广泛地被采用，必须将 SQL 作为标准 API。此外，新系统应包括内置存储层以有效处理数据检索。

流式数据库的出现：其旨在结合流处理引擎的增量处理能力与传统数据库的基于 SQL 的分析和持久化能力。新一代流式数据库的出现可以改善依赖于独立平台进行流处理和批处理所带来的操作低效问题。流式数据库，如 RisingWave 和 Materialize，旨在使用 SQL 查询和实时物化视图连续处理事件数据流。它们还会持久化历史事件数据以供进一步分析。

与将数据存储在外部数据库中的流计算引擎不同，流式数据库设计之初就考虑到了提供内置处理和持久化能力。这意味着单一的流式数据库就可以作为 Apache Flink + Apache Cassandra 等工具组合的可行替代方案。这样做简化了部署、配置、集成和管理。通过流式数据库，数据库功能向上游转移，实现数据到达时的实时处理，并促进数据的即时服务。

4展望未来

通过结合早期流处理引擎和传统数据库系统的优势，我们正在降低流处理的门槛，让更广泛的用户群体受益。这种融合的影响是深远的，企业可以利用实时数据分析做出明智的决策，预测结果，并获得竞争优势。连续的实时数据处理和多数据流的集成支持各种应用场景，包括欺诈检测、实时个性化、供应链优化和物联网分析。此外，流处理的大众化使数据工程师、数据科学家和数据分析师能够在无需大量专业技术知识储备的情况下开发实时应用。

关于 RisingWave

RisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库，致力于为用户提供极致简单、高效的流数据处理与管理能力。RisingWave 采用存算分离架构，实现了高效的复杂查询、瞬时动态扩缩容以及快速故障恢复，并助力用户极大地简化流计算架构，轻松搭建稳定且高效的流计算应用。

RisingWave 始终聆听来自社区的声音，并积极回应用户的反馈。目前，RisingWave 已汇聚了近 150 名开源贡献者和近 3000 名社区成员。全球范围内，已有上百个 RisingWave 集群在生产环境中部署。

往期推荐

技术内幕

如何上手 RisingWave 👉 新手入门教程

RisingWave 中文用户文档上线，阅读更高效！

深入探索 RisingWave 中的高可用性与容错机制

深入理解 RisingWave 流处理引擎（三）：触发机制

深入理解 RisingWave 流处理引擎（二）：计算模型

深入理解 RisingWave 流处理引擎（一）：总览

用户案例

视源股份（CVTE）IT 流计算应用历程

尘锋 SCRM 如何使用 RisingWave 实时打宽

RisingWave 在超百亿管理规模对冲基金公司中的应用

金融科技公司 Kaito 使用 RisingWave 实现实时智能化

龙腾出行如何通过 RisingWave 实现实时数据分析

RisingWave 助力乾象投资打造实时监控平台

http://mp.weixin.qq.com/s?__biz=MzkwMDI2MTk1MA==&mid=2247494435&idx=1&sn=6a3b02d6f743a4d882db89b47d56b8ea

RisingWave中文开源社区

RisingWave 是一款开源分布式 SQL 流数据库，致力于大幅降低流计算使用门槛与复杂度。RisingWave 已为全球超百家企业构建新一代流处理与分析平台。

最新文章

Secret Management｜安全管理敏感信息

RisingWave 正式通过 GDPR 和 HIPAA 合规性认证

Time Travel Queries｜在 RisingWave 中访问历史数据

深入探索 RisingWave meta store 的演进历程

RisingWave Premium｜常见问题解答

RisingWave 2.0｜以流处理为核心的统一数据处理框架

重大升级！RisingWave 2.0 发布！

RisingWave 集成速查表

活动报名｜RisingWave X Apache OpenDAL 北京站 Meetup｜9 月 14 日

用 Helm 在 Kubernetes 中部署 RisingWave 集群

展望 RisingWave 2.0: 提供流批一体功能的 SQL 数据库

活动报名｜RisingWave 走进 Rust China Conf 2024｜9 月 7-8 日

RisingWave Streaming SQL 速查表

解决指标碎片化：将流式数据库用于指标存储

如何解决 Compute 节点上的内存溢出（OOM）问题

RisingWave Demo：快速挖掘社交平台数据价值

活动报名｜RisingWave X ClickHouse UG 广州站 Meetup｜8 月 25 日 14:00-17:00

RisingWave 用户定义函数 (三)：Python 外部函数

RisingWave 1.10 发布！新增用户自定义聚合函数

深入了解 RisingWave（四）性能优化的最佳实践

深入了解 RisingWave（三）性能相关的主要指标

深入了解 RisingWave（二）架构、容错、数据持久化

深入了解 RisingWave（一）关键概念、术语表

RisingWave 用例：流式 ETL、实时分析、事件驱动应用

RisingWave Demo：自动化检测服务器性能异常

RisingWave Demo：直播流量指标分析

流处理系统对比：RisingWave vs ksqlDB

RisingWave 用户定义函数 (二): Rust x WebAssembly

走近数据变更捕获（CDC）：定义、优势和用例

活动报名｜RisingWave 走进亚马逊云科技 UG 北京站 Meetup｜6 月 29 日 13:30-17:30

从数据特征的演变解析流式数据库的关键优势

最大化停车场利用率：RisingWave 的智能解决方案

不同数据系统中的“一致性”含义的区别

RisingWave 1.9 发布！新增 Snowflake sink 连接器

在 RisingWave 中实现 Sink 与上游物化视图解耦

Postgres X RisingWave 的最佳实践

为什么 RisingWave 是流处理的最佳选择？

使用 RisingWave、Upstash 和 Metabase 进行实时航班跟踪

使用 RisingWave 和 Redash 处理和可视化实时数据

使用 WarpStream、RisingWave 和 Grafana 进行实时网站监控

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉