WXRedian | StarRocks | StarRocks 在 Shopee 数据产品的实践

在 Shopee，我们在多个平台上采用了 StarRocks ，利用其能力来满足各种分析需求。让我们深入探讨一下 StarRocks 如何在三个不同场景中在我们的数据环境中发挥了关键作用。

Data Service 产品简介

Data Service 是 Shopee 的一个数据平台产品，旨在以 API 的形式提供用户需要的数据，并管理整个 API 生命周期。通过数据服务，用户可以轻松选择所需的 Hive 表和列，配置过滤条件，创建 API。在后台，Data Service 根据用户的配置生成查询语句。当用户触发 API 时，数据服务运行查询语句并将请求的数据返回给用户。然而，当查询过于复杂时，可能需要数分钟到数小时才能完成查询执行；有时甚至需要更长时间。

Data Service 使用 StarRocks 来实现查询加速 – OLAP SpeedUp

a. StarRocks 支持对 Hive 进行查询，并且这一功能已经达到生产级别。

c. 使用 StarRocks 在 Hive 上的 MV，用户无需维护从 Hive 到 OLAP 引擎的实时或近实时写入管道。这不仅节省了用户在人工资源开发成本上的支出，也减少了实时管道所需的组件成本。此外，这种方法对用户的使用没有任何影响；他们无需做任何工作就能从 API 查询性能的提升中受益。这种方法也大大提升了用户业务推广的效率。

Data Service 利用 StarRocks 来加速查询，这一功能称为 olap-speedup。以下查询为例。Data Service 首先要求用户把 SQL 逻辑写成 CTE 的模式然后后端会将用户的 SQL with 部分提取出来改造成 StarRocks 异步物化视图的 create stmt。"With" 语句中的 SQL 称为公共表表达式（CTE）。

这种优化使查询执行速度提高了 10 到 2000 倍，减少了资源消耗并提高了整体效率。

下表显示了 Data Service API 的执行时间统计。目前，这 5 个 API 分别通过 Presto 查询 Hive 和查询 StarRocks 物化视图各运行一次。这使得可以直观地比较两种方法的 p90 和 p99 执行时间。

在 Data Service 的 OLAP 加速场景中，StarRocks 支持基于外部存储的材料化视图加速，也就是说在物化视图刷新期间，它将根据物化视图的计算逻辑，从 Hive 中提取预计算的数据到本地 StarRocks 存储。这提供了 ETL 和预计算的功能。不论是业务用户利用数据服务平台，还是数据服务平台的开发人员，都无需额外的人力来维护实时写入流水线。这显著节省了人力成本，以及实时流水线所需的 ETL 任务的组件成本。

Data Go 产品简介

Data Go 是一个 codeless 的数据查询构建平台，支持业务用户从可访问的数据模型中检索感兴趣的指标数据（例如店铺绩效、订单 GMV 等）。数据模型由数据管理员创建，通过向数据模型中添加1个或多个表或者数据列。数据用户可以选择适当的数据模型，通过选择输出列并应用筛选器来构建查询。当用户在 UI 上触发查询时，Data Go 使用 Presto 引擎检索 Hive 数据并将数据下载到 CSV 文件供用户使用。然而当从多个表中提取数据时，多表连接查询的性能优化可能具有挑战性，往往会导致增加的资源消耗和查询执行时间。

Data Go 使用 StarRocks 实现加速多表 JOIN 的场景

Data Go 已经实施了使用 StarRocks 代替 Presto 进行表连接查询的策略。在多个国家的多个数据模型上进行了使用 StarRocks 和 Presto 的查询性能对比测试。

以 “Product Group - MY” 为例，以下是基于产品组的一个样本查询。在使用 Presto 执行这种复杂查询时，平均耗时 364 秒。而 StarRocks 仅用 20 秒就完成了相同的查询。因此，StarRocks 执行查询所需的时间显著减少。这种高效性使 StarRocks 能够在相同的时间框架内处理更多的查询，同时每个查询分配的资源更少。

StarRocks 集群和 Presto 集群资源使用对比

基于对 Data Go 在线使用情况的分析，利用 StarRocks 在 Hive 上进行业务操作，与使用 Presto 查询 Hive 相比，平均性能提升了 3 到 10 倍，同时节省了 60% 的 CPU 资源。

Data Studio 产品简介

Data Studio StarRocks On Hive 介绍

根据 Data Studio 的测试结果，在使用相同计算资源（400 核心 + 2700GB 内存）的情况下，StarRocks 的性能比 Presto 提升了 2 到 3 倍。换句话说，StarRocks 可以用 Presto 仅 50% 到 70% 的资源提供与 Presto 相当的计算能力。

总而言之，StarRocks 在多种用户场景中表现出色，提供了从外部数据湖的高速查询、优化的多表连接查询性能，以及比 Presto 更优越的执行速度和资源节省。StarRocks 在我们组织中的广泛应用，包括数据服务、Data Go、Data Studio 等。它有效地解决了痛点并优化了数据分析的资源利用，使其成为数据分析需求的理想解决方案。

特别资讯：Shopee 大数据专家工程师马腾将于 12 月 7 日在 StarRocks Summit Asia 2024 湖仓最佳实践分论坛分享 StarRocks 相关应用实践，欢迎感兴趣的用户扫码报名，到现场近距离了解详情～

关于 StarRocks

Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库，遵循 Apache 2.0 开源协议。

面世三年来，StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式，是实现数字化转型和降本增效的关键基础设施。目前，全球 450 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力，这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。

StarRocks 全球开源社区也正飞速成长。目前，StarRocks 的 GitHub star 数已达 8900，吸引了超过 450 位贡献者和数十家国内外行业头部企业参与共建，用户社区也有过万人的规模。凭借其卓越的表现，StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。

StarRocks

StarRocks 是 Linux 基金会旗下的开源项目，专注于打造世界顶级的分析型数据库，以帮助企业建立“极速统一”的湖仓新范式。目前， StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。

StarRocks 在 Shopee 数据产品的实践

背景介绍

1
Data Service 产品简介

2
Data Service 使用 StarRocks 来实现查询加速 – OLAP SpeedUp

1
Data Go 产品简介

2
Data Go 使用 StarRocks 实现加速多表 JOIN 的场景

3
StarRocks 集群和 Presto 集群资源使用对比

1
Data Studio 产品简介

1
Data Studio StarRocks On Hive 介绍

StarRocks 在 Shopee 数据产品的实践

背景介绍

1Data Service 产品简介

2Data Service 使用 StarRocks 来实现查询加速 – OLAP SpeedUp

1Data Go 产品简介

2Data Go 使用 StarRocks 实现加速 多表 JOIN 的场景

3StarRocks 集群和 Presto 集群资源使用对比

1Data Studio 产品简介