WXRedian | StarRocks | StarRocks x 金山办公：湖仓架构实现成本与效率的双赢

金山办公是一家办公软件和服务提供商，主要从事 WPS Office 办公软件产品及服务的设计研发及销售推⼴。产品包括 WPS Office 办公软件、⾦⼭⽂档等协同办公产品、⾦⼭词霸等，可在 Windows、Linux、macOS、Android、iOS 、Harmony 等众多主流操作平台上应⽤。

报表平台作为公司大数据平台组的核心服务，其架构在早期迭代中引入了 Tez、Spark、Trino、ClickHouse 等多种开源技术，以满足业务需求和应用场景的多样性。然而，随着平台的发展，一些挑战也逐渐显现：

基于“降本增效”的核心理念，我们在对现有技术架构进行全面审视和统一规划后，选择对当前技术架构做调整优化。

在调研的过程中我们发现 StarRocks 3.0 展现出了巨大潜力，这引起了我们极大的兴趣。在调研过程中，我们重点关注了以下几个方面：

存算分离架构

查询效率

在实际调研过程中，我们侧重验证了 StarRocks 数据湖外表查询性能。测试团队基于现有线上任务进行分类抽样，在测试环境同等资源下进行耗时对比测试，结果显示在整体耗时上 StarRocks 优于现有技术方案，且在大部分场景下耗时更低。

迁移成本

在数据接入方面，目前在 ClickHouse 我们主要利用 Kafka 进行数据流的接入，以支持实时的查询和计算需求。StarRocks 则提供了更为灵活的数据模型选择，除了支持通过 RountineLoad 方式接入 Kafka 数据外，也提供了四种数据模型，可满足大部分业务场景，有效替代了当前报表平台中 ClickHouse 所承担的功能。

运维成本

社区活跃度与生态支持

调研的结果充分显示 StarRocks 可以替代我们技术架构中的 ClickHouse 及 Trino，并且在服务维护及计算效率提升上都将有所助力。基于这些发现，我们开始着手将报表计算、人群与标签等关键业务场景迁移至 StarRocks。

作为早期采纳存算分离架构的团队之一，我们根据 StarRocks 当时版本的性能特点和我们的业务需求，成功在物理机和 K8s 环境中部署了两套 StarRocks 集群，分别服务于两大业务场景：

报表计算

鉴于 StarRocks 社区已将 Helm 部署模式作为生产环境的推荐部署方式，我们迅速在 K8s 环境中上线 StarRocks 集群，并开始了 Trino 任务的迁移工作。截至去年年底，已有近 80% 的任务(12000+ SQL 任务)成功迁移至 StarRocks。

人群与标签

数据流程说明

在构建新的标签平台时，我们面临了复杂的上游数据源集成挑战，数据来源包括 Hive、业务库、文件上传和 Kafka 等。StarRocks 凭借其数据湖功能和强大的联邦查询能力，为我们提供了高效便捷的数据访问解决方案：

在 StarRocks 集群上线观察期间，线上 SQL 任务总量增加 34%。为应对线上任务增加，集群资源(StarRocks+Trino)随之扩增 23% 。

查询效率提升

报表平台任务排队减少

集群资源富余增加

架构简化

目前，我们的团队使用 ClickHouse 集群来处理 Kafka 数据的实时消费和执行 OLAP 查询任务。StarRocks 同样具备处理这两项任务的能力，并且在运维成本方面，StarRocks 展现出了比 ClickHouse 更低的优势。

综合来看，StarRocks 完全能够覆盖我们在 Trino 和 ClickHouse 上的业务需求，它不仅简化了我们的技术架构，还降低了运维成本。

成本下降

在集群维护方面，由于 CN 节点不承担数据存储任务，扩缩容过程变得更加简洁，无需考虑节点上的数据迁移或平衡问题。这允许我们在服务器配置选择上更加专注于计算性能的优化。同时，当前的架构支持服务的容器化部署，这进一步降低了运维的复杂性和成本。

展望未来，我们对 StarRocks 充满了无限的期待。在最近版本中，StarRocks 已支持 Multi-Warehouse 功能，实现物理资源隔离。这一新增功能将为我们带来更多的便利与可能。我们可以将 ETL、OLAP、Routine Load 等计算场景进行隔离，互不干扰，从而提升资源的利用率和计算效率。我们计划将现有物理机集群逐步合并至 K8s 集群里，实现单个服务的支持。这一举措将大大降低我们的组件维护成本，提升服务的稳定性与可靠性。在 StarRocks 的助力下，我们相信未来的大数据平台将更加高效、灵活与强大。

关于 StarRocks

Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库，遵循 Apache 2.0 开源协议。

面世三年来，StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式，是实现数字化转型和降本增效的关键基础设施。目前，全球 400 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力，这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。

StarRocks 全球开源社区也正飞速成长。目前，StarRocks 的 GitHub star 数已达 8400，吸引了超过 350 位贡献者和数十家国内外行业头部企业参与共建，用户社区也有过万人的规模。凭借其卓越的表现，StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。

金融：中信建投｜中原银行 | 申万宏源 | 平安银行 | 中欧财富

互联网：微信｜小红书｜网易邮箱｜滴滴｜美团餐饮SaaS | B站｜携程 | 同程旅行｜58同城｜芒果TV｜得物｜贝壳｜汽车之家｜欢聚集团｜腾讯｜腾讯音乐

游戏：腾讯游戏｜波克城市｜37手游 | 游族网络

新经济：蔚来汽车｜理想汽车｜顺丰｜京东物流｜跨越速运 | 大润发｜华润万家｜TCL ｜万物新生 | 百草味 | 多点 DMALL | 酷开科技

StarRocks 技术内幕：极速湖仓神器：物化视图｜存算分离，兼顾降本与增效｜实时更新与极速查询如何兼得｜Query Cache，一招搞定高并发｜跨集群数据迁移｜易用性全面提升｜StarRocks vs.Trino｜StarRocks & Iceberg强强联合

StarRocks

StarRocks 是 Linux 基金会旗下的开源项目，专注于打造世界顶级的分析型数据库，以帮助企业建立“极速统一”的湖仓新范式。目前， StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。

StarRocks x 金山办公：湖仓架构实现成本与效率的双赢

1
存算分离架构

2
查询效率

3
迁移成本

4
运维成本

5
社区活跃度与生态支持

1
报表计算

2
人群与标签

数据流程说明

1
查询效率提升

2
报表平台任务排队减少

3
集群资源富余增加

4
架构简化

5
成本下降

StarRocks x 金山办公：湖仓架构实现成本与效率的双赢

1存算分离架构

2查询效率

3迁移成本

4运维成本

5社区活跃度与生态支持

1报表计算

2人群与标签