WXRedian | StarRocks | StarRocks Lakehouse 快速入门—

StarRocks Lakehouse 快速入门旨在帮助大家快速了解湖仓相关技术，内容涵盖关键特性介绍、独特的优势、使用场景和如何与 StarRocks 快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解 StarRocks Lakehouse 的最佳实践！

Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式，这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案，于 2018 年在 Apache 孵化器下开源，并在 2020 年毕业。

架构设计

Iceberg 的核心目标是通过快照跟踪表随时间的所有变化，这些快照代表了任意时刻表数据文件的完整集合。每次更新操作都会生成一个新快照，确保数据一致性，并促进历史数据分析和增量读取。

关键特性

StarRocks 能高效地分析本地和数据湖中的数据，支持 Iceberg External Catalog，无需数据迁移即可查询 Iceberg 数据。StarRocks 支持 Iceberg v1、v2 读写，并通过以下方式优化查询性能：

Iceberg 部署

环境

下载 Docker Compose 文件和数据集

本教程中使用的数据集为纽约市绿色出租车行程记录，为 Parquet 格式。

在 Docker 中启动环境

提示：所有 docker compose 命令必须从包含 docker-compose.yml 文件的目录中运行。

PySpark

运行以下命令将数据集文件复制到 spark-iceberg 容器中的 /opt/spark/ 路径。

启动 PySpark

DataFrame 是 Spark SQL 的一部分，提供类似于数据库表的数据结构。

您需要从 /opt/spark 路径导入数据集文件至 DataFrame 中，并通过查询其中部分数据检查数据导入是否成功。

在此步骤中创建的 Iceberg 表将在下一步中用于 StarRocks External Catalog。

使用 SQL 客户端连接到 StarRocks

SQL 客户端

如果您使用 StarRocks 容器中的 MySQL Client，需要从包含 docker-compose.yml 文件的路径运行以下命令。

创建 External Catalog

您可以通过创建 External Catalog 将 StarRocks 连接至您的数据湖。以下示例基于以上 Iceberg 数据源创建 External Catalog。

查询接单时间

Iceberg介绍及集成Hive、Flink、Spark（上）：https://forum.mirrorship.cn/t/topic/14609
Iceberg介绍及集成Hive、Flink、Spark（下）：https://forum.mirrorship.cn/t/topic/14610

关于 StarRocks

Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库，遵循 Apache 2.0 开源协议。

面世三年来，StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式，是实现数字化转型和降本增效的关键基础设施。目前，全球 420 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力，这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。

StarRocks 全球开源社区也正飞速成长。目前，StarRocks 的 GitHub star 数已达 8600，吸引了超过 350 位贡献者和数十家国内外行业头部企业参与共建，用户社区也有过万人的规模。凭借其卓越的表现，StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。

金融：中信建投｜中原银行 | 申万宏源 | 平安银行 | 中欧财富

互联网：微信｜小红书｜网易邮箱｜滴滴｜美团餐饮SaaS | B站｜携程 | 同程旅行｜58同城｜芒果TV｜得物｜贝壳｜汽车之家｜欢聚集团｜腾讯｜腾讯音乐

游戏：腾讯游戏｜波克城市｜37手游 | 游族网络

新经济：蔚来汽车｜理想汽车｜顺丰｜京东物流｜跨越速运 | 大润发｜华润万家｜TCL ｜万物新生 | 百草味 | 多点 DMALL | 酷开科技

StarRocks 技术内幕：极速湖仓神器：物化视图｜存算分离，兼顾降本与增效｜实时更新与极速查询如何兼得｜Query Cache，一招搞定高并发｜跨集群数据迁移｜易用性全面提升｜StarRocks vs.Trino｜StarRocks & Iceberg强强联合

StarRocks

StarRocks 是 Linux 基金会旗下的开源项目，专注于打造世界顶级的分析型数据库，以帮助企业建立“极速统一”的湖仓新范式。目前， StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。

StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Iceberg 架构与关键特性

1
架构设计

2
关键特性

1
Iceberg 部署

2
环境

3
下载 Docker Compose 文件和数据集

4
在 Docker 中启动环境

5
PySpark

6
启动 PySpark

1
使用 SQL 客户端连接到 StarRocks

SQL 客户端

2
创建 External Catalog

1
查询接单时间

StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Iceberg 架构与关键特性

1架构设计

2关键特性

1Iceberg 部署

2环境

3下载 Docker Compose 文件和数据集

4在 Docker 中启动环境

5PySpark

6启动 PySpark

1使用 SQL 客户端连接到 StarRocks