WXRedian | StarRocks | StarRocks 跨集群数据迁移：SDM 帮你一键搞定！

情景一：想象一下，你急需验证新版本，但又不能影响线上已有集群的运行。你需要在不影响现有集群的基础上将数据迁移到新集群以进行验证。

情景二：听说 StarRocks 新推出的存算分离模式超级给力，你肯定也想试试水，为业务降本增效吧？但问题来了，怎么把现有的数据平滑而高效地迁移到这个新模式下呢？

情景三：你想实现读写分离，即主集群写入数据后，自动同步到备集群，然后在备集群进行查询。

情景四：你的业务需要实现跨机房灾备，这样即使主机房集群挂了，也可以从其他机房的备集群快速启动。

我相信，正在使用 StarRocks 的你或许也正经历这些复杂的需求。别担心，今天我要教大家如何使用好 StarRocks 自带的跨集群迁移解决方案- StarRocks Data Migration（SDM）。掌握了它，数据迁移将变得更轻松而高效，让你的数据处理如同行云流水般顺畅。

StarRocks Data Migration 是 StarRocks 推出的跨集群数据同步工具。借助该工具，你可以灵活的配置要同步的库、表、甚至整个集群的数据，然后无需人工干预，数据会按照配置好的规则自动从源集群同步到目标集群，而且效率非常高。StarRocks Data Migration 具有以下特点：

关于 StarRocks Data Migration 的具体使用方法，请参考官方文档：https://docs.starrocks.io/zh/docs/administration/data_migration_tool

同步效率是数据迁移同步中最重要的指标之一，因此我们进行了专项测试，以下是测试结果的展示。

测试环境

测试过程中向源集群导入 SSB 1T 和 TPCH 1T 数据集，完成数据同步后，我们在目标集群查看每个表的同步事务的开始时间与提交时间，进而计算同步耗时和同步速度。

SSB 迁移

TPCH 迁移

看完了 StarRocks Data Migration 工具的介绍和性能测试之后，接下来要带大家了解它是怎么实现的。

StarRocks Data Migration Tool 会周期性地获取源集群和目标集群的元数据进行对比，根据比对结果在目标集群创建所需的库、表、分区等，并提交数据同步任务。

数据同步以表为单位，每次同步启动一个事务，保证了同步任务的原子性，要么全部成功，要么全部失败，不会出现部分成功部分失败的情况，确保了数据一致性。

目标集群接受数据同步任务后，首先开启一个事务，然后向相关的 BE 下发同步任务。BE 收到任务后，先请求源集群进行一次快照，防止同步过程中数据被清理。目标集群在高负载情况下会拒绝新的数据同步任务，以进行自我保护。

快照是一个轻量级操作，不会影响源集群。一旦完成快照，目标集群就可以拷贝快照中的数据文件。数据拷贝采用 BE 之间的点对点方式，速度快，效率高，并在拷贝过程中自动限流，避免对源集群产生过大压力。

当本次同步任务的所有数据拷贝完成后，FE 即可提交同步事务，使本次同步数据立即生效。同时，事务提交后，源集群上生成的快照也会被清理，确保数据同步后的环境整洁。

关于 StarRocks

Linux 基金会项目 StarRocks 是新一代极速全场景 MPP 数据库，遵循 Apache 2.0 开源协议。

面世三年来，StarRocks 致力于帮助企业构建极速统一的湖仓分析新范式，是实现数字化转型和降本增效的关键基础设施。目前，全球 360 家以上市值超过 70 亿元人民币的顶尖企业选择用 StarRocks 来构建新一代数据分析能力，这些企业包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、大润发、百草味、顺丰、京东物流、TCL、OPPO 等。StarRocks 也已经和全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作关系。

StarRocks 全球开源社区也正飞速成长。目前，StarRocks 的 GitHub star 数已达 7800，吸引了超过 330 位贡献者和数十家国内外行业头部企业参与共建，用户社区也有过万人的规模。凭借其卓越的表现，StarRocks 荣获了全球著名科技媒体 InfoWorld 颁发的 2023 BOSSIE Award 最佳开源软件奖项。

金融：中信建投｜中原银行 | 申万宏源 | 平安银行 | 中欧财富

互联网：微信｜小红书｜网易邮箱｜滴滴｜美团餐饮SaaS | B站｜携程 | 同程旅行｜360｜58同城｜芒果TV｜得物｜贝壳｜汽车之家｜欢聚集团｜腾讯

游戏：腾讯游戏｜波克城市｜37手游 | 游族网络

新经济：蔚来汽车｜理想汽车｜顺丰｜京东物流｜跨越速运 | 大润发｜华润万家｜TCL ｜万物新生 | 百草味 | 多点 DMALL | 酷开科技

StarRocks 技术内幕：极速湖仓神器：物化视图｜存算分离，兼顾降本与增效｜实时更新与极速查询如何兼得｜Query Cache，一招搞定高并发｜资源隔离｜大数据自动管理｜查询原理浅析｜易用性全面提升

StarRocks

StarRocks 是 Linux 基金会旗下的开源项目，专注于打造世界顶级的分析型数据库，以帮助企业建立“极速统一”的湖仓新范式。目前， StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。

StarRocks 跨集群数据迁移：SDM 帮你一键搞定！

1
测试环境

2
SSB 迁移

3
TPCH 迁移

StarRocks 跨集群数据迁移：SDM 帮你一键搞定！

1测试环境

2SSB 迁移

3TPCH 迁移

1
测试环境

2
SSB 迁移

3
TPCH 迁移