GreatSQL 并行Load Data加快数据导入

文摘科技 2024-08-14 08:01 福建

作者简介：寒风中额猪，万里数据库DBA，一个努力前行的DB人
* GreatSQL社区原创内容未经授权不得随意使用，转载请联系小编并注明来源。

数据库信息

数据库版本：GreatSQL 8.0.32-25

Clickhouse 表需要导入到 GreatSQL 中，表数据量庞大所以选用导出CSV的方式。

测试数据复现操作

load data

MySQL load data 语句能快速将一个文本文件的内容导入到对应的数据库表中（一般文本的一行对应表的一条记录）。数据库应用程序开发中，涉及大批量数据需要插入时，使用 load data 语句的效率比一般的 insert 语句的高很多可以看成select … into outfile语句的反操作，select … into outfile将数据库表中的数据导出保存到一个文件中。

load data 语法

LOAD DATA
    [LOW_PRIORITY | CONCURRENT] [LOCAL]
    INFILE 'file_name'
    [REPLACE | IGNORE]
    INTO TABLE tbl_name
    [PARTITION (partition_name [, partition_name] ...)]
    [CHARACTER SET charset_name]
    [{FIELDS | COLUMNS}
        [TERMINATED BY 'string']
        [[OPTIONALLY] ENCLOSED BY 'char']
        [ESCAPED BY 'char']
    ]
    [LINES
        [STARTING BY 'string']
        [TERMINATED BY 'string']
    ]
    [IGNORE number {LINES | ROWS}]
    [(col_name_or_user_var
        [, col_name_or_user_var] ...)]
    [SET col_name={expr | DEFAULT}
        [, col_name={expr | DEFAULT}] ...]

GreatSQL开启load data并行的方法

# 并行load data默认关闭，需要手动开启
 show variables like '%gdb_parallel_load%';
+------------------------------+---------+
| Variable_name                | Value   |
+------------------------------+---------+
| gdb_parallel_load            | OFF     |
| gdb_parallel_load_chunk_size | 4194304 |
| gdb_parallel_load_workers    | 6       |
+------------------------------+---------+
3 rows in set (0.03 sec)

方法一：设置session变量

连接数据库，执行set session gdb_parallel_load=on如需调整文件块大小或线程数，执行 SET SESSION gdb_parallel_load_chunk_size=65536 或 SET SESSION gdb_parallel_load_workers=16。使用原load data语句执行导入。

方法二：load语句增加hint

LOAD /*+ SET_VAR(gdb_parallel_load=ON) SET_VAR(gdb_parallel_load_chunk_size=65536) SET_VAR(gdb_parallel_load_workers=16) */ DATA INFILE '$MYSQLTEST_VARDIR/parallel_load_outfile.txt' INTO TABLE t1;

gdb_parallel_load 是否开启并行
gdb_parallel_load_chunk_size 文件块大小
gdb_parallel_load_workers 开启多少个线程同时导入

开启gdb_parallel_load=ON。默认配置是gdb_parallel_load_chunk_size=4194304，gdb_parallel_load_workers=6

测试数据创建

#Clickhouse制造测试数据
#建表并随机生成1000000行数据插入
CREATE TABLE test
ENGINE = MergeTree
ORDER BY user_id AS
SELECT
    number,
    concat('user_', toString(number)) AS user_id,
    concat('email_', toString(number), '@example.com') AS email,
    rand() AS random_value
FROM numbers(1, 1000000); 
Query id: a707f30c-180f-4453-bc18-b8e86ee46059
Ok.
0 rows in set. Elapsed: 0.575 sec. Processed 1.00 million rows, 8.00 MB (1.74 million rows/s., 13.92 MB/s.)
Peak memory usage: 157.29 MiB.
#查看表数据库和大小
SELECT
    table AS `表名`,
    sum(rows) AS `总行数`,
    formatReadableSize(sum(data_uncompressed_bytes)) AS `原始大小`,
    formatReadableSize(sum(data_compressed_bytes)) AS `压缩大小`,
    round((sum(data_compressed_bytes) / sum(data_uncompressed_bytes)) * 100, 0) AS `压缩率`
FROM system.parts
WHERE database IN ('mytest')
GROUP BY table
Query id: c107871c-d58d-41ff-9bb9-603ab5ad57c9
┌─表名─┬──总行数─┬─原始大小──┬─压缩大小──┬─压缩率─┐
│ test │ 1000000 │ 46.52 MiB │ 16.29 MiB │     35 │
└──────┴─────────┴───────────┴───────────┴────────┘
1 row in set. Elapsed: 0.010 sec. 

SELECT count(*) FROM test
Query id: 0e49726f-75d2-402f-a83d-1c1534489b51
┌─count()─┐
│ 1000000 │
└─────────┘
1 row in set. Elapsed: 0.004 sec.

创建GreatSQL库对应库表结构

greatsql> CREATE TABLE `mytest1`.`test` (  
    `number`  BIGINT PRIMARY KEY, 
    `user_id` VARCHAR(255),  
    `email` VARCHAR(255),  
    `random_value`  INT  
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

导出导入语句样例

Clickhouse导出
{ck_cmd} -q 'SELECT * FROM table FORMAT CSV #{ck_cmd}为clickhouse-client的位置
GreatSQL导入
{gdb_cmd} -e "LOAD /*+ SET_VAR(gdb_parallel_load=ON) SET_VAR(gdb_parallel_load_chunk_size=65536) SET_VAR(gdb_parallel_load_workers=16) */ DATA LOCAL INFILE 'table.csv' INTO TABLE {new_table} fields terminated by ','"
#{gdb_cmd}为greatsql客户端的位置

不同情况下，是否开启并发耗时对比

未开启并发

单表数据量	表个数	总数据量	迁移CK表总大小	并行	用时(s)
一百万	1	一百万	46.52 MiB	off	21
一千万	1	一千万	465.2 MiB	off	188
一百万	10	一千万	465.2 MiB	off	211
一百万	20	两千万	930.4MiB	off	413

开启并发

单表数据量	表个数	总数据量	迁移CK表总大小	并行行程数	用时(s)
一百万	1	一百万	46.52 MiB	16	10
一千万	1	一千万	465.2 MiB	16	120
一百万	10	一千万	465.2 MiB	16	97
一百万	20	两千万	930.4MiB	16	180

结论

从测试结果看，开启16并行线程，可以加快导入速度 30%~50%，导入数据量越大，表数量越多，或者的优化效益越高。

提示：开启并发请注意服务器资源的使用。

Enjoy GreatSQL :)

<往期推荐>

Percona Toolkit 神器全攻略（系统类）

MySQL UDF 提权初探

活动 | GreatSQL受邀ACMUG技术沙龙北京站分享AP探索之路

GreatSQL 8.0.32-26 GA（2024.8.5）

GreatSQL 的刷新锁

《GreatSQL 运维实战》视频课程

<关于 GreatSQL>

GreatSQL数据库是一款开源免费数据库，可在普通硬件上满足金融级应用场景，具有高可用、高性能、高兼容、高安全等特性，可作为MySQL或Percona Server for MySQL的理想可选替换。

💻社区官网: https://greatsql.cn/

⏩Gitee : https://gitee.com/GreatSQL/GreatSQL
⏩GitHub : https://github.com/GreatSQL/

🆙BiliBili : https://space.bilibili.com/1363850082

（对文章有疑问或见解可去社区官网提出哦~）

加入微信交流群	加入QQ交流群

想看更多技术好文，点个"在看"吧！

http://mp.weixin.qq.com/s?__biz=MzkzMTIzMDgwMg==&mid=2247508649&idx=1&sn=21f0b5ef9485827e60c20281053c56fe

GreatSQL社区

专注GreatSQL数据库及相关产品

最新文章

【GreatSQL优化器-02】索引和Sargable谓词

5.7 与 8.0 对相同文件的 LOAD DATA 语句结果不同

GreatSQL社区月报 | 2024.10

【GreatSQL优化器-01】const_table

MySQL 8.0 执行COUNT()很慢原因分析

Oracle与GreatSQL差异：更改唯一索引列

如何限制用户修改long_query_time

工具分享丨数据闪回工具 MyFlash

MariaDB 和 GreatSQL 性能差异背后的真相

展会 | 斩获殊荣！GreatSQL亮相2024 OSCAR开源产业大会彰显开源实力

GreatSQL 在SQL中使用 HINT 语法修改会话变量

某市驾驶培训监管服务平台 GreatSQL 数据库适配之旅

误删 GreatSQL 数据？别慌，Binlog来帮忙

下周三见！与GreatSQL一起相约OSCAR 开源产业大会

GreatSQL社区月报 | 2024.09

通过 MySQL Workbench 将 SQL Server 迁移到 GreatSQL

2024开放原子开源生态大会 | 万里数据库+GreatSQL齐亮相锚定开源探索新技术升级

使用 MySQLslap 对 GreatSQL 压力测试步骤

GreatSQL 中为什么 Update 不会被锁等待

诚邀莅临丨赋能开源生态建设 GreatSQL邀您参加2024开放原子开源生态大会

Percona Toolkit 神器全攻略（性能类）

GreatSQL 异步复制及搭建

Percona Toolkit 神器全攻略（复制类）

GreatSQL执行Update失败案例分析

GreatSQL社区月报 | 2024.08

Percona Toolkit 神器全攻略（开发类）

独家揭秘丨GreatSQL 的MDL锁策略升级对执行的影响

单条记录大小增长倍数和ibd文件大小的增长倍数不成正比

GreatSQL社区月报 | 2024.07

GreatSQL 并行Load Data加快数据导入

Percona Toolkit 神器全攻略（系统类）

MySQL UDF 提权初探

活动 | GreatSQL受邀ACMUG技术沙龙北京站分享AP探索之路

GreatSQL 8.0.32-26 GA（2024.8.5）

活动预告 | GreatSQL 邀你参加 ACMUG 技术分享北京站

GreatSQL 的刷新锁

GreatSQL 构建高效 HTAP 服务架构指南（MGR）

独家揭秘丨GreatSQL 没开Binlog时多线程插入数据性能劣化之谜

GreatSQL 构建高效 HTAP 服务架构指南（主从复制）

GreatSQL社区月报 | 2024.06

FILE+POS 方式 GreatSQL 主从复制架构给主节点磁盘扩容

展会 | GreatSQL亮相全球数字经济大会开源数据库赋能金融数字化转型

GreatSQL 中 Insert 慢是什么情况？

Percona Toolkit 神器全攻略（监控类）

官答丨操作系统升级 Openssl 导致 GreatSQL 无法启动

Percona Toolkit 神器全攻略（配置类）

GreatSQL HTAP探索之路

GreatSQL社区月报 | 2024.05

MySQL5.7 通过逻辑备份迁移到GreatSQL注意事项

Percona Toolkit 神器全攻略（实用类）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉