一次数据迁移工具的性能优化及其原理

文摘科技 2024-01-09 11:12 浙江

问题背景

假设有一个数据库Migration工具，其主要承担两个工作：

将数据库中特定的表导出为CSV
将CSV中的数据导入到数据库

已知数据库的类型为 Postgresql，数据库的表行数为千万级，数据量约为7GB。想要完成对应的工作，我们可以使用 postgresql 的 JDBC driver，并依靠它提供的 CopyManager 来实现导出到 CSV 和从 CSV 导入。

在实际的测试场景中发现，对于一张3700万行的表，导出到CSV耗时约为6分钟，导入本地的数据库耗时约为5小时。

如何能提升导入性能？

一次导入耗时5小时，性能上有些不可接受。作为一个 Migration 工具，我们不能对客户的表结构做出任何的修改，在这个大前提下，该怎么提升性能呢？

一个简单的方案为：在导入数据库之前，删除数据库表中的索引，在导入数据库之后，重建索引。

经测试，采用这个方案以后，对于相同表，导入到相同的本地数据库的耗时从5小时缩短到了15分钟。

为什么可以这么做？

程序员三问：这个程序编译挂了，但是为什么呢？这个程序跑失败了，但是为什么呢？这个程序跑成功了，但是为什么呢？

重新整理一下问题：

已知 Postgresql 的默认索引类型为 B-Tree，一种平衡搜索树
对于未进行优化的方案（下文称为“方案一”），相当于我们需要向一棵平衡搜索树中添加N个节点
对于优化后的方案（下文称为“方案二”），相当于我们先获取了所有的节点，然后用这些节点生成一棵平衡搜索树

对于方案一，我们称之为在线算法（online algorithm），而方案二则称为离线算法（offline algorithm）。

在计算机科学中，在线算法是一种处理输入资料的独特形式，其演算过程中并不要求所有输入资料在算法开始运始之一刻即完备，反而可对逐步输入的资料加以处理并在输入完最后一项资料之后输出运算结果。与之相对的称为离线算法，则假设输入资料在运算开始前已完备。

对于很多问题，在线算法的效率是弱于离线算法的，因为在线算法的要求是在每一次的输入处理完毕之后，数据都必须处于一个合格的状态.

而对于我们这个问题场景，我们并不需要在数据插入的过程中一直保持索引可用，只需要在数据插入完毕之后保持索引可用就行。

对于在线算法，要求每次插入节点之后，平衡树依旧保持平衡，因此每次的插入都有可能会涉及到树的平衡旋转并重新计算节点高度，这会需要额外的操作开销。

因此生成一棵树的步骤如下：

对于当前输入节点，找到合适的叶子节点并插入
从叶子节点反向回溯至根节点，判断每个节点是否保持平衡，如果不平衡则进行旋转
重复步骤1和步骤2直到所有的节点都插入完毕

以下代码为AVL树的一个简易实现，AVL树为二叉平衡搜索树：

Node* Insert(Node* node,int val){    if(node == NULL)    {        node = new Node();        node->val = val;    }    else if(val > node->val)    {        node->right = Insert(node->right,val);        int disH = node->DisHeight();        if(disH == -2)  // 如果树失去平衡则需要进行旋转        {            if(val > node->right->val) node = RR(node);            else node = RL(node);        }    }    else if(val < node->val)    {        node->left = Insert(node->left,val);        int disH = node->DisHeight();        if(disH == 2)  // 如果树失去平衡则需要进行旋转        {            if(val < node->left->val) node = LL(node);             else node = LR(node);        }    }    node->UpdateHeight();  // 更新节点高度    return node;}
void online_algorithm(vector<int>& v){    Node* root = NULL,    for(int i=0;i<v.size();i++) root=Insert(root, v[i]);    return root;}

可以看出，时间复杂度为O(N*log(N))，但是拥有较大的常数开销（每次插入新节点都需要访问从根节点到叶子节点的路径上的所有节点，可能还需要执行旋转操作）。

而对于离线算法，一个简单的从随机数组生成一棵平衡搜索树的方法如下：

对数组进行排序
从一个有序数组生成一棵平衡搜索树

以下代码同样为AVL树的一个简易实现：

Node* Build(const vector<int>& v, int l, int r){    if (l<=r)    {        int mid=(l+r)/2;    // 取中点作为当前子树的根节点        Node* x=new Node();        x->val=v[mid];        x->left=Build(v,l,mid-1);    // 递归处理左子树        x->right=Build(v,mid+1,r);   // 递归处理右子树        x->UpdateHeight();  // 更新节点高度        return x;    }    return NULL;}void online_algorithm(vector<int>& v){    sort(v.begin(), v.end());    return Build(v, 0, v.size()-1);}

可以看出，从一个有序数组生成一棵AVL树的时间效率为O(N), 其中N为节点个数，主要的时间开销为给数组进行排序，而给数组排序的时间效率为O(N*log(N))。

因此总的时间复杂度为O(N*log(N))，但是拥有较小的常数开销（现代c++ std库中的sort）。

在数据量较小的情况下，在线算法和离线算法的差距可能不算大，但是随着数据量的增加，差距将逐渐显现，以下是一个测试结果，单位为毫秒：

总节点数量	在线算法耗时	离线算法耗时
10k	4	3
100k	80	44
1m	2737	488
10m	55908	5813

回到最初的场景

回到我们最初的问题，将CSV中的数据导入到数据库中，提前删除索引，再导入数据，最后重建索引，能够获得多少的性能提升呢？

以下是测试的结果，耗时单位为秒：

CSV行数	CSV大小	耗时（未进行优化）	耗时（重建检索）
1M	181M	33	22
2M	376M	73	48
5M	1G	279	124
10M	2G	968 (16.1 mins)	258 (4.3 mins)
37M	7G	18956 (5 hours+)	947 (15.7 mins)

可以看到，在数据到达一定程度的时候，性能提升非常显著。

除了在在线离线算法上的不同之外，还有一个原因是，索引的大小达到了上限，由于是重新导入整张数据表的场景，数据无法拥有显著的冷热区分，因此必定会存在一部分索引存在于磁盘上而非内存中，因此会涉及到较多的IO操作。

而在重建索引的过程中，已经创建好的索引不再需要修改，也会拥有较少的IO操作开销。而这一点在数据量较少的时候无法体现。

总结

对于一个数据库的大批量写入程序，如果在写入的过程中不需要保证数据库的可用性，那么在写入之前尝试先移除数据库对应表的索引可能是个好主意（别忘了做性能测试哦）。

最后，来自 SQLite 的曾经的优化公告，与君共勉：

The latest SQLite 3.8.7 alpha version is 50% faster than the 3.7.17 release from 16 months ago. That is to say, it does 50% more work using the same number of CPU cycles.

The 50% faster number above is not about better query plans. This is 50% faster at the low-level grunt work of moving bits on and off disk and search b-trees. We have achieved this by incorporating hundreds of micro-optimizations. Each micro-optimization might improve the performance by as little as 0.05%. If we get one that improves performance by 0.25%, that is considered a huge win. Each of these optimizations is unmeasurable on a real-world system but if you do enough of them, they add up.

最新的 SQLite 3.8.7 alpha版本比16个月前发布的3.7.17版本快50%。也就是说，在相同的CPU周期内，它完成了1.5倍的工作。

上面的50%更快的数字并不是指更好的查询算法。这是指在移动位于磁盘上的数据和搜索B树等底层任务上，速度提高了50%。我们通过引入数百个微小优化来实现这一目标。每个微小优化可能只能提高0.05%的性能。如果我们找到一个可以提高0.25%性能的优化，那就被认为是巨大的胜利。在真实系统上，无法测量这些优化的影响，但如果你做足够多的优化，它们就会累积起来。

微策略商业智能

微策略 MicroStrategy (Nasdaq: MSTR) 是企业级分析和移动应用软件行业的佼佼者。关注我们了解行业资讯、技术干货和程序员日常。

最新文章

Jest常见问题及解决方案 | Jest 避坑经验

微策略容器化方案演进：Customer Managed Cloud与Operator模式

微策略 | 圣诞特别活动，与你共度温馨时光

携手合作为Zebra客户提供现代化、快速且可定制的自助报告及AI体验

对健康说嗨嗨：CTC运动月活动总结

Redis 如何确保数据一致性

Kubernetes 无头服务实践

MicroStrategy荣获Proddy奖，获评为顶级嵌入式商业智能产品

蓝天与炭火的交响曲：MSTR-CTC户外运动日记

MicroStrategy ONE 新功能：增强AI决策可靠性与可解释性

UX干货！10款Figma 插件推荐

颠覆传统BI：探索AI驱动的自动建模与清洗技术

超越通用AI：发挥人工智能在商业智能中的全部潜力

解锁 MicroStrategy 语义图的力量

浅析「容器技术」及其安全防护实践

AI 工程中的语言艺术：Prompt Engineering

生成型 AI 如何在规定边界内提高价值

PKCE 在 OIDC 中如何保护客户端免受第三方拦截

MicroStrategy 连续第二年被 BARC 评为『市场领导者』

【实战篇】国际化配置指南

WebView 性能分析和优化

MicroStrategy 在 2024 年 Gartner® 分析与商业智能平台报告中被评为“挑战者”

从 OAuth 2.0 到 OIDC：企业如何实现安全的单点登录

2024Q2 微策略最新动态

提升用户体验：前端国际化的设计与实现

每天都用的 Git，你了解吗？

人工智能是提升产品和嵌入式分析的的秘密武器吗？

从“这个 APP 怎么这么慢”看 iOS 自动化性能测试的重要性

升级到 Tomcat 10 的锦囊妙计

微策略发布最新 MicroStrategy AI 并推出 Auto Express 试用版

MicroStrategy World 2024 主题演讲视频回顾

祝贺 MicroStrategy 2024 年度最佳客户奖得主

以数据结构为切面，一窥React源码

AI Agent: 解锁未来无限可能

创新揭晓：2024Q1 微策略最新功能

全方位云原生的 MicroStrategy ONE 平台已在 Google Cloud 市场上线

MicroStrategy 发布可定制 AI 机器人 Auto

MicroStrategy Embedding Playground：新一代 BI 嵌入式分析交互平台

MSTR GIVES|| Green Walk – 山林的红色守护者

MicroStrategy Cloud 助力奥克兰大学实现数据获取方式的创新

不容错过 MicroStrategy World 2024 的五大理由

解锁 Hyper-V，轻松管理开发环境

探索 MicroStrategy Cloud：创新统一测试框架全解析！

String 为什么不好用了？—— 浅析 Redis 数据结构

mitmproxy：灵活的网络调试工具

从 OCU 看 MicroStrategy Cloud 测试中 Automation 的应用

一次数据迁移工具的性能优化及其原理

MicroStrategy ONE平台已在AWS市场上线，用AI驱动的商业智能赋能企业

书单推荐｜软件测试：从单兵作战到团队攻坚

吃到家乡味了！家乡美食大合集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉