首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

用单库自增键来生成业务id，后期要怎么分裤？

科技 2024-09-13 18:20 北京

前几天有童鞋在知识星球提问：

沈老师，我们现在用户中心是单库单表，uid使用数据库自增主键，uid被很多业务关联，不能变化。

现在用户中心数据量逐步变大，有分库需求了，如何由单库升级为多库，保持历史uid不变，并且新生成的数据不冲突，有什么好办法么？

应该有不少公司都会利用数据库“插入数据自动自增id”来作为业务id，这种方法会使得业务与id生成强耦合，导致id生成算法难以升级。

今天和大家一起简单探讨下，id生成要考虑哪些要素。

画外音：别误会，不是说“自增id”不好，是说它与业务耦合了，难以升级。

一、id生成要考虑的技术点

几乎所有业务，都会有一个业务唯一标识：

用户标识：uid(user-id)
消息标识：mid(msg-id)
订单标识：oid(order-id)

这个标识，在存储系统里通常是主键，主键使用聚集索引(clustered-index)，即在物理存储上以这个id排序。于是，对这个id有：唯一性，趋势递增性的要求。

画外音：参考《MyISAM与InnoDB的索引，究竟有什么差异？》。

这个标识，也经常被用来做流量负载均衡，数据负载均衡的依据，即这个id必须在统计上必须是完全随机的。于是，对这个id有：随机性的要求。

同时，id生成算法升级，理论上对业务系统是透明的。于是，对这个id的生成有：独立性需求。

为了保证id生成的上述特性，要有一个：

uint64_t GenID()

的独立方法（或者独立接口）来生成id，生成id具体做什么用，该方法不关心，可以是用来做uid，也可以是用来做oid，甚至log-id。

当然，id生成的具体细节，业务也不用关心。即，GenID()的内部实现，可以是利用数据库的自增id，也可以使用时间递增，目前行业内最流行的，是仿照snowflake生成分布式id。

这个封装，屏蔽了id生成的细节，保留方案升级的可能性，是系统设计中，解耦的体现。

如果使用了此类方法生成业务id，数据库由单库扩展多库就很容易了：

（1）确定一个路由算法，例如hash取模；

（2）将单库中的数据，通过这个路由算法迁移到多库中去，以实现单库数据量的减少；

（3）通过这个路由算法寻找数据（读）；

（4）通过这个路由算法插入数据（写）；

假如架构设计前期没有提前考虑独立的id生成，后期又要实施单库拆多库，该怎么办呢？

二、针对星球水友提到的例子

历史的坑已经铸成，没有解耦id生成方法，而且也没法批量修改id，该怎么办呢？

假设由单库拆分为3库，可以这么玩：

（1）做一个1主2从数据库集群，相当于每条数据复制成了3份；

（2）将路由算法，设为取模hash算法，%3；

（3）第一个库，%3=0，把余1和余2的uid删掉；

（4）第二个库，%3=1，把余0和余2的uid删掉；

（5）第三个库，%3=2，把余0和余1的uid删掉；

（6）将每个库的自增步长设置为3，这样每个库的id生成就不会重复了；

（7）升级用户中心，按照路由算法查询uid数据；

搞定，拆库扩容达成：

（1）单库数据量下降为了原来的1/3；

（2）读写实例个数扩充为了原来的3倍；

（3）并且id生成与查询都不会冲突；

希望这个取巧的方法对你有帮助。

但更希望，大伙提前考虑id生成的唯一性、随机性、趋势递增性、独立性。

欢迎大家加入星球（免费），有问必回。

系统性考虑问题，知其然，知其所以然：

《APP日志上报，是这么把用户手机流量刷爆的！》

《“三大分离”架构设计准则（5000字长文）》

《REST之父，搞了一个HATEOAS架构》

技术文章没流量，福利放头条吧，谢转。

http://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2651974090&idx=2&sn=bd408464267a28ae5e77c6644b6b7528

架构师之路

架构师之路，坚持撰写接地气的架构文章

最新文章

总体设计文档到底该写些什么？ | 架构师之路（15）

为什么大家都不用session sticky了？ | 架构师之路（14）

github标星28K，这个中文项目不知道就亏大了！（国人的骄傲）

啥是2PC？在架构设计中有什么用？ | 架构师之路（13）

除了域名解析，DNS在架构设计中的三大妙用！ | 架构师之路（12）

架构设计中的后台任务：3种场景，2.5种触发模式，3个重点考量？ | 架构师之路（11）

架构师之路：流量从10万到10亿，一定会遇到的80个架构问题（8000字长文）

高可用架构：fail-over的三种经典模式 | 架构师之路（10）

80后聊架构：必知必会，3类数据库高可用与一致性架构实践 | 架构师之路（9）

MySQL必知必会（再版上架，送10本）

漏洞！近千块的技术大会，1折蹭？

中国程序员最大的悲哀！（1100W+阅读）

80后聊架构：3小时搞透数据库扩展性架构实践（附免费学习资料） | 架构师之路

作为程序员，最值得学习的编程语言是哪个（最该学的我们居然都不学）

80后聊架构：CAP对工程架构设计究竟有什么启示？ | 架构师之路

80后聊架构：增加线程到底能不能提升吞吐量？ | 架构师之路

80后聊架构：架构设计中两个重要指标，延时与吞吐量(Latency vs Throughput) | 架构师之路

80后聊架构：API端点，REST，URI... 这些概念与规范都不重要了吗？ | 架构师之路

2024程序员，转行还是不转行，必须严肃想一想？（一条120W+阅读的讨论）

明知有危机，凭啥这么多年轻人想不开，一波波往互联网公司挤？（脑子坏了？）

80后聊架构：究竟怎么做架构设计？ | 架构师之路

80后聊架构：究竟什么是架构设计？ | 架构师之路

接下来，准备干一件大事...

考公务员，是一条程序员的靠谱出路吗？（一条750W+阅读的帖子）

居然还可以这样，把锅顺滑的甩给别人（这招可以不用，但不能不懂）

程序员能纯靠技术度过中年危机吗？（一条810W+阅读的帖子）

程序员，会不会被GPT干掉？（不会，这是最精英的一批人）

又一篇10W+，它来了...

中国和美国程序员的差距究竟在哪里？（一条350W阅读的帖子）

github标星17.5W，榜单前20唯一中文神项目（不知道就亏大了）

为什么程序员的社会地位不高？

数据库架构，1个github宝藏项目，3个小时就够了？（收藏不亏）

美团的产品经理，麻烦您进来看一下...

为什么猝死的大多是程序员，基本上见不到产品经理？

程序员失业，美国印度居然比咱们更惨！（全球调研）

字节又一爆款面试神器诞生了！

张一鸣：如何把人用到极致！

框架组件，究竟要不要自己重复造轮子？

居然97.15%的工程师，认为AI写出来的代码不靠谱！（全球调研）

为什么互联网大厂一边大规模裁员，又一边招聘？

PostgreSQL靠边站，Oracle仍是世界上最流行的数据库！

83年，41岁大叔，MySQL大神创业再出发… 丁奇，加油！

上周，我正式提交了离职报告...

现如今，到底什么技术栈最流行，我简直不敢相信（全球调研）

“超级内卷”来临，未来赚钱的出路，究竟在哪里（值得每一个人思考）

世界上最SB的事情就是...

设计原本，架构师必读（新书上架，送福利）

用单库自增键来生成业务id，后期要怎么分裤？

恭喜PostgreSQL，超越MySQL成为了世界上最流行的数据库！

认知层次不同的人，是很难沟通的

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉