String 为什么不好用了？—— 浅析 Redis 数据结构

文摘科技 2024-02-27 12:41 浙江

问题与背景

Redis 的 String 数据类型以简单、易用著称。但是，在 Redis 使用规范中，要求我们在大业务量的场景下，慎用 String 数据结构，这是为什么呢？通过我之前遇到的一个场景，经过精简，和大家共同一探究竟。

我遇到的任务是根据 insight_point_id 快速获取其所属的 insight_id。insight_point_id 与 insight_id 都是10位数字：

insight_point_id: 1101000051insight_id: 3301000051

这个任务完美契合 Redis 中 String 数据结构的 key-value 使用场景。因此，我使用 String 类型来存储数据。

在上线前的压力测试中，我模拟真实使用场景，在 Redis 中存储了一亿个 key-value 对，大约使用了6.4GB 的内存，平均一个键值对用了64字节。但是，简单分析一下上述的 key-value 记录，实际只需要16字节就可以了：insight_point_id 与 insight_id 都是10位数，我们可以用两个8字节的 Long 类型表示这两个 ID。因为8字节的 Long 类型最大可以表示2的64次方的数值，所以肯定可以表示10位数。

但是，为什么 String 类型却用了64字节呢？

String 的数据结构

因为 Redis 的数据类型有很多，而且，不同数据类型都有些相同的 metadata 要记录（比如最后一次访问的时间、被引用的次数等），Redis 用 RedisObject 结构体来统一记录，并用一个指针指向实际数据。

当我们使用 String 数据类型，并且存储的数据包含字符类型的时候，这个指针便指向 SDS 数据结构（Simple Dynamic String），这个数据结构也预留了8字节去描述内存的分配与使用情况，并且存储了实际 value。

为了节省内存空间，Redis 还对 Long 类型整数和 SDS 的内存布局做了专门的设计。

一方面，当保存的是 Long 类型整数时，RedisObject 中的指针就直接赋值为整数数据，这样就不用额外的指针再指向整数了，节省指针的空间开销。这种方式叫做 int 编码。

另一方面，当保存的是字符串数据，并且字符串小于等于44字节时，RedisObject 中的元数据、指针和 SDS 是一块连续的内存区域，这样就可以避免内存碎片。这种布局方式被称为 embstr 编码方式。

当然，当字符串大于44字节时，SDS 的数据量就开始变多了，Redis 就不再把 SDS 和 RedisObject 布局在一起了，而是会给 SDS 分配独立的空间，并用指针指向 SDS 结构。这种布局方式被称为 raw 编码模式。

了解了 RedisObject 所包含的额外开销，我们就可以计算 String 类型的内存使用量了。因为10位数的 insight_point_id 和 insight_id 是 Long 类型整数，所以可以直接用 int 编码的 RedisObject 保存。每个 int 编码的 RedisObject 元数据部分占8字节，指针部分被直接赋值为8字节的整数了。此时，每个 ID 会使用16字节，加起来一共是32字节。

但是，另外的32字节去哪儿了呢？

Redis 全局 Hash 结构

众所周知，Redis 的顶层数据结构是一张 Hash 表，哈希表的每一项是一个 dictEntry 的结构体，用来指向一个 key-value。dictEntry 结构中有三个8字节的指针，分别指向 key、value 以及下一个 dictEntry，三个指针共24字节。

另外，Redis 底层使用 jemalloc 库进行内存分配，在分配内存时，会根据申请的字节数 N，找一个比 N 大，但是最接近 N 的2的幂次数作为分配的空间，这样可以减少频繁分配的次数。

因此，这三个指针只有24字节，实际却占用了32字节。

综上，我们总算梳理清楚“内存去哪儿了”。我们的有效信息只有16字节，使用 String 类型保存时，却需要64字节的内存空间，有48字节都没有用于保存实际的数据。我们来换算下，6.4GB 内存空间其中有 4.8GB 的内存空间都用来保存元数据了。额外的内存空间开销很大，非常的不划算。

那么，有没有更加节省内存的方法呢？

Redis Hash 数据类型的 ziplist 数据结构

Redis 的 Hash 数据类型使用了 ziplist 数据结构：

ziplist 表头有三个字段 zlbytes、zltail 和 zllen，分别表示列表长度、列表尾的偏移量，以及列表中的 entry 个数，表尾还有一个 zlend，表示列表结束。

ziplist 之所以能节省内存，就在于它是用一系列连续的 entry 保存数据。每个 entry 的元数据包括下面几部分：

prev_len	表示前一个 entry 的长度	1字节
len	表示自身长度	4字节
encoding	表示编码方式	1字节
content	保存实际数据	-

这些 entry 会挨个儿放置在内存中，不需要再用额外的指针进行连接，这样就可以节省指针所占用的空间。

以 insight_id 为例，每个 entry 保存一个 insight_id （8字节），此时，每个 entry 占用的内存为：

prev_len+len+encoding+content=1+4+1+8=14,

实际分配16字节。

当我们用 String 类型时，一个键值对就有一个 dictEntry，要用32字节空间。采用 Hash 时，一个 key 就对应一个集合的数据，能保存的数据多了很多，但也只用了一个 dictEntry，这样就节省了内存。

这个优化方案看起来不错，但还存在一个问题：在用 Hash 类型保存 key-value 时，一个 key 对应了一个集合的数据，但是在我们的场景中，一个 insight_point_id 只对应一个 insight_id，我们该怎么用 Hash 数据类型呢？

二级编码方法

我们可以采用二级编码方法解决上面的问题。所谓二级编码，就是把一个单值的数据拆分成两部分，前一部分作为 Hash 集合的 key，后一部分作为 Hash 集合的 value，这样一来，我们就可以把单值数据保存到 Hash 集合中了。以 insight_point_id: 1101000060 和 insight_id: 3302000080 为例，我们可以把 insight_ponit_id 的前7位（1101000）作为 Hash 类型的键，把 insight_point_id 的最后3位（060）和 insight_id 分别作为 Hash 类型值中的 key 和 value。按照这种设计方法，我在 Redis 中插入了一组 insight_point_id，insight_id，并且用 info 命令查看了内存开销，我发现，增加一条记录后，内存占用只增加了16字节：

printf("hello world!");127.0.0.1:6379> info memory# Memoryused_memory:1039120127.0.0.1:6379> hset 1101000 060 3302000080(integer) 1127.0.0.1:6379> info memory# Memoryused_memory:1039136

在使用 String 类型时，每个记录需要消耗64字节，这种方式却只用了16字节，所使用的内存空间是原来的1/4，大大节省内存空间。

为什么二级编码一定要把 insight_point_id 的前7位作为 Hash 类型的键，把最后3位作为 Hash 类型值中的 key 呢？其实，二级编码方法中采用的 ID 长度是有讲究的。

Redis Hash 类型的两种底层实现结构，分别是 ziplist 和哈希表。

Hash 类型设置了用压缩列表保存数据时的两个阈值，一旦超过了阈值，Hash 类型就会用哈希表来保存数据了。

这两个阈值分别对应以下两个配置项：

hash-max-ziplist-entries：表示用压缩列表保存时哈希集合中的最大元素个数。hash-max-ziplist-value：表示用压缩列表保存时哈希集合中单个元素的最大长度。

如果我们往 Hash 集合中写入的元素个数超过了 hash-max-ziplist-entries，或者写入的单个元素大小超过了 hash-max-ziplist-value，Redis 就会自动把 Hash 类型的实现结构由压缩列表转为哈希表。

为了能充分使用压缩列表的精简内存布局，我们一般要控制保存在 Hash 集合中的元素个数。所以，在刚才的二级编码中，我们只用 insight_point_id 最后3位作为 Hash 集合的 key，也就保证了 Hash 集合的元素个数不超过1000，同时，我们把 hash-max-ziplist-entries 设置为1000，这样一来，Hash 集合就可以一直使用压缩列表来节省内存空间了。

总结

String 数据类型通常被视为一种“万金油”，在各种场合都被广泛使用。然而，当存储的键值对数据本身占用的内存空间较小时，String 类型的元数据开销占据了主导地位。这些开销包括 RedisObject 结构、SDS 结构以及 dictEntry 结构的内存消耗。

为了应对这种情况，我们可以采用压缩列表（ziplist）来存储数据。当使用 Hash 这种集合类型来保存单一键值对数据时，我们可以使用二级编码的方法将单一值数据分割成两部分，分别作为 Hash 集合的键和值。这不仅可以减少内存开销，还能提高 Redis 的性能。

微策略商业智能

微策略 MicroStrategy (Nasdaq: MSTR) 是企业级分析和移动应用软件行业的佼佼者。关注我们了解行业资讯、技术干货和程序员日常。

最新文章

Jest常见问题及解决方案 | Jest 避坑经验

微策略容器化方案演进：Customer Managed Cloud与Operator模式

微策略 | 圣诞特别活动，与你共度温馨时光

携手合作为Zebra客户提供现代化、快速且可定制的自助报告及AI体验

对健康说嗨嗨：CTC运动月活动总结

Redis 如何确保数据一致性

Kubernetes 无头服务实践

MicroStrategy荣获Proddy奖，获评为顶级嵌入式商业智能产品

蓝天与炭火的交响曲：MSTR-CTC户外运动日记

MicroStrategy ONE 新功能：增强AI决策可靠性与可解释性

UX干货！10款Figma 插件推荐

颠覆传统BI：探索AI驱动的自动建模与清洗技术

超越通用AI：发挥人工智能在商业智能中的全部潜力

解锁 MicroStrategy 语义图的力量

浅析「容器技术」及其安全防护实践

AI 工程中的语言艺术：Prompt Engineering

生成型 AI 如何在规定边界内提高价值

PKCE 在 OIDC 中如何保护客户端免受第三方拦截

MicroStrategy 连续第二年被 BARC 评为『市场领导者』

【实战篇】国际化配置指南

WebView 性能分析和优化

MicroStrategy 在 2024 年 Gartner® 分析与商业智能平台报告中被评为“挑战者”

从 OAuth 2.0 到 OIDC：企业如何实现安全的单点登录

2024Q2 微策略最新动态

提升用户体验：前端国际化的设计与实现

每天都用的 Git，你了解吗？

人工智能是提升产品和嵌入式分析的的秘密武器吗？

从“这个 APP 怎么这么慢”看 iOS 自动化性能测试的重要性

升级到 Tomcat 10 的锦囊妙计

微策略发布最新 MicroStrategy AI 并推出 Auto Express 试用版

MicroStrategy World 2024 主题演讲视频回顾

祝贺 MicroStrategy 2024 年度最佳客户奖得主

以数据结构为切面，一窥React源码

AI Agent: 解锁未来无限可能

创新揭晓：2024Q1 微策略最新功能

全方位云原生的 MicroStrategy ONE 平台已在 Google Cloud 市场上线

MicroStrategy 发布可定制 AI 机器人 Auto

MicroStrategy Embedding Playground：新一代 BI 嵌入式分析交互平台

MSTR GIVES|| Green Walk – 山林的红色守护者

MicroStrategy Cloud 助力奥克兰大学实现数据获取方式的创新

不容错过 MicroStrategy World 2024 的五大理由

解锁 Hyper-V，轻松管理开发环境

探索 MicroStrategy Cloud：创新统一测试框架全解析！

String 为什么不好用了？—— 浅析 Redis 数据结构

mitmproxy：灵活的网络调试工具

从 OCU 看 MicroStrategy Cloud 测试中 Automation 的应用

一次数据迁移工具的性能优化及其原理

MicroStrategy ONE平台已在AWS市场上线，用AI驱动的商业智能赋能企业

书单推荐｜软件测试：从单兵作战到团队攻坚

吃到家乡味了！家乡美食大合集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉