Python 是怎么存储字符串的？

文摘 2024-07-10 08:30 中国台湾

楔子

上一篇文章我们介绍了字符集，它是一系列字符组成的集合，但不同的字符集所能容纳的字符是有限的。于是为了能将全世界的字符统一起来，便诞生了 unicode。

unicode 字符集对世界上出现的所有字符都进行了系统的整理，包括各种 emoji，不管是哪个国家的语言，都可以使用 unicode 字符集。

print(ord("a"))  # 97
print(ord("憨"))  # 25000
print(ord("て"))  # 12390

不管什么文字，都可以用一个 unicode 来表示，它们在字符集中对应一个唯一的码点。所谓码点，就是字符在字符集中的索引，或者说唯一编号。

但是问题来了，unicode 能表示这么多的字符，占用的内存一定不低吧。的确，根据当时的编码，一个 unicode 字符最高会占用到 4 字节，因此对西方人来说就有点苦不堪言了，明明一个字符就够用了，为啥需要那么多。

于是又出现了 utf-8，它是为 unicode 提供的一个新的编码规则，具有可变长的功能。不同种类的字符占用的大小不同，比如英文字符使用一个字节存储，汉字使用 3 个字节存储，Emoji 使用 4 个字节存储。

但 Python 在表示 unicode 字符串时，使用的却不是 utf-8 编码，至于原因我们下面来分析一下。

unicode 的三种编码

从 Python3 开始，字符串使用的是 unicode。而根据编码的不同，unicode 的每个字符最大可以占到 4 字节，从内存的角度来说，这种编码有时会比较昂贵。

为了减少内存消耗并且提高性能，Python 的内部使用了三种编码方式来表示 unicode。

Latin-1 编码：每个字符占 1 字节;
UCS2 编码：每个字符占 2 字节；
UCS4 编码：每个字符占 4 字节；

在 Python 编程中，所有字符串的行为都是一致的，而且大多数时候我们都没有注意到差异。然而在处理大文本的时候，这种差异就会变得异常显著，甚至有些让人出乎意料。

为了看到内部表示的差异，我们看一下字符串所占的内存大小。

>>> sys.getsizeof("a")
42
>>> sys.getsizeof("憨")
60
>>> sys.getsizeof("😂")
64

我们看到都是一个字符，但它们占用的内存却是不一样的。因为 Python 面对不同的字符会采用不同的编码，进而导致大小不同。

但需要注意的是，Python 的每一个字符串都需要额外占用至少 41 个字节，因为要存储一些元数据，比如：公共的头部、哈希、长度、字节长度、编码类型等等。

import sys

# 对于 ASCII 字符，一个占 1 字节，显然此时编码是 Latin-1 编码
print(sys.getsizeof("ab") - sys.getsizeof("a"))  # 1

# 对于汉字，日文等等，一个占用 2 字节，此时是 UCS2 编码
print(sys.getsizeof("憨憨") - sys.getsizeof("憨"))  # 2
print(sys.getsizeof("です") - sys.getsizeof("で"))  # 2

# 像 Emoji，则是一个占 4 字节 ，此时是 UCS4 编码
print(sys.getsizeof("😂😂") - sys.getsizeof("😂"))  # 4

而采用不同的编码，那么底层结构体实例的元数据也会占用不同大小的内存。

# 所以一个空字符串占用 41 个字节
# 此时会采用占用内存最小的 Latin-1 编码
print(sys.getsizeof(""))  # 41
# 此时使用 UCS2
print(sys.getsizeof("憨") - 2)  # 58
# UCS4
print(sys.getsizeof("🍌") - 4)  # 60

如果编码是 Latin-1，那么这个结构体实例的元数据会占 41 个字节；编码是 UCS2，占 58 个字节；编码是 UCS4，占 60 个字节。然后字符串所占的字节数就等于：元数据 + 字符个数 * 单个字符所占的字节。

为什么不使用 utf-8 编码

上面提到的三种编码，是 Python 在底层所使用的，但我们知道 unicode 还有一个 utf-8 编码，那 Python 为啥不用呢？

http://mp.weixin.qq.com/s?__biz=Mzg3NTczMDU2Mg==&mid=2247528699&idx=1&sn=60151050fc165273e3021ed2c1270bbd

古明地觉的编程教室

Python、Rust 程序猿，你感兴趣的内容我都会写，点个关注吧(#^.^#)

最新文章

剖析字节码指令，以及 Python 赋值语句的原理

局部变量是怎么实现静态查找的，它和 local 名字空间又有什么联系呢？

深入源码，进一步考察字节码的执行流程

虚拟机是怎么执行字节码的？背后都经历了哪些过程

当查找一个 Python 变量时，虚拟机会进行哪些动作？

名字空间：Python 变量的容身之所

深度解密 Python 虚拟机的执行环境：栈帧对象

一文让你搞懂 Python 的 pyc 文件

PyCodeObject 拾遗

Python 源文件编译之后会得到什么，它的结构是怎样的？和字节码又有什么联系？

Python 迭代器是怎么实现的？

集合支持的操作有哪些，它们是怎么实现的？

解密 Python 集合的实现原理

身虽死，道未消，解密字典的缓存池

字典是怎么扩容的？它会经历哪些过程？

字典的自定义方法是怎么实现的？

字典是怎么创建的，支持的操作又是如何实现的？

granian：让你的 Web 应用程序快如闪电

哈希表是怎么删除元素的，能直接删除吗？

字典是怎么实现的，它的底层结构长什么样子？

字典的 key 是怎么映射成索引的，索引冲突了又该怎么办？

什么是可哈希对象，它的哈希值是怎么计算的？

字典是怎么实现的，它的底层结构长什么样子？

详解如何使用 Python 操作 Telegram（电报）机器人

聊一聊喜闻乐见的哈希表

解密 Python 元组的实现原理

列表都有哪些自定义方法，它们是怎么实现的？

列表作为序列型对象都支持哪些操作，它们在底层是怎么实现的？

解密列表的创建与销毁，以及缓存池长什么样子？

物种多样性的后续的后续，不要错过，你将见识到人类的极品

列表是怎么扩容的？

列表是怎么实现的？解密列表的数据结构

聊一聊字符串常见操作的源码实现