一文详解模型权重存储新格式 Safetensors

文摘 2024-08-01 12:15 北京

在日常AI模型训练过程中，需要好的模型权重通常需要以一种格式存储在磁盘中。比如：目前最流行的AI框架 PyTorch 使用 pickle 格式存储模型权重文件。但 PyTorch 文档中有一段话说明如下：使用 torch.load() 保存模型，除非 weights_only 参数设置为True （只加载张量、原始类型和字典），否则隐式使用 pickle 模块，这是不安全的。可以构造恶意的 pickle 数据，该数据将在 unpickling 期间执行任意代码。切勿在不安全模式下加载可能来自不受信任来源的数据或可能已被篡改的数据，仅加载您信任的数据。为了规避类似的问题，新的权重存储格式 Safetensors 应运而生。

Safetensors 简介

Safetensors 是一种用于安全地存储张量的新格式，非常简单，但速度仍然很快（零拷贝）。它是 pickle 格式的替代品，因为，pickle 格式不安全，可能包含可以执行的恶意代码。

Safetensors 内部格式

假设现在有一个名为 model.safetensors 的Safetensors文件，那么 model.safetensors 内部格式如下：

前面的 8 bytes是一个无符号的整数，表示 header 占的字节数。
中间的 N bytes是一个UTF-8编码JSON字符串，存储 header 的内容，里面为模型权重的元数据信息。
文件的剩余部分存储模型权重 tensor 的值。

以GPT2的Safetensors文件为例，其元数据信息可以通过如下代码获取：

import requests # pip install requests
import struct

def parse_single_file(url):
    # Fetch the first 8 bytes of the file
    headers = {'Range': 'bytes=0-7'}
    response = requests.get(url, headers=headers)
    # Interpret the bytes as a little-endian unsigned 64-bit integer
    length_of_header = struct.unpack('<Q', response.content)[0]
    # Fetch length_of_header bytes starting from the 9th byte
    headers = {'Range': f'bytes=8-{7 + length_of_header}'}
    response = requests.get(url, headers=headers)
    # Interpret the response as a JSON object
    header = response.json()
    return header

url = "https://huggingface.co/gpt2/resolve/main/model.safetensors"
header = parse_single_file(url)

print(header)
# {
#   "__metadata__": { "format": "pt" },
#   "h.10.ln_1.weight": {
#     "dtype": "F32",
#     "shape": [768],
#     "data_offsets": [223154176, 223157248]
#   },
#   ...
# }

不同模型权重格式大比拼

对于不同模型权重格式，从如下几个方面进行全面的对比：

安全性：是否可以使用随机下载的文件并期望不运行任意代码吗？
零拷贝：读取文件是否需要比原始文件更多的内存？
延迟加载：可以在不加载所有内容的情况下检查文件吗？并仅加载其中的一些张量而不扫描整个文件吗？
布局控制：延迟加载不一定足够，因为如果有关张量的信息分散在您的文件中，那么即使可以延迟访问该信息，您也可能必须访问大部分文件才能读取可用的张量（导致许多磁盘到 RAM 的拷贝）。因此，控制布局以快速访问单个张量非常重要。
无文件大小限制：文件大小有限制吗？
灵活性：是否可以以该格式保存自定义代码并能够在以后以零额外代码使用它吗？（意味着我们可以存储不仅仅是纯张量，还有代码）
支持Bfloat16：该格式是否支持原生 bfloat16（意味着不需要奇怪的解决方法）？因为 Bfloat16 数据格式在机器学习领域变得越来越重要。

下图展示了常见的存储格式的特性。

`safetensors` 和 `ONNX` 的不同

safetensors 和 ONNX 具有不同的用途。

safetensors 是一种简单、安全、快速的文件格式，用于存储和加载张量。它是 Python 的 pickle 实用程序的替代品，更加安全；而后者不安全，可能包含可以执行的恶意代码。

ONNX（开放神经网络交换）是一种用于表示深度学习模型的开放格式。它允许您用不同深度学习框架（例如：PyTorch、TensorFlow、Caffe2 等）加载模型以一种方式保存模型。这使得在不同框架之间共享模型变得更容易。

综上所述， safetensors 用于安全快速地存储和加载张量，而 ONNX 用于在不同深度学习框架之间共享模型。这同样适用于其他模型共享框架。

补充：零拷贝技术

零拷贝的主要任务就是避免CPU将数据从一块存储中拷贝到另一块存储，主要就是利用各种技术，避免让CPU做大量的数据拷贝任务，以此减少不必要的拷贝。或者借助其他的一些组件来完成简单的数据传输任务，让CPU解脱出来专注别的任务，使得系统资源的利用更加有效。

下面通过从磁盘读取数据并将其发送到套接字(socket)的示例来了解零拷贝（这种情况在大多数 Web 应用程序中经常发生）。为了完成此操作，内核会将数据读取到用户空间。

操作系统术语：
用户空间和内核空间是由操作系统分隔的两个虚拟内存区域，以提供内存保护和硬件保护，防止恶意或错误的软件行为。
用户空间是应用程序软件和一些驱动程序执行的内存区域。每个用户空间进程通常运行在自己的虚拟内存空间中，除非明确允许，否则不能访问其他进程的内存或内核空间。用户空间进程只能通过系统调用与内核交互，系统调用是内核向用户空间公开的一组函数。
内核空间是操作系统内核、内核扩展和大多数设备驱动程序运行的内存区域。内核空间程序运行在内核模式下，也称为管理模式，这是一种特权模式，允许访问所有CPU指令和硬件资源。

一旦数据加载到用户空间，它将再次执行内核调用，内核会将数据写入套接字(socket)。每次数据穿越user-kernel boundary时，都必须进行复制，这会消耗 CPU 周期和内存带宽。

而零拷贝请求即内核直接将数据从磁盘文件复制到套接字，而不经过应用程序。

下图为传统的拷贝操作流程。除了拷贝操作之外，这些系统调用会导致用户空间和内核空间之间发生大量上下文切换，使得这个过程变慢。

下图为零拷贝数据传输流程：

零拷贝的特点是 CPU 不全程负责内存中的数据写入其他组件，CPU 仅仅起到管理的作用。但注意，零拷贝不是不进行拷贝，而是 CPU 不再全程负责数据拷贝时的搬运工作。如果数据本身不在内存中，那么必须先通过某种方式拷贝到内存中（这个过程 CPU 可以不参与），因为数据只有在内存中，才能被转移，才能被 CPU 直接读取计算。

Safetensors 优势

上面对比了不同模型权重存储格式，从中可以发现 Safetensors 主要优势有：

安全：使用 torch.load() 加载模型权重可能会执行被插入的恶意代码（因为 pickle 模块是不安全的），不过可以设置weights_only=False 避免这个问题。而 Safetensors 天然就没有这个问题。
速度快：Safetensors 接口的速度比原生的 Pytorch 接口加载权重更快。

CPU 上加载提速的原因：通过直接映射文件，避免了不必要的复制（零拷贝）
GPU 上加载提速的原因：跳过不必要的CPU分配。

惰性加载：可以在不加载整个文件的情况下查看文件的信息或者只加载文件中的部分张量而不是所有张量。当我们有一个包含许多键和值对的大文件时，延迟加载非常重要。如果我们可以单独加载单个键的值，它将提高内存效率并且速度更快，否则我们将不得不将完整文件加载到内存中以检查任何键。

Safetensors 实践

安装

pip install safetensors

保存与加载张量

保存张量：

import torch
from safetensors.torch import save_file

tensors = {
    "embedding": torch.zeros((2, 2)),
    "attention": torch.zeros((2, 3))
}
save_file(tensors, "model.safetensors")

加载张量：

from safetensors import safe_open

tensors = {}
# with safe_open("model.safetensors", framework="pt", device=0) as f:
with safe_open("model.safetensors", framework="pt", device='cpu') as f:
    for k in f.keys():
        tensors[k] = f.get_tensor(k) # loads the full tensor given a key
print(tensors)
# {'attention': tensor([[0., 0., 0.],
#          [0., 0., 0.]], device='cuda:0'),
#  'embedding': tensor([[0., 0.],
#          [0., 0.]], device='cuda:0')}

仅加载部分张量（延迟加载）：

tensors = {}
# with safe_open("model.safetensors", framework="pt", device=0) as f:
with safe_open("model.safetensors", framework="pt", device='cpu') as f:

    tensor_slice = f.get_slice("embedding")
    vocab_size, hidden_dim = tensor_slice.get_shape()
    print(vocab_size, hidden_dim)
    tensor = tensor_slice[:, :hidden_dim] # change the hidden_dim to load part of the tensor
    print(tensor)
# 2 2
# tensor([[0., 0.],
#         [0., 0.]])

将PyTorch模型保存为Safetensors格式

from torchvision.models import resnet18
from safetensors.torch import load_model, save_model
import torch

model_pt = resnet18(pretrained=True)

# 保存 state dict 为 safetensors格式
save_model(model_pt, "resnet18.safetensors")
# Instead of save_file(model.state_dict(), "model.safetensors")


# 加载没有权重的模型
model_st = resnet18(pretrained=False) 
load_model(model_st, "resnet18.safetensors")
# Instead of model.load_state_dict(load_file("model.safetensors"))


# 使用随机图像对初始模型和从safetensors中加载权重的新模型进行推理
img = torch.randn(2, 3, 224, 224)

model_pt.eval()
model_st.eval()


with torch.no_grad():
    print(torch.all(model_pt(img)==model_st(img))) # tensor(True)

结语

本文简要介绍了模型权重存储新格式 Safetensors，它具备安全、加载速度快等多个优点；并且可以在 HuggingFace 上面看到越来越多的模型使用Safetensors格式进行存储。

后台回复“入群”进群讨论。

http://mp.weixin.qq.com/s?__biz=MzA5MTIxNTY4MQ==&mid=2461146252&idx=1&sn=87a27b81cdba76d9e582482ec869093b

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

OpenAI前研究科学家开源面向未来的提示工程库 ell，重新定义提示工程

揭秘MemoRAG：AI记忆模块如何提升生成质量

Rerankers标准化重排序过程，一行代码就能拥有

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

长文本分块的新策略——后期分块（Late Chunking），让RAG应用"又准又高效"

编程表现比肩ChatGPT，这个新模型能力很强大

听说，那些效益好的企业都偷偷用了这个…

合成数据成为7B模型具备强大数学能力的关键

大模型的“记忆”不应仅仅只依靠向量数据库，mem0是一个很好的“融合架构”实践方向

突破：美AI安全研究所与Anthropic和OpenAI签署合作协议，推动AI安全新纪元

ChatGPT逆向工程后续：用v0 Chat和Cursor重塑前端开发流程，开启AI编程新纪元

用ChatGPT逆向工程压缩后的Js代码，表现惊艳

Cursor出彩的背后：“Prompt设计好比网页设计...”

大胆问，别尴尬，AI IDE（Cursor）可能比你想的强大（中外实际体验对比差距大【有视频】）

转型LLM应用开发推荐阅读——《从零构建向量数据库》，赠书活动又来了！

Weavel Ape超过DSPy，或将成为最好用的提示（prompt）优化工具

谷歌：Transformer在音乐推荐中的实践

大模型到底需要消耗多少GPU显存？公式和工具全都有

解读：Google前CEO施密特发言背后的心思和意思

仅用50行正则就能切分“任何文档”的精妙分词器，简单好用，性能强劲！

巨头谷歌为什么打不过OpenAI，谷歌前CEO说出了真相

全新GPT-4o mini发布！大模型杀疯了！

Gamma创始人畅谈现象级AI+PPT产品是怎么做出来的？

让Google大牛告诉你，他是如何使用LLM提升10倍效率的？

Google提出以人为中心的AI产品设计原则

OpenAI发布小更新！100%解决LLM应用开发Json结构化输出不稳定问题

互联网时代基础架构部的乱象，在AI时代还会出现吗？

Llamaindex推出workflow应对复杂LLM应用构建，以及技术实现从图（Graph）转向事件驱动（EDA）原因解析

Langchain发布官方Agent IDE，不同于Dify/Coze的设计理念，能否获得开发者认可？

高盛洞察：生成式AI：投入很高，收益太少？

零基础入门深度学习及大模型建模与应用的最佳路径（有书赠送）

一文详解模型权重存储新格式 Safetensors

新书推荐：零基础入门深度学习及大模型建模与应用（有赠书）

Meta 挖坑！Llama 祭出最严人工智能许可协议，模型开发者们要改名了

大模型的招投标订单都被谁拿走了？

重磅！Meta开源4050亿参数的大模型Llama3.1-405B！多项评测结果超GPT-4o和Claude3.5 Sonnet

10万级 H100 集群：能源、网络拓扑、以太网与 InfiniBand、可靠性、故障、检查点

应用开发范式或将改变！从全球首个Software2.0架构应用说起

RAG 应用落地常见的三个挑战及解决思路

Unstructured专家分享RAG应用中文档分块（chunking）的最佳实践

如何在保证模型性能条件下优化Prompt降低使用成本及响应延迟？

为什么说AI又要迎来自己的小低潮？

你应该知道的10个AI术语

OpenAI神秘項目「草莓」曝光！自我进化已超越人类智能？马斯克嘲讽：回形针灾难

伯克利：即使模型再强大，复合AI系统（ Compound AI Systems）都将会是一种领先的应用模式

对话聊天就是生成式AI最好的交互形态吗？不一定！

10位亿万富豪推荐的10本书

源码解读 - 微软GraphRAG框架

RAG与Long-Context LLM之争—没必要争

Outlines：让LLM结构化输出可控，提升LLM应用的稳定性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

一文详解模型权重存储新格式 Safetensors

Safetensors 简介

Safetensors 内部格式

不同模型权重格式大比拼

safetensors 和 ONNX 的不同

补充：零拷贝技术

Safetensors 优势

Safetensors 实践

安装

保存与加载张量

将PyTorch模型保存为Safetensors格式

结语

`safetensors` 和 `ONNX` 的不同