AI 场景下，函数计算 GPU 实例模型存储最佳实践

科技 2025-01-10 18:30 浙江

当前，函数计算 FC 已被广泛应用在各种 AI 场景下，函数计算支持通过使用容器镜像部署 AI 推理应用，并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用，并快速解决不同场景下的模型存储选型问题，本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析，以期为您的模型存储决策提供帮助。

背景信息

Cloud Native

函数的存储选型请见：存储选型^[^1]。其中，适宜用作 GPU 模型存储的有以下 2 种。

文件存储 NAS^[^2]
对象存储 OSS^[^3]

除此之外，GPU 函数使用自定义容器镜像部署业务，因此还可以将模型文件直接放置到容器镜像中。

每种方法都有其独特的应用场景和技术特点，选择模型存储方式时应当考虑具体需求、执行环境以及团队的工作流程。通过灵活运用这些策略，达到模型存储在效率和成本上的平衡。

模型随容器镜像分发

Cloud Native

将训练好的模型和相关应用代码一起打包在容器镜像中，模型文件随容器镜像分发，这是最直接的方法之一。

优缺点

优点：

便利性：创建好镜像后，可以直接运行它进行推理而无需额外配置。
一致性：确保每个环境中的模型版本都是一致的，减少了由于不同环境中模型版本差异导致的问题。

缺点：

镜像体积：镜像可能会非常大，特别是对于大尺寸模型。
更新耗时：每次模型更新时都需要重新构建和分发镜像，这可能是一个耗时的过程。

说明

为了提升函数实例的冷启动速度，平台会对容器镜像进行预处理。如果镜像尺寸过大，一方面可能会超出平台对镜像大小的约束，另一方面也会导致镜像加速预处理所需时间的延长。

关于平台镜像大小限制，请参见 GPU 镜像大小限制是多少？^[^4]
关于镜像预处理和函数状态的信息，请参见自定义镜像函数状态及调用^[^5]。

使用场景

模型尺寸相对较小，例如百兆字节左右。
模型变更频率较低，可以考虑将模型打包在容器镜像中。

如果您的模型文件较大、迭代频繁或随镜像发布时超过平台镜像大小限制，建议模型与镜像分离。

模型放在 NAS 文件存储

Cloud Native

函数计算平台支持将 NAS 文件系统挂载到函数实例指定目录上，应用通过访问 NAS 挂载点目录实现模型文件加载。

优缺点

优点：

兼容性：相比 FUSE 类文件系统，NAS 提供的 POSIX 文件接口较完整和成熟，因此应用兼容性较好。
容量：NAS 提供 PiB 级存储容量。

缺点：

依赖 VPC 网络：一方面，需要为函数配置 VPC 访问通道才能访问 NAS 挂载点，在配置时涉及的云产品权限点相对较多；另一方面，函数实例冷启动时，平台为实例建立 VPC 访问通道会产生秒级的耗时。
内容管理方式较单一：NAS 文件系统需要挂载才能使用，相对单一，需要建立相应的业务流程将模型文件分发到 NAS 实例上。
不支持双活和多 AZ，详情请见 NAS 常见问题^[^6]。

说明

在大量容器同时启动加载模型的场景下，容易触及 NAS 的带宽瓶颈，导致实例启动耗时增加，甚至因超时而失败。例如，定时 HPA 批量启动预留 GPU 实例、突发流量触发大量按需 GPU 实例的创建。

可以从控制台查看 NAS 性能监控（读吞吐）。
可以通过向 NAS 增加数据量的方式来提升 NAS 读写吞吐量。

采用 NAS 来存储模型文件，建议选用通用型 NAS 中的“性能型”，其主要原因在于该类型 NAS 可以提供较高的初始读带宽，约 600MB/s，详情请参见通用型 NAS。

使用场景

在按量 GPU 使用场景下，需要极速的启动性能。

模型放在 OSS 对象存储

Cloud Native

函数计算平台支持将对象存储 OSS Bucket 挂载到函数实例的指定目录，应用程序可以直接从 OSS 挂载点加载模型。

优点

带宽：OSS 的带宽上限较高，相比 NAS 不易出现函数实例间带宽争抢现象，详情请见 OSS 使用限制及性能指标^[^7]。与此同时，还可以通过开通 OSS 加速器^[^8]获得更高的吞吐能力。
管理方法多样：

提供控制台、开放 API 等访问通道。
提供多种本地可用的对象存储管理工具，请参考 OSS 常用工具^[^9]。
可使用 OSS 跨区域复制^[^10]功能进行模型同步与管理。

配置简单：相比 NAS 文件系统，函数实例挂载 OSS Bucket 无需打通 VPC，即配即用。
成本：相比 NAS，一般来说 OSS 成本更优。

说明

从实现原理上，OSS 挂载使用 FUSE 用户态文件系统机制实现。应用访问 OSS 挂载点上的文件时，平台最终将其转换为 OSS API 调用实现对数据的访问。因此 OSS 挂载还有以下特征：

其工作在用户态，会占用函数实例的资源配额，如 CPU、内存、临时存储等，因此建议在较大规格的 GPU 实例下使用。
数据的访问使用 OSS API，其吞吐和时延最终受限于 OSS API 服务，因此更适合访问数量较少的大文件（如模型加载场景），不宜用于访问大量小文件。
当前的实现还无法使能系统的 PageCache，相比 NAS 文件系统，这意味着单个实例内应用如果需要多次访问同一个模型文件，无法用到 PageCache 加速效果。

使用场景

大量实例并行加载模型，需要更高存储吞吐能力避免实例间带宽不足的情况。
需要本地冗余，或者多地域部署的场景。
访问数量较少的大文件（比如模型加载场景）。

总结对比

Cloud Native

对比项	随镜像分发	NAS挂载	OSS挂载
模型尺寸	镜像构建和分发开销平台对镜像大小的约束平台对镜像的加速预处理耗时	无	无
吞吐	较快	建议使用通用型NAS“性能型”，初始带宽较高多实例并发加载模型时要考虑对NAS实例的带宽争抢	总吞吐较高，受OSS对单个阿里云账号在各地域的带宽约束可通过开启OSS加速器获得更高吞吐
兼容性	好	好	基于OSS API模拟的POSIX文件接口支持支持符号链接
管理方法	容器镜像	VPC内挂载后使用	OSS控制台、API OSS跨区域复制命令行、GUI工具
多AZ	支持	不支持	支持
PageCache使能	有	有	无
成本	不产生额外费用	一般来说NAS比OSS略高，请以各产品当前计费规则为准 NAS计费概述：链接^[1^1]，价格计算器：链接^[^12] OSS计费概述：链接^[^13]，价格计算器：链接^[^14]

基于以上对比，根据 FC GPU 的不同使用模式、不同容器并发启动数量、不同模型管理需求等维度，FC GPU 上模型存储的最佳实践如下：

在按量 GPU 使用场景下，由于需要极速的启动性能，推荐使用【通用 NAS-性能型】。
在闲置 GPU 使用场景下，由于容器启动耗时不敏感，推荐使用【oss】。
在大并发GPU容器同时启动使用场景下，为了避免 NAS 的单点带宽瓶颈，推荐【oss accl】。
在多地域单元化部署使用场景下，为了减少模型管理复杂度与跨域同步难度，推荐【oss、oss accl】。

测试数据

Cloud Native

我们通过对 Stable Diffusion 模型切换耗时的测量，对比了不同模型存储方法的性能差异。本次测试的选取的模型和模型尺寸大小如下表。

模型	尺寸（GB）
Anything-v4.5-pruned-mergedVae.safetensors	3.97
Anything-v5.0-PRT-RE.safetensors	1.99
CounterfeitV30_v30.safetensors	3.95
Deliberate_v2.safetensors	1.99
DreamShaper_6_NoVae.safetensors	5.55
cetusMix_Coda2.safetensors	3.59
chilloutmix_NiPrunedFp32Fix.safetensors	3.97
pastelmix-fp32.ckpt	3.97
revAnimated_v122.safetensors	5.13
sd_xl_base_1.0.safetensors	6.46

第1次模型切换耗时（单位：秒）

第 1 次模型切换耗时（单位：秒）

第2次模型切换耗时（单位：秒）

第 2 次模型切换耗时（单位：秒）

测试结论如下：

PageCache 使能。在这个场景中，Stable Diffusion 第一次加载模型时，会读取模型文件两次，其中一次用于计算模型文件的哈希值。后续触发模型加载时，则只读取模型文件一次。第一次访问 NAS 挂载点上的文件时，会在内核填充相应的 PageCache，从而加速第二次访问。访问 OSS 挂载点不具备使能 PageCache 的特性。
影响耗时的其他因素。除了存储介质本身，模型加载耗时还与应用本身的实现细节相关，如应用本身的吞吐能力，读取模型文件时的 IO 模式（顺序读取、随机读取）。

相关链接：

[1] 存储选型

https://www.alibabacloud.com/help/zh/functioncompute/fc-3-0/product-overview/selection-of-function-storage

[2] 文件存储 NAS

https://www.alibabacloud.com/help/zh/functioncompute/fc-3-0/user-guide/configure-a-nas-file-system-1

[3] 对象存储 OSS

https://www.alibabacloud.com/help/zh/functioncompute/fc-3-0/user-guide/configure-an-oss-file-system-1

[4] GPU 镜像大小限制是多少？

https://www.alibabacloud.com/help/zh/functioncompute/fc-3-0/support/faq-about-gpu-accelerated-instances-1?spm=a2c63.p38356.help-menu-search-2508973.d_9#section-wzb-j8z-3cp

[5] 自定义镜像函数状态及调用

https://www.alibabacloud.com/help/zh/functioncompute/fc-3-0/user-guide/states-of-custom-container-functions

[6] NAS 常见问题

https://www.alibabacloud.com/help/zh/nas/product-overview/faq-2#section-uru-2sy-5hd

[7] OSS 使用限制及性能指标

https://help.aliyun.com/zh/oss/product-overview/limits

[8] OSS 加速器

https://help.aliyun.com/zh/oss/user-guide/overview-77/

[9] 常用工具

https://help.aliyun.com/zh/oss/developer-reference/common-tools/

[10] 跨区域复制

https://help.aliyun.com/zh/oss/user-guide/cross-region-replication-overview/

[11] 链接

https://www.alibabacloud.com/help/zh/nas/product-overview/billing-of-general-purpose-nas-file-systems

[12] 链接

https://www.aliyun.com/price/product?spm=a2c4g.11186623.0.0.46047158ja7nw5#/nas/detail/nas_bag

[13] 链接

https://help.aliyun.com/zh/oss/product-overview/billing-overview/

[14] 链接

https://www.aliyun.com/price/product?spm=a2c4g.11186623.0.0.46047158ja7nw5#/oss/detail/oss

阿里云云原生

发布云原生技术资讯、汇集云原生技术详细内容，定期举办云原生活动、直播，阿里产品及用户实战发布。与你并肩探索云原生技术点滴，分享你需要的云原生内容。

最新文章

为何最近谈论 SSE 和 WebSocket 的人越来越多了？

面对全球化的泼天流量，出海企业如何观测多地域网络质量？

函数计算×百炼新春活动正式上线！三步赢取蛇年精美好礼

基于 API 网关践行 API First 开发实践

现场领红包！通义灵码 AI 程序员给大家送福利啦

乐刻运动：基于 RocketMQ + MQTT 实现健身产业数字化升级

DeepSeek-R1 来了，如何从 OpenAI 平滑迁移到 DeepSeek

机房迁移，不同 Pod 副本请求耗时会相差数倍？

任务调度企业级场景下的新选择，兼容 XXL-JOB 通信协议

海外泼天流量丨浅谈全球化技术架构

“爆款”批量生成，如何实现一键创作 AI 有声绘本？

使用 Apifox、Postman 测试 Dubbo 服务，Apache Dubbo OpenAPI 即将发布

智能理解 PPT 内容，快速生成讲解视频

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

Flow-CLI 全新升级，轻松对接 Sonar 实现代码扫描和红线卡点

AI 短剧遇上函数计算，一键搭建内容创意平台

两步构建 AI 总结助手，实现智能文档摘要

通义灵码 2.0 全新升级发布会：你的 AI 程序员来了！

AI 场景下，函数计算 GPU 实例模型存储最佳实践

一键生成毛茸萌宠形象，基于函数计算极速部署 ComfyUI 生图系统

UU 跑腿云原生化，突围同城配送赛道

阿里云可观测 2024 年 12 月产品动态

Serverless Devs 官网全新升级，Serverless+AI 重磅来袭

云大使 X 函数计算 FC 专属活动上线！享返佣，一键打造 AI 应用

网络安全视角：从地域到账号的阿里云日志审计实践

从传统家电到智能生活，海尔智家的服务治理实践

【限时有奖】快速体验云消息队列 RocketMQ 版 Serverless 系列

政采云业务网关实践：使用 Higress 统一替代 APISIX/Kong/Istio Ingress

面向 Workload 级别的灵活可配置 Serverless 弹性解决方案

Spring AI 智能体通过 MCP 集成本地文件数据

网络分析与监控：阿里云拨测方案解密

阿里云容器服务 AI 助手 2.0：新一代容器智能运维能力

ACK One 多集群网关：实现高效容灾方案

阿里云 Serverless 助力盟主直播：高并发下的稳定性和成本优化

让跨 project 联查更轻松，SLS StoreView 查询和分析实践

Qwen2.5 的云端新体验，5 分钟完成极速部署

云消息队列 Kafka 版 V3 系列荣获信通院“云原生技术创新标杆案例”

GitLab 国际站中国大陆等地区停服，如何将数据快速迁移到云效

链路诊断最佳实践：1 分钟定位错慢根因

云原生 Meetup，AI 应用工程化专场·广州站

Envoy 开启 HTTP2 后偶现 404 如何解决？

5 分钟复刻你的声音，一键实现 GPT-Sovits 模型部署

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

恭喜 Apache RocketMQ、Apache Seata 荣获 2024 开源创新榜单“年度开源项目”

阿里云 2024 KCD 雅加达之旅精彩回顾

道旅科技借助云消息队列 Kafka 版加速旅游大数据创新发展

7分钟玩转 AI 应用，函数计算一键部署 AI 生图大模型

日志服务 SQL 引擎全新升级

函数计算助您 7 分钟极速部署开源对话大模型

CAP：Serverless + AI 让应用开发更简单

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

AI 场景下，函数计算 GPU 实例模型存储最佳实践

函数的存储选型请见：存储选型[1]。其中，适宜用作 GPU 模型存储的有以下 2 种。

将训练好的模型和相关应用代码一起打包在容器镜像中，模型文件随容器镜像分发，这是最直接的方法之一。

函数计算平台支持将 NAS 文件系统挂载到函数实例指定目录上，应用通过访问 NAS 挂载点目录实现模型文件加载。

我们通过对 Stable Diffusion 模型切换耗时的测量，对比了不同模型存储方法的性能差异。本次测试的选取的模型和模型尺寸大小如下表。

函数的存储选型请见：存储选型^[^1]。其中，适宜用作 GPU 模型存储的有以下 2 种。