通过阿里云计算巢部署NVIDIA NIM，加速企业大语言模型SaaS化

文摘 2024-11-08 17:06 浙江

在人工智能飞速发展的今天，大语言模型（LLM）为各个行业带来了全新的场景和机遇。诸如客户服务数字人，计算机辅助药物研发的生成式虚拟筛选，基于检索增强生成（RAG）的企业多模态PDF数据提取，网络安全流数据过滤、处理和分类优化等工作流，正在无缝集成和运行在定制化的企业AI应用，企业还能够基于专有业务数据和用户反馈数据，不断优化AI应用。

同时，企业也面临着如何高效、安全地部署LLM的挑战。阿里云计算巢基于NVIDIA加速计算技术，通过阿里云云市场为企业和开发者提供NVIDIA AI Enterprise软件套件，其包含了NVIDIA NIM™ Agent Blueprint、NVIDIA NIM和NVIDIA NeMo™等企业级AI开发工作流和AI开发工具链。其中，NVIDIA NIM提供可靠、高性能的LLM推理服务，结合阿里云计算巢实现一站式云上部署，助力企业加速实现LLM的SaaS化。

本文以Llama3为例，介绍该方案的整体架构和部署方式。

NVIDIA NIM：

易于使用的预构建容器工具

NVIDIA NIM微服务是一套易于使用的预构建容器工具，目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能AI模型。作为NVIDIA AI Enterprise的一部分，NIM具备以下核心优势：

安全、灵活的部署：NIM在不同环境的CUDA GPU加速基础设施和Kubernetes发行版中经过严格验证和基准测试，它支持企业在云、数据中心、工作站上安全可靠地部署高性能的AI推理，只需5分钟即可完成部署。

加速产品上市：企业通过预构建、持续维护的微服务，能够快速将产品推向市场，缩短开发周期。

开发者友好：开发者使用标准API和几行代码即可轻松将NIM集成到企业级AI应用程序中。

优化的推理引擎：NIM基于Triton™推理服务器、TensorRT、TensorRT-LLM和PyTorch等强大的推理引擎构建，提供行业领先的吞吐率、延迟和token生成速度，确保服务响应更快。

企业级支持：NIM采用企业级基础容器构建，提供严格的验证、定期安全更新，适合企业生产环境部署。

阿里云计算巢：专为服务商

及其客户打造的云集成PaaS平台

阿里云计算巢服务是一个开放给企业应用服务商（包括：企业应用服务商、IT集成服务商、交付服务商和管理服务提供商等）及其用户的服务管理PaaS平台，提供软件上云的“一站式”解决方案。

阿里云计算巢能提供软件的交付、部署、运维流程标准化的服务，支持软件和资源的一体化交付，真正实现了软件的开箱即用。

阿里云计算巢服务集成了阿里云一系列底层产品能力，通过通用的应用管控框架、租户管理框架，帮助服务商提升服务的交付效率、管理效率和服务能力，在提升用户满意度的同时降低运营成本；并为用户提供了统一管理多种应用服务的平台，提升用户使用服务的效率和安全性，降低用户获取服务和管理服务的成本。

方案介绍

下图展示了通过阿里云计算巢快速部署NVIDIA NIM的整体架构。以Llama3为例，我们通过计算巢来创建、管理LLM推理服务：在阿里云容器服务ACK（容器服务Kubernetes版）集群上，我们使用阿里云ACK的云原生AI套件，集成开源推理服务框架KServe，来部署NVIDIA NIM。

同时，结合ACK的Prometheus和Grafana监控服务，快速搭建监控大盘，实时观测推理服务状态；利用NVIDIA NIM提供丰富的监控指标，如num_requests_waiting，配置推理服务弹性扩缩容策略。

这里列出的云上资源，以及阿里云弹性计算服务（ECS）、专有网络（VPC）等基础资源，都可以通过计算巢来轻松配置，一键拉起，最终实现一个云上高性能、可实时观测、极致弹性的大语言模型推理服务。用户只需要根据该服务创建实例，便可部署该服务。

图 1. 通过阿里云计算巢快速部署

NVIDIA NIM架构图

（图片来源于阿里云，如您有任何疑问或需要使用本图片，请联系阿里云）

部署流程

1. 参考NVIDIA NIM文档，生成NVIDIA NGC API Key，用于访问需要部署的模型镜像。以本文用到的Llama-3-8B-Instruct为例，可以通过NVIDIA NGC目录来获取：

https://org.ngc.nvidia.com/setup/personal-keys

同时，请阅读并承诺遵守Llama模型的自定义可商用开源协议：

https://www.llama.com/llama-downloads/

2. 在阿里云计算巢服务目录中找到“基于NVIDIA NIM快速部署LLM模型推理服务”，并进入实例部署页面：

https://computenest.console.aliyun.com/service/detail/cn-hangzhou/service-8cd0757070b848a399e4

如下图所示，主要配置服务的基本信息和云上资源，以及第一步中获取的NVIDIA NGC API Key，需要填写在下图相应位置。

图 2. 在阿里云计算巢创建服务实例

（图片来源于阿里云，如您有任何疑问或需要使用本图片，请联系阿里云）

因为服务部署在阿里云ACK集群之上，这里也包含了Kubernetes配置：

图 3. 阿里云ACK集群上Kubernetes

选项页面

（图片来源于阿里云，如您有任何疑问或需要使用本图片，请联系阿里云）

3. 按照页面提示完成所有配置之后，点击下一步：确认订单，在这里确认第2步配置的服务实例信息和价格预览。

图 4. 确认服务实例信息和价格预览

（图片来源于阿里云，如您有任何疑问或需要使用本图片，请联系阿里云）

部署过程中，用户需要创建和访问阿里云资源，当阿里云账号属于RAM账号时，需要开通以下权限，页面上也有开通这些权限的入口。

4. 点击立即创建，开始部署。过程中会涉及阿里云资源的创建、NIM模型镜像的拉取等。拉取过程的日志，可通过”点击资源tab->找到ACK集群->页面左侧的工作负载->无状态”来查看。部署完成后，进入服务实例详情查看使用说明。通过curl发送HTTP请求访问推理服务，修改content字段，便可自定义和推理服务交互的内容。

图 5. 服务实例详情页面截图

（图片来源于阿里云，如您有任何疑问或需要使用本图片，请联系阿里云）

通过阿里云的云市场

获取NVIDIA AI Enterprise

使用该方案

NVIDIA NIM是NVIDIA AI Enterprise的一部分，正式使用时须获得NVIDIA AI Enterprise的许可证授权。现在，企业用户可以通过阿里云云市场获取NVIDIA AI Enterprise来使用该方案。阿里云市场提供了概念验证（PoC）测试服务和购买NVIDIA AI Enterprise许可证，共两个下单页面。

PoC 测试服务

https://market.aliyun.com/products/201214006/cmgj00067281.html

提供90天NVIDIA AI Enterprise PoC License，暨90天免费试用，而使用时须支付阿里云计算资源的费用。

通过阿里云的云市场购买NVIDIA AI Enterprise许可证

https://market.aliyun.com/products/201214006/cmfw00067311.html

该页面提供的信息仅供参考，用户需要通过该页面的“NVIDIA服务咨询”钉钉来沟通采购，最终通过云市场官网推送下单链接获取NVIDIA AI Enterprise许可证。

总结

本文介绍了通过阿里云计算巢快速部署NVIDIA NIM的方案收益和部署方式，该方案充分利用了NIM的安全与高性能的无缝AI 推理功能，以及计算巢的软件一站式上云和交付能力，从而打造极致弹性、高性能、可实时观测的云上LLM推理服务。更多LLM上云部署参考示例请查看NVIDIA NGC目录：

https://catalog.ngc.nvidia.com/?filters=nvidia_nim%7CNVIDIA+NIM%7Cnimmcro_nvidia_nim%2CresourceType%7CContainer%7Ccontainer

欢迎大家体验和试用。

查看更多计算巢服务：https://computenest.aliyun.com

/ END /

阿里云基础设施

为了永不停机的计算服务

最新文章

面对热点事件，阿里云如何通过云上弹性与容器服务帮助客户应对流量洪峰

阿里云正式成为FinOps基金会顶级会员

OpenYurt v1.6正式发布 | 提供节点级别的流量复用能力

阿里云基础设施网络2024年创新总结

基于Knative的LLM推理场景弹性伸缩方案

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

使用ACK Edge统一管理多地域的ECS资源

ASM数据面代理扩展能力综述

服务网格容灾系列场景（三）：使用服务网格应对服务级故障容灾

对话｜企业如何构建更完善的容器供应链安全防护体系

服务网格容灾系列场景（二）：使用服务网格应对可用区级故障容灾

ACK One多集群网关：实现高效容灾方案

服务网格容灾系列场景（一）：使用服务网格应对地域级故障容灾

使用阿里云服务网格高效管理LLM流量：（二）流量可观测

阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖

云上杂“弹” - 游戏服云上怎么弹

Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

阿里云容器服务AI助手2.0 - 新一代容器智能运维能力

「AI实践派」产品生态伙伴Zilliz联合活动

面向Workload级别的灵活可配置Serverless弹性解决方案

云工开物：阿里云弹性计算走进高校第2期，与北京大学研一学生共探AI时代下的应用创新

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

什么是抢占式实例SPOT？

自主和开放并举探索下一代阿里云AI基础设施固件创新

云超算技术跃进，阿里云牵头制定我国首个云超算国家标准

AIGC浪潮涌入高校，首届【弹性计算进校园】研讨会顺利举行

阿里云2024 KCD雅加达之旅精彩回顾

解密开源Serverless容器框架：事件驱动篇

云上金融量化策略回测方案与最佳实践

ECS购买页太复杂！能不能来个简单的？

ACK Edge与IDC：高效容器网络通信新突破

Moka：ACS 容器计算服务助力CI/CD场景提效降本 70%

抢先报名！加速软件上云之旅

如何基于服务网格构建高可用架构

结合阿里云ASM泳道与Kruise Rollout进行全链路灰度发布

荣获2024年AI Cloud Native典型案例，阿里云容器产品技术能力获认可

ALink System亮相CCF中国存储大会凝聚Scale Up互连共识

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

预告 | 阿里云邀您参加2024中国生成式AI大会上海站，马上报名

阿里云研发副总裁蔡德忠受邀参加乌镇峰会，畅谈AI与下一代互联网

阿里云基于云原生的大规模云边协同关键技术及应用荣获浙江省科学技术进步一等奖

系统性能提升40%！阿里云助力朗镜科技AI商品识别平台实现云原生架构升级

K8s业务迁移最佳实践: 灵活管理资源备份与调整策略，实现高效简便的应用恢复

使用Kmesh作为阿里云服务网格ASM Sidecarless模式数据面

2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络精彩回顾

喜报！阿里云荣获2024数据存储风云榜两大金奖

从UALink近期发展再看GPU Scale Up的互连方向

阿里云吴结生：高性能计算持续创新，响应数据+AI时代的多元化负载需求

阿里云引领智算集群网络架构的新一轮变革

通过阿里云计算巢部署NVIDIA NIM，加速企业大语言模型SaaS化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉