GPU虚拟化：英伟达&AMD技术分析

科技 2024-10-24 07:49 四川

GPU虚拟化就是将一个物理GPU切分为多个虚拟CPU以供不同虚拟机使用（GPU切分）。

下载链接：

全店铺技术资料打包(全)
架构师技术全店资料打包汇总(全)
服务器基础知识全解(终极版)
存储系统基础知识全解

NVIDIA vGPU方案（软切分）

方案组成

硬件：显卡需要支持GPU虚拟化
软件：虚拟化层和VM中分别有两类不同的驱动来实现
授权：通过授权来限制或者部分限制vGPU卡的使用

性能指标

GPU架构，架构越新代表制程更先进和更大的晶体管规模
CUDA核心：越大越好
显存：显存是虚拟机独占的

英伟达本身硬件是不做切分做工，通过虚拟化层和虚机中的驱动来完成切分

vGPU资源调度机制

GPU的主要资源：

CUDA核心，
显存，
BAR（Base Address Register 是一种寄存器，用于指示设备（如显卡）在物理内存中的基地址，BAR通常用来配置设备的I/O端口或内存映射，并告诉系统在哪里可以找到设备的寄存器、缓冲区或其他资源。），
channel（内存通道，通信通道等）

虚拟机的独占资源：显存，虚拟BAR，channel
虚拟机共享资源：计算核心，所有虚拟机分时共享（自己时间片内享受到所有的计算资源）
三种调度策略

Best effort (抢占)，任务量大的分的资源多
Equal share：无论有没有任务，只要开机就能拿到相应的计算资源
Fixed Share：无论有没有任务，有没有开机，都预留给VM

vGPU资源切分说明

一般一个GPU只能跑一种profile，包括显存容量和授权模式（可能是因为硬件设计或者稳定性，兼容性的考虑）

比如8核，只能切成2222或者44，不能224
虚机漂移，只能在相同GPU型号之间实现，也不是所有虚拟机都支持

部分显卡支持GPU直通，允许虚拟机直接访问物理GPU，而不是通过虚拟层介入。这种直通模式也被称为GPU Passthrough。

在传统的虚拟化环境中，虚拟机通常使用虚拟的图形适配器，而不是直接访问物理GPU。这样的虚拟适配器通过宿主操作系统的图形驱动程序提供图形输出。然而，对于某些工作负载，特别是需要高性能图形加速的应用程序（如游戏、计算机辅助设计等），虚拟适配器的性能可能不足以满足要求。

GPU直通模式通过将整个物理GPU分配给虚拟机，使得虚拟机能够直接控制GPU，获得接近原生性能的图形加速。这样，虚拟机中的应用程序就能够利用GPU进行计算和图形处理，而不受虚拟适配器的性能限制。

单张GPU可分配的vGPU是32个，（分片，如果太多可能轮询时间就太长，延迟就明显）

授权检测

多种授权类型
需要独立的授权服务器，开机占用授权，关机释放授权

AMD MxGPU（硬切分）

它允许将物理GPU资源划分为多个逻辑部分，每个部分可以分配给一个独立的虚拟机。这样，每个虚拟机就能够独享一定比例的GPU性能，而不会受到其他虚拟机的影响。

以下是AMD MxGPU的一些切分方案和特点：

硬件资源切分： MxGPU通过硬件支持，将物理GPU切分为多个虚拟GPU。每个虚拟GPU拥有自己的显存、计算单元等硬件资源。这种硬件级的切分有助于提供较好的性能隔离，确保一个虚拟机的工作不会影响其他虚拟机。
vGPU Profiles： MxGPU引入了不同的vGPU profiles，每个profile对应不同的GPU性能级别和硬件资源。这允许管理员根据实际需求为虚拟机选择适当的性能水平，以满足不同用户或工作负载的需求。
动态分配： AMD MxGPU支持动态分配GPU资源。这意味着管理员可以在运行时动态调整每个虚拟机的GPU性能水平，以适应不同的工作负载和用户需求。
GPU共享： AMD MxGPU还支持GPU共享，允许多个虚拟机在需要时动态共享未使用的GPU资源。这种灵活性有助于提高整个系统的资源利用率。

AMD MxGPU的切分方案为虚拟化环境提供了一种有效管理和分配GPU资源的方法，尤其适用于需要在虚拟化环境中运行图形密集型工作负载的场景。

方案组成

硬件：搭载的显卡支持GPU虚拟化
软件：非常小，不通过驱动进行切分
无需授权：基于硬件实现，不需要软件授权
SR-IOV（Single Root I/O Virtualization）是一种用于虚拟化的技术，旨在提高网络和存储设备在虚拟化环境中的性能。该技术允许物理设备在多个虚拟机之间进行硬件级别的切分，而不会牺牲性能。(PF -> VF -> IOMMU直通)

资源调度原理

PF拓展出的每个VF就是一个实例，相当于一个独立的PCIE设备，对主板而言，有多少VF就有多少个物理卡。
独享资源：显存独占，有独立的PCI配置
共享资源：流处理（存疑），也查到用户在所有时间占用部分计算资源

不像英伟达，需要经过很多层，通过IOMMU（i/o memory unit）可以将物理设备地址对应到不同的虚机中。也就是说物理设备在划分为相应的VF之后，每个VF只能寻址虚机0所涉及的地址范围，无法访问其他虚机地址（安全），同时不需要经过中间那么多层的翻译和信息传递，CPU消耗也较小。

硬件虚拟化的价值

虚拟化对硬件损耗小，不需要VMM（虚拟化层）翻译，节省CPU资源
每个虚拟机获得的性能更平均，更稳定
安全性更好（IOMMU）

限制说明

单块GPU切分的桌面数必须是偶数（一张卡有两个GPU，但是只能有一个配置文件）
整个服务器无论有几张卡，都只能有一个配置

硬件切分 vs 软件切分

硬件虚拟化 vs 软件虚拟化

	硬件虚拟化	软件虚拟化
优点	价格低资源消耗小性能更稳定更好的安全性	上市后依然可以通过软件升级进行迭代可满足的场景多CUDA生态更好
缺点	上市后无法继续迭代切分限制更多不支持VM漂移	价格高稳定性低虚拟化导致的性格损耗多

作者：脑容量不足

链接：

https://juejin.cn/post/7321410893680787493

GPU技术篇

下载链接：

《2024年中国AI Agent研究合集》

1、2024年中国AI Agent研究：创新驱动，智能技术革新

2、中国AI Agent行业研究：智能体落地千行百业，引领智能化革命的新引擎

AI Agent在解决大模型应用难题中的关键作用

AI Agent行业词条报告：驱动智能交互变革，重塑服务生态

AI Agent在企业生产中的技术实践

《AI Agent技术应用合集》

1、面向办公自动化领域的 AI Agent 建设思考与分享

2、AI Agent 在企业经营分析场景的落地

3、LLM和Multi-Agent在运维领域的实验探索

2024年AI Agent行业研究报告

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新，现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)”和“存储系统基础知识全解（终极版）”pdf及ppt版本，后续可享全店内容更新“免费”赠阅，价格仅收249元(原总价339元)。

温馨提示：

扫描二维码关注公众号，点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。

http://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650752231&idx=1&sn=b6118303677619e081139524362972f1

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最新文章

AMD，超级计算杀疯了

超大规模集群：CPU&GPU部署与实践

算力网络基础知识全解（收藏版）

服务器内部揭秘（CPU、内存、硬盘）

干货解读：2024云计算白皮书

2024中国AI服务器产业链图谱分析（附产业链全景图）

AMD与Intel处理器综合对比分析

算力网络基础知识全解（收藏版）

AI芯片架构众多，谁会主宰算力芯片？

干货：标准RAG架构和落地实践

2024信创4大领域和15个产业现状调研

机架服务器设计和规格介绍

全国智算基础设施布局概述

交换机：从EOR到TOR架构变迁

SSD闪存技术基础知识全解（终极版）

大模型时代：交换机衡量指标、技术演变及性能分析

AI服务器核心部件产业链剖析（2024）

RAID软硬混战，怎样选最适合？

干货：白牌和品牌服务器之争

SCM新介质：未来方向思考和探讨

下载提醒：SSD闪存技术基础知识全解（终极版）

图解：72个机器学习基础知识点

十年一剑，TPU引领AI芯片时代

直播预告：阿加犀基于SiRider S1芯擎开发板的机器人应用分享

收藏：数据存储和保护技术(110页PPT)

GPU虚拟化：常见技术实现解析

Blackwell GB200：英伟达GPU重塑AI服务器

2024中国智能算力行业白皮书

GPU虚拟化：英伟达&AMD技术分析

大模型技术关键特性与发展趋势

收藏：存储和服务器基础技术

AI网络背景下RDMA的Why，What & How

一文读懂NPU是啥？

GDDR和HBM内存对比

干货：GPU训练和渲染技术

AI芯片算力基础及关键参数

Intel 2025服务器CPU路线图

鲲鹏CPU处理器芯片及架构

AI网络设计：常见误解规避及分析

存储系统基础知识全解（终极版）

国产CPU崛起：一文理解指令集概念

服务器基础知识全解（终极版）

2024年AMD CPU和GPU技术进展

2024中国AI Agent研究综述

服务器CPU：架构、性能及未来趋势

超异构计算技术趋势分析

VMware by Broadcom：虚拟化国产替换是否Ready？

详解服务器磁盘及网卡技术

深入浅出：服务器组成及架构之争

干货：InfiniBand核心技术功能答疑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉