下载链接:
NVIDIA vGPU方案(软切分)
方案组成
硬件:显卡需要支持GPU虚拟化 软件:虚拟化层和VM中分别有两类不同的驱动来实现 授权:通过授权来限制或者部分限制vGPU卡的使用
性能指标
GPU架构,架构越新代表制程更先进和更大的晶体管规模 CUDA核心:越大越好 显存:显存是虚拟机独占的
英伟达本身硬件是不做切分做工,通过虚拟化层和虚机中的驱动来完成切分
vGPU资源调度机制
GPU的主要资源: CUDA核心, 显存, BAR(Base Address Register 是一种寄存器,用于指示设备(如显卡)在物理内存中的基地址,BAR通常用来配置设备的I/O端口或内存映射,并告诉系统在哪里可以找到设备的寄存器、缓冲区或其他资源。), channel(内存通道,通信通道等) 虚拟机的独占资源:显存,虚拟BAR,channel 虚拟机共享资源:计算核心,所有虚拟机分时共享(自己时间片内享受到所有的计算资源) 三种调度策略 Best effort (抢占),任务量大的分的资源多 Equal share:无论有没有任务,只要开机就能拿到相应的计算资源 Fixed Share:无论有没有任务,有没有开机,都预留给VM
vGPU资源切分说明
一般一个GPU只能跑一种profile,包括显存容量和授权模式(可能是因为硬件设计或者稳定性,兼容性的考虑) 比如8核,只能切成2222或者44,不能224 虚机漂移,只能在相同GPU型号之间实现,也不是所有虚拟机都支持
部分显卡支持GPU直通,允许虚拟机直接访问物理GPU,而不是通过虚拟层介入。这种直通模式也被称为GPU Passthrough。
单张GPU可分配的vGPU是32个,(分片,如果太多可能轮询时间就太长,延迟就明显)
授权检测
多种授权类型 需要独立的授权服务器,开机占用授权,关机释放授权
AMD MxGPU(硬切分)
硬件资源切分: MxGPU通过硬件支持,将物理GPU切分为多个虚拟GPU。每个虚拟GPU拥有自己的显存、计算单元等硬件资源。这种硬件级的切分有助于提供较好的性能隔离,确保一个虚拟机的工作不会影响其他虚拟机。 vGPU Profiles: MxGPU引入了不同的vGPU profiles,每个profile对应不同的GPU性能级别和硬件资源。这允许管理员根据实际需求为虚拟机选择适当的性能水平,以满足不同用户或工作负载的需求。 动态分配: AMD MxGPU支持动态分配GPU资源。这意味着管理员可以在运行时动态调整每个虚拟机的GPU性能水平,以适应不同的工作负载和用户需求。 GPU共享: AMD MxGPU还支持GPU共享,允许多个虚拟机在需要时动态共享未使用的GPU资源。这种灵活性有助于提高整个系统的资源利用率。
方案组成
硬件:搭载的显卡支持GPU虚拟化 软件:非常小,不通过驱动进行切分 无需授权:基于硬件实现,不需要软件授权 SR-IOV(Single Root I/O Virtualization)是一种用于虚拟化的技术,旨在提高网络和存储设备在虚拟化环境中的性能。该技术允许物理设备在多个虚拟机之间进行硬件级别的切分,而不会牺牲性能。(PF -> VF -> IOMMU直通)
资源调度原理
PF拓展出的每个VF就是一个实例,相当于一个独立的PCIE设备,对主板而言,有多少VF就有多少个物理卡。 独享资源:显存独占,有独立的PCI配置 共享资源:流处理(存疑),也查到用户在所有时间占用部分计算资源
硬件虚拟化的价值
虚拟化对硬件损耗小,不需要VMM(虚拟化层)翻译,节省CPU资源 每个虚拟机获得的性能更平均,更稳定 安全性更好(IOMMU)
限制说明
单块GPU切分的桌面数必须是偶数(一张卡有两个GPU,但是只能有一个配置文件) 整个服务器无论有几张卡,都只能有一个配置
硬件切分 vs 软件切分
硬件虚拟化 vs 软件虚拟化
硬件虚拟化 | 软件虚拟化 | |
GPU分析:全球竞争格局与未来发展 2023年GPU显卡技术词条报告 英伟达GPU龙头稳固,国内逐步追赶(详解) GPU/CPU领域散热工艺的发展与路径演绎 探析ARM第五代GPU架构 新型GPU云桌面发展白皮书 十大国产GPU产品及规格概述 GPU平台生态:英伟达CUDA和AMD ROCm对比分析 GPU竞争壁垒:微架构和平台生态 GPU微架构、性能指标、场景、生态链及竞争格局(2023) 大模型训练,绕不开GPU和英伟达 Nvidia/AMD竞争:GPU架构创新和新兴领域前瞻探索 走进芯时代:AI算力GPU行业深度报告 独立GPU市场,AMD份额大跌? CPU渲染和GPU渲染优劣分析 NVIDIA Hopper GPU:芯片三围、架构、成本和性能分析 国内GPU厂商及细分行业前景(2023) ChatGPT对GPU算力的需求测算与分析 AMD RDNA2 GPU架构详解 GPU研究框架(2023)
1、2024年中国AI Agent研究:创新驱动,智能技术革新
2、中国AI Agent行业研究:智能体落地千行百业,引领智能化革命的新引擎
AI Agent行业词条报告:驱动智能交互变革,重塑服务生态
1、面向办公自动化领域的 AI Agent 建设思考与分享
2、AI Agent 在企业经营分析场景的落地
3、LLM和Multi-Agent在运维领域的实验探索
2024年AI Agent行业研究报告
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。