如何正确理解NVIDIA GPU利用率的概念

科技 2024-12-05 19:56 日本

博客原地址：https://arthurchiao.art/blog/understanding-gpu-performance/ 这里做了翻译。通过 nvidia-smi 等工具报告的 GPU 性能指标可能会产生误导。本文将深入探讨这个问题的本质，以提供更深入的理解。

1 NVIDIA `GPU util`：一个令人困惑的现象

即使只有一个任务在 GPU 的一小部分上运行，由 nvidia-smi 或其他基于 nvml 的工具报告的 "GPU util" 指标也可能显示设备被完全占用，这对用户来说相当令人困惑。

为了更清楚地理解这一点，让我们看看 NVIDIA 开发者论坛上的一个例子(https://forums.developer.nvidia.com/t/some-questions-on-gpu-utilization/191025)：

__global__ void simple_kernel() {
    while (true) {}
}

int main() {
    simple_kernel<<<1, 1>>>();
    cudaDeviceSynchronize();
}

这段代码会在单个流式多处理器(SM)上启动一个指定的内核(线程)。根据传统理解，GPU 的"利用率"应该按照 1 / SM数量 * 100% 来计算。例如：

如果 GPU 上有 10 个 SM，那么"GPU 利用率"应该是 10%。
如果 GPU 上有 20 个 SM，那么"GPU 利用率"应该是 5%。

然而，我们观察到 nvidia-smi 可能会报告 "GPU-Util" 为 100%，如下面的示例输出所示：

$ nvidia-smi
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  Off  | 00000000:1A:00.0 Off |                    0 |
| N/A   42C    P0    67W / 300W |   2602MiB / 32510MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

问题出在哪里？让我们来寻找答案。

2 `GPU Util`：一个容易误导的术语？

让我们先做一些搜索来加深理解。

2.1 官方文档中的定义

nvidia-smi 命令行工具是基于 NVIDIA 管理库(NVML)的，但遗憾的是这个库并不开源。为了寻找一些说明，我们查阅了官方的 NVML(https://developer.nvidia.com/management-library-nvml) 文档。根据文档所述：

GPU 利用率：报告 GPU 计算资源和内存接口的当前利用率。

这个信息并没有提供我们想要的清晰解释。所以，我们继续往下看。

2.2 探索代码

虽然 NVML 库本身并不开源，但我们发现它有一些开源的语言绑定可用。这意味着我们至少可以访问到结构体和字段定义，这些通常在 C/C++ 头文件中提供。这里我们选择了 gonvml 项目，它为 NVML 提供了 Golang 绑定。以下是 NVML 头文件中定义 "GPU Util" 和 "Memory Util" 术语的摘录：

// https://github.com/NVIDIA/go-nvml/blob/v0.12.0-1/gen/nvml/nvml.h#L210

/**
 * 设备的利用率信息。
 * 每个采样周期可能在1秒到1/6秒之间，具体取决于被查询的产品。
 */
typedef struct nvmlUtilization_st {
    unsigned int gpu;                //!< 在过去的采样周期内，有一个或多个内核在GPU上执行的时间百分比
    unsigned int memory;             //!< 在过去的采样周期内，全局(设备)内存被读取或写入的时间百分比
} nvmlUtilization_t;

通过上述注释,我们找到了答案。

2.3 解释

根据 NVML 的定义,"利用率"指的是在过去的采样周期内,某些活动发生的时间百分比。具体来说:

GPU 利用率: 表示在过去的采样周期内,有一个或多个内核在 GPU 上执行的时间百分比。
内存利用率: 表示在过去的采样周期内,全局(设备)内存被读取或写入的时间百分比。

换句话说,NVML 定义的"利用率"概念可能与我们的常规理解不同。它仅仅衡量设备在给定采样周期内被使用的时间比例,而不考虑在此期间使用了多少流式多处理器(SM)。通常,我们认为"利用率"是指正在使用的 GPU 处理器的比例。

我不确定为什么 NVIDIA 以这种非常规的方式定义"利用率"。但这可能与"USE"(利用率/饱和度/错误)方法论中的"利用率"定义有关。

2.4 "USE"方法论

如果你熟悉《Systems Performance: Enterprise and the Cloud》这本书,你可能记得 Brendan Gregg 介绍的"USE"方法论。这个方法论关注三个关键指标:利用率、饱和度和错误。根据"USE"博客,这些术语的定义如下:

利用率: 资源忙于处理工作的平均时间[2]
饱和度: 资源无法处理的额外工作的程度,通常是排队的工作
错误: 错误事件的计数

"USE"方法论对"利用率"提供了额外的解释:

还有另一种定义,其中利用率描述了资源被使用的比例,因此 100% 的利用率意味着不能再接受更多工作,这与上述"忙碌"定义不同。

总的来说,在"USE"方法论中,"利用率"指的是资源主动服务或工作的时间比例,而不考虑分配的容量。对于后者,使用"饱和度"这个术语。虽然"USE"方法论为资源使用评估提供了有价值的见解,但重新定义像"利用率"这样一个已经确立的术语可能会导致混淆。许多人仍然倾向于将"利用率"理解为容量使用或饱和度。

如果需要,可以用 "使用频率" 这个替代术语来替换"利用率",表示 设备被使用的频率。

2.5 两个指标来源: NVML / DCGM

在大多数情况下,我们主要关心的指标是与"饱和度"相关的指标。那么,我们可以在哪里找到这些 GPU 指标呢?

有两种流行的收集 GPU 性能指标的方法:

使用命令行工具如 nvidia-smi,可以输出类似 pretty-print 和 xml 格式的数据。

这个工具内部基于 NVML(NVIDIA 管理库)。
它收集高级别的指标,如 GPU 和内存的"利用率"(使用频率),设备温度,功耗等。

Using services like dcgm-exporter, which can output data in Prometheus format.

这个服务基于 DCGM(数据中心 GPU 管理)。
除了高级别的指标,它还可以执行分析并收集关于 GPU 设备的详细饱和度数据。

以下是两个显示从 nvidia-smi 和 dcgm-exporter 收集的指标的仪表板:

注意 GPU 的利用率是 100%。以下是从 dcgm-exporter 收集的指标:

我们可以看到 SM 占用率非常低(<20%),浮点运算(FP32/FP16/TensorCore)也保持在非常低的百分比,这表明 GPU 没有饱和。

3 结论和一般建议

3.1 “利用率” vs. 饱和度

不知道 NVML 的设计师是否故意采用了上述的"USE"方法论,但它的"利用率"(包括 GPU 和内存利用率)定义似乎与"USE"标准一致。报告的"利用率"只是表示设备被使用的频率(以时间百分比表示),而不考虑被利用的容量。

3.2 一般建议:优先考虑饱和度指标

虽然 nvidia-smi 是一个常用且方便的工具,但它并不是性能测量的最佳选择。对于实际部署的 GPU 应用程序,建议使用基于 DCGM 的指标,如 dcgm-exporter 提供的指标。

此外,关注饱和度指标是有益的。这些指标包括 FP64/FP32/FP16 激活、张量核心激活百分比、NVLINK 带宽、GPU 内存带宽百分比等。

GiantPandaCV

专注于大语言模型，CUDA，编译器，工程部署和优化等多个方向技术分享。我们不仅坚持原创，也规范转载知乎大佬们的高质量博文。希望在传播知识、分享知识的同时能够启发你，在人类通往AGI的道路上互相帮助(･ω\x26lt;)☆

最新文章

使用 PyTorch 加速生成式 AI 之 GPT Fast

【ml-engineering 翻译系列】计算加速器之gpu

图解OpenRLHF中基于Ray的分布式训练流程

GTX 4090 的 cuda graph 诡异

PyTorch 通讯实践

CUDA-MODE 课程笔记第29课 Triton内部机制

ModelServer：基于 SGLang 的前端分发系统

如何正确理解NVIDIA GPU利用率的概念

RMSNorm的精度陷阱：记一次LLM推理精度调查

图解大模型训练系列：序列并行4，Megatron Context Parallel

CUDA-MODE 课程笔记第28课用在生产环境中的LinkedIn Liger kernel

GPU 矩阵乘实际可达最大FLOPS测量工具

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

NCCL 与 NVIDIA TOPO

基于 chunked prefill 理解 prefill 和 decode 的计算特性

CUDA-MODE课程笔记 Lecture 16 通过CUDA C++核心库把llm.c移植为llm.cpp

SGLang 后端原文解析

AwesomeCLIP---100+篇CLIP相关工作整理

小白视角：利用 SGL 来 Serve Embedding Model

小白视角：vllm 迁移到 SGLang 的体验与收获

【ml-engineering 翻译系列】计算加速器之cpu

梳理下Flash Attention的dispatch逻辑（文末免费送书）

图解大模型训练系列：序列并行3，Ring Attention

【ml-engineering 翻译系列】训练之模型并行

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

【翻译】在FSDP2中开启Float8 All-Gather

图解大模型训练系列：序列并行1，Megatron SP

【ml-engineering 翻译系列】AI系统中的网络 benchmark

OpenAI o1技术初探3：如何让模型拥有自我纠错的能力

【ml-engineering 翻译系列】AI系统中的网络 debug

OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）

【ml-engineering 翻译系列】AI系统中的网络概述

【ml-engineering 翻译系列】大模型推理

【翻译】使用PyTorch FSDP和Torch.compile最大化训练吞吐量

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

OpenAI o1 技术初探1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

【翻译】使用PyTorch FSDP最大化训练吞吐量

图文详解 Continuous Batch：不写 CUDA Kernel 也能成倍优化推理效率

CUDA-MODE 课程笔记第14课，Triton 实践指南

【翻译】CUDA-Free Inference for LLMs

揭秘 PagedAttention（上）：如何管理 Paged KV Cache

图解KV Cache：加速大模型推理的幕后功臣

Flex Attention API 应用 Notebook 代码速览

将GLM-4-Plus大模型应用到Cursor中

大语言模型推理，用动画一看就懂！

【翻译】【PyTorch 奇技淫巧】FlexAttetion 基于Triton打造灵活度拉满的Attention

【翻译】torch.compile 的详细示例解析教程

CUDA-MODE 课程笔记第13课：Ring Attention

大模型直接预测下一个句子，更快、更准、更长！

【PyTorch 奇技淫巧】介绍 depyf：轻松掌握 torch.compile

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

如何正确理解NVIDIA GPU利用率的概念

1 NVIDIA GPU util：一个令人困惑的现象

2 GPU Util：一个容易误导的术语？

2.1 官方文档中的定义

2.2 探索代码

2.3 解释

2.4 "USE"方法论

2.5 两个指标来源: NVML / DCGM

3 结论和一般建议

3.1 “利用率” vs. 饱和度

3.2 一般建议:优先考虑饱和度指标

1 NVIDIA `GPU util`：一个令人困惑的现象

2 `GPU Util`：一个容易误导的术语？