如何优雅地测量GPU CUDA Kernel耗时？

科技 2024-10-31 22:01 广东

↑ 点击蓝字关注极市平台

作者丨Rainlin https://zhuanlan.zhihu.com/p/3278397099

来源丨自动驾驶之心

编辑丨极市平台

本文只做学术分享，如有侵权，请联系删文

极市导读

本文探讨了在测量GPU CUDA Kernel耗时时可能遇到的问题，例如输入相同但测量结果差异大的原因，并提供了精确测量kernel耗时的方法。文章分析了可能的原因，包括torch.cuda.event测量的时间可能包含了其他过程、GPU缓存的影响，以及GPU频率的变化，并给出了一些建议，如使用nsys工具进行更准确的测量。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

背景

Rainlin：如何优雅地测量GPU CUDA Kernel耗时？（一）中介绍了常用的测量gpu耗时方法，而实际应用中，还会遇到其他的问题，比如：

为什么同样的输入，测量的耗时存在较大差距？
怎样才能精确的测量kernel耗时？

问题

我们看以下常见代码，仅仅做了linear操作：

def test():  
    a_size = (20, 8192)  
    b_size = (5120, 8192)  
    events = [  
        [torch.cuda.Event(enable_timing=True) for _ in range(6)] for _ in range(50)  
    ]  
  
    # warm up  
    for _ in range(10):  
        a = torch.rand(a_size, dtype=torch.float16).cuda()  
        b = torch.rand(  
            b_size,  
            dtype=torch.float16,  
        ).cuda()  
        c = F.linear(a, b)  
  
    # 测量  
    for i in range(10):  
        a = torch.rand(a_size, dtype=torch.float16).cuda()  
        b = torch.rand(b_size, dtype=torch.float16).cuda()  
  
        events[i][0].record()  
        c = F.linear(a, b)  
        events[i][1].record()  
  
        events[i][2].record()  
        c = F.linear(a, b)  
        events[i][3].record()  
  
        events[i][4].record()  
        c = F.linear(a, b)  
        events[i][5].record()  
    torch.cuda.synchronize()  
  
    # 输出时间  
    for i in range(5):  
        print(  
            f"{i}: t1:{events[i][0].elapsed_time(events[i][1])},t2:{events[i][2].elapsed_time(events[i][3])},t3:{events[i][4].elapsed_time(events[i][5])}"  
        )  
    torch.cuda.synchronize()  
  
  
if __name__ == "__main__":  
    test()

以上代码在A100上输出为：

可以看到，t1耗时远大于t2与t3，显然这不合理，同样的输入，计算时间不可能相差这么多，接下来我们逐步分析。

为什么同样的输入，kernel的耗时相差巨大？

我们先对以上代码进行nsys分析：

观察到：三次linear在kernel层面只有60us+，但torch.cuda.event测量与nsys没对齐，第一次远大于kernel运行的时间。推测第一次torch.cuda.event测量的耗时并非kernel的耗时，应该包含了其他部分的耗时。

观察到代码：

a = torch.rand(a_size, dtype=torch.float16).cuda()  
       b = torch.rand(b_size, dtype=torch.float16).cuda()

这里存在cpu数据拷贝到gpu，猜测torch.cuda.event把拷贝的时间也算进去了，那我们去掉拷贝试试：

.....  
   
for i in range(10):  
        # 改成直接从GPU生成rand数据，而不是拷贝  
        a = torch.rand(a_size, dtype=torch.float16, device="cuda")  
        b = torch.rand(b_size, dtype=torch.float16, device="cuda")  
          
        events[i][0].record()  
        c = F.linear(a, b)  
        events[i][1].record()  
  
        events[i][2].record()  
        c = F.linear(a, b)  
        events[i][3].record()  
  
        events[i][4].record()  
        c = F.linear(a, b)  
        events[i][5].record()  
.....

测量结果为

果然第一次的torch.cuda.event的正常了不少，但发现第1次还是比第2、3次大，观察nsys的时间：

从nsys看，第1次linear是67us，而第2次kernel耗时是60us，第1次的确大于第2次耗时，由于两次运算是同样的数据，猜测是由于GPU缓存导致，可以尝试清空缓存：

fc = torch.empty(int(40 * (1024**2)), dtype=torch.int8, device="cuda")  
  
  
def flush_cache():  
    fc.zero_()  
  
  
...  
    for i in range(10):  
        a = torch.rand(a_size, dtype=torch.float16, device="cuda")  
        b = torch.rand(b_size, dtype=torch.float16, device="cuda")  
          
        flush_cache()  
        events[i][0].record()  
        c = F.linear(a, b)  
        events[i][1].record()  
          
        flush_cache()  
        events[i][2].record()  
        c = F.linear(a, b)  
        events[i][3].record()  
          
        flush_cache()  
        events[i][4].record()  
        c = F.linear(a, b)  
        events[i][5].record()  
...

再次运行，结果为：

nsys结果为：

可以发现此时3个计算kernel的耗时基本一致，说明缓存的确影响了kernel的耗时。

除此之外，影响耗时的原因还可能是GPU频率的变化，可以通过以下代码进行设置频率：

DEVICE = os.environ.get("CUDA_VISIBLE_DEVICES")  
CLOCK_SPEED = 1350  # Must choose a clock speed that's supported on your device.  
  
  
def set_clock_speed():  
    """  
    Set GPU clock speed to a specific value.  
    This doesn't guarantee a fixed value due to throttling, but can help reduce variance.  
    """  
    process = subprocess.Popen("nvidia-smi", stdout=subprocess.PIPE, shell=True)  
    stdout, _ = process.communicate()  
    process = subprocess.run(f"nvidia-smi -pm ENABLED -i {DEVICE}", shell=True)  
    process = subprocess.run(f"nvidia-smi -lgc {CLOCK_SPEED} -i {DEVICE}", shell=True)  
  
  
def reset_clock_speed():  
    """  
    Reset GPU clock speed to default values.  
    """  
    subprocess.run(f"nvidia-smi -pm ENABLED -i {DEVICE}", shell=True)  
    subprocess.run(f"nvidia-smi -rgc -i {DEVICE}", shell=True)

以上代码是将GPU频率锁定到指定值上，可自行尝试不同频率下的耗时情况。

结论

根据以上分析，同样的输入，测量kernel耗时不同的原因，有以下可能：

torch.cuda.event测量的时间包含了其他过程，不只是kernel本身
kernel运行时存在命中缓存，导致时间变短
GPU频率存在变化，当频率不同时，kernel的时间也会变化

一些建议

从以上示例来看，torch.cuda.event在统计并非与kernel绑定，而是两个时间点之差。在使用时，要注意是否存在其他流程影响了统计的时间点。如果要观察kernel的耗时，建议直接使用nsys更为准确和直观。

参考

How to Accurately Time CUDA Kernels in Pytorch | Speechmatics

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24