一文彻底读懂:什么是GPU及其微架构(干货)

乐活   2024-12-26 16:02   北京  
前几篇文章,我们一直在学习:NVlink和NVSwitch技术RDMA技术IB网络RoCE网络等,比较偏网络方面的东西。很多人就觉得是不是学偏了,有没有讲到智算的重点上来?其实前面讲的都是一些开胃菜,都是为我们学习GPU服务器做铺垫打基础的,接下来我们就好好来学习一下什么是GPU及GPU服务器?本章我们重点学习下什么是GPU,文章较长,请耐心细读。
在学习GPU之前,我们借用“通俗解释”的一个视频简单的来了解下GPU,确实非常通俗易懂。
看完之后,我们是不是对GPU就有了一个很直观的了解了?


一、那什么是GPU
GPU即图形处理单元(Graphics Processing Unit),是一种专用于处理图形渲染任务的微处理器,最初被设计用于快速高效地渲染图形、图像和视频内容,是一种专用的高度并行化处理器
GPU是在上世纪 80 年代作为图形处理器被英伟达发明出来的,刚设计出来的功能是相对单一的,主要就是着眼于图形图像的渲染工作,通常用在我们电脑配置的“显卡”上面。
GPU之所以在图像处理领域独占鳌头,得益于其高度并行的架构设计。GPU内部集成了大量的小型处理单元(ALU,如下图右侧绿色方块),能够同时去处理图像中的多个像素点,极大地加速了图像处理的过程,同时也解放了CPU的工作压力,提高了计算机的整体性能。由于强大的图像和视频渲染能力,得到了越来越多的计算机爱好者的关注和使用,特别是游戏爱好者。
如上图所示,GPU 的并行架构设计非常独特,它是由成百上千个小型处理单元组成,通常称为”ALU(算术逻辑单元)”、“流处理器SM(Stream Multiprocessor)”或“CUDA 核心”(不同厂商叫法可能都不太一样),每个处理单元能够独立且并行的执行不同指令,能够同时执行成千上万个线程,这种高度并行的处理能力使得 GPU 能够同时处理海量数据,因此可以在很短的时间内处理完成千上万的计算任务,所以非常适用于大规模的并行处理任务(如图像像素计算、视频渲染、数据流分析等)。虽然CPU 也有多核设计,但每个核心的任务通常是串行执行的,即需要完成了上一个任务之后,才能开始下一个任务,因此对于处理大规模的计算任务时,就有点手忙脚乱,忙不过来,显得非常缓慢。
随着时间的推移,以及GPU硬件、软件和CUDA生态的不断发展,其可编程性和灵活性的提高,应用领域也在不断扩展。如今,除了初期图像处理和视频渲染之外,GPU还被广泛用于:游戏、图形视频编辑、科学模拟、物理仿真、密码学运算、科学计算、机器学习等多个领域,特别是ChatGPT发布并爆发后,GPU被用作大模型训练最好的神器,成为了人工智能(AI)首选硬件设备

二、GPU卡内部组成及微架构
1、GPU卡的内部组成
GPU卡通常由:图形显存控制器、显存、压缩单元、BIOS、GPU图形和计算阵列、总线接口、电源管理单元、视频管理单元、显示界面、显示接口等组成。
2、GPU的微架构
GPU微架构(MicroArchitecture)就是指GPU内部的组成结构和运行原理,称为微处理器体系结构,是一种硬件电路设计构造的方式,或一种在图形函数和指令集条件下处理器中的执行方法。某一特定指令集可以在不同微架构中执行,但在上运行过程中因设计目的不同而存在技术效果的不同。就像不同的建筑风格一样,有着各自的特点和优劣。

优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用。

GPU微架构包括:流处理器、渲染核、双精度浮点运算单元、特殊运算单元、流式多处理器、纹理处理器、图形处理器、流处理器阵列。

GPU架构工作流程为:Vertex Shader(定点着色器)建立图形骨架,再通过算法转化进行光化计算,进而进行纹理映射,再由PixeShader(像素着色器)像素处理,最终由ROP(光栅化引擎)输出。

不同微架构决定了GPU的不同性能,英伟达、AMD等国际GPU厂商均加大投入研发新架构作为提升GPU核心竞争力的重要抓手。

以英伟达的GPU架构为例:

英伟达的GPU架构演进从2010年到2024的14年间,进行了9次大的微架构更新,在2024 年3月的GTC大会上,NVIDIA 发布了 Blackwell 架构,从 Pascal 架构到 Blackwell 架构,架构代号均以科学家人名来命名,分别如下图所示。

其计算能力跟随英伟达的GPU微架构的发展,表现出不同的计算性能,具体的微架构的运行原理和特点这里就不展开讲了。

NVIDIA GPU 微架构发展
NVIDIA GPU 微架构发展及参数对比



三、GPU性能评估

GPU性能是衡量GPU运行、执行命令高效的重要指标。GPU物理性能评估主要在于比较各硬件的物理参数,评估物理性能的参数主要包括:微架构、制程、图形处理器数量、流处理器数量、显存容量/位宽/带宽/频率、核心频率。

一般行业内评估GPU性能的指标依次为:微架构/制程>流处理器数量/核心频率>显存带宽/容量>其他。

微架构:目前英伟达的微架构在行业内做得最好的,目前也进行了9次大的微架构更新,性能有了大大的改变,详见第二节内容。

制程:指GPU集成电路的密集度。在晶体管硬件数量一定的情况下,更精细的制程能够减少功耗和发热。现阶段GPU主流最先进工艺制程为4nm。

核心频率:代表GPU显示核心处理图像频率大小/工作频率,能够反映显示核心的性能。

图形处理器单元数量:指GPU内部图形处理单元,涵盖光栅单元(ROP)和纹理单元(TMU)等数量。

光栅单元(ROP):进行光线、反射计算,负责游戏中高分辨率、高画质的效果生成。

纹理单元(TMU):能够对二进制的图形进行一系列翻转、缩放变化,再将其纹理传输至3D平面模型中。

CUDA核数:作为GPU内部的流处理器,是主要的计算单元,CUDA核数越多,GPU性能等级越高Tensor核数:能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行,Tensor核数越多,在人工智能、深度学习领域的性能越强。

显存容量:显存作为GPU核心部件,用以临时存储未处理数据。显存容量的大小对于GPU存储临时数据的多少起决定性作用,在GPU核心性能能够提供充足支撑前提下,越大的显存容量能够减少数据读取次数,减少延迟出现。

显存位宽:是GPU在单位时钟周期内传送数据的最大位数,位数越大GPU的吞吐量越大。

显存频率:显存数据传输的速度即显存工作频率,通常以MHz为显存频率计数单位。

显存带宽:显存带宽=显存频率X显存位宽18,为显存与显卡芯片间数据传输量。

英伟达GPU在不同微架构下的参数做对比,性能由高到低排列如下,供大家参考:


四、GPU产业链

GPU产业链主要包括三大环节:设计、制造和封装

GPU整体商业模式包括三种:IDM和、Fab+Fabless和Foundry

  • IDM模式:指将GPU产业链的三个环节整体化,充分结合自主研发和外部代工,集设计、制造、封装为一体,公司垂直整合GPU整体产业链。

  • Fab+Fabless:充分发挥各企业比较优势,仅负责芯片电路设计,将产业链其他环节外包,分散了GPU研发和生产的风险。

  • Foundry:公司仅负责芯片制造环节,不负责上游设计和下游封装,可以同时为多家上游企业服务。




如果对算力不是很熟悉的话,建议可先看看以下的文章,先对算力及相关的技术有个基本的了解,欢迎点赞收藏。

一文搞懂:什么是RoCE网络(干货)

一文彻底搞懂:什么是InfiniBand(IB)网络【干货】

一文彻底搞懂:什么是RDMA技术及其三个协议

一文读懂:NVlink和NVSwitch技术及发展

一文读懂:GPU的通信带宽-运力

一文让你彻底了解算力到底是如何计算出来的-算力的计算方法(CPU和GPU)

一文读懂什么是智算和算力,让你看懂算力的规模!

AI DC的到来,你还不知道什么是数据中心?30页PPT让你快速了解数据中心




芯时代青年
专心数字前端全流程,芯时代有为青年的自我修养
 最新文章