优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用。
GPU微架构包括:流处理器、渲染核、双精度浮点运算单元、特殊运算单元、流式多处理器、纹理处理器、图形处理器、流处理器阵列。
GPU架构工作流程为:Vertex Shader(定点着色器)建立图形骨架,再通过算法转化进行光栅化计算,进而进行纹理映射,再由PixeShader(像素着色器)像素处理,最终由ROP(光栅化引擎)输出。
不同微架构决定了GPU的不同性能,英伟达、AMD等国际GPU厂商均加大投入研发新架构作为提升GPU核心竞争力的重要抓手。
以英伟达的GPU架构为例:
英伟达的GPU架构演进从2010年到2024的14年间,进行了9次大的微架构更新,在2024 年3月的GTC大会上,NVIDIA 发布了 Blackwell 架构,从 Pascal 架构到 Blackwell 架构,架构代号均以科学家人名来命名,分别如下图所示。
其计算能力跟随英伟达的GPU微架构的发展,表现出不同的计算性能,具体的微架构的运行原理和特点这里就不展开讲了。
三、GPU性能评估
GPU性能是衡量GPU运行、执行命令高效的重要指标。GPU物理性能评估主要在于比较各硬件的物理参数,评估物理性能的参数主要包括:微架构、制程、图形处理器数量、流处理器数量、显存容量/位宽/带宽/频率、核心频率。
一般行业内评估GPU性能的指标依次为:微架构/制程>流处理器数量/核心频率>显存带宽/容量>其他。
微架构:目前英伟达的微架构在行业内做得最好的,目前也进行了9次大的微架构更新,性能有了大大的改变,详见第二节内容。
制程:指GPU集成电路的密集度。在晶体管硬件数量一定的情况下,更精细的制程能够减少功耗和发热。现阶段GPU主流最先进工艺制程为4nm。
核心频率:代表GPU显示核心处理图像频率大小/工作频率,能够反映显示核心的性能。
图形处理器单元数量:指GPU内部图形处理单元,涵盖光栅单元(ROP)和纹理单元(TMU)等数量。
光栅单元(ROP):进行光线、反射计算,负责游戏中高分辨率、高画质的效果生成。
纹理单元(TMU):能够对二进制的图形进行一系列翻转、缩放变化,再将其纹理传输至3D平面模型中。
CUDA核数:作为GPU内部的流处理器,是主要的计算单元,CUDA核数越多,GPU性能等级越高Tensor核数:能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行,Tensor核数越多,在人工智能、深度学习领域的性能越强。
显存容量:显存作为GPU核心部件,用以临时存储未处理数据。显存容量的大小对于GPU存储临时数据的多少起决定性作用,在GPU核心性能能够提供充足支撑前提下,越大的显存容量能够减少数据读取次数,减少延迟出现。
显存位宽:是GPU在单位时钟周期内传送数据的最大位数,位数越大GPU的吞吐量越大。
显存频率:显存数据传输的速度即显存工作频率,通常以MHz为显存频率计数单位。
显存带宽:显存带宽=显存频率X显存位宽18,为显存与显卡芯片间数据传输量。
GPU产业链主要包括三大环节:设计、制造和封装
GPU整体商业模式包括三种:IDM和、Fab+Fabless和Foundry
IDM模式:指将GPU产业链的三个环节整体化,充分结合自主研发和外部代工,集设计、制造、封装为一体,公司垂直整合GPU整体产业链。
Fab+Fabless:充分发挥各企业比较优势,仅负责芯片电路设计,将产业链其他环节外包,分散了GPU研发和生产的风险。
Foundry:公司仅负责芯片制造环节,不负责上游设计和下游封装,可以同时为多家上游企业服务。
如果对算力不是很熟悉的话,建议可先看看以下的文章,先对算力及相关的技术有个基本的了解,欢迎点赞收藏。
一文彻底搞懂:什么是InfiniBand(IB)网络【干货】
一文让你彻底了解算力到底是如何计算出来的-算力的计算方法(CPU和GPU)
AI DC的到来,你还不知道什么是数据中心?30页PPT让你快速了解数据中心