处理器的对比,为什么很困难?

文摘   2024-11-24 07:02   上海  
作者:BRIAN BAILEY
翻译:Brian
校对:Mike
原文:https://semiengineering.com/why-comparing-processors-is-so-difficult/

有些设计注重功耗,而另一些设计则注重可持续性能、成本或灵活性。但是,根据基准为应用程序选择最佳选项变得越来越困难。
每个新处理器都声称自己是速度最快、最便宜或最省电的,但这些说法的衡量方法和支持信息可能非常有用,也可能无关紧要。
芯片行业在提供信息指标方面比过去更加努力。二十年前,衡量处理器性能相对容易。它是指令执行速率、每条指令执行的有用工作量以及从内存读取和写入信息的速率的组合。这与它消耗的电量和成本相权衡,而后者当然不那么重要。
当 Dennard Scaling 下降时,许多市场的时钟速度不再增加,MIPS 评级停滞不前。架构、内存连接和添加更多处理器等其他方面都得到了改进。但没有创建新的性能指标。
“在过去二十年的大部分时间里,一直保持着一种令人毛骨悚然的沉默,”西门子 EDA 高级副总裁兼总经理 Ravi Subramanian 说道。“这种沉默是由英特尔和微软造成的,它们控制着计算机架构和其上运行的工作负载(应用程序)之间的契约。这推动了很大一部分计算,尤其是企业计算。我们现在有一些非常具体的计算类型,它们更特定于领域或小众,脱离了传统的冯·诺依曼架构。每秒每毫瓦每兆赫的数百万次操作已经趋于平稳,为了获得更高的计算效率,必须在工作负载所有者和计算机架构师之间建立新的契约。”
在尝试衡量处理器的质量时,考虑应用程序变得很重要。这个处理器在执行特定任务时有多好,在什么条件下?
GPU 和 DSP 使该行业走上了领域特定计算的道路,但今天它正在被提升到一个新的水平。 “随着经典摩尔定律的放缓,创新已转向特定领域的架构,”Synopsys Fusion Compiler 产品营销经理 James Chuang 表示。“这些新架构可以在相同的工艺技术上实现每瓦性能的大幅提升。它们为设计探索开辟了广阔的未知空间,无论是在架构层面还是在物理设计层面。”
有人试图定义模仿上一个时代的新指标。“AI 应用程序需要处理器具备一些特定功能,最明显的是大量乘法/累加运算,”AMD 自适应和嵌入式计算集团 AI 和软件及解决方案产品营销总监 Nick Ni 表示。“处理器定义了它们可以执行的每秒数万亿次操作 (TOPS),这些评级一直在迅速提高(如图 1 所示)。但就每瓦性能或每美元性能而言,真正的性能是什么?”

图 1:AI TOPS 评级的增长。来源:AMD/Xilinx

随着芯片尺寸达到标线极限,即使工艺缩小,将更多晶体管集成到芯片上也变得更加昂贵和困难,因此性能提升只能来自架构变化或新的封装技术。
多个较小的处理器通常比单个较大的处理器更好。将多个芯片组合在一个封装中还可以使与内存和其他计算核心的连接也进行架构改进。“您可能会将多个处理单元组合在一个封装中以提供更好的性能,”Synopsys 员工产品营销经理 Priyank Shukla 说。“这个封装将有多个芯片,将作为更大或更强大的计算基础设施。该系统正在提供业界习惯的一种摩尔定律扩展。我们即将达到单个芯片无法提供性能改进的极限。但现在这些系统可以在 18 个月内为您提供 2 倍的性能提升,这正是我们所习惯的。”
工作负载正在推动计算机架构的新需求。西门子的 Subramanian 说:“这些超越了传统的冯·诺依曼架构。许多新类型的工作负载需要分析,需要创建模型。人工智能和机器学习已成为推动模型开发的劳动力。我如何基于训练数据进行建模,以便可以使用模型进行预测?这是一种非常新的工作负载类型。这正在推动对计算机架构的全新看法。计算机架构如何与这些工作负载相匹配?你可以在传统的 x86 CPU 上实现神经网络或 DNN。但如果你看看每毫瓦、每兆赫兹可以得到多少百万次操作,并考虑这些操作的字长、权重和深度,通过将工作负载与计算机架构相匹配,它们可以以更节能的方式更好地交付。”
工作负载和性能指标因位置而异。“超大规模企业已经提出了不同的指标来对不同类型的计算能力进行基准测试,”Synopsys 的 Shukla 说。 “最初,他们会谈论每秒千万亿次浮点运算,即执行浮点运算的速率。但随着工作负载变得越来越复杂,他们正在定义新的指标来同时评估硬件和软件。这不仅仅是原始硬件。这是两者的结合。我们看到他们专注于一个称为 PUE 的指标,即电源使用效率。他们一直在努力降低维护数据中心所需的电力。”
已经失去了比较任何两个处理器的方法,除非在最佳条件下运行特定应用程序。即使这样,也存在问题。处理器及其使用系统能否在很长一段时间内保持其性能?还是会因为热量而受到限制?当多个应用程序同时在处理器上运行,导致不同的内存访问模式时会怎样?处理器在数据中心之外最重要的特性是性能,还是电池寿命和功耗,还是两者之间的某种平衡?
“如果你退后一步,从非常高的层面来看,它仍然是在最低功耗下实现最大计算能力,”瑞萨电子物联网和基础设施业务部执行副总裁兼总经理 Sailesh Chittipeddi 表示。“因此,你可以考虑需要什么样的计算能力,以及它是否针对工作负载进行了优化。但最终的因素是它仍然必须处于最低功耗。然后问题就变成了‘你是把连接放在板载上,还是把它留在板外?或者你如何优化功耗?这是必须在系统层面解决的问题。”
测量这一点很困难。基准测试结果不仅反映了硬件,还反映了相关软件和编译器,它们比过去复杂得多。这意味着特定任务的性能可能会随着时间的推移而发生变化,而底层硬件没有任何变化。
架构考虑并不止于封装的引脚。“想象一下在先进的智能手机上拍照,” Shukla 说。“在捕捉图像的 CMOS 传感器中执行 AI 推理。其次,手机有四个核心用于额外的 AI 处理。第三层发生在数据中心边缘。超大规模计算公司在数据捕获的不同距离推出了不同级别的推理。最后,您将拥有真正的大型数据中心。AI 推理发生在四个级别,当我们考虑功耗时,我们应该计算所有这些级别。它从手中的手机、物联网开始,一直到最终的数据中心。”
由于有如此多的初创公司在创建新的处理器,许多公司的成功或失败可能是由于其软件堆栈的质量,而不是硬件本身。更困难的是,硬件必须在知道它可能运行哪些应用程序之前就进行设计。在这种情况下,甚至没有任何东西可以作为处理器的基准。

基准测试
基准测试旨在提供一个公平的竞争环境,以便可以直接比较两件事,但它们仍然容易被操纵。
当某个特定应用变得足够重要时,市场就会要求基准测试,以便对其进行评级。“不同类型的人工智能训练都有基准测试,” Shukla 说。“ ResNet 是图像识别的基准,但这是一个性能基准,而不是功率基准。超大规模计算者将展示其基于硬件和软件的计算效率。有些甚至构建了定制硬件,即加速器,可以比普通 GPU 或基于普通 FPGA 的实现更好地执行任务。 TensorFlow 就是一个例子,它与 Google TPU 相结合。他们根据这一点对其人工智能性能进行了基准测试,但目前功率并不是等式的一部分。它主要是性能。”
忽略功率是一种操纵形式。“ 2012 年的旗舰手机的峰值时钟频率为 1.4GHz,” Arm 技术副总裁兼研究员 Peter Greenhalgh 说。“与当今达到 3GHz 的旗舰手机形成鲜明对比。对于台式机 CPU,情况更加微妙。虽然 Turbo 频率仅比 20 年前高一点,但 CPU 能够更长时间地保持更高的频率。”
但并非所有基准测试的规模或运行复杂度都达到这一点。“随着功耗的增加,温度会升高,”Ansys 的 PowerArtist 产品管理负责人 Preeti Gupta 说。“一旦超过某个阈值,就必须降低性能(如图 2 所示)。功率、热量和性能紧密相关。不考虑功率效率的设计将不得不付出运行速度变慢的代价。在开发过程中,您必须采用实际用例,运行数十亿个周期,并分析它们的热效应。查看热图后,您可能需要移动部分逻辑以散热。至少,您需要将传感器放在不同的位置,以便知道何时降低性能。”

图 2:性能限制会影响所有处理器。来源:Ansys

随着时间的推移,架构会针对特定基准进行优化。“基准不断发展并反映实际使用情况,使用系统软件级别或硅片测试阶段的成熟方法可以相对轻松地创建和部署基准,”Synopsys 的 Chuang 说。“然而,分析总是事后进行的。芯片设计中更大的挑战是如何针对这些基准进行优化。在硅片设计阶段,常见的功率基准通常仅由统计切换配置文件 (SAIF) 或非常短的采样窗口(实际活动 (FSDB) 的 1 到 2 纳秒)表示。更大的趋势不是‘测量什么’,而是‘在哪里测量’。我们看到客户在整个流程中推动端到端功率分析,以准确推动优化,这需要从仿真、模拟、优化到签核的一致功率分析主干。”
基准测试可以确定应用程序与所运行的硬件架构之间是否存在根本性不匹配。AMD/Xilinx 的 Ni 表示:“在某些架构上运行实际工作负载时,可能会出现大量暗硅片。问题实际上是数据移动。引擎正在挨饿,这会导致计算效率低下。”
即使这样也还不能说明全部情况。“越来越多的标准基准测试得到了人们的一致认可,”Ni 补充道。“这些是人们认为最先进的模型。但它们在运行您可能关心的模型时有多有效?绝对性能是多少,或者您的每瓦性能或每美元性能是多少?这决定了您的机柜的实际运营成本,尤其是在数据中心。最佳性能或功率效率以及成本效率通常是人们最关心的两个问题。”
其他人也同意。 “从我们的角度来看,有两个指标的重要性正在日益增加,”Fraunhofer IIS 自适应系统工程部门先进系统集成组组长兼高效电子部门主管 Andy Heinig 说道。“其中一个是功耗或每瓦操作数。随着能源成本的上升,我们预计这一指标的重要性将日益增加。第二个日益增长的指标是芯片短缺。我们希望销售设备数量最少但性能要求最高的产品。这意味着需要越来越灵活的架构。我们需要一个性能指标来描述解决方案针对不同应用的灵活性。”
芯片设计的一个关键挑战是你不知道未来的工作负载会是什么。“如果你不知道未来的工作负载,你如何设计出与这些应用完美匹配的架构?”Subramanian 问道。 “这就是我们看到计算机架构真正兴起的地方,从了解工作负载开始,分析和了解最佳类型的数据流、控制流和内存访问,这将大大降低功耗并提高计算的能效。这实际上归结于你花费了多少能量进行有用的计算,以及你花费了多少能量来移动数据?对于各种类型的应用程序来说,总体概况是什么样的?”

软硬件协同设计 HW-SW Co-Design
欢迎后台留言,AI 客服全天在线。脱离物理硬件,开发测试和调试软件。基于虚拟原型的软硬件协同设计,提前一年实现产品上市创收,降低一半开发时间。
 最新文章