如何理解比较处理器

要长高 2022-06-14 3271

描述

　　每个新处理器都声称是最快、最便宜或最省电的处理器，但这些声明的衡量方式和支持信息可能非常有用，也可能无关紧要。

　　芯片行业在提供信息性指标方面比过去更加努力。二十年前，衡量处理器性能相对容易。它是指令执行速度、每条指令执行多少有用工作以及信息可以从内存读取和写入内存的速度的组合。这与它消耗的电量和成本进行了权衡，这当然不是那么重要。

　　当Dennard Scaling下降时，许多市场的时钟速度不再增加，MIPS 评级停滞不前。在架构的其他地方、内存连接以及通过添加更多处理器进行了改进。但是没有创建新的性能指标。

　　西门子 EDA高级副总裁兼总经理 Ravi Subramanian 表示：“在过去二十年的大部分时间里，一直处于令人毛骨悚然的沉默之中。 ” “这种沉默是由英特尔和微软创造的，它们控制着计算机架构与其上运行的工作负载、应用程序之间存在的契约。这推动了计算的很大一部分，尤其是企业。我们现在有一些非常具体的计算类型，它们更针对特定领域或利基市场，脱离了传统的冯诺依曼架构。每兆赫每毫瓦每秒的数百万次操作已经趋于平缓，为了获得更高的计算效率，必须在工作负载所有者和计算机架构师之间建立新的合同。”

　　在尝试测量处理器的质量时，考虑应用程序变得很重要。该处理器执行特定任务的性能如何，在什么条件下？

　　GPU 和 DSP 使该行业走上了特定领域计算的道路，但今天它正在迈向一个新的水平。“随着经典摩尔定律的放缓，创新已经转向特定领域的架构，” Synopsys Fusion Compiler 产品营销经理 James Chuang 说。“这些新架构可以在相同的工艺技术上实现每瓦性能数数量级的提升。它们为设计探索开辟了广阔的未知空间，无论是在架构层面还是物理设计层面。”

　　已经尝试定义模仿上一个时代的新指标。“人工智能应用程序需要处理器具备某些特定功能，尤其是大量的乘法/累加运算，” AMD自适应和嵌入式计算事业部的人工智能和软件和解决方案产品营销总监 Nick Ni 说。“处理器定义了它们可以执行的每秒数万亿次操作（TOPS），并且这些评级一直在迅速增加，（如图 1 所示）。但就每瓦性能或每美元性能而言，真正的性能是什么？”

dsp

　　图 1：AI TOPS 评级的增长。资料来源：AMD/赛灵思

　　随着芯片尺寸达到分划板限制，在芯片上包含额外的晶体管变得更加昂贵和困难，即使工艺规模扩大，因此性能提升只能来自架构变化或新的封装技术。

　　多个较小的处理器通常比单个较大的处理器好。将多个裸片放在一个封装中还允许与内存和其他计算内核的连接也进行架构改进。Synopsys 的产品营销经理 Priyank Shukla 说：“您可能将多个处理单元组合在一起以提供更好的性能。” “这个包含多个芯片的封装将作为一个更大或更强大的计算基础设施工作。该系统提供了一种业界习惯于看到的摩尔定律缩放比例。我们正在达到单个模具无法提高您的性能的极限。但现在这些系统可以在 18 个月内为您提供 2 倍的性能提升，这正是我们所习惯的。”

　　工作负载正在推动计算机体系结构的新要求。“这些超越了传统的冯诺依曼架构，”西门子的 Subramanian 说。“许多新型工作负载需要分析，并且需要创建模型。人工智能和机器学习本质上已成为推动模型开发的劳动力。我如何根据训练数据进行建模，以便我可以使用该模型进行预测？这是一种非常新型的工作负载。这正在推动一种关于计算机体系结构的全新观点。计算机架构如何与这些工作负载相匹配？你可以实现一个神经网络或传统 x86 CPU 上的 DNN。但是，如果您查看每毫瓦、每兆赫兹的数百万次操作，并考虑这些字长、权重和深度，通过与计算机体系结构的工作量。”

　　工作负载和性能指标因位置而异。“超大规模厂商提出了不同的指标来衡量不同类型的计算能力，”Synopsys 的 Shukla 说。“最初他们会谈论每秒 Petaflops，即他们可以执行浮点运算的速率。但随着工作负载变得越来越复杂，他们正在定义新的指标来同时评估硬件和软件。这不仅仅是原始硬件。这是两者的结合。我们看到他们专注于一个名为 PUE 的指标，即电源使用效率。他们一直在努力减少维护该数据中心所需的电力。”

　　丢失的是比较任何两个处理器的方法，除非在最佳条件下运行特定应用程序。即使这样，也有问题。处理器和使用它的系统能否长期维持其性能？还是因为热而节流？当多个应用程序同时在处理器上运行时，会导致不同的内存访问模式怎么办？数据中心之外的处理器最重要的特性是它的性能，还是电池寿命和功耗，还是两者之间的某种平衡？

　　瑞萨电子物联网和基础设施业务部执行副总裁兼总经理Sailesh Chittipeddi 表示：“如果你退后一步，从一个非常高的水平来看，它仍然是在最低功耗下实现最大计算能力。” “所以你可以考虑你需要什么样的计算能力，以及它是否针对工作负载进行了优化。但最终的因素是它仍然必须处于最低功耗。然后问题就变成了，‘你是把连接放在船上，还是把它放在外面。或者在优化功耗方面你会怎么做。这是必须在系统层面解决的问题。”

　　测量是困难的。基准测试结果不仅反映了硬件，还反映了相关的软件和编译器，它们比过去复杂得多。这意味着特定任务的性能可能会随着时间而改变，而底层硬件没有任何变化。

　　架构方面的考虑并不仅仅停留在封装的引脚上。“考虑在先进的智能手机上拍照，”舒克拉说。“在捕获图像的 CMOS 传感器中执行 AI 推理。其次，手机有四个核心用于额外的 AI 处理。第三级发生在数据中心边缘。超大规模器在距数据捕获的不同距离处推出了不同级别的推理。最后，您将拥有真正的大数据中心。AI 推理发生在四个级别，当我们计算功率时，我们应该计算所有这些。它从物联网开始，你手中的手机，一直到最终的数据中心。”

　　由于有如此多的初创公司在创造新的处理器，许多公司的成功或失败很可能是因为他们的软件堆栈的质量，而不是硬件本身。更难的是，硬件必须在知道它可能运行什么应用程序之前设计好。在这些情况下，甚至没有什么可以对处理器进行基准测试。

　　基准

　　基准旨在提供一个公平的竞争环境，以便可以直接比较两件事，但它们仍然可以被操纵。

　　当特定应用变得足够重要时，市场需要基准，以便对其进行评级。“有不同类型的人工智能训练的基准，”舒克拉说。“ResNet 是图像识别的基准，但这是一个性能基准，而不是功率基准。Hyperscaler 将展示基于硬件和软件的计算效率。有些甚至构建了定制硬件、加速器，它可以比普通 GPU 或基于普通 FPGA 的实现更好地执行任务。TensorFlow 就是与 Google TPU 结合的一个例子。他们以此为基础对他们的人工智能性能进行了基准测试，但到目前为止，功率并不是等式的一部分。主要是表演。”

　　忽视权力是一种操纵形式。“2012 年旗舰手机的峰值时钟频率为 1.4GHz，” Arm技术副总裁兼研究员 Peter Greenhalgh 说。“与今天达到 3GHz 的旗舰手机相比。对于台式机 CPU，情况更加微妙。虽然 Turbo 频率仅比 20 年前高一点，但 CPU 能够在更高的频率下停留更长时间。”

　　但并非所有基准测试的规模或运行时复杂性都达到了这一点。“随着电力消耗，温度会升高，” Ansys PowerArtist 产品管理负责人 Preeti Gupta 说。 “一旦超过某个阈值，你就必须降低性能，（如图 2 所示）。功率、热量和性能非常紧密地联系在一起。不考虑其电源效率的设计将不得不为运行速度变慢付出代价。在开发过程中，您必须采用真实的用例，运行数十亿次循环，并分析它们的热效应。查看热图后，您可能需要移动部分逻辑以分配热量。至少，您需要将传感器放置在不同的位置，以便知道何时降低性能。”

dsp

　　图 2：性能限制会影响所有处理器。资料来源：Ansys

　　随着时间的推移，架构会针对特定的基准进行优化。“基准不断发展并反映现实世界的使用情况，使用系统软件级别或硅测试阶段的成熟方法相对容易创建和部署，”Synopsys 的 Chuang 说。“然而，分析总是在事后进行。芯片设计中更大的挑战是如何针对这些基准进行优化。在芯片设计阶段，常见的功率基准通常仅由统计切换曲线（SAIF）或非常短的采样窗口（实际活动（FSDB）的 1 到 2 纳秒）表示。更大的趋势不是“测量什么”，而是“在哪里测量”。我们看到客户在整个流程中推动端到端功率分析，以准确推动优化，

　　基准可以识别应用程序与其运行的硬件架构之间何时存在根本不匹配。“当您在某些架构上运行实际工作负载时，可能会出现主要的暗芯片，”AMD/Xilinx 的 Ni 说。“问题实际上在于数据移动。您正在使引擎挨饿，这会导致计算效率低下。”

　　即使这样也不能说明全部。“越来越多的标准基准得到了人们的认可，”Ni 补充道。“这些是人们认为最先进的模型。但是它们在运行您可能关心的模型方面的效率如何？什么是绝对性能，或者您的每瓦性能或每美元性能是多少？这决定了您的机柜的实际运营支出，尤其是在数据中心。最佳性能或功率效率以及成本效率通常是最关心的两个问题。”

　　其他人同意。“从我们的角度来看，有两个指标越来越重要，” Fraunhofer IIS 自适应系统部工程高级系统集成组负责人兼高效电子部门负责人 Andy Heinig 说。“其中一个是功耗或每瓦的操作。随着能源成本的增加，我们预计这将变得越来越重要。第二个增长的指标是芯片短缺。我们希望销售设备数量最少但性能要求最高的产品。这意味着需要越来越多的灵活架构。我们需要一个性能指标来描述解决方案在针对不同应用程序进行更改时的灵活性。”

　　芯片设计的一个关键挑战是你不知道未来的工作负载会是什么。“如果您不了解未来的工作负载，您如何实际设计与这些应用程序完美匹配的架构？” 苏布拉曼尼安问道。“这就是我们看到计算机架构真正出现的地方，首先是了解工作负载、剖析和了解数据流、控制流和内存访问的最佳类型，这将显着降低功耗并提高计算的能效。这真的归结为您花费了多少精力来进行有用的计算，以及您花费了多少精力来移动数据？对于应用程序类型，总体概况是什么样的？”

打开APP阅读更多精彩内容