如何提高主要CPU处理单元的速度

sbF9_QCDZSJ 2023-09-27 1449

处理器/DSP

898人已加入

描述

Hotchip 2023的相关PPT，我们会后续整理出来，给大家参考！上文讲到内存的变化有助于减少数据移动量，但这只是挑战的一部分，本文将针对CPU改进。

ARM

● CPU计算-提高速度

下一个挑战是提高主要CPU处理单元的速度。

一种方法是分支预测，类似于预测下一个操作的方式，就像互联网搜索引擎一样。然而，与任何并行架构一样，关键是确保各种处理单元充分运行，以最大限度地提高性能和效率。

Arm通过其Neoverse V2设计对这一概念进行了改进，将分支预测与获取分离。这导致了通过减少停顿来提高效率，并更快地从错误预测中恢复。Arm的首席CPU架构师Magnus Bruce表示：“动态馈送机制允许内核调节攻击性，并主动防止系统拥塞。这些基本概念使我们能够推动机器的宽度和深度，保持较短的管道以快速恢复错误预测。”

ARM

这些改进是通过在多个架构点进行微调而实现的，而不是进行大规模改变。例如，分离分支预测和获取可以将分支目标缓冲区拆分为两个级别，使其能够处理多50%的条目。增加了预测器中存储的历史记录三倍，并将获取队列中的条目数量增加一倍，从而显着提高了实际性能。综合考虑各种改进，Neoverse V2的性能是V1的两倍，具体取决于其在系统中的角色。

AMD的下一代Zen 4核心通过微架构的改进，每周期的指令数增加了约14%。由于工艺扩展，5nm下的频率提高了16%。由于微架构和技术的改进，功耗降低了约60%。物理设计也得到了改进。

ARM

与Arm一样，AMD也致力于改进分支预测和获取。AMD的研究员兼Zen 4首席架构师Kai Troester表示，通过更多的分支、每周期更多的分支预测以及允许更多条目和每个条目更多操作的更大操作缓存，分支预测的准确性得到了提高。此外，Zen 4增加了3D V高速缓存，将每个内核的L3高速缓存提升至高达96 MB，并在256位数据路径上使用两个连续周期提供对512位操作的支持。这一设计扩大了数据管道的规模，并尽可能缩短数据传输距离。

● 平台系统架构

平台架构方面的主要趋势是领域特定性的不断增加，这对通用处理器的传统开发模式造成了破坏。现在的挑战是如何提供本质上大规模的定制，有两种主要方法：

1）通过添加硬件或可编程逻辑来实现可编程性

2）开发可互换的平台部件。

英特尔引入了一个将小芯片集成到先进封装中的框架，利用其嵌入式多芯片互连桥来连接高速I/O、处理器内核和内存。英特尔的目标是提供足够的定制和性能，以满足客户需求，但交付这些系统的速度比完全定制的架构要快得多，并且结果是可预测的。

ARM

英特尔首席至强架构师Chris Gianos表示。“这将是一个多芯片架构，可以使用这些小芯片构建结构，具有很大的灵活性，只是互操作，为我们提供了专门优化产品核心的维度之一。将创建E核（超高效）的小芯片和P核（高性能）的小芯片。”

英特尔还创建了一个模块化网状结构来将各种组件连接在一起，以及一个支持DDR或MCR内存以及通过CXL连接的内存的通用控制器。

● 神经处理器和光学互连

这是研究的重要方向，新方法和新技术的清单也是前所未有的。业界正在广泛寻找增加性能、降低功耗的新方法，同时仍然关注面积和成本。对于AI/ML应用程序来说，精度也至关重要。光子学在机架内的服务器之间发挥着作用，但是否将其应用到芯片层面仍不确定。这领域的工作仍在继续，光子学受到了许多公司的关注。

ARM

整个行业正在积极寻找提高性能并降低功耗的全新方法，同时关注成本和芯片尺寸。PPAC（性能、功耗、面积、成本）仍然是关注的核心，但不同应用和用例可能会对这些方面的权衡提出不同的要求。IBM的研究员Dharmendra Modha指出：“人工智能的运营支出和资本支出正变得难以维持。”他进一步表示：“架构胜过摩尔定律。”这强调了架构创新在应对当前挑战方面的重要性。

对于AI/ML应用程序来说，精度至关重要。IBM的设计包括支持混合精度的向量矩阵乘法器、具有FP16精度的向量计算单元和激活函数单元。处理是在距离内存几微米的范围内完成的，避免了依赖于数据的条件分支、缓存未命中、停顿和推测执行等问题。

ARM

复杂芯片所面临的一个关键挑战不仅在于内存和处理器之间的数据传输，还包括芯片周围的数据传输。片上网络和其他互连结构简化了这一过程。尽管硅光子学在高速网络芯片中已有所应用，光子学在芯片层面的使用仍不确定。然而，光子学在许多公司中引起了广泛关注，特别是在服务器之间的机架内。

Lightelligence工程副总裁Maurice Steinman表示，已经开发了基于光子学的专门加速器，速度比GPU快100倍，同时功耗显著降低。该公司还研发了片上光学网络，使用硅介质层作为连接小芯片的媒介，而不是电子连接。

● 可持续性和可靠性

随着所有这些变化，出现了两个未解决的问题。

首先是可持续性问题。随着越来越多的数据由芯片处理，能源消耗成为一个日益突出的挑战，而制造这些设备也需要大量能源。尽管在数据中心方面已经取得了一些进展，但能源问题仍然存在。芯片制造商正积极寻找可持续发展的解决方案。

第二个未解决的问题是可靠性。现代芯片设计更加复杂，因此确保结果的准确性和一致性变得更加困难。这一挑战涉及到数据的分区、处理、重新聚合和分析，尤其是当设备老化程度不同并以意想不到的方式交互时。可靠性问题需要深入研究和解决。

有关人工智能训练和CO2排放的数据可能具有误导性。正确的数据分析对于理解问题的严重性至关重要。与此同时，模型从单一模态转向多种模态，这包括图像、文本、声音和视频，因此动力、可持续性和可靠性仍然是至关重要的关注点。

编辑：黄飞

打开APP阅读更多精彩内容