HPC黄金三角：可靠、可用、可服务

新思科技 2023-02-17 1521

描述

新思科技

高性能计算（HPC）曾一度是大型数据中心和超级计算机的专属，但如今依赖HPC的应用不胜枚举，在与我们生活息息相关的各种应用领域都必不可少，如科学、医疗、安全、短视频…...

为实现更好的HPC芯片设计，开发者们应该了解如何提升RAS，即可靠性 (Reliability)、可用性 (Availability)和可服务性 (Serviceability)。

RAS的含义并不难懂，但涉及到HPC的SoC时，它表示什么呢？数据中心运营商长期以来一直与客户保持服务水平协议，以确保系统的正常运行时间。RAS是对此类协议的补充，现已能通过新技术获得支持，最终生成切实可行的见解。本文将进一步介绍为什么芯片生命周期管理（SLM）、嵌入式监控IP以及正确的设计和验证工具能够帮助HPC设计实现高水平的RAS。

高性能计算三大关键组成

家用安全门铃或楼宇监控系统所拍摄的视频片段、金融和商业运作建模、科学和医学研究、增强现实和虚拟现实……随着设备和系统收集的数据激增，再结合人工智能（AI）以及大量可用的计算资源，开发者们可以快速获得切实可行的见解，这使得HPC比1940年代第一台超级计算机的应用更为广泛。

如今，常规的HPC基础设施包括计算、网络和存储三大部分，且均有性能、延迟、功耗、可扩展性、效率和安全性方面的要求。下面我们分别进行说明：

计算部分包括CPU和GPU、加速器、片上网络（NoC）和计算服务器，用于处理高性能数据。该部分的关键在于复杂的多核甚至Multi-Die系统架构、快速访问的大内存、高带宽I/O接口、电源/冷却管理和安全性。片内监控和分析可支持RAS目标。
网络部分包括交换机和路由器、适配器、网桥、中继器、网络接口卡（如智能网卡）以及光电互连，可提供高性能连接，最好具有高吞吐量、低延迟、高能效、可配置性和可扩展性、实时监控和报告以及安全性。调试能力、前向纠错（FEC）和IP可以支持RAS要求。
存储部分包括固态驱动器（SSD）或硬盘驱动器（HDD）、存储区域网络（SAN）和网络附接存储（NAS）。理想情况下，该部分应可提供高带宽存储，减少数据传输能耗和延迟，具有灵活性、可扩展性、可靠性和安全性。内置自测（BIST）、纠错码（ECC）和冗余等功能可以实现高水平的RAS。

HPC系统主要分为单一计算系统和混合计算系统两类。单一计算系统只有CPU，而混合计算系统同时拥有GPU和CPU，GPU运行任务，CPU监督计算。

HPC集群可包含大量的服务器，而计算集群的总物理尺寸、能耗或热量输出可能会成为一大问题。此外，集群对服务器之间的专用通信也有要求。

在集群中服务器数量相当多时，微小的设计改进也可以创造巨大的价值，因此，为HPC优化的服务器设计正在崭露头角。有时，此类设计针对搜索引擎公司等大型公共网络运营商，也有益于HPC集群。但它们也可以提供只适合HPC用户的功能。例如，如果系统被设计成以不同的方式提供集群互连，有望大幅减少布线。

通过片内监控和分析

提供可行见解

HPC能够处理PB级甚至ZB级的数据，并且能够实时（或接近实时）运行复杂的模型。而如果HPC系统出现故障，必然会导致资金损失和业务中断。对于关键任务应用来说，后果会更加严重。在先进工艺节点上，有大型单片晶粒或Multi-die等复杂架构，满足RAS的要求则更具有挑战性。

根据当前应用的重要性，系统可以建立备份，在发生故障时提供冗余备份。此外，还可以在系统和芯片层面以其它方式实现RAS目标。SLM也发挥着巨大的作用，它可以提供智能、自动化片内监控IP和方法，在系统生命周期的每个阶段生成可行见解。

将监视器和传感器嵌入到芯片中是开发者们几十年来一直在做的事。然而，该技术已经可以提供准确度更高、颗粒度更细的数据。这提高了设备的实时环境、结构和功能状况的可见性，可以实现监控温度热点、工艺变化和电源电压，准确测量时序裕量等功能。

得益于嵌入式、基于云的分析以及统一的SLM解决方案，设计团队能够在设计、研发和生产阶段甚至现场操作时持续、实时掌握其设备的芯片健康状况，从而更好地了解根本原因，并立即进行调试和维修，降低成本和潜在的危害。SLM可以解决晶体管老化、延迟故障等问题，能够带来诸多益处。

举例而言，如果卫星出现故障，常见的办法是在实验室维修电路板，再将其安装在卫星上，这会花费数周时间，其间卫星需要停用，以进行故障诊断和维修。借助SLM技术在现场进行故障检修和修复，团队可以在更少的中断次数和更短的中断时间内，保持系统的正常运行。

数据中心也可以体现SLM是如何加快实现RAS要求的。

在芯片层面，在现场进行远程调试的能力是团队成功打造超大规模数据中心的关键，SLM提供的远程遥测和监控功能使之成为可能。
在系统层面，SLM精确的时钟降频对最大化数据吞吐量和CPU、GPU和AI引擎的利用率至关重要。
在数据中心层面，SLM工具可以有效监控服务器性能、网络拥塞和磁盘利用率，从而检测和预测数据中断，增加正常运行时间。
在超大规模层面，团队可以利用SLM最大限度地减少片上热量和供电压力，以延长可靠性。
对于Die-to-Die高速接口，SLM可监控信号完整性，结合接口完整性的冗余，有助于确保小芯片设计的稳健性。

总结

端到端的解决方案并非是各自独立的点工具的集合，而能够提供设计校准分析、片内监控、系统性能优化等多项功能，无缝实现RAS目标。新思科技可提供出色的端到端流程，我们的芯片生命周期管理系列还配有广泛的低延迟、经验证的IP组合以及面向HPC应用的设计和验证技术。

该解决方案配备物理感知芯片监控器、云分析以及嵌入式分析和优化技术，还包括SoC传感器IP和制程监控器，用于设计、研发、生产阶段和现场的优化。在制造阶段和现场，监控器可以收集有关芯片的实时数据，辅以全面的测试和调试解决方案，可确保高水平的RAS。

随着HPC应用日益增多，SoC开发必须确保系统的高可靠性、可用性和可服务性。实现最佳水平的RAS，支持流媒体视频、气候变化建模等多项应用，万物数智化的世界才能保持高速运行。

新思科技

原文标题：HPC黄金三角：可靠、可用、可服务

文章出处：【微信公众号：新思科技】欢迎添加关注！文章转载请注明出处。

打开APP阅读更多精彩内容