选择合适的 IP 实现 Die-to-Die 连接

lumingluming 2020-05-18 8156

通信网络

672人已加入

描述

Soc的发展与挑战

自大数据问世以来，设计人员在用于超大规模数据中心、人工智能（AI）和网络应用的片上系统（SoC）的设计过程中，一直面临着不断发展的挑战。由于工作量需求和对于更快地移动数据的需求，此类具有先进功能的 SoC 变得更加复杂，也达到了最大光罩尺寸。因此，设计人员在多芯片模块（MCM）封装中将 SoC 划分为较小的模块。这些划分的芯片需要超短和极短距离链路，以实现具有高数据速率的芯片间连接。除了带宽之外，die-to-die 连接还必须确保是极低延迟和极低功耗的可靠链接。

本文介绍了 die-to-die 连接的几种不同用例，以及在寻找用于 die-to-die 连接的高速 PHY IP 也可以使用基于有机基材的传统低成本封装。

Die-to-Die连接性用例

MCM 中 die-to-die 连接的新用例在不断涌现，其中包括：

1、接近最大光罩尺寸的高性能计算和服务器 SoC

2、超过最大光罩尺寸的以太网交换机和网络 SoC

3、可扩展复杂算法的具有分布式 SRAM 的人工智能（AI） SoC

高性能计算和服务器 SoC 的尺寸越来越大，达到 550 平方毫米（mm2）至 800 mm2，从而降低了 SoC 的良率并提高了单位芯片成本。优化 SoC 良率的更好方法是将 SoC 分为两个，或多个等效的同质芯片（如图 1 所示），并使用 die-to-die PHY IP 连接芯片。在这种用例中，主要的要求是极低的延迟和零误码率，因为更小的多个芯片的表现和行为必须像单一芯片一样。

大数据

图 1：需要 die-to-die 连接的高性能计算和服务器 SoC 的示例

以太网交换机 SoC 是数据中心的核心，必须以 12 Tbps 到 25 Tbps 的更快速率转移数据，这需要 256 通道的 100G SerDes 接口，因此无法将 SoC 放入面积为 800 mm2 的光罩区域。为了克服这一挑战，设计人员会将 SoC 拆分，重新进行配置，其中的内核芯片被 I/O 芯片包围，如图 2 所示。然后，使用 die-to-die 收发器将内核芯片连接到 I/O 芯片。

在这一用例中，仅当 die-to-die 收发器的带宽密度远远优于 I/O 芯片中的长距离 SerDes 时，芯片拆分才有效。因此，关键参数是每毫米的芯片边缘带宽密度。

大数据

图 2：需要 die-to-die 连接的以太网交换机 SoC 的示例

在 AI SoC 中，每个芯片都包含智能处理单元（IPU）和位于每个 IPU 附近的分布式 SRAM。在这种使用情况下，一个芯片中的 IPU 可能需要依赖于极低延迟的短距离 die-to-die 链路来访问另一个芯片的 SRAM 中的数据。

大数据

图 3：需要 die-to-die 连接的 AI SoC 示例

在所有这些用例中，如果为 die-to-die 连接选择理想的高速 PHY，就可以简化 MCM 封装要求。由于每个通道的吞吐量高达 112 Gbps，因此在通道数量相对有限的情况下可以实现非常高的总吞吐量。在这种情况下，封装走线的间距和堆叠可能比较保守（L/S 通常为 10u/10u）。在这些用例中，也可以使用基于有机基材的传统低成本包装。

高速PHY IP对于Die-to-Die连接的要求

光学互联网络论坛（OIF）正在定义电气 I/O 标准，以在超短距离（USR）和极短距离（XSR）链路上以高达 112 Gbps 的数据速率进行传输。这些规范定义了 die-to-die 链路（即：在封装内），以及芯片到芯片，到与 SoC 位于同一封装内的光学模块的链接，从而显著降低了功耗和复杂性，并实现了极高的吞吐量密度。

在研究用于 MCM 的 die-to-die 连接的高速 PHY IP 解决方案时，SoC 设计人员必须考虑几个基本功能，包括以千兆位或兆兆位每秒（Gbps 或 Tbps）衡量的数据吞吐量或带宽、以每比特皮焦耳（pJ/bit）衡量的能源效率、以纳秒（ns）衡量的延迟、以毫米（mm）衡量的最大链路范围，以及误码率（无单位）。

数据吞吐量或带宽

为了实现与其他收发器的互操作，die-to-die PHY IP 必须确保符合 USR 和 XSR 链路的相关 OIF 电气规范。支持脉冲幅度调制（PAM-4）和不归零（NRZ）信令，对于满足两种链路的要求，并实现每通道最大 112 Gbps 带宽至关重要。这样的信令产生了非常高的带宽效率，这是一项关键要求，因为在 MCM 中的芯片之间传输的数据量非常大。数据移动的速率通常处于每秒兆兆字节的范围，这限制了分配给 USR 和 XSR 链路的芯片边缘的大小。但是，支持多种数据速率也同样重要。通常，假设其数据速率与内部结构中使用的数据速率一致，或支持 die-to-die 协议所需的所有数据速率，就有望实现芯片到芯片链接。例如，即使在 32 Gbps 这样的高速下，PCI Express 也必须支持低至 2.5 Gbps 的数据速率以进行协议初始化。

链路距离

在 die-to-die 的实现中，大量数据必须流经桥接芯片之间间隙的短数据路径。为了保证将芯片放置在封装基板上时的最大灵活性，PHY IP 必须支持 TX 和 RX 之间 50 毫米的最长距离。

能效

能效成为重要的因素，尤其是在将 SoC 功能划分为多个同质芯片的用例中。在此类用例中，设计人员寻求在不影响 SoC 总功耗预算的情况下，在芯片之间推送大量数据的方法。理想的 die-to-die PHY IP 的能效好于每比特 1 皮焦耳（1pJ/bit）或同等的 1mW/Gbps。

延迟和BER

为了使芯片之间的连接“透明”，延迟必须维持得极低，同时必须优化误码率（BER）。由于简化了架构，die-to-die PHY IP 本身实现了超低延迟，BER 优于 10e-15。根据链路距离，可能需要使用前向纠错（FEC）机制保护互连，以实现如此低的 BER。FEC 延迟会影响解决方案的整体延迟。

宏块布局

除了这些与性能相关的参数外，PHY IP 还必须支持所有侧面的放置芯片，以实现芯片和MCM 的有效布局。优化了宏的布局可实现低耦合的高效芯片间布线，优化芯片和 MCM 面积，并最终提高功耗效率。

选择 die-to-die PHY IP 时，还有许多其他考虑因素，包括纳入可测试性功能，以便能够在封装之前对芯片进行生产测试，但是上文所述的因素是最重要的。

结语

数据速率不断提高，功能日趋复杂，使得超大规模数据中心、AI 和网络应用程序的 SoC 大小与日俱增。随着 SoC 尺寸接近占满光罩尺寸，设计人员被迫将 SoC 分成较小的芯片，这些芯片封装在多芯片模块（MCM）中，以实现高产量并降低总体成本。然后，一个 MCM 中的多个较小芯片通过 die-to-die 互连进行链接，这些互连具有极低的功耗且每个芯片边缘的带宽都很高。在高性能计算和 AI 应用中，大型 SoC 被分为两个或多个同质芯片，而在网络应用中，I/O 和网络内核被分为单独的芯片。SoC 中的 die-to-die 互连必须不影响整体系统性能，并且要求低延迟、低功耗和高吞吐量。这些要求推动了对高吞吐量 die-to-die PHY 的需求。例如新思科技（Synopsys）的 DesignWare® USR/XSR PHY IP，该 IP 支持 MCM 设计中的 die-to-die 连接，每通道的数据速率高达 112 Gbps，而且能效非常高。DesignWare USR/XSR PHY IP 符合用于超短距离（USR）和极短距离（XSR）链路的 OIF CEI-112G 和 CEI-56G 标准。

新思科技（Synopsys）高级产品营销经理 Manuel Mota

打开APP阅读更多精彩内容