功率分析与挑战:新超速功率估计方法

happygi8766 2012-11-29 10694

参考设计

23人已加入

描述

　　简介

　　本文介绍一种新的方法，这种方法可以从RTL设计环境中，自动生成一个芯片设计的门级波形，而不需要事先建立门级的环境。这种新的波形生成使用降低门级功耗的方法，通过使用Springsoft 和Cambridge Silicon Radio公司已建立电力评估流程与工具的相关EDA技术，完成评估与建立时间，可以从原先耗费的几个星期，缩减至几个小时之内。这项重大的功耗降低与设计生产力的增加，使得CSR分析电源功耗的特性，相比实际上可能使用的传统、高效率的门级分析，在设计流程方面会显得更早一些。此外，新方法产生的波形，跟那些门级仿真的波形相同（或几乎相同）。因此，该设计可以分析并优化迭代整个综合设计流程，使得许多早期的检测与电力解决问题变得更加的容易。本文主要论述：

　　1 功率分析与挑战

　　2 新的自动门级波形生成方法

　　3 Springsoft公司的Siloti™可视自动化系统

　　4 分析结果

　　功率分析与挑战

　　一个减少功耗分析成本的方法，是使用寄存器传输级（RTL）设计。尽管相比起门级分析，实现起来会更加的快捷与容易，但是受到器件合成、地点，综合线路等许多变数的影响，

　　RTL设计的准确性仅仅只是有限的20%~25%。这些变量包括合成器的各种会话时间限制，以及RTL设计的实现选择。例如，使用特殊电池或者时钟树插入技术。因此，RTL分析不足以通过微调，来达到一个复杂超大规模集成电路低功耗设计的目标。这比较适合功率特性的设计修改和跟踪趋势的对比。然而，这对于相关产品设计与生产来讲，仍然不够精确，特别是一些必须要符合严格电源规格的特殊设计。

　　有几种方法可以用来精确地估计功率消耗。一种共同的做法是在同一路由表中，通过发送端和路由表结合使用，全注释模拟来估计真实情景，使用标准或非标准延迟格式（SDF）。在这种方法中，所有的时钟树和导线电容应被重视纳入为最准确的估计方式，这种方法需要造就门级的设计环境。

　　门级波形生成的挑战

　　生成一个门级仿真环境是一项非常需要努力的任务，因为它们的命名在合成与仿真的不匹配。相比使用模拟接口，合成通常表现在不同的RTL接口上。由于在合成过程中，信号不能保持完整性，匹配新接口的过程，将是一项繁琐、费时的手工任务。此外，在往后的端点和路由上，该接口可以完全改变，以使其工作在更高的效率上。

　　此外，这种传统生成波形的方法，总需要模拟运行的时间从零开始。这不仅导致了较长的模拟运行时间，也使得为设计团队找到周期相关的功率估计任务更为必要。鉴于门级传输水平（GTL）波形文件的庞大与复杂，手动定位周期相关将是非常耗费时间的。

　　由于长时间的模拟运行，大量的匹配和调试命名，并努力找到功率相关所需的模拟周期，只有在项目的最后阶段，许多设计小组才进行门级电路的仿真。这在优化功率效率流程上显得太晚了。事实上，许多设计团队在完成项目之前放弃了功率分析阶段——他们仅仅只是时间用完了。

　　新的自动门级波形生成方法

　　新方法由英国CSR公司和思源科技公司共同制定

　　1 自动生成准确门级波形；

　　2 使设计团队在RTL环境中关联和分析结果，消除使用的必要性，并提出门级设计环境；

　　3 消除必要性，并从零开始为每个功率做运行分析；

　　4 保持建立功率估计方法和工具流程没有变化。

　　该设计通过结合了思源已有Siloti可视自动化系统和使用CSR脚本定期合成、端点、及路由工具，生成的CSR地图文件。类似某些仿真与FPGA设计工具，这项可视自动化系统可以从基本信号波形中提取全波形（触发器输入）。此外，在RTL中，设计将映射每个门级触发器到相应的源触发器上。功能的结合是为了从RTL中提取必要的信号。这样的结果是，一个门级的波形跟RTL仿真派生出来的波形基本上是相同的（或者是几乎相同）。因此，它可以通过表单项的每个端口获取切换速率——这也正是所需数据的准确的功率估计。

　　这种自动生成活动端口数据大大地减少了生成门级波形上的时间和精力，并消除了必须的门级电路测试环境。在波形产生后，使用CSR已有功率估算流程进行能耗分析，这种新的估算方法无需改变波形。

　　使用新的估计方法，门级波形可以根据相应的范围和时间域产生波形，消除了模拟运行需要从零开始生成的限制。该方法也可以用于验证运行于内部驱动设计的测试部分。比如，用CPU默认头文件代替CPU RTL电路。

　　可视自动化技术

　　新方法采用的两个主要工具的功能——“假设重复”和“相关性”——和RTL模拟波形作为输入激源，重新运行门级模拟。

　　“假设重复”与先前生成的波形数据，作为输入激源，重新模拟用户指定的设计。用户还可以为模拟指定时间窗。

　　“相关性”从RTL映射信号到门级，反之亦然。

　　在功率分析上，该技术用于映射RTL信号波形到门级波形，以便为了更好的重复模拟驱动。

　　上述波形数据（被称为快速信号数据库FSDB），是思源Verdi可视自动化调试系统的一项开放的部分，并且它已得到许多第三方工具的支持。

　　正如新方法要求的CSR功率估计方法无需改变，使得可视自动化技术要求CSR工具流也无需作出改变。当模拟继续使用诸如Cadence的统一模拟器时，流程继续使用传统物理设计工具，例如Synopsys设计编译器，IC编译器，PrimeTime PX工具等。

　　可视自动化工具输入、映射文件生成和执行流程如下所示：

　　工具输入

　　该工具使用下面的输入数据来生成门级波形（参见图1）：

　　1 RTL模拟仿真中的快速信号数据库FSDB、波形及其范围，必须重新生成。

　　2 从每个必要的门级信号到RTL快速信号数据中相应的RTL信号的门级到RTL的映射文件。在重复模拟实验中，用户还可以匹配信号到一个固定的恒定值上。

　　3 门级文件列表包含了编译门级网表命令（除去任何测试）。该文件也包含了“定义”和其他任何的编译选项。

　　4 配置文件指定用户设置“假设重复”运行，关键参数包括如下：

　　（1）从模拟运行、到门级波形生成的门级设计范围；

　　（2）开始和结束时间的门级波形时间范围；

　　（3）模拟与仿真编译脚本和设置；

　　（4）模拟与仿真运行脚本和设置；

　　（5）SDF文件和路径使用，其他。

　　 SpringSoft

　　图片1：工具输入流

　　映射文件生成

　　由CSR公司开发的映射文件生成工具，包含了触发器映射和输入映射。

　　触发器映射可以从等价输出检查工具，或者合成/地点，线路工具输出衍生。

　　当门级层次结构确定以后，门级输入映射将会是一件简单的事情。当门级层次没有确定时，把输入映射到最高层次，就像确定一个高层次的物理设计宏，这是非常必要的。在这样的情况下，足以进行时钟映射、可测试性设计（DFT）信号，例如内置自测试（BIST），扫描，以及具体的控制信号。映射驱动所有适当的时钟和控制输入所需要的范围。它同时也失去了某些接口数据，比如存储输出直到第一个样本，并从输入采样到第一个采样触发器间切换信息。然而，这一损失对总功率估计的影响可以忽略不计。

　　执行流程

　　执行流程有三个阶段：提取、编译和仿真。

　　在提取阶段，工具使用输入文件和用户设置产生两项主要组成部分：

　　新的设计实验源文件进行设计提取选定的范围，这是DUT的重复模拟实验。

　　新的测试文件，使用RTL仿真结果（FSDB）作为输入刺激，在重复模拟中提取DUT。

　　然后，设计准备编译和重复模拟。工具会自动驱动编译，并执行仿真任务。使用通用仿真工具，比如Synopsys公司的VCS和Cadence的统一模拟器（IUS），在模拟设计编译阶段产生波形。

　　在一定时间和范围内生成的门级波形后，它可以使用任何流行的功率估计方法处理。如果一项给定的功率估计方法不能接受FSDB作为直接输入，还可以通过转换FSDB输出至其他格式，例如VCD、SAIF文件，这些格式可使用在任何的功率估计方法中。

　　分析结果

　　准确性

　　新的波形产生结果，与传统仿真生成的门级波形进行比较。新流程产生的门级波形，与传统方法生成的波形，相同或者几乎相同。下面对五个案例进行分析和比较，结果如下：

　　1 在设计中从零时间开始，包括记忆体，使用新的流程设计，导致产生与传统零延迟门级流程完全相同的波形。

　　2 重复之前的设计比较，包括记忆体部分，并取得相同的实验结果。

　　3 在设计中使用新的流程，包括记忆体部分，在一个特定的时间点（非零点）产生波形，随着具体时间模拟倾斜波形，产生与门级仿真相同的波形。

　　4 与记忆体部分，一起重复之前的设计比较，关于门级仿真新流程，几乎实现了数据100%的准确性。两者唯一的区别是，内存输出到第一个样本的路径不同。但这点小差异并没有影响功率分析结果。在添加硬件宏输出后，比如内存数据输出引脚，到相应的映射文件，这种方法也可以取得100%准确性。

　　5 在设计中使用新的流程，驱动唯一必要的输入时钟，并测试模式引脚与特殊控制，对所有的“触发器-触发器”路径产生与门级模拟相同的波形。只有从输入到第一个样本之间的路径是不相关的。在一个大型设计中会包含许多这样的路径，路径的相关性可高达99%。这种情况是典型的，新一代功率估计选择方法，使用post-place和路由表生成最终波形。

　　表现结果

　　实例所产生的门级波形结果和功率性能估计包括：

　　1 门级环境生成的波形块（预置端点和线路）约有1.4百万个位置点，1000个输入端口，100us（大概40K个周期）大约花费60分钟的时间。总功率估计时间为2个小时，包括加载数据库到PrimeTime PX，生成映射文件，运行工具，从门级波形产生SAIF文件，并使用PrimeTime计算功率消耗。

　　2 一个时钟波形大约生成1.6百万个位置元素：400us（大概150K个周期）在90分钟内完成。整个功率估计流程大约执行2.5个小时。

　　3 大约花一个小时，时钟波形产生约1.4百万个位置元素。利用 “点- 路径”网表和使用Specman存根代替若干CPU在RTL环境下执行生成的RTL FSDB库进行发送。在前一波形块中，“点 – 路径”网表的功率估计，在三个项目周期后被弃用。因为项目要求STUB接口和“点 – 路径”接口的匹配属于过渡阶段。

　　更多的自动化

　　设计团队可以进一步自动化和扩展新门级波形生成分析能力，通过使用思源的verdi3自动化调试系统进入流程，然后使用Verdi互操作性应用程序（VIA）平台。上述整个流程可以与Verdi的图形用户界面和数据库基础集成。以便于从下游功率估计工具包含结果。这使得设计团队把相关功率特性与具体的设计实例关联起来，从而大大地提高了可视化与精度的分析。

打开APP阅读更多精彩内容