关于嵌入式阵列处理器的发展

独爱72H 2019-06-28 2004

嵌入式技术

1417人已加入

描述

处理器芯片，以及在其基础上发展起来的MP系统芯片，设计和应用都发展得比较成熟。目前许多嵌入式计算机的系统设计，已经转移到嵌入式MP系统芯片的设计上来；不仅如此，1985年开始的FPGA技术，在2000年就推出了带嵌入式处理器ARM的FPGA芯片，现在已发展成了嵌入式MP系统芯片的一种硬件设计平台。

国内已研制出以8位、16位以及32位处理器为核心的，与应用领域紧密相关的嵌入式MP系统芯片。随着嵌入式应用的微型化与并行计算的要求越来越高，以及深亚微米技术的不断发展所带来的“红墙”问题，使嵌入式阵列处理器的设计成了新的研究热点。

为了航空航天图像处理电子设备的微型化，美国休斯(Hughes)公司在3um CMOS工艺的基础上，采用圆片级的3D 二次集成电路技术，按照SIMD PE阵列的体系结构，于1987年10月就研制成功了一种3D 阵列处理器。该阵列处理器由5个大圆片(Wafer)组成了32×32个16位定点处理元的PE阵列，工作频率10 MHz，峰值速度为600 MOPS，功耗约1.5W，体积只有手掌大小，如图2所示。除了32×32的PE阵列外，休斯公司还先后研制了每个大圆片上有128×128与256×256(=65536)个功能模块的阵列处理器。

与其它嵌入式处理器不同，嵌入式阵列处理器设计的发展，从休斯公司的图像处理的阵列处理器可以看出，是由成千上万的处理元PE的阵列组成的。其它的阵列处理器是存在一个并行编程的语言问题的，早期的解决方法是把常用的程序设计语言扩充成并行程序设计语言，但没有得到推广；现在的解决方法是采用面向并行编程模式的映射语言。由于图像处理的嵌入式阵列处理器，是一种支持数据并行计算的可编程的阵列处理器，采用的是指令流计算模式的SIMD PE阵列的体系结构，与超级计算的阵列处理器不同。

这是一种自然的实现数据并行计算的阵列处理器的体系结构，因为按时间映射方法执行数据并行算法时，SIMD PE阵列上所有PE每个周期执行的是同样的一条指令的“数组操作”，数组大小理论上是没有限制的；SIMD PE阵列的阵列处理器可以看作是数据并行算法的算法处理器(Algorithm Processor)，而不必看作是一个多处理器，从而得到了图像处理器的并行编程简单性、高效性与通用性。
现代的阵列处理器的PE阵列基本上是支持两维算法的，因为现在计算机的传感器输入主要是空间上的两维阵列，显示器输出也主要还是空间上的两维阵列，相应的PE阵列自然是两维的；而可视空间是三维的，计算科学家是通过立体视觉算法在两维阵列的显示器上形成三维的立体感的。
其实，随应用领域的不同，完成空间并行计算的阵列处理器还可以是三维的。阵列大小是可以系列化的，阵列设计的发展主要是处理元PE的概念，以及处理元PE中的操作的概念，都应当是广义的，还有一般处理器中所没有的处理元PE之间的互连方法以及阵列处理器芯片之间的互连方法。

随应用领域的不同，处理元PE的设计参数(字长精度、存储容量与运算速度，以及体积、重量、功耗与可靠性等)是可以像处理器一样系列化的。不仅如此，为了实现阵列处理器芯片的换代作用，使阵列处理器芯片不仅能够替代处理器芯片，还可以替代现在的可重构的空间映射的并行处理芯片(静态可重构的FPGA芯片与动态可重构的RC Device芯片)，处理元PE的概念应当是广义的。

随应用领域的要求不同，可以是现在已知的处理器(RISC/DSP)，也可以是现在未知的，例如，RC Device阵列中的功能模块，FPGA阵列中的逻辑门或神经元，FPAA阵列中的模拟器件，FPTA阵列中的晶体管等。相应的处理元PE中的操作的概念也是广义的，可以是现在已知的处理器操作(算术/逻辑等)；也可以是现在未知的“操作”，例如，对模拟器件的“操作”，对晶体管的“操作”等。

虽然图像处理的嵌入式阵列处理器是在芯片特征尺寸不是很小的情况下就开始研制的，但是，它从扩大芯片面积与3D集成方面，推动了芯片制造技术的新发展。例如，美国休斯(Hughes)公司在特征尺寸为3um CMOS工艺的基础上，采用很有特点的圆片规模集成WSI( Wafer Scale Integration) 电路技术，把圆片上的芯片互连起来，并采用了设计上的避错技术(这也是现在解决“红墙”问题时，芯片设计中要采用的技术)，将一次集成电路的面积从芯片扩大到了圆片。

值得指出的是，3D二次集成电路技术也是高性能阵列处理器中所要用的技术。例如，Intel提出了一个名叫Tera-Scale的计划，2007年初采用65nm工艺，总共集成了1亿(100 Million)晶体管，一共采用了80个比现代处理器简单的处理元PE。
PE阵列与SRAM存储器阵列的互连也是采用3D 二次集成电路技术实现的，如图4所示，Intel阵列处理器的性能，如表1中所示，每个芯片都达到了每秒1万亿次的水平。因为采用芯片四边引线的办法，单个芯片上的I/O引脚数目不能随芯片集成度的提高成比例增长，采用3D二次集成电路技术解决单个芯片上的I/O引脚数目与“红墙”问题，取得了成功，得到了发展。特别是TSV(Through-Silicon-Vias)方法的3D二次集成电路技术可以显著地缩短芯片之间的连线长度，增大信号带宽；使整机(或系统)与外部连接点大大减少，进一步提高可靠性。

打开APP阅读更多精彩内容