Bops内核旨在为这些应用程序提供可扩展的性能和低功耗。每个内核每秒将执行32亿次16位操作,时钟频率为200 MHz。该架构支持8位,16位或32位操作数的固定和浮点数学运算。使用32位操作数,性能大约为每秒10亿次浮点运算。
知识产权(IP)内核适用于I/O外设和内存,甚至适用于专用片上系统(SoC)设计的其他处理器。 Kepple表示,1999年销售额约为4亿美元,SoC市场每年增长50%。
就其本身而言,Bops内核不运行控制代码,而是作为ARM或MIPS处理器内核的松散耦合协处理器。核心由两个元素组成:用于控制和顺序功能的序列处理器(SP),以及用于并行任务的从属处理元件(PE)。虽然它与单个媒体访问控制器(MAC)和算术逻辑单元(ALU)对话,但是单指令,多数据类SP包含三个并行级别:并行数据(通过数据存储器),并行指令(通过VLIW) Kepple说,指令存储器)和并行处理器(通过指令地址单元)。
不同版本的Bops核心将SP和PE并联和串联组合在一起 - 实际上是一个矩阵 - 用于各种性能组合。例如,Bops2010包括一个SP和一个1×1矩阵的PE。 Bops2020包括一个SP和两个1x2矩阵的PE; Bops2040包括一个SP和4个4×4矩阵的PE。
集群交换机在后台执行DMA控制器传输,并平衡矩阵中的活动。因此,根据Kepple的说法,在100 MHz时,Bops2040内核将在2.2微秒(213个周期)内执行256点快速傅里叶变换。 Kepple说,TI C6X在同一操作中需要13.3微秒(200 MHz时为2,660个周期)。他说,与C6X相比,Bops2040的芯片尺寸仅为四分之一,功耗仅为四分之一,内存和总线带宽的五分之一。
与任何并行处理器一样,编程仍然是个问题。本周推出的新软件开发工具旨在增强可编程性--Kepple称之为DSP标准的“第四个P”(性能,功耗和处理之后)。除了基本的DSP库之外,Bops工具集还包括系统仿真器,指令集仿真器,GNU-C编译器,GNU汇编器和链接器,VLIW指令打包器和寄存器分配器,以及用于编译器和矢量库的编译器和矢量库。 MATLAB软件
世界上只有大约60,000名DSP程序员能够使用汇编语言,相比之下,有600万能够使用C语言工作,Kepple说。任何编程工具的目标都是利用C语言程序员的基础。
VLIW处理器,如德州仪器公司的C6X,使用C编译器。他们的问题是,他们生产的汇编代码永远不如手动编码产生的汇编代码,并且在电池供电的IP核或SoC上永远不能容忍随后浪费的机器周期。 Bops声称其C编译器是市场上最高效的编译器之一。除了指令级编译外,它的编译器还将处理打包数据和多处理器系统。
编译器效率最小化程序员调整。 Kepple说,需要进行一定数量的代码调整,以最大限度地减少程序分支的处罚,并平衡并行处理器之间的负载。
Bops之前推出了Xemulator,它允许设计人员在基于FPGA的硬件中试用基于Bops的设计。在DesignCon上宣布的一项新营销计划允许那些对该架构非常感兴趣的潜在Bops IP客户通过从Bops接收除寄存器传输级代码之外的所有内容来完成SoC设计和仿真。因此,与Bops IP的SoC设计工作可以与许可协商同时完成,Kepple说。
全部0条评论
快来发表一下你的评论吧 !