可重配置加速堆栈的目标应用是超大型数据中心和FPGA加速应用

可编程逻辑

1368人已加入

描述

机器学习、大数据分析、实时视频流处理等计算密集型应用不断涌现,云计算的应用范围也不断扩展,通过增加CPU数量提升计算能力的方式已经失去优势,云服务提供商把目光转向“异构计算”。FPGA在加速方面的优势有目共睹,云服务商纷纷部署专为加速各种高性能工作负载而优化的计算引擎。首届赛灵思开发者大会在北京举行,作为会议主办方,赛灵思及来自云计算产业链的硬件工程师、软件工程师和嵌入式工程师齐聚一堂,进行了技术交流和产品分享。

众所周知,软件工程师的数量远远大于硬件工程师的数量,而随着FPGA的应用领域不断扩大,只靠硬件难以服务于广大的软件工程师和嵌入式工程师,因此赛灵思进行了重要转型。赛灵思IP产品开发高级副总裁Salil Raje介绍,“从C++到RTL的转换是赛灵思转型的核心,包括高层次综合工具和软件应用工具。这一转型体现在两个方面:一是在芯片方面;二是在软件工具上面。如今赛灵思引入了面向大规模数据中心和加速器领域的SDAccel可重配置加速堆栈,以及面向嵌入式系统的SDSoC堆栈,把足迹扩展到从数据中心到嵌入式系统的广阔领域。以嵌入式系统市场为例,SoC和FPGA的工程师规模大概有10万名,预计在五年的时间里,我们的潜在用户会增加五倍,数量从5万增加到25万。”

在解决方案设置上,赛灵思为更多用户的差异化创新提供支持。Salil Raje解释,“在端上,有SDSoC开发软件加上reVISION堆栈,开发者可以形成新的使用MPSoC的开发方式;在云上,有SDAccel加可重配置加速堆栈帮助客户在云端开发应用。由此可见,在端上,用SDSoC和reVISION堆栈可以写出嵌入式的应用,在云上,SDAccel和可重配置加速堆栈使得IP可以作为处理器在云端运用。reVISION堆栈的目标应用是自动驾驶汽车、无人机、监控,可重配置加速堆栈的目标应用是超大型数据中心和FPGA加速应用。”

左:赛灵思战略市场发展高级总监Andy Walsh

中:赛灵思IP产品开发高级副总裁Salil Raje

右:赛灵思全球销售和市场部亚太及日本地区总监Stephen Chow

FPGA加速帮助多种应用实现提速

FPGA云加速有多厉害?这需要应用案例来证明。赛灵思战略市场发展高级总监Andy Walsh介绍了来自深鉴科技、NGCODEC、Ryft和Edico基因组的应用。其中,深鉴科技通过FPGA进行机器学习推断、语音识别,速度可以提高40倍;NGCODEC利用FPGA做视频解码,HEVC编码的帧速率达到10倍加速;弹性搜索是现在企业最广泛使用的搜索工具,这可以帮他们找到需要的数据,同时把噪音或者干扰的数据分离出去,Ryft专门做大数据搜索,核心竞争力在算法,他们使用FPGA开发了一款应用,可以使弹性搜索加速90倍;在医学领域,重危新生儿的基因组测序和基因学分析需要快速出结果,现在通过Edico基因组对医学的贡献,可以把基因组分析和测序的时间压缩从24小时压缩到20分钟,这一研究结果已经进入到吉尼斯世界纪录里面。

Andy Walsh强调,“Edico除了在亚马逊云上直接向医院销售以外,还可以向软件提供商销售服务,可以在云上面把服务销售给医院和科研机构。 Edico的例子对于赛灵思意味着,规模化会带来巨大的影响。我们只需要很少数量的云生态系统,就可以联系到几千家企业和几百万个用户。”

FPGA和CPU的集成对两者都造成损害

“CPU+FPGA”的异构架构已经得到大量应用,但是业界一直在寻求更低功耗、更快速度的解决方案,英特尔自从收购Altera以后,一直致力于把CPU和FPGA进行单芯片集成,从而缩小芯片面积、提高CPU和FPGA的通信速度,但是这种做法是否切实有效?Andy Walsh表示,“过去一年半的时间里,FPGA和CPU的集成方式在云计算领域并不是特别受欢迎,它对两者的性能造成很大的损伤,甚至更加严重的损坏,在加速应用中,超大规模的数据中心需要非常高端的加速器,串联进行联合。而且FPGA和CPU集成在功耗上的改善非常有限,一般都是一个中档CPU和低端的FPGA以1:1的方式组合,这并不是一个非常好的解决方案,不能满足以上的使用案例,而以上的这些案例才是驱动FPGA应用的最大动力和发展趋势。”

“现在我们有一个名叫CCIX的倡议,赛灵思是发起者之一,FPGA和CPU之间的一个C16高速接口,所有FPGA的销售商都一起合作,促成FPGA和CPU的结合,包括华为也在做有利于FPGA和FPGA之间结合的协同工作。”Salil Raje补充。

未来FPGA是否会取代CPU?

FPGA的性能越来越强大,应用范围也在不断扩展,可能会有人问,在未来FPGA能否取代通用CPU或者脱离CPU独立运行? Salil Raje指出,“在云以外的一些应用FPGA可以取代CPU,但是如果在云上,FPGA更多被视为一种协处理器,可以减少CPU的数量。在配置方面,一个CPU加八个、十个FPGA,它们相互可以交流,从而减少CPU的数量,但是主机还是CPU。FPGA在其它应用当中完全独立于CPU运行,比如很多最终使用场景,如监测摄象头就不需要额外的CPU,因为在Xilinx的方案中既有FPGA又集成了ARM架构的CPU,。还有一些无线通信无线通信只需要FPGA,不需要CPU。”

在大会现场,我们还看到了赛灵思的合作伙伴展出的产品及演示。

随着微信、微博的发展,视频内容大量产生,而大部分是无效信息,而且视频内容处理起来非常复杂,深鉴科技选择在模型上删除不重要的部分,使模型更小但效果更高,模型变小之后再进行压缩提高效率;随后使用一个训练模型,这个模型采用低精度的数据,在计算的时候速度更快。在研发过程中,深鉴科技发现FPGA比GPU快10倍,比CPU快30到40倍。而且FPGA延时非常低,这对于以推测为基础的机器学习来说非常重要,而且FPGA非常灵活,可以适用不同的机器学习的应用模型。

华为云FP1高性能实例演示

华为的这一实例展现了Gzip压缩算法,左边是经过FPGA加速的压缩处理过程,右边是通过CPU视频处理的过程,可以看出左侧的压缩速度远远快于右侧,可见FPGA加速方案性能相对于CPU有近4倍的提升,动态逻辑加载和切换实现秒级完成。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分