针对于高端移动通信和汽车市场的四集群设计

描述

作者:Benny Har-Even

去年Imagination推出了最新的图形架构Furian,自2012年来首次对PowerVR进行了重大更新。这意味着在满足越来越多的器件性能需求方面迈出了重要的一步,尤其对于一些新的应用场景比如AR、VR和AI,这使得PowerVR在嵌入式GPU中保持最高的功效和性能。

Furian在设计之初就考虑到了可扩展性,无论着色处理单元(SPUs)的数量如何都能确保性能和面积效率的一致性。在这篇文章中,我们将特别关注该架构的功效,以及是如何确保在每瓦特性能方面领先于其他竞争对手。

继Furian架构之后我们推出了第一个基于Furian的处理器核并且提供授权——PowerVR GT8525,现在我们又推出了PowerVR GT8540——这是一款针对于高端移动通信和汽车市场的四集群设计。

与目前高端智能手机和平板电脑上的多核设计相比, PowerVR GT8525中包含了双集群的单一着色处理单元(SPU),作为第一款用于授权的Furian架构GPU来说是一个相当合适的选择。然而它不应该被低估,这款单SPU设计的性能已证明了Furian架构对游戏的影响。

作为技术发烧友我们致力于开发领先的图形设计,Imagination的高端产品一直拥有大量粉丝。事实上我们很多人口袋中都装着性能强大的高端设备。然而这类设备在价格上无疑是昂贵的,而且越来越多的人认为对于大多数人来说成本低、价格合适、有足够功能的产品更加的适用,这在很大程度上要精确到GPU,我们推出的PowerVR GT8525正适合这样的“超级中端”市场。

对于很多人来说,一款价格合理的设备能够提供足够的性能来处理日常任务,比如网页浏览、查看社交媒体以及流畅的操作一些复杂的视觉游戏。它们甚至足以让用户体验一些新的应用,比如基于AR、VR和AI的应用。更重要的是中端市场的SoC传统上并不会采用先进的制造工艺,这将限制它们可用的功耗预算,因此采用更小型的GPU更可取。正是因为如此,这使得PowerVR GT8525的发布成为SoC供应商理想的GPU,这得益于它在性能和效率之间的理想平衡。

架构效率

然而在功效方面真正使我们能够保持领先优势是因为建立在Rogue基础上的Furian架构所带来的变化和提升。这些变化为的是优化内部效率,能够在给定的功耗要求下提供更多的性能。

gpu

更高效的SPU

其中一个变化是在着色处理单元(SPU),它被重构建以更高效的使用算数逻辑单元(ALU)。正如上图所示纹理单元已经有自己的缓存,确保在访问数据时不需要与统一着色集群(USCs)发生竞争——结果就是使用更低的功耗同时提高吞吐量效率。纹理单元目前具有双倍的填充效率,每个时钟处理8个像素单元,仅在面积上略有增加。

2D Data Master(数据管理)

另一个提升是关于2D的数据管理(2D Data Master),2D Data Master第一次引入是在Series7XT,在这个有了进一步的提升。现在它完全采用异步处理,内核利用率和功效更高。它允许独立提交2D工作任务,绕过所有Tile(贴片)的工作开销(比如调用3D来处理2D任务时),这使得像创建UIs等场合的效率大大提高——而且最重要的是这有助于降低功耗。

管道流加倍

另一个提高整体效率的主要原因是对主要ALU管道的改变(见下图)。管道数据位宽进行了加倍,从16增加到32——每个时钟的吞吐量也加倍了。但关键的是由于内部设计的精简和更多的共享控制逻辑,它并不会占用两倍的硅面积。在Rougue架构中这个管道包括两个乘加功能模块(MADs)。然而在仔细分析了开发人员编写的着色器和内核代码之后,很明显的发现这两个MADs很少被充分利用,因为对于编译器来说同时使用两个MADs是很困难的。

gpu

因此在Furian架构中我们实现了一个MAD和一个MUL,在实际情况中能够提供更多的性能,同时控制硅面积的成本在严格的范围内。在一些场景可能需要两个MAD操作,Furian采用的双倍带宽管道能够提供匹敌Rogue架构的性能(16×2 MADs = 32×1 MAD),因此在这个意义上说即使在最坏的情况下我们也并没有失去什么,大多数情况下带来的是吞吐量的显著提升。

减少延迟

变化还不止于此,现在GPU驱动程序和GPU之间的函数调用不再需要通过OS(操作系统)内核层了,采用的是“用户模式队列”直接进行通信,降低了开销和延迟,从而再次降低了功耗。

gpu

除此之外,现在GPU支持对更多本地内存地址的同步访问,这意味着每个ALU管道都可以直接访问它们所需的内存区域而不需要停机。

gpu

结论

那么这些变化的结果是什么呢?从下图中我们可以看到采用目前流行的行业标准Kishonti GFXBench Manhattan 3.0 benchmark进行测试,Series8XT GT8525比PowerVR GT7450提供更多的fps/W参数,我们上一代等效GPU与之前的15fps相比可以达到35fps(fps(每秒帧数)指的是游戏在设备上运行的流畅程度,数字越大表示终端用户的体验越好)。更小的硅片面积(如下图更小的圈所示)也是另一个优势。

gpu

PowerVR GT8525 vs GT7450  – Manhattan 3.0 FPS vs FPS/W 和面积

尽管功效是GPU的一个重要的综合测量指标,但同样重要的是绝对功耗,移动设备的SoC功耗一般被限制在3—3.5W,其中GPU占功率消耗的30%—50%。估计在35fps/W的情况下,Series8XT GT8525采用中端SoC制造工艺TSMC 10FF能够实现一个合适的功耗值,GPU的功耗控制在1.5W以下。

为了更直观的展现,针对我们上一代的Series7XT,我们期望在实现相同性能指标(iso性能)的基础上,Series8XT GT8525比Series7XT GT7450降低60%的功耗,这意味着性能功耗比将达到令人难以置信的75%!对于终端用户来说,这意味着他们的设备将能够持续使用更长的时间,尤其对于一些使用场景比如玩游戏。

当然我们业界领先的功效特性是基于我们的TBDR(分块延迟渲染)技术,我们只需要渲染屏幕上能够看到的像素,这也是Furian架构所采用的的技术。如果你想了解更多,请查看我们之前的博客文章:深入探究TBDR。

总结

正如你所看到的,Furian架构所引入的这些变化使得PowerVR Series8XT GT8525具有非常高的性价比,提高了大部分市场的器件门槛。我们已经向关键客户授权了我们的首款Series8XT内核,我们期待在2018年提供更多选择。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分