IP核设计
自从英伟达涉足移动领域以来,英伟达已经很久没在GPU这块大动筋骨了。往好的方面想,Tegra上面用到得GPU是当前最好的了,从差的方面看的话,严格来说,这需要改进了。英伟达经常被指责是一个不成熟的生态系统,认为其不愿意为大型SOC支付所需的费用,以给市场带来高性能的SoC。值得庆幸的是这一切都开始改变了。在今年的早些时候,英伟达发布了到2015年的移动SOC的roadmap,其中包括了2014年发布的Logan项目。这是英伟达第一款配备开普雷架构GPU的移动SOC。在昨天的Siggraph上,英伟达第一次展示了Logan的硅晶片。
英伟达大概三个礼拜前从晶圆厂拿到了这个硅片。我们几乎可以肯定的是用的是28nm的某种工艺,而并不是之前说的20nm样片。
英伟达没有具体谈到他们的CPU内核,但很大可能Logan会是另一个4+1内核的设计。有可能仍然是基于ARM A15 IP(也有可能是另一个新版本的核心)。在英伟达已经确认了我们的猜测,在GPU方面,Logan用到得是单个开普勒SMX:
一个开普勒SMX拥有192个CUDA核心。英特率没有谈到推出产品的GPU频率。但他提供了图表,让我们确定可以从正确方向去考虑Logan GPU的能力。
别高兴的太早,以上只是GFLOPS的对比,并不是游戏里面的真实性能表现,理论上,移动开普勒ALU的峰值比PS3或者Geforce8800GTX(内存带宽是另一回事)强。如果我们细心观察这个图表,我们将移动开普勒和iPad4相比,我们就会知道英伟达需要怎样的的时钟速度才能达到这种水平的性能。在Photoshop上做一些快速估值,我们可以看出英伟达认为移动开普勒从某些方面来说,其FP基本上是iPad4用到得PowerVR SGX 554MP4 (76.8 GFLOPS)的5.2倍。得出的结果则是400 GFLOPS。随着开普勒192核心的实现,你在每个核心上可以得到2FLOPS,或者说每个周期有384FLOPS。为了达到 400 GFLOPS,你需要把移动开铺率GPU的时钟提到1GHZ。从架构的角度来看,这完全是可行的(尽管我们在28nm的制程上面没见过类似的产品)。但这对于智能手机来说似乎有点性能过剩。
英伟达似乎不是很想去谈关于频率的事情,但他们说道我们很快或许很快可以在某款平板上见到。我认为时钟频率会偏低。即使只有一半的频率,我们现在谈论的可是PS3 GPU水平的FP在移动SOC上
实现。我们对于Logan的内存子系统也无从得知,很显然这个在真实的游戏世界里面能够起到很重要的作用。但我们未能得到真实的数据。这么多年来我们一直在鄙视英伟达的移动GPU。但这次Logan貌似要改变这个格局。
API支持
和英伟达之前的Tegra GPU不同,开普勒架构和OpenGLES3.0、OpenGL4.0和DirectX是完全兼容的。API的兼容是英伟达的一个巨大的进步。这对于游戏开发者来说,他们需要慎重考虑其移动领域。Epic的 Tim Sweeney还专门开了一个博客去讨论英伟达Logan上的开普勒,并探讨其在PC、下一代游戏机和游戏平台上的功能差异性。英伟达回应这是相当于在Logan测试平台上用Android运行虚拟引擎4。这是一个了不得事情。有了Logan,使英伟达在移动GPU和PC市场GPU的差距拉近。如果所有的平台支持相同的API,那么游戏开发商在PC、游戏主机、平板和智能手机上面开发游戏的时候会变得更容易。Logan会使英伟达在API(没有支持OpenGL ES 3.0 )支持的地位得到大大提升。
在GTC 2013上,英伟达带来其demo IRA,它原来是在Titan上运行的,后来就让它在Logan开发板上运行。过渡到移动平台,Ira还需要做某些工作。其渲染分辨率下降到1080P。英伟达声称这个demo的工作功率为2到3瓦。
功耗问题
对于开普勒是否能够执行超低功耗问题的问题,尚未有定论。尤其是我们在近来看到他在PC端得高TDP(与平板和智能手机相比)。在Siggraph上,英伟达希望能够在其演示板上用GLBenchmark 2.7来展示这些。 这个Demo用iPAD4和Logan开发平台对比,同时会将Logan的开普勒GPU时钟降到iPAD 4的性能来与其对比。对开普勒来说,低时钟能够为其带来一个优势,那就是它会有一个非常低的工作电压。因此对比的结果,肯定是英伟达赢了。
和Tegra3不同,Logan包括了一个单电压轨,这只是为GPU供电的。英伟达测试电压鬼,同时在GLB2.7上测量运行1080P T-Rex 高清时候的功耗。英伟达Logan开普勒运行的性能和iPAD4同样的水平(Logan的峰值性能可能低1/5),功耗大约是900mw。英伟达试图隔离GPU的电源轨,直达Apple的 A6X(用到我们上面谈到的相似方法)。得出了一个2.6W的平均GPU功耗值。
对于GPU的功耗对比,我并不会太在意,因为我不知道苹果怎么处理其电源轨。最重要的是开普勒貌似能够将其功耗降到小于1W。而实际上英伟达在Logan上并不会达到这个值。因此我们在起产品上可以看到更高的性能,当然,会有更大的功耗。如果这些数据是信得过的,你会看到基于Logan的智能手机的性能是iPad 4的两倍。而在平板上的性能则会是iPad 4的4到5倍。如果英伟达能够按时出货,那么最快倒要十二个月后我们才能看到相关产品。
如果英伟达的A6X功耗对比真的是苹果对苹果,那么这将证明移动开普勒完全是一个高效率的架构。鉴于英伟达近期说到的授权问题,我们认为这个演示是一场精心策划。
英伟达做了些努力让开普勒适合低功耗。但就我理解,其底层架构和我们在笔记本和台式机上用到的架构是大相径庭的。英伟达和其他同行一样,在移动开普勒上保留了全部的图形处理功能,但我认为类似FP64 CUDA 这样的核心会消失。
写在最后:
在过去的几年,我们谈到在未来的某个时间,我们可以在移动设备上玩游戏机类别的游戏(Xbox 360/PS3),我们离这又进了一步。Logan开普勒对英伟达来说是一件大事。它终于挽救了英伟达的移动GPU。使从智能手机到高端桌面PC的图形API对等。这对于注重多平台开发的游戏商来说是一件了不起的事情。这对移动OS供应商和设备制造者来说也是一件大事,应为他们可以一次为契机,促使智能手机和平板升级。随着智能手机和平板的升级周期放慢。对于设备制造商来说,推进更高级的游戏是一个更有诱惑力的选择。
Logan预计在2014年上半年出货。从早期的硅片返回时间,我认为10到12个月是一个合理的时间。但不能忽视的一个事实就是到目前为止我们还没有看到Tegra4的设备,而英伟达又已经开始讨论Logan了。我听到关于Tegra4的消息都是提上日程了。但由于英伟达的原因,被逼延误。排除IP授权的原因,我不知道是否还有其他的原因,因为我们现在看到了Logan的演示,并看到了早期的硅片。对于工艺节点,也是我们考虑的问题之一。在过渡到20nm之前,Logan应该是在28nm工艺生产。如果英伟达在Logan上再延期,我们又可以看到另一个Tegra 3,推出工艺比较落后的新产品。
忽略工艺制程不考虑,开普勒在移动端上面的功耗还是比较大的。第一眼看到GLBenchmark的数据,我都不敢相信。我把它给到Ryan Smith,我们的高级GPU编辑,他也产生怀疑。如果英伟达真的能够在得到iPAD 4性能的情况下能够将GPU的功耗降到1W(普遍在2.5W到5W)。那么开普勒就真的是个大突破。
无论英伟达现在展示Logan是出于什么考虑。最起码这让我们非常兴奋。带有英伟达最新GPU的移动Soc是我们期待已久的事情。
全部0条评论
快来发表一下你的评论吧 !