如何通过GPU架构改善功耗问题,避开英伟达主战场寻找蓝海

今日头条

1113人已加入

描述

来源:于与非网eefocus

GPU又称图形处理器,它的历史要追溯到1972年火遍全美的弹珠游戏机,但真正进入高速发展期是在2006年,往后GPU的发展速度达到了摩尔定律的2~3倍。

我们以数据中心产品为例,今天英伟达Ampere架构下的云端训练A100显卡FP32浮点性能19.5T FLOPS,INT8算力1,248 TOPS,而这两天的消息称,英伟达的下一代GPU Hopper FP32浮点性能将达到24.2 TFLOPs,几乎是A100 显卡的2.5倍。

正因为GPU这些年的高速发展带来了技术壁垒的不断高筑,GPU战场三四年前还有很多家,而现在只剩下两家。高端技术的垄断代表了议价权,现在一张高端的GPU显卡,市场售价高达十几万元,相当于一辆普通小轿车的价格。再加上国内需求的差异化,巨头们在定制方面确实存在心力不足的问题,所以GPU自主可控下的国产化势在必行。

在这样的大环境下,近几年本土GPU厂商如雨后春笋般冒出来。不过真正能出产品,实现量产的也没几家,并且算力比较低。比如景嘉微2020开始量产出货的JM7200单精度算力只有0.5T FLOPS,2021年刚流片回来的JM9231实测浮点算力能达到1.5T FLOPS。所以上个月芯动科技发布的4K级显卡GPU芯片“风华1号”变得格外抢眼。

根据芯动云计算总裁敖海的介绍,“‘风华1号’GPU成倍提升了现有国产GPU水平,单芯片A卡渲染能力达到160GPixel/s,FP32浮点性能达到5T FLOPS,AI性能为25TOPS(INT8),3D图形渲染处理管线定制优化,支持Linux/龙芯/Windows/安卓操作系统图形框架,支持32路SRIOV虚拟化。”

芯动科技SoC体系架构师何颖表示:“如果单从芯片的算力来看,‘风华1号’双芯片B卡的FP32浮点性能达到10T FLOPS,渲染能力达到320GPixel/s,可以对标英伟达Tesla T4 GPU(FP32 / 8.1T FLOPS,渲染能力/254.4 GPixel/s)。”

“GPU赛道足够大,目前英伟达的市值有七千多亿,而芯动科技的目标就是做中国的英伟达”,芯动科技工程副总毛鸣明补充道。

后摩尔时代

如何通过GPU架构改善功耗问题?

众所周知,算力和计算平台的性能不能划等号,对于GPU来说,能效比是非常重要的性能参数。据悉,英伟达下一代显卡40系列的TGP整卡功耗标示为550W,这样的整机得要多大电源才能带得动?于是我们自然而然会有一个疑问,为什么GPU发展了这么长时间,功耗还是一步步增长到了这么大的地步?

“这是因为半导体工艺的极限已经快到了,从一百多纳米到九十多纳米到几纳米的时候,一直还可以线性地降低,降低工艺节点可以获得更低的功耗、更高的性能,但是半导体工艺快到摩尔定律的物理极限了,工艺节点的红利差不多到头了,再要提高性能的话,只好把功耗相应地变大。我们想做低功耗的显卡,想做节能减排,想做绿色,怎么办?不能在工艺上取得红利,要在架构上取得红利,这时候我们的想法是架构上吸取移动端GPU的优点,做出真正好的GPU”,何颖如是说。

那么芯动科技用的GPU架构是什么样的?我们都知道芯动科技拿了Imagination的GPU核 IP授权,而这个授权的GPU IP正是移动端级别的,所以在能效比上存在天生的架构优势。

拿了Imagination的IP

国产GPU还算自主可控吗?

图源 | im2maker.com

讲到这里,你是否会提出疑问,架构级IP都是买来的,能算是自主可控吗?举个例子,苹果从A4到A10X所有的芯片都是用Imagination的IP,到10之后苹果有了自己的GPU架构,但是它依然是基于Imagination的TBDR架构,所以进行了专利授权,它是Imagination TBDR重要的分支。

苹果不用大风扇甚至风扇不转就可以发挥很好的图形性能,这是其他笔记本很难做到的事情。它做了三个不同的芯片:M1、M1 Pro和M1 MAX,最强的芯片用了32个核,有机地合在一起,达到的效果比桌面独立显卡功耗降了70%,它可以用很少的功耗达到接近英伟达3060桌面渲染的性能。这证明TBDR可以用于移动,也可以用于桌面的操作系统,但是它需要很多改变,它要做很多自己私有化的定制,这样才有可能把一个GPU放大到能够适应桌面上强渲染的要求。所以,你会说苹果没有自主可控吗?

事实上,当从单核、双核扩大到8核、16核、32核时,就不是简单的堆核了,如何讲这些核有机地调用起来,协调好通讯,就必须有芯片厂商自己的方案。所以苹果有苹果的方案,而芯动科技的方案特色就是Chiplet,通过Chiplet来打破算力的限制。此外,做大核还必须要配合API接口的升级,图像GPU领域趋势的跟进,以及尽量把算力做起来。

说到算力,其实前面也有提到“风华1号”用的是一个移动端的架构,虽然有它功耗和做云游戏的天生优势,但也存在一些架构弱势,所以如何把原生移动端的架构拓展到高性能计算、云计算的场景也是芯动科技要做的最重要的事情之一,这时候就需要修改GPU内核了。

如此,即使是拿了架构授权,其实要做的事情还是很多,这也是目前市场上GPU门槛居高不下的原因所在。根据何颖的介绍,“风华1号”80%以上的IP都是属于自主研发。

不过,哪天真的上了美国的黑名单,不让流片的风险总是会存在的,这不是一家公司能解决的问题。真到那个时候,芯动科技已经流片好几代,并且已经拿到的授权对方是拿不走的,就像当初华为被禁的时候已经有了ARM授权,后面还能用是一个意思,所以相对自主可控。

在小池塘练兵

避开英伟达主战场寻找蓝海

“桌面市场如果一上来就想跟行业巨头正面地进行竞争,你会死得很惨”,毛鸣明如是说,“每个市场都有很细分的点,比如做桌面,可以先做线上市场,做国产化的统信70的操作系统,先找到一个点站住脚,再去考虑挑战国外的巨头。”

确实,桌面市场是一个存量市场,所以对于一家本土GPU厂商而言,正面PK不可行,所以在中国政策的扶持下,信创市场是一个可行的切入口。

根据市场调研的数据显示,2023年全球计算产业市场空间将达到1.14万亿美元,中国计算产业市场空间1043亿美元,即7300亿元,接近全球的10%。按照50%为信创产业市场规模计算,2023年中国信创产业市场规模将突破3650亿元,市场容量将突破万亿。

对于国内的信创桌面,目前大家用的最多的还是AMD的卡,ARM服务器和AMD显卡这套方案很成熟,但大家的反馈是一个字“贵”,所以这里面有很大的国产替代空间。

不过如果只有桌面市场,英伟达也不会是万亿级别公司的体量,是AI和元宇宙的加持才成就了今天的英伟达。因此,对于像芯动科技这样的GPU厂商而言,信创市场不是终极目标,而是一个大鱼进不来的小池塘,方便练兵站稳脚跟,从而向更为广阔和通用的云市场过渡。

对于云端市场的看好,毛鸣明是这么形容的,“如果没有在2019年看到云渲染后面会爆炸式的需求,我们不一定会做GPU。”可见作为元宇宙基础建设项目的云渲染市场之巨大。不过对于本土厂商来说,如何抓住市场锚点生存下来呢?毛鸣明很有自信地表示,“给我一个抓手,再给我一两年时间迭代两三款产品,就能站住脚。”

那么他口中的抓手除了前面提到的信创市场还有其他吗?答案是云游戏市场。前面提到了“风华1号”其实用的是一款移动端内核架构,有做云游戏的天生优势。但是那些巨头们难道不能掌握这个技术吗?

事实上,作为国际大厂,它们关心的是自己的主要用户,也就是3A大作,包括谷歌的主流云游戏厂商,考虑的是一张显卡给两个用户用,因此编解码只要支持两路。而国内的手机游戏厂商比较多,中国客户的需求不太一样,它们更追求性价比,成本是重要的考量因素,它们的客户很多都不愿意每月为云游戏支付较高的价格。因此这些手机游戏厂商希望一个方案可以支持30路、50路、60路,甚至上百路的操作。所以这也算是本土化的蓝海市场,由于本土公司可以更贴近这些云游戏厂商,就可以在硬件设计和定制化方面做一些有差异化的东西,从而生存下来。当然,跟着云渲染指数级增长的事态,未来它们也可以进军桌面、笔记本,甚至手机市场。不过,国产GPU当前最重要的任务依旧是API升级和算力提升。

本土GPU厂商

有望1-2年内回本?

前面讲了本土GPU技术和市场侧的一些分析,下面我们来聊点“俗话题”。最近,就算是半导体的圈外人也多多少少对GPU的市场热有所了解,高规格、市场容量大、国体替代紧迫等关键词是这个赛道能够大批量吸收市场热钱的原因所在。

正是在这样的大背景下,你可能不会相信芯动科技竟然是在无融资的条件下完成了GPU的架构授权、设计、流片、内部测试,到量产版本的发布工作。12nm的流片的费用不说,这年头光是养几百人的GPU研发团队都是一笔不菲的开销。

我们知道芯动科技原来是做接口IP授权和芯片定制的,虽然公司成立第五年就开始盈利,财务状况一直不错,但不免担心会被“GPU业务”拖累。面对这个追问,毛鸣明给出的答案是——“风华1号”正在和腾讯、联通等大厂进行适配,中国年以后会开始讨论订购、采购的细节,后面我们每半年会迭代流片一款产品,每一年到一年半做真正意义上的大的架构迭代,如果我们做得好的话,可能在1-2年内就可以回本。

迭代这么快,还能在短期内赚钱,自信哪来?“信创市场一年有几百万张卡的体量,服务器显卡一年有十万张或者几十万张的体量,而且服务器端的成长特别快,单卡的价格也是信创的十倍、几十倍的体量。所以我们觉得在信创市场上做盈利比较难,因为它本身偏向于中低端的市场,但是在服务器端的盈利还是比较有希望的。” 毛鸣明补充道。

写在最后

值得一提的是,对于IP厂商而言,在流片方面存在一些优势,据芯动科技的描述,过去200多次,5亿美金的流片都是免费的,当然这个主要是针对IP。因为代工厂也想捆绑客户,有很多IP公司跟代工厂深度绑定,它们需要IP供应商在供应节点扩充它的IP库,比如“风华1号”中GDDR6x技术的合作就是个很好的例子。而对于Chiplet技术下的GPU来讲,如果能做接口等技术上的提前验证,是一件事半功倍的事情。

审核编辑:符乾江

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分