电子说
想要提高芯片之间的通讯速度,应该怎么做呢?传统的思路是优化芯片之间的通信接口。
谷歌发布了CloudTPU测试版,以及GoogleKubernetesEngine的GPU。比如谷歌云服务中心使用的AI芯片TPU,就专门在每块芯片上都专门设计了4个用来做芯片之间通信的接口,但是这种思路有一个天花板,就是如今的接口技术,芯片之间的通信技术,达到每秒钟几百甚至上千GB,就已经接近极限了,再要提升,技术上可能会非常困难,这里要额外提一句,每秒钟几百GB的速度,听起来还是挺快的,但对于云计算中心而言,依然会成为制约整个系统运算性能的关键因素,那还有什么别的办法可以继续提高数据传输速度呢?
这里就要说到Cerebras这家公司的“巨无霸”芯片了,它的思路就是把很多块小芯片合在一起,做成一块大芯片,这样原来需要很多芯片之间相互通信的任务,就可以在芯片内部进行数据传输了。要知道,芯片在自己内部传输数据的速度,是远远高于芯片之间通信的速度的,这就如同,我们左脑跟右脑互相沟通的速度,肯定比我们跟别人沟通说话的速度要快,事实上,按照这家公司披露的数据,这块芯片内部通信网络的速度,可以达到1000PB每秒,是目前最快的芯片之间的通信接口速度的10万倍。如果未来超级计算机,都使用这种“巨无霸”芯片,那就能够很好的解决芯片间通信速度。
这个制约运算速度的瓶颈对整体性能的制约影响,那既然把计算芯片做大有那么多的好处,为什么以前就没人做呢,事实上,不是没人做,而是这件事太难了,还没有人能做到,为什么这么说呢,问题的关键就在“可靠性”三个字上,众所周知,所有的芯片都是在一块圆形的硅片上,经过非常精细的半导体工艺加工而成的,在加工的过程中,难免会有一些加工缺陷和误差,导致硅片上局部失效。在过去,一片硅片上通常会切割出几百块小芯片,而这些局部工艺的误差,顶多也就是影响其中一部分芯片,我们只需要把剩下的部分完好无损的挑出来,就可以到市场上销售了。
看到这里你可能已经明白了,既然加工过程中,难免会出现一些工艺缺陷,那一块芯片的面积越大,上面出现缺陷的概率就越大。所以想要成功的把它制造出来的难度也就越高,像这次发布的“巨无霸”芯片,面积是过去芯片的50多倍,对于工艺可靠性的要求理论上也就提高了50多个量级,这么高的可靠性要求,在过去是很难做到的,这也就是,在过去很少有这种超大型芯片的原因。
责任编辑人:CC
全部0条评论
快来发表一下你的评论吧 !