为什么GPU的寿命如此之短

描述

GPU的寿命

最近外面总在讨论GPU的寿命只有三年。

为什么GPU的寿命如此之短?

我们去看看论文中是怎么说的。

三年

最近云服务提供商CSP谈到,GPU的有效使用率通常是60%-70%。

在这样的效率下,GPU的寿命通常为1年到2年,最长3年。

如果进一步提高使用率,那么GPU的寿命会进一步降低。

橡树岭国家实验室的Titan GPU

首先一份论文来自美国橡树岭国家实验室:

GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability

这篇论文主要收集了GPU运行期间经常发生的两种错误类型:

Double Bit Error (DBE)

DBE指的是GPU memory中发生的ECC检测错误。ECC校验可以校验1bit,但是无法校验2bit。

Off the Bus (OTB)

则是CPU失去了和GPU的连接,失联了。

题外话,如果你听到橡树岭实验室比较耳熟。

那么,对,这个实验室就是当年秘密研发原子弹的一处,曼哈顿计划。

gpu

实验室装备的GPU

这里还要引入一个新的概念,MTBF。指的是mean time between failure。

两次GPU失败之间的均值时间。

研究人员收集数据之后发现,DBE,OTB data error都是在3年的时候达到顶峰。

也就是使用了三年的GPU会开始大规模failure。

gpu

OTB和DBE频繁的发生在2016年成为了显著事件,触发了GPU的更新换代。

2016年更新换代:

gpu

如上图所示,在更新换代之后,MTBF明显降低了,到了2018年,又有明显走高趋势,此时才过了两年。

这次替换了11,000块GPU,占了总体GPU数量的接近59%。

问题在哪里?

经过大量的测试分析,在材料学和显微学的研究人员的支持下,

发现问题并不在于GPU本身,而是在于电路上焊接的电阻发生了银硫化物腐蚀。

此类腐蚀物在微电子部件的环境空气中生长,并且只有在积累到了临界量的腐蚀后才会发生故障。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分