GPU的寿命
最近外面总在讨论GPU的寿命只有三年。
为什么GPU的寿命如此之短?
我们去看看论文中是怎么说的。
三年
最近云服务提供商CSP谈到,GPU的有效使用率通常是60%-70%。
在这样的效率下,GPU的寿命通常为1年到2年,最长3年。
如果进一步提高使用率,那么GPU的寿命会进一步降低。
橡树岭国家实验室的Titan GPU
首先一份论文来自美国橡树岭国家实验室:
GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability
这篇论文主要收集了GPU运行期间经常发生的两种错误类型:
Double Bit Error (DBE)
DBE指的是GPU memory中发生的ECC检测错误。ECC校验可以校验1bit,但是无法校验2bit。
Off the Bus (OTB)
则是CPU失去了和GPU的连接,失联了。
题外话,如果你听到橡树岭实验室比较耳熟。
那么,对,这个实验室就是当年秘密研发原子弹的一处,曼哈顿计划。
实验室装备的GPU
这里还要引入一个新的概念,MTBF。指的是mean time between failure。
两次GPU失败之间的均值时间。
研究人员收集数据之后发现,DBE,OTB data error都是在3年的时候达到顶峰。
也就是使用了三年的GPU会开始大规模failure。
OTB和DBE频繁的发生在2016年成为了显著事件,触发了GPU的更新换代。
2016年更新换代:
如上图所示,在更新换代之后,MTBF明显降低了,到了2018年,又有明显走高趋势,此时才过了两年。
这次替换了11,000块GPU,占了总体GPU数量的接近59%。
问题在哪里?
经过大量的测试分析,在材料学和显微学的研究人员的支持下,
发现问题并不在于GPU本身,而是在于电路上焊接的电阻发生了银硫化物腐蚀。
此类腐蚀物在微电子部件的环境空气中生长,并且只有在积累到了临界量的腐蚀后才会发生故障。
全部0条评论
快来发表一下你的评论吧 !