电子说
谷歌云平台今天宣布,自2018年2月12日起,Google独家研制的Cloud TPU向公众开放使用,帮助机器学习开发者快速训练模型。
Cloud TPU是Google为TensorFlow专门设计的机器学习硬件加速器,基于4个特制的ASIC,单个Cloud TPU 的计算能力可达180 TFLOPS,同时具备64GB带宽。
和其他GPU云一样,Cloud TPU免去了设计、部署、维护一个机器学习计算集群的麻烦。除此之外,Cloud TPU的主要优势在于容易和快速。
容易构建模型
TPU虽然基于ASIC构建,但并不像其他基于ASIC的机器学习硬件一样需要专门编写程序(其中包括很多和硬件交互的底层代码)。相反,TPU可以直接使用高层的TensorFlow API。为了进一步帮助机器学习开发者快速上手,Google开源了一系列基于Cloud TPU的参考实现:
ResNet-50及其他流行的图像分类模型
用于机器翻译和语言建模的Transformer
用于目标检测的RetinaNet
以后Google还将陆续开源其他模型实现。
如果你想基于Cloud TPU优化自己的TensorFlow模型,Google也提供了文档和工具。
另外,PyTorch作者,Facebook AI Research的Soumith Chintala也宣布打算在PyTorch框架中集成Cloud TPU支持。
快速训练模型
当年AlphaZero训练了不到24小时就击败了围棋、国际象棋、将棋的最先进模型,而AlphaZero正是基于TPU训练的。
现在,你也可以体验TPU的速度了!按照Google提供的教程,不到一天、不到200美元,你就可以在ImageNet数据集上训练ResNet-50至75%精确度。如果换成普通的GPU云,比如,配备Nvidia Tesla M40的阿里云,你需要多花1-2倍的钱,还需要等待两周!
这还仅仅只是一个开始。Cloud TPU还可以通过专门的极速网络连接,协同工作——Google称之为TPU pod。等今年晚些时候Google开放TPU pod,训练时间可以进一步缩减至不到30分钟,而且无需改动代码!
价格
Cloud TPU以秒计费,目前的价格为每小时6.50美元,以后可能会降价。目前Cloud TPU还处于Beta测试阶段,因此主机位置只限美国中部地区,数量有限,需要先提交表单申请配额,还不能即买即用。
全部0条评论
快来发表一下你的评论吧 !