“不可思议”的GPU集群赋能Autopilot系统及全自动驾驶的AI开发工作。
为了应对这项有史以来最大的计算挑战之一,特斯拉需要配备前所未有的算力。
在本周的CVPR(国际计算机视觉与模式识别会议)上,汽车制造商特斯拉的AI高级总监Andrej Karpathy公布了公司内部用于训练Autopilot与自动驾驶深度神经网络的超级计算机。这个集群使用了720个节点的8个NVIDIA A100 Tensor Core GPU(共5760个GPU),实现了1.8 exaflops级别的超强性能。
Karpathy表示:“这是一台性能卓越的超级计算机,以FLOPS计,它大概可以在全球超级计算机中排到第5位”。
通过将汽车行业前所未有的算力作为其研发周期的核心,特斯拉让其自动驾驶汽车工程师能够使用前沿技术来高效完成工作。
NVIDIA A100 GPU为全球最强的数据中心提供各种尺度的加速。A100 GPU基于NVIDIA Ampere架构打造,其性能比上一代产品高出20倍,并且可以划分成7个GPU实例,动态地适配不同的需求。
使用100多万辆在路上行驶的Tesla汽车(的数据)来持续优化和迭代新功能,是Tesla自动驾驶的垂直整合之道,而GPU集群在其中扮演了重要角色。
从汽车到数据中心
特斯拉的数据循环始于汽车。“影子模式”在不实际控制车辆的情况下,悄无声息地执行着感知和预测深度神经网络(DNN)。
任何错误预测、误识别都会被记录下来。随后,这些实例会被特斯拉工程师所用,来创建/扩充一个包含多种复杂场景的训练数据集,以完善DNN。
当前已经收集了100万个以每秒36帧的速度记录的10秒片段,总数据量高达1.5PB。在数据中心,DNN基于这些场景被反复训练直到性能可接受。最后,DNN被发送回车内,并开始下一轮(数据)循环。
Karpathy表示,以这种方式在如此大量的数据上训练DNN需要庞大的计算能力,特斯拉为此建立并部署了内置高性能A100 GPU的最新一代超级计算机。
连续迭代
除了全方位的训练之外,特斯拉的超级计算机还为自动驾驶汽车工程师提供了在开发过程中进行实验和迭代所需的性能。
Karpathy表示,特斯拉目前部署的DNN结构可以让一个由20名工程师组成的团队同时在一个网络上工作,通过隔离不同功能来实现并行开发。
这些DNN运行训练数据集的速度会比之前快速迭代时还更快。
Karpathy表示:“计算机视觉是我们一切工作的基础,并且也是实现Autopilot的关键。为此,我们必须训练一个庞大的神经网络并进行大量实验。这也是我们在算力方面投入大量资金的原因。”
欢迎自动驾驶领域的各位有志之士加入NVIDIA Developer Program,复制链接“https://developer.nvidia.com/login”在浏览器中打开即可注册(请在Industry Segment注册选项中选择Automotive)。
编辑:jq
全部0条评论
快来发表一下你的评论吧 !