NetApp使用AI的漂亮描述作为数据管道

PCB88475579 2020-11-23 1610

电子说

1.3w人已加入

描述

　　经验告诉我们，组织规模与技术采用之间存在关系：更大，资源更丰富的企业通常会首先采用新技术，而随后是规模较小，资源受限的组织会紧随其后（前提是，小型组织不在企业内部）。技术业务）。这种模式已经在多种技术中重复了好几代。但是，一旦较小的组织掌握了一项技术，他们的创造力便会以前所未有的方式推动其发展。恰当的例子：个人计算机最初是在大型公司中部署的，主要用于文字处理和电子表格，但是在十年之内被用于创作音乐，控制建筑物，前端复杂的医疗设备以及成千上万的其他应用程序。联想

　　NetApp使用AI的漂亮描述作为数据管道。由于我们是合作伙伴，因此我将毫不客气地窃取该描述。管道始于（1）在边缘创建和摄取数据，然后（2）移至位于中心的数据清理和准备阶段，在此阶段将其汇总为（3）训练阶段，这是资源消耗最大的阶段。过程。如果数据是石油，则将培训视为通过炼油厂生产石油。最后，（4）部署和推理阶段，其中训练后的数据以推理模式发送回边缘，并收集更多数据以重新开始引入流水线。

　　我们的解决方案专注于关键的第三阶段培训。它是一种参考架构（RA），它将配备了NVIDIA GPU的Lenovo ThinkSystem服务器和基于NetApp技术的Lenovo ThinkSystem存储结合在一起。通过为客户和合作伙伴提供“最佳配方”，联想，NetApp和NVIDIA消除了配置和优化培训平台的猜测。它可以作为单个向上扩展实例，其中多个用户使用共享存储在单个节点上运行作业，也可以作为多节点向外扩展群集，其中在所有节点上依次执行作业，并且节点访问共享存储同时。这是一个关键的区别，因为大多数较小的组织都将从扩大规模开始，但最终可能会迁移到扩大规模的方法。

　　培训，尤其是依赖于神经网络进行培训的深度学习，可能需要数百GB的存储空间，最多需要PB的存储空间。在清理和准备阶段，数据被组装成大的，预打包的文件，例如TFRecords（TensorFlow记录），然后依次读取它们。对于利用GPU的任何工作负载而言，至关重要的是使它们不断地处理数据。这使得系统范围内的吞吐量对于保持所有计算资源都至关重要。

　　责任编辑：lq

打开APP阅读更多精彩内容