电子说
经验告诉我们,组织规模与技术采用之间存在关系:更大,资源更丰富的企业通常会首先采用新技术,而随后是规模较小,资源受限的组织会紧随其后(前提是,小型组织不在企业内部)。技术业务)。这种模式已经在多种技术中重复了好几代。但是,一旦较小的组织掌握了一项技术,他们的创造力便会以前所未有的方式推动其发展。恰当的例子:个人计算机最初是在大型公司中部署的,主要用于文字处理和电子表格,但是在十年之内被用于创作音乐,控制建筑物,前端复杂的医疗设备以及成千上万的其他应用程序。联想
NetApp使用AI的漂亮描述作为数据管道。由于我们是合作伙伴,因此我将毫不客气地窃取该描述。管道始于(1)在边缘创建和摄取数据,然后(2)移至位于中心的数据清理和准备阶段,在此阶段将其汇总为(3)训练阶段,这是资源消耗最大的阶段。过程。如果数据是石油,则将培训视为通过炼油厂生产石油。最后,(4)部署和推理阶段,其中训练后的数据以推理模式发送回边缘,并收集更多数据以重新开始引入流水线。
我们的解决方案专注于关键的第三阶段培训。它是一种参考架构(RA),它将配备了NVIDIA GPU的Lenovo ThinkSystem服务器和基于NetApp技术的Lenovo ThinkSystem存储结合在一起。通过为客户和合作伙伴提供“最佳配方”,联想,NetApp和NVIDIA消除了配置和优化培训平台的猜测。它可以作为单个向上扩展实例,其中多个用户使用共享存储在单个节点上运行作业,也可以作为多节点向外扩展群集,其中在所有节点上依次执行作业,并且节点访问共享存储同时。这是一个关键的区别,因为大多数较小的组织都将从扩大规模开始,但最终可能会迁移到扩大规模的方法。
培训,尤其是依赖于神经网络进行培训的深度学习,可能需要数百GB的存储空间,最多需要PB的存储空间。在清理和准备阶段,数据被组装成大的,预打包的文件,例如TFRecords(TensorFlow记录),然后依次读取它们。对于利用GPU的任何工作负载而言,至关重要的是使它们不断地处理数据。这使得系统范围内的吞吐量对于保持所有计算资源都至关重要。
责任编辑:lq
全部0条评论
快来发表一下你的评论吧 !