PLASTER 是一个与深度学习有关的框架,为致力于开发和部署基于 AI 的服务的人士提供了全方位指导。本文介绍了每个框架元素的测量方式,以帮助您应对诸多 AI 挑战。
目前,业界对深度学习的性能存在很多疑惑。在今年早些时候的GPU技术大会上,黄仁勋先生曾表示,“超大规模数据中心是世界上有史以来最复杂的计算机”。
那么,我们该如何对深度学习的性能进行评估呢?标准又有哪些?
对此,我们的答案是:PLASTER。这是一个与深度学习性能有关的框架,涵盖了每一个驱动深度学习性能发展的要素。
PLASTER——Programmability 可编程性
机器学习正在经历爆炸式发展,这不仅体现在模型的大小和复杂性上,还体现在迅速涌现的多种神经网络架构上。因此,甚至连专家也难以深入了解模型选项,然后选出合适的模型来解决他们的 AI 业务问题。
完成深度学习模型的编码和训练之后,要针对特定的运行时推理环境优化模型。NVIDIA 开发出两个重要工具,解决了训练和推理难题——CUDA 和TensorRT(NVIDIA 可编程推理加速器)。此外,NVIDIA 的深度学习平台能加快所有深度学习框架的训练和推理速度。
PLASTER——Latency 延迟
人和机器都需要对象反应才能作出决策和采取行动。延迟是指提出请求与收到反应之间经过的时间。
就大多数面向人类的软件系统而言,延迟时间通常以毫秒计算。
消费者和客户服务应用对数字助理的需求很广泛。但是,在人尝试与数字助理交互时,即使是短短几秒的延迟也会开始让人感到不自然。
PLASTER——Accuracy 准确性
准确性在各行各业都很重要,尤其是在医疗保健业。过去数十年里,医学成像技术取得了长足发展,这意味着需要将大量数据从医疗设备传输给医疗专家进行分析。
一直以来,无非通过两种方式解决此数据量问题:在高延迟的情况下传输完整的信息,或者数据取样和重建,但相关技术可能导致重建和诊断不准确。
深度学习的一个优点是高精度训练和低精度实施。
PLASTER——Size of Model 模型大小
深度学习网络模型的数量正在激增,其大小和复杂性也在相应增长,这推动着我们对功能更强大的训练系统的需求。在深度学习模型中,计算能力和物理网络扩展的推动因素包括:
• 层数
• 每层节点数(神经元数)
• 每层的计算复杂度
• 某层的某个节点与邻近层的节点之间的连接数
PLASTER——Throughput 吞吐量
开发者正在指定的延迟阈值内逐渐优化推理性能。延迟限定可确保良好的客户体验,在该限值内最大化吞吐量对最大程度提高数据中心效率和营收至关重要。
一直以来,业界都倾向于将吞吐量用作唯一的性能指标,原因是每秒计算次数越高,其他方面的性能通常也越好。但是,如果系统未能按照指定的延迟要求、功耗预算或服务器节点数提供足够的吞吐量,最终将无法很好地满足应用场合的推理需求。如果未能在吞吐量和延迟之间取得适当的平衡,可能会导致客户服务水平低下、未达到服务水平协议 (SLA) 的要求和服务遭遇失败。
PLASTER——Energy Efficiency 能效
随着深度学习加速器的性能不断提升,它的功耗也越来越高。功耗可能会迅速增加向客户提供服务的成本,因此,关注设备和系统的能效变得更有必要。
在某些场合下,需要密集地处理数据以便用自然的声音智能地回答问题,而语音处理恰好就是这样一种解决方案。能实时处理语音的数据中心推理功能无疑需要使用许多个机架的计算机,从而影响到公司的总体拥有成本。因此,业界开始使用每瓦特推理次数来衡量运营成效。超大规模数据中心正设法最大程度地提高能效,即在固定的功耗预算下提供尽可能多的推理次数。
PLASTER——Rate of Learning 学习频率
“AI”由两个词组成,其中一个是智能 (Intelligence)。因此,用户将希望神经网络能在合理的期限内学习和适应。要使复杂的深度学习系统获得商业界的青睐,软件工具开发者必须支持“开发与运维” (DevOps) 行动。
各类组织正不断试验深度学习技术和神经网络,同时学习如何更有效地构建和实施深度学习系统。由于推理服务会收集新的数据,并且会不断发展和变化,因此必须定期重新训练模型。所以,IT 组织和软件开发者必须提升模型接收新数据和重新训练的频率。
全部0条评论
快来发表一下你的评论吧 !