电子说
以下是摘录给我们的合作伙伴内容计划的文章的摘录,标题为“利用自然与养育来构建惊人的AI SoC”。它由Synopsys产品营销经理Ron Lowman撰写,最初出现在EETimes上。
依靠传统的设计流程将不会产生每个公司都追求的高性能,市场领先的AI解决方案。设计人员必须考虑各种各样的半导体解决方案。一个 Semico公司2018市场报告中 指出,“对于训练和推理架构正在不断地改进,在最佳配置,提供表演权水平到达。”
数据中心架构包括GPU,FPGA,ASIC,CPU,加速器和高性能计算(HPC)解决方案,而移动市场则是诸如ISP,DSP,多核应用处理器,音频之类的异构片上处理解决方案的大杂烩。和传感器处理子系统。这些异构解决方案可通过专有的SDK有效利用,以适应AI和深度学习功能。此外,基于预期的自主能力,汽车市场将出现巨大变化。例如,可以预料,第5级自治SoC的带宽和计算能力比第2级以上自治SoC支持的性能要高得多。
这些AI设计中的三个始终如一的挑战包括:
添加专门的处理功能,可以更高效地执行必要的数学运算,例如矩阵乘法和点积
高效的内存访问,用于处理深度学习所需的唯一系数(例如权重和激活)
可靠的,经过验证的实时接口,用于芯片到芯片,芯片到云,传感器数据以及加速器到主机的连接
机器学习算法的最大障碍之一是传统SoC架构的内存访问和处理能力没有达到所需的效率。例如,人们批评流行的冯·诺依曼(von Neumann)架构对AI不够有效,导致人们争相开发更好的机器(即SoC系统设计)。
那些幸运地设计出第二代和第三代针对AI的SoC的人已经添加了更高效的AI硬件加速器,并且/或者选择为现有ISP和DSP添加功能以适应神经网络的挑战。
但是,仅添加高效的矩阵乘法加速器或高带宽内存接口已被证明是有帮助的,但不足以成为AI的市场领导者,从而强化了在特定于AI的系统设计期间进行特定优化的概念。
机器学习和深度学习适用于各种各样的应用程序,因此设计人员在定义特定硬件实现目标的方式上千差万别。另外,机器学习数学的进步正在迅速变化,这使体系结构灵活性成为一个强烈的要求。对于垂直整合的公司,他们可以将设计范围缩小到特定目的,增加优化程度,但也可以灵活地匹配其他不断发展的算法。
最后,如《林利微处理器报告》(Linley Microprocessor Report)的“ AI基准仍然不成熟”所述,跨AI算法和芯片的基准测试仍处于起步阶段:
“几个流行的基准测试程序评估CPU和图形性能,但是即使AI工作负载变得越来越普遍,比较AI性能仍然是一个挑战。许多芯片供应商仅引用每秒浮点运算的峰值执行速率,或者对于仅整数设计而言,每秒引用的峰值执行速率。但是,像CPU一样,由于软件,内存或设计中的其他部分存在瓶颈,深度学习加速器(DLA)的工作性能通常远低于其峰值理论性能。每个人都同意在运行实际应用程序时应该衡量性能,但是他们在什么应用程序以及如何运行它们上存在分歧。” (2019年1月)
有趣的新基准开始针对特定市场。例如, MLPerf 目前正在提高培训AI SoC的有效性,并计划进行扩展。尽管这是应对基准测试挑战的一个很好的开始,但培训AI SoC只是影响系统结果的许多不同市场,算法,框架和压缩技术的一小部分。
另一个组织 AI-Benchmark致力于基准测试手机的AI功能。移动电话使用少数芯片组,其中一些芯片组的早期版本除了传统处理器外不包含任何AI加速功能,而是实现了AI专用软件开发套件(SDK)。这些基准表明,利用现有的非AI优化处理解决方案无法提供所需的吞吐量。
所选的处理器或处理器阵列通常具有每秒最大的操作额定值或特定处理技术的特定最高频率。处理器性能还取决于每个指令的能力。另一方面,接口IP(PCIe®,MIPI,DDR)和基础IP(逻辑库,内存编译器)具有最大的理论内存带宽和数据吞吐量级别,在接口IP的情况下,通常由标准组织定义。
但是,系统的真正性能不是这些部分的总和。它具有将处理器,内存接口和数据管道正确连接在一起的能力。系统整体性能是每个集成组件的功能以及如何优化这些功能的结果。
设计人员在AI SoC的处理器,SDK,数学和其他有助于设计的方面取得了飞速发展的同时,这些变化使得难以进行逐个比较的能力。
编辑:hfy
全部0条评论
快来发表一下你的评论吧 !