云天励飞IPU成功流片，比特大陆第二代AI芯片曝光！

渊seeker 2018-08-22 7289

电子说

1.2w人已加入

描述

　　随着人工智能市场的火爆，越来越多的芯片厂商开始推出AI芯片，与此同时很多AI算法厂商也开始纷纷推出自己的AI芯片。一时间AI芯片已成为当下最为市场最为关注的焦点。

　　早在去年11月，矿机芯片厂商比特大陆就推出了自己的首款人工智能芯片BM1680；今年年初，国内的声纹识别厂商Speakin也曝光了自己的即将推出的声纹识别模组；今年4月，国内的人脸识别厂商云天励飞也确认将会在年内推出自己的AI芯片；5月16日，云知声发布首款面向物联网领域的AI系列芯片UniOne以及第一代芯片“雨燕”；5月24日，出门问问发布旗下首款AI语音芯片模组问芯Mobvoi A1；7月2日，Rokid发布旗下AI语音专用SoC芯片KAMINO18；而在同一时间，语音识别厂商思必驰CEO高始兴也确认公司正在打造AI语音ASIC芯片，预计今年下半年流片。

　　近日，云天励飞首款自主知识产权的AI芯片IPU已成功流片。与此同时，比特大陆的第二代AI芯片BM1682正式曝光。下面我们来看详细介绍：

　　云天励飞自主产权AI芯片IPU已于16日流片　　

　　今年4月25日，在云天励飞召开的芯片专题媒体沟通会上，云天励飞联合创始人、CEO陈宁提到，云天励飞正在研发的一款面向嵌入式端的边缘人工智能芯片IPU (inteligence processor unit)已取得阶段性成果，计划今年年中流片，明年上半年正式商用。时隔仅不到4个月之后，8月16日，云天励飞的IPU已成功流片。

　　云天励飞IPU聚焦嵌入式视觉智能终端

　　据介绍，云天励飞AI芯片的技术路线是通过设计一系列面向多层神经网络的可编程处理器，应对人工智能算法的快速迭代。“我们首创的‘自适应云+端’AI系统架构，可通过云端逻辑控制终端芯片，自动更新终端芯片的算法和功能。”据云天励飞联合创始人、CEO陈宁介绍，云天励飞自主研发的专用深度学习神经网络处理器芯片，采用ASIP设计思路，提供ASIC级别高性能和低功耗，也能提供处理器级别的指令集灵活性。同时，采用异构计算多核SOC架构，集成多处理器单元，并行分布式处理与集中控制系统。

　　与传统芯片迭代速度相比，AI芯片迭代更快。“目前来说，算法每半个月迭代一次，AI芯片则要同步迭代，而传统芯片的迭代是按年计算。现有的CPU或GPU无法满足嵌入式端视觉AI应用。”据云天励飞研发副总李爱军表示，通用CPU在神经网络加速上速度慢，性能上满足不了对嵌入式端的需求；GPU性能是够的，但功耗高、成本居高不下。“所以，我们觉得有必要去研究适应新型神经网络的深度学习处理器架构芯片。”而云天励飞研发的芯片是面向嵌入式端的边缘计算人工智能芯片，专注智能视觉，聚焦在安防、智能商业等领域的场景应用。

　　　拥有国内顶尖ASIP矢量处理器芯片设计团队

　　“云天励飞做芯片不是临时起意，而是从公司创立之初就开始了芯片的布局。”据陈宁介绍，云天励飞早在2014年就有了完整的“机器学习与视觉智能处理器”AI芯片解决方案，并获得2015年深圳孔雀团队第一名。

　　在当时，云天励飞的芯片研发团队是国内AI芯片界唯一有芯片商用经验的团队，陈宁本人是中国第一款商用矢量处理器芯片的设计者，而芯片团队主导者李爱军是原中兴通讯手机芯片的研发负责人，主导研发了国内第一颗28nm手机芯片商用(2010)和国内首款LTE多模手机芯片商用。

　　陈宁说，“我们的芯片研发团队是国内顶尖的ASIP矢量处理器芯片设计团队，主要的骨干团队成员有丰富的矢量处理器、复杂SoC芯片设计经验，且平均设计经验超过10年。”

　　IPU具有高能低耗、可编程、可云端升级等特点

　　据了解，云天励飞在2016年完成了第一代深度学习神经网络处理器NNP100的研制，并基于FPGA载体实现商用。

　　李爱军介绍说，NNP100深度结合云天励飞自研深度学习算法，与自研神经网络模型深度耦合，具有强大的运算处理能力以及灵活的模型pooling能力，设计上支持PE数量根据场景需求任意扩展和裁剪，非常灵活，同时它又具有高性能、低时延和低功耗技术优势。

　　“相比之前的应用效果，采用NNP100后FPGA加速卡，计算性能相比GPU提升2倍，功耗减低5 倍，时延减低100倍。”李爱军介绍，目前NNP100应用在云天励飞的DeepEye100智能盒子和DeepEye200服务器加速卡产品上。基于NNP100的技术基础，云天励飞已经在研发第二代深度学习神经网络处理器NNP200，并取得阶段性成果。NNP200将集成于云天励飞IPU (inteligence processor unit)芯片上，并用于智能终端产品。

　　据介绍，云天励飞的视觉AI芯片具有2Tops/W的高能量效率。与Nvidia开源的nvDLA相比，相同运算力下，在很小的内存带宽下，算法模型效率可以提高18倍。与麒麟970相比，相同运算力下，比970的性能提高4.4倍。

　　“云天的芯片除了高能低耗的优势之外，还能实现可编程，远程一键升级。芯片可同时处理多路高清视频，此外，通过片间级联还可进行扩展。”李爱军说，多芯片级联，相当于搭积木一样，一颗一颗之间通过板级互联进行扩展。通过级联扩展最多可以同时处理64路视频。

　　“我们采用业界领先的22nm工艺，工艺的性能、功耗、面积经过仿真、分析、比对，对比业界主流的28nm工艺，都具有一定优势，性能提升约10%，功耗降低约15%，面积减小15%-20%。”陈宁还提到，云天励飞的IPU芯片计划在今年年中实现流片，并在明年上半年推向商用，最终通过模式创新，打造一个开放赋能的芯片平台。

　　云天IPU最大亮点——对场景理解更为深刻

　　相比传统的芯片，AI芯片更注重“从场景到算法，从算法到芯片”。正因为不同于以往从硬件出发的思路，AI芯片的行业形态和商业模式正在发生着变化。目前，AI芯片的应用场景主要集中在安防、智能家居和消费电子、自动驾驶、云计算、智慧城市等行业。

　　“由于目前还不存在适用于所有通用算法的嵌入式AI芯片，确定芯片的应用场景就显得尤为重要。”陈宁提到，过往三年，云天励飞深耕安防领域，最先提出了针对安防行业“云+端”的解决方案，真正做到将AI技术落地于垂直场景。

　　来源：智能科技热点

　　深度分析：比特大陆二代AI芯片性能跃升，专注安防视频

　　近日，坊间传闻许久的比特大陆第二代人工智能芯片BM1682，正式出现在其官网页面。根据比特大陆一贯神秘务实的风格，相信基于BM1682的板卡、服务器也已经备好了。笔者在芯片行业浸淫十多年，尝试根据比特大陆官网公布的产品白皮书，来分析一下这两代人工智能芯片之间的异同，尝试谈一谈比特大陆在人工智能领域的意图和野心。

　　2017年第4季度，比特大陆正式推出了其人工智能品牌算丰(SOPHON)，发布了全球首款公开发售的TPU(Tensor Processing Unit张量计算单元)芯片BM1680，专门用于人工智能中的深度学习加速。时隔不足一年，2018年3月，比特大陆又推出其第二款TPU芯片BM1682，根据初步披露的资料显示，BM1682是一块专门用于图像/视频处理方向的人工智能芯片。

　　BM1682与BM1680使用了相同的深度学习算法的硬件加速模块，但相比BM1680而言，BM1682具有更强大的深度学习算法执行能力，此外BM1682还增加了视频处理子模块，以及适用于具体应用场景的诸多功能模块。

　　下面我们对其两者进行一个具体的对比评测：

　　顶层架构——BM1682定位更细分

　　从顶层架构可以看出，BM1680和BM1682均集成了深度学习算法所用到的核心模块NPUs。NPU是比特大陆自行研发的深度学习算法硬件加速器，用于加速深度学习算法的执行速度。

　　从顶层架构图上可以看到，BM1680比BM1682额外集成了高度定制的BMDNN Chip Link Subsystem。该子模块可以在高速SerDes上提供稳定、灵活、低延迟的链路。用户可以通过该链路将多个BM1680芯片连接成一个统一的整体，使其协同工作，大大提高系统的运算能力。BM1682并没有集成此模块，这大概是基于BM1682专一化的市场应用定位，以及处理速度足够满足用户对图像/视频处理需求而考虑的。

　　从顶层架构图上可以看到与BM1680相比，BM1682芯片的整体架构发生了不小的变化，其定位则更加细分明确。从右上角增加的Video Subsystem模块可以明确看出，该款芯片定位于图像/视频处理方向。

　　模块细节——BM1682设计更丰富

　　BM1682的深度学习加速的核心功能模块与BM1680是相同的。两款芯片均包含了深度学习的核心单元—硬件加速器NPU Subsystem。两者的NPU Subsystem均各自集成了64个NPU单元，统一由NPU Schedule Engine进行调度(BM1682架构图中未体现)，最大化的提高了NPUs的效率，加快了深度学习算法inference (推演)与training (训练)的速度。根据初步资料显示，两者在MCU的配置上是有些许差异的，但由于资料不全面，故无法评断出两者的MCU处理能力的差别。

　　除了深度学习算法硬件加速模块(NPUs)、用于高速连接其余BM1680的Chip Link模块之外，BM1680还提供了4个独立的DDR4通道，最高支持16GB的DDR3 或 DDR4 DRAM拓展，用于高速数据缓存读取，以提高系统的执行速度。BM1680还加入了Global DMA模块。DMA用于提供数据搬移功能，这可以在大块数据进行读写搬移时不占用MCU的资源，如在DDR4 的RAM中搬移数据时。对于大数据量的深度学习系统，DMA可以极大的提高效率。BM1680的Peripheral Subsystem 提供了UART、SPI、IIC与GPIO等接口，用于外接传感器，或与外界进行通讯、记录、控制等操作。这些接口都属于通用接口，可见BM1680的定位就是通用深度学习芯片，在外设上没有给与太多支持。

　　从架构图看，BM1682明显复杂了很多。其额外增加了AP (Application Processor) Subsystem和Video Subsystem(视频处理系统)。Video Subsystem(视频子系统)则主要专注于视频预处理的相关任务。

　　BM1682的Video Subsystem提供了2个H.264视频解码器，1个H.265解码器。H.264 /H.265均为视频编码方式，也是比较流行的视频编码的两种方式。相对而言，H.265视频编码比H.264具有更高的压缩比、更强的网络纠错适应能力，但考虑到现阶段在安防、智能家居和互联网视频领域中仍然还是以H.264编码的视频和视频设备为主，两者2:1的译码器数量在视频支持类型和解码带宽做了一个合适的权衡。比较贴心的是，BM1682提供了Video Post-Processing功能，该子模块用于对采用H.264或H.265编码的视频进行渲染处理，这些渲染处理主要包括颜色空间转换、视频剪裁、缩放操作、仿射变换、多帧拼接等常规操作。经过Video Post-Processing对外界进入的视频数据进行硬件加速预处理后，Video Subsystem会将处理后数据通过总线传输给NPUs、DRAM、AP System或外接存储设备，然后进行后续的深度学习处理等操作。

　　BM1682提供了丰富的外界交互接口，如高速接口PCIE、以太网、SDIO3.0、WIFI等。BM1682将数据处理完毕后可以很方便的通过PCIE接口、以太网接口、或者WIFI接口将数据传输到总服务器。若是条件限制没有网络接入点，用户可以选择通过接入SDIO3.0的eMMC存储器或是PCIE式存储器将数据存储到本地存储装置。可见，BM1682对其可能的应用场景做了充分的考虑并给予了硬件支持，用户可以根据需求，灵活方便的进行配置。

　　Peripheral Subsystem方面，BM1682比BM1680要丰富的多，这大大方便了用户进行系统拓展，如添加额外传感器等。BM1682的外设包括2个SPI接口、4个UART接口、4个IIC、4路PWM生成器、一块内嵌式SPI Flash、WDG、Timer、GPIO、PVT Sensor、Top Reg、Efuse、ROM。由给出的外设可以看到，BM1682的设计考虑了配置、存储、对外界系统实时控制、以及加密保护等功能，极大提高了系统的灵活性、安全性，省却了用户额外添加相关功能的开发成本。

　　性能分析——BM1682极大提升

　　NPU深度学习硬件加速器是人工智能的核心。两者NPUs模块集成了64个NPUs单元，通过NPU Schedule Engine进行调度。BM1682中每个NPU含有32个EUs，BM1680未知。根据BM1680、BM1682数据手册显示，单片BM1680单精度运算速度为2TFLops;单片BM1682单精度运算速度为3TFLops。BM1682的单片运算速度高出BM1680 50%。

　　BM1680单片的运行速度低于BM1682，但BM1680支持级联工作模式，数个BM1680可以通过高速的Chip Link Subsystem组成一个集群式的系统，进行更高处理量的运算处理任务。BM1682不具备级联功能。下图为BM1680芯片的级联连接示意图。

　　级联方式：每个Node代表一个BM1680

比特大陆

　　电学方面，根据两者的数据手册显示：满载工作时BM1680的TPD(Thermal Design Power热设计功耗)为41W;：满载工作时BM1682的TPD小于50W。从功耗角度分析，BM1680的2TFlops的NPUs速度应该是有所保留的。

比特大陆

　　开发生态——两代芯片都很到位

　　BM1680、BM1682均支持的主流的CNN/RNN/DNN深度学习架构，通过这两款TPU芯片进行硬件加速，可以极大的提高深度学习算法的执行速度。当然，BM1680和BM1682也可以通过基础的矩阵运算进行深度学习的模型、架构的搭建。

比特大陆

　　在开发生态方面，两款芯片的支持也是很到位的。BM1680、BM1682均对后端用户提供SDK;如果用户需要进行深度优化以获取算法最优性能，可以联系厂家获得相关教学支持。

　　应用领域——BM1682更专注图像/视频处理

　　由前述分析可知，BM1680为通用性人工智能芯片，其应用方向没有偏向性，芯片内部主要集成了深度学习算法所需要的基本模块，应用各种人工智能的深度学习算法，通过添加相应的外围电路模块，BM1680可以搭建成适用于任一个领域的深度学习系统——像图片识别、自然语言处理、文本处理、金融、医学等等大小领域均可选择该芯片实现。BM1680更加具有灵活性。而且，BM1680可以进行级联，所以对于需要处理巨大数据量的人工智能深度学习系统，BM1680尤为合适。像企业级应用、海量数据处理等方面，通过简单的级联BM1680就可以获取相匹配的计算能力，灵活而强大。

　　而BM1682则是一个升级版的BM1680并配备了专门用于视频处理的集成系统，整个BM1682芯片搭载了视频处理所需要的全部核心模块，以及对其具体应用场景适应性的辅助模块。BM1682对于需要进行图像/视频处理的市场应用可谓是十分便捷了。BM1682的辅助功能配置模块自带有线与无线网络功能，对于视频监控方向的市场应用十分方便，无线功能更是省略了网线布线的繁琐施工，并且可用于实现远程监控。对于一些没有网络的场合，如科研领域的野外视频收集处理、闭路视频监控等，BM1682可以轻松的添加外置存储装置进行数据备份收集。BM1682作为图像/视频方向深度学习的SoC片上系统，市场前景很是广阔，这款新品还是很值得期待的。

　　作者 | 中国科学院微电子研究所剑白

打开APP阅读更多精彩内容