为边缘计算而生的英特尔的神经计算棒2代

电子说

1.3w人已加入

描述

不同于传统观点认为的那样

AI就一定需要GPU、TPU、FPGA等平台

一定需要高速的网络带宽

边缘计算正成为新时代AI主力军

贸泽电子联合与非主办的第4期明星开发板就来聊聊为边缘计算而生的英特尔的神经计算棒2代,简称NCS2。其作用很简单,就是加速AI计算,尤其是人工智能中的边缘计算,从本质上来说它就是一个边缘计算的载体。

NCS 2采用全铝合金外壳,整个产品精致小巧,尺寸差不多比两根手指小,外观设计也花了一番心思,有助于提高散热。NCS 2采用USB 3.0 Type-A接口,能直接插在电脑上即可使用,或许这就是最简单的边缘计算解决方案?

Myriad X

NCS2加速深度学习推理主要依赖于内部的视觉处理单元 Myriad X。这里有必要提一下,深度学习的细分领域非常多,而Myriad X主要的特点是针对深度学习中的图像和视频的处理。

Myriad X VPU内部架构:

神经计算引擎:

借助这款适用于深度神经网络的片上加速器,Myriad X可以实现每秒超过 1 万亿次运算的 DNN 推理性能。因此可以在不牺牲功耗或准确性的情况下在边缘实时运行深度神经网络。

2.5 MB的同质化片上内存:

允许最高 450 GB/秒的内部带宽,通过最小化片外数据传输来尽可能减少延迟并降低功耗。

16 个可编程的128 位 VLIW 矢量处理器:

针对计算机视觉工作负载进行了优化,灵活地运行多个并行的成像和视觉应用程序。

多种高优先级的外设功能支持:

比如最多可在Myriad X上直接连接 8 个高清分辨率 RGB 摄像头,支持高达每秒 7 亿像素图像信号处理吞吐量,支持4K/60 Hz帧率的编码。

如果单看Myriad X,你对它的性能提升没多少概念,那么对比1代的Myriad 2,这种优势更加明显。可以参考以下这张表:

计算能力提升到了4万亿次,计算性能是1代的4倍;

增加到16个矢量处理器;

新增了神经计算引擎;

片上存储和带宽更大;

支持了LPDDR4;

支持4K 60Hz的M/JPEG编码或者4K 30Hz的H.264/H.265编码;

接口方面也增加了PCIe3.0,增加到16 Lanes的MIP接口。

当然啦,这些参数在目前看来,很多CPU、GPU都可以做到,但是你不能忽略一个参数,那就是功耗,Myriad X的优势在于能实现这些功能的前提下保持了较低的功耗,相比能够提供同等效果的GPU,Myriad X的功耗最少降低了十几倍。

总之,我们可以预见,在Myriad X加持下的NCS2,其特色很明显:① 高能效比,将机器视觉应用推向极致;② 在边缘运行,不依赖云计算连接③ 采用USB接口,方便的支持各种深度学习的原型开发。

所以,对于目前市面上火爆的需要有较强图像/视频处理能力且需要电池供电的应用,如服务型机器人、无人机、AR/VR等设备,基于Myriad X的NCS2优势明显。

OpenVINO工具包

NCS 2该如何开发?英特尔官方的回答是:OpenVINO工具包。OpenVINO工具基于卷积神经网络,可以快速部署模拟人类视觉的应用程序和解决方案,可在英特尔硬件上扩展计算机视觉工作负载,从而最大限度地提高性能。

如上图所示,这是OpenVINO工具包的一些工具,主要分为3个部分:

右上角是传统的电脑视觉库,包含英特尔优化过的OpenCV、OpenVX及范例,可以在推论过程中,有需要用到前处理及后处理器的时候,用来加速运算;

右下角是其它工具集以及库,如英特尔的Media SDK,通过GPU来加速decode;应用OpenCL让应用程序在不同平台上运作,及FPGA相关的插件;及运行时所需要的环境;

而左边这部分就是OpenVINO深度学习推论的核心,也就是我们简称的DLDT。在DLDT中包含两个功能的组件:MO以及IE,还有使用C++和python所做的不同范例;OpenVINO除了支持深度学习中一些预先公开好的模型外,也提供英特尔自行训练的模型,针对各种不同的应用,如行为、表情以及物件侦测等等。

目前OpenVINO支持包括win10、Linux、Raspbian、Mac OS,基本上涵盖了主流的几个操作系统,因此友好性还是不错,可以说是英特尔建立AI生态的大功臣。

环境配置

NCS 2与OpenVINO工具包的组合可谓是如虎添翼,但是要真正使用起来,环境搭建的基本步骤还是免不了:

① 下载OpenVINO工具包,最新版本2021.1

② 解压压缩包,然后到目标文件夹下执行安装,可以安装GUI版本或者纯命令版本

③ 安装额外的依赖的软件包

④ 设置环境变量

⑤ 配置模型优化器

⑥ 配置神经计算棒USB驱动程序

按照教程下来就可以把基本环境搭建起来。

NCS 2实测:对比英特尔CPU

本次主要测试3个demo:

将推理引擎与经过预先训练的模型结合使用,用于执行车辆检测,车辆属性和车牌识别的任务(对比英特尔CPU)

Benchmark,推理性能测试(对比英特尔CPU)

基于摄像头的实时识别功能(NCS2)

想知道测试结果谁胜谁负?视频见分晓。

写在最后

NCS 2在某些特定的边缘计算领域还是非常强大的,其本身的优势也在于开发和优化AI离线应用,除了配合计算机,NCS2还可以配合带各种USB接口的单板计算机,比如在创客群体中用户数量最为庞大的开源单板计算机 树莓派。

因此,如果你有一些想法,想要用Myriad X做些什么,那不妨可以先上贸泽电子官网购买一个NCS2实际体验一番,毕竟NCS2配合上英特尔的OpenVINO工具包对于开发AI加速的应用还是非常友好的,哪怕你只是初学者!

相关电路方案推荐

标题:在Raspberry Pi上构建Kubernetes智能边缘集群

在Raspberry Pi上构建Kubernetes“ Intelligent Edge”集群是一次很棒的学习体验!

在Raspberry Pi上构建Kubernetes Intelligent Edge 集群是一种很棒的学习体验,是构建强大的Intelligent Edge 解决方案的垫脚石,也是一种令人印象深刻的方式,可以打动您的朋友。你的开发技能优势可以在使用云与天青Kubernetes服务。

Kubernetes集群是使用Raspberry Pi 4节点构建的,并且功能非常强大。它已通过Python和C#Azure函数,Azure自定义视觉机器学习模型以及NGINX Web服务器进行了测试。

该项目构成了《智能边缘》系列四部分的基础。

后续主题将包括:

将Python和C#Azure函数构建,调试和部署到Raspberry Pi Kubernetes群集,并学习如何从Kubernetes托管容器访问硬件。

开发,部署和管理上边缘智力与Azure的物联网边缘上Kubernetes。

dapr.io 入门,它是事件驱动的可移植运行时,用于在云和边缘上构建微服务。

系统配置:

Kubernetes集群的设置是完全脚本化的,并且有据可查。

硬件组成部分:

·  Raspberry Pi 4 Model B

·  Raspberry Pi 3 Model B+

·  Pimoroni Blinkt!

责任编辑:xj

原文标题:亲测神经计算棒 PK 传统笔电CPU:为边缘计算而生,谁更强?

文章出处:【微信公众号:电路设计技能】欢迎添加关注!文章转载请注明出处。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分