英特尔AI策略全解析(1):延伸四大产品线

2017-01-03 1179

人工智能

636人已加入

描述

英特尔决心全力发展AI，明年现有的Xeon E5、Xeon Phi处理器平台都将推出新一代产品，并将以Xeon搭配新开发的「Lake Crest」芯片，专攻类神经网络的加速应用

【英特尔AI应用主打4种服务器处理器】若要在数据中心环境当中建构AI系统，英特尔预计将提供4种运算平台：Xeon、Xeon Phi、Xeon搭配FPGA（Arria 10）、Xeon搭配Nervana（Lake Crest），分别主打基本用途、高效能、低延迟与可程序化、类神经网络加速等不同需求。图片来源：iThome

这一年来，除了云端服务、大数据、行动应用持续走红以外，人工智能（AI）无疑是下一个即将起飞的热门IT技术，许多人已经开始积极投入机器学习、深度学习的开发与应用，绘图处理器大厂Nvidia今年的营收、获利、股价持续上涨，也与此有关，而同样是处理器大厂的英特尔，现在也对AI的发展寄予厚望，并正式宣布调整以AI为重的策略，全力发展软硬件技术，以支持相关的发展。

在11月18日举行的「Intel AI Day」活动当中，英特尔执行长Brian Krzanich提出了他们的愿景，并期盼能推动AI普及，将AI变得更平民化，进而引领AI运算时代的来临，使英特尔能够成为加速AI发展的催化剂。

而就更实际的产品而言，英特尔在服务器端处理器平台上，也针对AI有所布局。在2017年，现有的Xeon E5、Xeon Phi处理器平台都将推出新一代产品，同时，除了以Xeon搭配FPGA（Field Programmable Gate Array）芯片Altera Arria 10之外，英特尔也将以Xeon搭配新开发的「Lake Crest」芯片，专攻类神经网络的加速应用。

值得注意的是，Lake Crest的形式是一张基于硅芯片的独立加速卡，技术源自于英特尔今年8月并购的新创公司Nervana Systems，该产品将于2017年第一季问世。之后，英特尔还将推出Xeon结合这种新型态加速AI处理机制的芯片，研发代号称为「Knights Crest」，届时，采用这颗芯片的服务器直接具有系统开机的能力，无需搭配Xeon处理器。

英特尔AI服务器平台的发布时程

在2016这一年，英特尔已经推出了FPGA的系统单芯片解决方案Arria 10，以及Xeon Phi x200系列（Knights Landing）。2017年他们将发表新的Xeon Phi（Knights Mill），以及深度学习专用的运算芯片Lake Crest，而在通用服务器级处理器Xeon系列，基于Skylake微架构的产品也将问世。

强化平行处理与向量处理性能，Xeon与Xeon Phi支持新指令集

英特尔在2017年即将推出的服务器产品，还包括采用Skylake微架构的新一代Xeon处理器，以及Xeon Phi（代号为Knights Mill）。

以现行的Xeon E5-2600 v4系列处理器而言，根据英特尔提供的效能测试数据，若执行大数据与AI领域经常会运用的Apache Spark软件环境，效能提升的幅度，可望达到18倍之高（以今年推出的Xeon E5-2699 v4搭配MKL 2017 Update 1链接库，对上Xeon E5-2697 v2搭配F2jBLAS链接库）。

英特尔表示，在初期出货给特定云端服务业者的「Skylake」Xeon处理器版本（preliminary version）当中，将会加入更多整合式加速运算的进阶特色。例如，新的进阶向量延伸指令集AVX-512，可针对机器学习类型工作负载的执行，提升相关的推理论断能力。至于Xeon新平台其他增益的功能与组态支持，预计将会在2017年中正式发布时，才会揭露。

若单看AVX-512这套指令集，目前只有今年6月推出的Xeon Phi x200系列处理器（Knights Landing）支持，接下来，英特尔的主力通用服务器平台Xeon处理器，会在下一代采用Skylake微架构的产品当中支持。

因此，就目前而言，英特尔现有处理器所支持的AVX指令集，总共可分为三代：Sandy Bridge和Ivy Bridge微架构处理器，内建的是第一代AVX，Haswell和Broadwell微架构处理器改为AVX2，而Skylake微架构和Knights Landing是采用AVX512。基本上，前两代的AVX指令集，都是基于128位SIMD缓存器，可延伸到256位。

至于Xeon Phi的下一代产品「Knights Mill」，英特尔表示，会把深度学习的应用效能，提升到现有Xeon Phi处理器（7290）的4倍，并同样具备直接内存访问（Direct Memory Access）的能力——最高可存取到400GB（Knights Landing是以384GB的DDR4内存，搭配16GB的MCDRAM）。

同时，在横向扩展到32节点的系统环境当中，目前的Xeon Phi也已经能大幅缩短机器学习的训练时间，成效差距可达到31倍之大。

基于FPGA可程序化硬件运算技术，推出深度学习加速卡DLIA

FPGA则是另一个英特尔近年来极力发展的重点，他们在2015年并购了专攻FPGA技术的Altera公司，并以此成立新的业务单位──可程序化解决方案事业群（Programmable Solutions Group）。

针对高效能运算（HPC）领域当中也相当热门的AI应用，英特尔在今年11月稍早举行的Supercomputing 2016大会期间，也宣布将于2017年初推出基于FPGA的AI加速解决方案，名为Deep Learning Inference Accelerator（DLIA），可用于影像辨识应用，并且具备大量的数据吞吐能力与高度的能源效益。

DLIA的硬件是英特尔FPGA 系列产品当中的Arria 10的适配卡，芯片之间传输率，最高可达到25.78 Gbps，最大浮点运算效能为1，500 GFLOPS，可因应卷积神经网络（CNN）的部署架构，提供优化效能。而且，Arria 10本身所采用的处理器，是20奈米制程的ARM系统单芯片（SoC）Cortex-A9 MPCore，比起前一代FPGA与SoC芯片，号称能节省4成的电力。

同时，由于DLIA是基于FPGA技术而成，所以秉持了可程序化的特性，用户能从远程对DLIA进行韧体更新，以便随时因应AI技术的改变，而且也能直接运用深度学习的软件开发框架，例如英特尔自己维护、发行的Caffe，以及MKL-DNN（Math Kernel Library for Deep Neural Networks）等链接库。

专为深度学习应用所设计的Crest系列芯片，预计将在2017年问世

英特尔2016年并购Nervana公司后，预计在2017年推出运算芯片Nervana Engine。

这颗代号为Lake Crest的处理器，是专为深度学习的工作负载所设计的，将提供极高的运算密度，大幅超越现行GPU的运算能力。

在数据存取的方式上，Lake Crest本身也配置了新一代的高速带宽内存技术HBM2，搭配的总容量为32GB，访问速度高达8Tb/s。而芯片之间进行互相沟通时，Lake Crest提供12个双向的链接通道，有助于在彼此互连的架构下，进行高速数据传输。

英特尔强调，Lake Crest能支持真正的数据模型平行处理作业，因为在这样的运算架构当中，每一个运算节点，都会配置专用的内存接口，如此一来，系统能够存取的数据模型大小较不受限，同时也可以藉此增进内存I/O效率。

而在Lake Crest之后，英特尔打算师法Xeon Phi x200系列处理器的作法，推出更进一步整合Xeon与Nervana加速技术的芯片，研发代号为Knights Crest。展望AI运算平台的未来目标，他们希望将现行AI应用耗费在深度学习训练的时间，尽可能地缩短，在2020年能做到实时训练，达到节省幅度100倍的目标。

Lake Crest的深度学习处理架构

Lake Crest是基于多维度数据数组（tensor-based）的处理架构，而且，提供Flexpoint的作法，所能支持的平行处理层级是现行技术的10倍。这颗芯片内建的内存也很特别，是HBM（High Bandwidth Memory）的第二代技术，内存带宽是目前DDR4的12倍。

下篇：英特尔AI策略全解析(2):软件的优化提供强大效能

打开APP阅读更多精彩内容