华为发布最外那个算力AI芯片

陈RQING 2019-08-23 2986

电子说

1.2w人已加入

　　华为全场景AI方案构建完成！

　　在今天深圳的发布会上，华为副董事长、轮值董事长徐直军发布了最新商用AI芯片昇腾910（Ascend 910），以及首款国产的全场景AI计算框架——MindSpore计算框架。

　　至此，从去年发布“五大AI战略”，短短一年时间，在各方压力下的华为，已经迅速完成了全场景AI方案的全部部件构建。华为表示，接下来会专注于各部件的优化和升级。

　　在答记者问的环节徐直军也提到，“516事件”（美国商务部以国家安全为由，将华为公司及其70家附属公司列入出口管制「实体名单」）对华为战略推荐和全场景产品研发没有任何影响，尽管外部环境发生了很多变化，但是整个AI战略和产品商用依然在稳步推进，也达到了预期结果。

　　而对于华为在计算框架生态的构建上，如何与谷歌和Facebook等已经长期耕耘的公司竞争的问题，徐直军表示，华为的优势在于有自己的移动终端产品，并且利用算力和计算框架结合，可以打造很多其他框架不能实现的功能。

　　其实在8月21日开幕的第31届Hot Chips大会上，华为作为主角之一与AMD、Intel、ARM等巨头同台亮相时，就推出了AI芯片所用的“Da Vinci（达芬奇）”架构，以及昇腾310、昇腾910芯片和麒麟810芯片。

　　昇腾310、昇腾910芯片早在去年10月10日的华为全链接2018大会上就已首次亮相。

　　聚焦低功耗的昇腾310已经量产商用，那今天发布的昇腾910（Ascend 910）AI处理器和MindSpore计算框架又有什么新的亮点呢？

　　最新商用AI芯片昇腾910发布

　　先看昇腾910，据华为介绍，这款芯片在算力方面超过了预期，同等规格下，昇腾910达到并超过了C级规格，能在一个时钟周期下完成4096次计算。

　　这个成绩得益于基于达芬奇架构的AI核的计算核心，除了标量和矢量计算单元，AI核集成了3D立方体计算引擎，与CPU和GPU相比，有两个数量级上的提升。

　　昇腾910更是集成了32个立方体计算引擎，能够输出256TFLOPS（每秒256万亿次浮点指令），所以昇腾910不仅是一个AI芯片，更是一个高度集成的片上系统，集成了CPU、DVBP及任务管理器。

　　同时昇腾910拥有自治能力，使其可以独立完成整个AI训练流程，最小化和Host的交互，从而发挥其强大的算力。

　　再看昇腾910的通信机制，昇腾910集成了HCCS、PCLe和RoCE三种高速接口，其中自研的HCCS可以提供单接口240Gbps的传输，从而实现芯片构建训练系统的性能和灵活性的大幅提升。

　　华为也表示，将继续面向未来投资，针对不同场景进行研发，提供更强大经济的算力需求。昇腾310、昇腾910仅仅是一个开始，未来将推出昇腾920。

　　在价格上，华为也表示，这款芯片的售价还没有确定，但是绝不会高于同性能芯片的售价。

　　发布首款国产全场景AI计算框架——MindSpore

　　接下来，华为还发布了一款全场景AI计算框架——MindSpore。

　　徐直军表示，目前国内还没有一款能够对标Tensorflow的全场景AI计算框架，MindSpore希望能够弥补国内的这一空白。

　　在性能上，MindSpore对开发者非常友好，能够有效减少模型开发时间，降低开发门槛。相同场景需求下，减少模型代码量20%，效率能够整体提升50%以上。

　　具体来说，MindSpore自动微分采用Source 2 Source方式实现，在性能和可编程性上，明显优于业界图和运算符重载方式，同时能够实现任意算子的微分表达和编译优化，实现反向算子自动生成，从而极大方便模型开发。

　　随着数据集和模型规模越来越大，模型并行成为必然，手工切分的模型并行存在门槛高、效率低、调优难的缺陷，而MindSpore只需要定义单机模型，即可实现多机混合并行运行，无需了解AI集群细节。

　　MindSpore同时支持静态图和动态图，且可用一条语句实现无缝切换，从而让调试也变得简单而高效。

　　不仅有开发态的高效，运行态的友好同样是MindSpore的追求目标。MindSpore大大提高了运算性能，并且除了支持华为的昇腾910外，也支持其他业界其他CPU、GPU。

　　MindSpore还提供了Ascend Native运行技术，助力昇腾算力最佳发挥。主从控制模式中，CPU和GPU交互，引入内存和数据开销，在芯片上完成神经网络模型所需要的所有控制和执行。

　　至于很多人问为什么有了TensorFlow还要开发MindSpore，徐直军表示：目前没有任何一个国产框架支持全场景。华为目前的业务包括云、端、边，这些都需要全场景支持的AI框架。在不同的运行环境中，架构上支持可大可小，适应全部场景部署。

　　在隐私保护方面，MindSpore不带有隐私信息的梯度模型，能够在保证保护用户隐私的前提下，跨场景协同。

　　总的来说，支持端、边、云独立和协同的统一训练和推理的MindSpore计算框架，降低了AI的开发和使用门槛，释放AI生产力，最大程度发挥AI芯片算力潜力，从而鼓励开发人员共同打造AI生态，推动AI产业落地。

　　华为称，MindSpore将在明年一季度开源，让更多开发者参与将MindSpore打造好。

　　华为全场景AI构建方案完成

　　最后，让我们再回顾一下华为去年发布的AI五大战略：

　　投资基础研究：在计算视觉、自然语言处理、决策推理等领域构筑数据高效（更少的数据需求）、能耗高效（更低的算力和能耗），安全可信、自动自治的机器学习基础能力

　　打造全栈方案：打造面向云、边缘和端等全场景的、独立的以及协同的、全栈解决方案，提供充裕的、经济的算力资源，简单易用、高效率、全流程的AI平台

　　投资开放生态和人才培养：面向全球，持续与学术界、产业界和行业伙伴广泛合作，打造人工智能开放生态，培养人工智能人才

　　解决方案增强：把AI思维和技术引入现有产品和服务，实现更大价值、更强竞争力

　　内部效率提升：应用AI优化内部管理，对准海量作业场景，大幅度提升内部运营效率和质量

　　而今年芯片和计算架构的发布，也是华为对这一战略的落地实践。这也标志着华为全场景AI构建方案完成。

　　目前从世界范围来看，在桌面CPU上，Intel和AMD处于绝对的统治地位；GPU方面，则是英伟达在领跑；至于手机处理器，则基本握在了ARM手中。尽管华为有备胎计划，但是性能方面预计很难超过这些技术成熟、人才资本雄厚的企业。

　　深圳半导体协会秘书长常军锋曾指出，国外半导体巨头通过国际标准、行业标准、专利保护建立了技术壁垒。

　　AI芯片，则成为了国产芯片弯道超车的绝佳机会。

　　AI芯片从发育到成熟落地，国内基本和国外大厂处于同一起跑线上，并且如今华为昇腾系列已经商业化，昇腾910作为是目前单芯片计算密度最大的芯片，计算力也超过了谷歌及英伟达竞品。

打开APP阅读更多精彩内容