国内AI芯片面临怎样的机遇和挑战?

描述

电子发烧友网报道(文/李弯弯)智能化美好新时代,计算产业的发展是必然趋势,而算力是计算产业的基石,谈到算力就必然离不开AI芯片。
 
长期以来市场和生态制约着国产芯片产业的发展,国外芯片巨头定义了传统芯片生态的规则,垄断了国内市场,在智能化新时代,国内的AI芯片又面临怎样的机遇和挑战?AI芯片产业落地需要关注哪些问题?
 
如今AI算法的应用越来越广泛,对AI算力提出了很高的要求,而传统处理器架构性能提升受限,那么AI芯片架构又该有怎样的改进?
 
日前在百度技术论坛上,昆仑芯科技研发总监罗航、昆仑芯科技NPU架构负责人王京、昆仑芯科技基础工具链开发负责人张钊从各个角度对上述问题进行了阐述。
 
国内AI芯片的机遇和挑战
 
国内AI芯片面临怎样的机遇和挑战?罗航从需求侧和供给侧谈到了这个话题,他认为,从需求侧来看,机遇方面,近几年的中美博弈为国产芯片打开了市场空间,新基建、双循环、自主可控等政策扶持也给AI芯片带了新的机遇,另外AI芯片是一个全新的市场,全球生态格局没有固化,这是与传统芯片不同的地方;挑战方面,AI产业仍处于早期阶段,商业化不成熟,需求尚未爆发,对产业拉动效应未显现。
 
从供给测来看,机遇方面,摩尔定律逼近极限,领先者和追赶者代差会逐步缩小,大陆已有28nm工艺储备,中国具有资本、技术、人才的后发优势;挑战方面,与第一梯队还存在非常巨大的代际差距,产品和生态还很不完善,芯片设计等底层EDA还依赖国外技术。
 

 AI芯片

 
那么AI芯片产业产业化落地重点需要关注和解决的问题是什么?罗航谈到几点:1、芯片量产是前提,芯片研发和流片的先期投入成本巨大,通过量产平摊成本是实现盈利的唯一方法,量产规模也是衡量芯片成熟度的指标之一;2、构建软件生态:软件生态由软件技术栈、开发者社区和用户构成。构建在芯片之上的软件生态决定芯片的可用性和市场接受度,是芯片商业模式的护城河;3、做产品而不是做项目:产品力是芯片商业模式可持续成长的关键因素,成熟的产品促进量产规模,形成业务飞轮闭环。
 

 AI芯片

 
在罗航看来,AIoT相当于是万物数据+超强算力,数据是生产资料,算力是生产力。物联网负责海量数据生产和消费,AI芯片负责这些数据的处理和再造,二者相辅相成,缺一不可,计算速度、计算方法、通信能力、数据总量代表未来国与国之间的竞争力。
 
通用AI芯片架构昆仑芯XPU的优势
 
昆仑芯科技是一家AI芯片公司,2021年4月完成了独立融资,前身是百度智能芯片及架构部,昆仑芯在AI芯片上经历了超过10年的发展历程,2017年发布自研架构昆仑芯XPU;2020年昆仑芯1代大规模部署;2021年昆仑芯2代量产。
 
为什么要自研AI芯片架构,王京谈到,如今各行各业都需要用到语音、图像、自然语言处理等技术,AI算法的广泛应用对AI算力提出更高要求,根据OpenAI分析报告,每3.5个月计算量就要翻倍,而传统处理器架构,根据摩尔定律,晶体管数量翻倍要18-24个月,而且工作频率、功耗、单线程性能以及核心数量的发展速度已经非常缓慢,受限于此,传统处理器架构实际性能提升更慢了。因此,有必要开发一款通用的AI芯片架构。
 

 AI芯片

 
相比于传统的CPU、GPU,昆仑芯科技开发的通用AI计算处理器XPU-R改变了通用计算单元和加速计算单元的数量和分布,从高性能、TCO、通用性、易编程几个指标来看,通用AI计算处理器XPU-R相比于CPU、GPU都表现出比较明显的优势。
 

 AI芯片

 
昆仑芯2代,具有高性能分布式AI系统,芯片间互联支持训练和推理中模型并行&数据并行策略的通讯要求;支持硬件虚拟化,计算单元和存储单元的物理隔离,优化了加速芯片的利用率在保证延时和吞吐量的情况下支持推理和训练等混合工作负载;增强的通用计算能力,XPU-R架构为CLUSTER的算力提升2-3倍,进一步扩展通用AI计算能力。
 
以昆仑芯AI加速卡R200为例,与业界主流150W GPU相比,它的通用矩阵乘法性能加速为后者的1.7倍;视觉的目标检测算法YOLO性能加速为1.3倍;自然语言处理约典型算法Bert性能加速为1.4倍;视觉的图像分类模型ResNet50性能加速为1.2倍。
 

 AI芯片

 
张钊详细来介绍了新一代架构XPU-R,如下图。SDNN,软件定位神经网络引擎,自研核心张量计算单元,加速卷积和矩阵乘等计算;CLUSTER,负责除了卷积和矩阵乘法之外的通用计算部分;GDDR6,高速内存,提供高达512GB/s的存储带宽,具有较高能效比和性价比,是国内业界率先支持GDDR6的厂商之一;SHARED MEMORY,片上共享内存,保证所有计算单元高并发,低延时访问;片间互联,提供高达200GB/s芯片间互联带宽,有效提升大规模分布式训练中数据传输效率,减少通信延时;PCIe 4.0*16,支持PCIe 第四代接口,双向带宽可达64GB/s,同时兼容PCIe 3.0接口规范,可灵活搭配业界已上市AI服务器。
 

 AI芯片

 
昆仑芯原生支持开源深度学习框架飞桨(PaddlePaddle)、百度机器学习平台BML及各种类的AI能力引擎;已经适配90%以上主流模型,推理高效支持飞桨、TensorFlow/Pytorch等框架,训练与飞桨社区进行协同生态建设,已经开源;昆仑芯+飞桨是百度人工智能生态端到端软硬件一体解决方案的独特产品组合,已与多款国产操作系统、国产通用处理器完成端到端的系统适配,实现国产AI计算生态解决方案。
 
如今昆仑芯已经在互联网、智慧城市、智慧工业、生物计算、智慧金融、智慧政务、智算中心以及智慧交通等各行业AI应用场景中落地。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分