知存科技致力于开发的基于NOR Flash的存算一体化人工智能芯片

电子说

1.2w人已加入

描述

知存科技致力于开发的基于NOR Flash的存算一体化人工智能芯片,其芯片特点是能耗低、运算效率高、速度快和成本低,适用于终端设备的人工智能应用。

知存科技演讲实录

知存科技是一家刚刚成立半年的公司,今年3月份正式运营,专注于开发低功耗低成本的存算一体AI芯片。

人工智能目前还处于发展阶段,当前的落地的应用场景较少,没有达到社会的期望。随着人工智能算法的进步以及芯片算力的提升,未来人工智能将会出现一个更大的爆发点,会涌现更多的应用落地。

人工智能芯片作为人工智能的载体,被大家寄予厚望,在2020年,人工智能芯片市场预计达到千亿量级。传统芯片巨头比如arm、Intel、NVIDIA都通过自研和收购推出了数款芯片,互联网巨头比如Google、亚马逊和微软等也都正推出和开发的人工智能芯片。这个领域的创业公司就更多了,中国的几家头部公司就做得非常好。

人工智能依赖的算法有几大特点:这是一个很庞大和复杂的网络,有很多参数要存储,也需要完成大量的计算,这些计算当中又会产生大量数据。为了完成大量计算的过程当中,一般芯片的设计思路是将大量增加并行的运算单元,比如上千个卷积单元,需要调用的存储资源也在增大,然而存储资源一直是有限的。随着运算单元的增加,每个运算单元能够使用的存储器的带宽和大小在逐渐减小,存储器是人工智能芯片的瓶颈。

在很多人工智能推理运算中,90%以上的运算资源都消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。现在工业界和学术界很多人都认为存算一体化是未来的趋势。

存算一体化分为几种:DRAM和SSD中植入计算芯片或者逻辑计算单元,可以被叫做存内处理或者近数据计算,这种方式非常适合云端的大数据和神经网络训练等应用;另一种就是存储和计算完全结合在一起,使用存储的器件单元直接完成计算,比较适合神经网络推理类应用。我们研发的是后者这样的技术,将存储和计算结合到闪存单元中的存算一体。闪存技术已经非常成熟,商用几十年了,成本很低。

当前商用的神经网络非常庞大,拥有几百万到几千万的权重参数,或者推理过程中需要完成几百万到上千万个乘加法运算。传统的计算系统需要将网络权重参数存在片外的非易失性存储器中,比如NAND Flash或者NOR Flash。运算的过程中,需要把部分需要的权重参数搬运到DRAM,再把小部分参数传入到芯片中的SRAM和eDRAM中,之后导入寄存器和运算单元完成运算。神经网络运算需要大面积SRAM和eDRAM来减少片内外数据搬运和提高运算效率,但是由于片上存储成本的限制,也需要高成本高速度的DRAM来缓存片上无法容纳的权重参数和临时数据。

我们存算一体化的做法是这样的:我们的Flash存储单元本身就可以存储神经网络的权重参数,同时又可以完成和此权重相关的乘加法运算,就是将乘加法运算和存储全部融合到一个Flash单元里面。举个例子,只需要100万个Flash单元,就可以存储100万个权重参数同时并行完成100万次乘加法运算。我们做的是这样一款芯片,深度学习网络被映射到多个Flash阵列,这些Flash阵列不仅存储和深度学习网络同时完成网络的推理,这个过程不需要逻辑计算电路。这种方式的运算效率非常高,成本很低,单个Flash单元能够完成7、8 bit的乘加法运算。

之前我们说我们芯片有两个特点:一个是运算效率高,相比于现在基于冯诺依曼架构的深度学习芯片,大概能够提高运算效率10-50倍;另一个是产品成本低,节省了DRAM、SRAM、片上并行计算单元的面积消耗,简化了系统的设计,同时无需采用先进的芯片加工工艺,可以数倍地降低生产成本,几十倍地降低流片和研发成本。当前阶段,我们寻找的是对成本和运算效率(功耗)敏感的应用,比如终端的低功耗低成本的语音识别应用。未来,随着人工智能和物联网的发展,我们会拓展更多的应用场景,比如说低成本和低功耗的感知应用和人机交互。

2014年,我们开始在加州大学圣芭芭拉分校的实验室做这项技术的研发,完成过6次流片和技术验证。去年年末在北京注册的公司,今年3月份正式开始运营,仅仅5个月的时间我们就把设计送出去流片,顺利的话,过3-4个月就会完成芯片测试,争取明年量产。我们的团队毕业于北京大学、北京航空航天大学、美国加州大学洛杉矶分校,加州大学圣芭芭拉分校等学校。核心团队成员大部分都有十年以上的行业经验,团队目前有11个人,年末也会扩大团队规模。

晶体管和电容这些东西怎么在Cell做到Computing?

乘法计算的方式是通过类似模拟电路的电流镜方式。输入电流转换成电压耦合到Flash晶体管的控制栅上,Flash晶体管的输出电流等于输入电流和存储的权重相乘。加法的计算方式类似于并联电路电流求和。

怎么看待Intel新的X Point技术?

这是一项很新的技术,目前主要问题是成本和系统支持度的问题,但随着产业链的发展,成本会越来越低,速度也会更快,系统也会更好的支持X-Point兼有的高速和非易失性的特性。这项技术的selector做得很好。作为存储器、内存或者他们的统一体这类应用来说,未来成本降低之后,会有非常大的优势。Intel在这个技术的市场推广上也投入很多精力,其他后来者可能会坐享其成。

北京知存科技有限公司成立于2017年10月,专注于开发基于存算一体的人工智能芯片和系统。公司通过自主研发的核心技术将计算和存储融合在NOR Flash存储芯片中,大幅度提高运算的并行读,提升人工智能核心运算效率多个数量级。该设计方法还简化了芯片设计架构,节省了内存、缓存和神将网络加速器模块的支出,显著地降低了芯片成本。当前公司正在流片的是面向终端设备的低功耗语音识别芯片。公司将长期致力于深入研发和优化存算一体化技术,将之应用于广阔的人工智能应用场景中。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分