类脑计算芯片与应用、趋势与展望

描述

类脑计算芯片结合微电子技术和新型神经形态器件,模仿人脑神经系统计算原理进行设计,旨在突破“冯·诺依曼瓶颈”,实现类似人脑的超低功耗和并行信息处理能力。

在今日举办的创新智能芯片,共筑未来航天学术会议当中,北京大学集成电路学院教授王源做了题为《类脑芯片与应用技术》的报告。王源教授主要介绍了类脑计算概述、类脑计算关键技术、类脑计算芯片与应用、趋势与展望。

       类脑计算概述

类脑计算(Brain-inspired Computing)又被称为神经形态计算(Neuromorphic Computing)。是借鉴生物神经系统信息处理模式和结构的计算理论、体系结构、芯片设计以及应用模型与算法的总称。王源教授表示人工神经网络(ANN)是对神经网络连接性的模拟而脉冲神经网络(SNN)是对生物神经系统的仿生模拟,并展示了ANN与SNN的区别。

ANN的原理为计算机科学、数学;编码方式为电平高低;神经元是非线性激活函数;学习规划通过BP等全局学习算法;应用场景主要是图像分类、语音识别、自然语言处理等。

SNN的原理为神经科学原理;编码方式为脉冲时间或频率;神经元包含内在动力学;学习规则主要是生物启发学习算法;应用场景主要是物体追踪等低延时应用,超低功耗应用以及类脑智能。

类脑计算关键技术

神经元:对从树突接收到的时空信息进行整合,并在超过特定阈值时发放新的脉冲,通过轴突传递到其他神经元。准确但复杂度高的神经元模型:HH模型;较为简化神经元模型:累积释放(I&F)模型。

突触:突触是不同神经元之间的连接,支撑记忆、学习功能;记忆以突触连接强度的形式存储在神经网络中。突触连接强度能够变化,体现为不同类型的可塑性包括短时程、长时程可塑性等,从而实现神经网络的学习功能。

神经网络:由神经元与突触组成的高度互连网络,包含约1011神经元,1015突触。信息以脉冲形式(二值型)在生物神经网络中传递,并以局域模拟的形式进行处理;支撑人脑复杂的感知、认知等功能。

计算机

发射率编码:信息编码在发射率r=N/T中,即在一定时间T内发放了N个脉冲。

时间编码:信息编码在发放脉冲的具体时间或时间间隔中。

群编码:信息编码在某一组神经元的行为模式中。

关键技术:片上网络、片上网络拓扑、片上网络路由

片上网络的四个基本组成部分:

路由节点:执行通讯任务的节点,其核心是交换开关,包括仲裁器、纵横交换电路、输入缓冲器等。

资源节点:执行计算任务的 IP 核,可以是同质的处理核,也可以是异质的处理器核、存储器核、数字信号处理核等。

网络接口:指路由节点与资源节点之间的接口,配置了网络接口才能通过NOC与其他资源节点通讯。

通道:指路由节点与资源节点之间、路由节点与路由节点之间的连线,通道具有一定的方向性。

计算机

按照路由节点的连接方式,NoC拓扑结构可分类如下:

一维结构:链式(Chain)、环形(Ring)等。

二维结构:网格 (Mesh)、环面 (Torus) 、多边形、蜘蛛网形 (Spidergon) 、星形(Star)等。

高维及层次化结构:3D网格、3D环面、树形 (Tree)、蝶形 (Butterfly) 等。 

计算机

路由设计的功能考量多种不利现象:

死锁:数据包等待前级清空,前级又在等待更前级,依赖关系形成闭环,数据包无法路由。

活锁:数据包持续进行路由,但就是无法到达目标地址。只出现在自适应的非最短路径中。

饥饿:多个方向的数据包竞争输入,优先级固定只处理一个方向,其他方向被完全堵死。

解决活锁:仅使用最短路径路由方案,限制错误路由操作数量。

解决饥饿:采用需求跟踪的循环优先级,为低优先级适当保留带宽。

解决死锁:一般有死锁预防、死锁恢复和死锁避免方案。 

计算机

关键技术:SNN学习算法

脉冲神经网络学习算法分类:

ANN转SNN离线学习: 任何在ANN中能实现学习的算法,只要求能转换到SNN。

无监督在线学习: 主要包含Hebb、STDP、BCM等与突触可塑性相关的仿生学习算法。

监督在线学习: 依赖于梯度下降、突触可塑性、脉冲卷积序列、时空反向传播的浅层/深层学习算法。

其他在线学习: 基于SNN的强化学习、半监督学习、液体状态机学习、深度信念网络学习等。

其中,无监督在线学习的实现方式包括:

突触可塑性:无监督学习的理论基础,生物可信,表征为突触连接强度增强或抑制。

长时程增强 (LTP):NMDA受体强烈兴奋,Ca2+大量内流,形成新的AMPA受体。(海马体)

长时程抑制(LTD):NMDA受体活动处于低水平,Ca2+流量低下,AMPA受体消亡。(纹状体)

STDP学习规则: 对Hebb学习在突触前后脉冲时间依赖可塑性上的拓展。

计算机

类脑计算芯片与应用

IBM TrueNorth芯片

规格指标:4096核众核架构(64x64),每核256神经元、64K突触(256x256)。

NoC拓扑:片内及片间扩展均为2D Mesh结构,片间传输速度显著慢于片内。

路由算法: 片内外均为X-Y维序路由,片内采用异步双轨四相、片间采用异步单轨两相协议。

近存计算:非冯·诺依曼架构,存储与计算单元邻近分布在各处理核,高度并行,事件驱动。路由节点:需要处理东/西/南/北/本地五个方向的数据出入,首先处理东西向,再处理南北向。路由节点内置FIFO缓存缓解拥堵饥饿,最短路径算法避免活锁,支持一对一发射(同时避免死锁)

Intel Loihi芯片

规格指标:128核众核架构 (16x8),每核含1K神经元,1M突触,此外有3(6)个x86嵌入式处理核心。

NoC拓扑:四个核与一个路由节点构成四叉树,路由节点之间构成2D Mesh结构,片间也是2D Mesh。

路由算法:片内及片间X-Y维序算法,纯异步路由握手设计。

框架本身仅支持一对一发射,但可在源神经元处,通过复制多个一对一实现一对多发射。

Loihi芯片每个核都包含一个基于微码操作的学习引擎,可以编程在线学习算法。

神经元模型:采用基于电流的LIF模型。

片上学习:学习引擎针对过滤的脉冲轨迹进行操作,根据历史脉冲活动情况,随着时间的推移改变突触状态变量。为适配包括STDP在内的高级学习规则,Loihi定义了多种微码操作来满足不同算法需求。

清华大学:Tianjic芯片

规格指标:156核众核架构 (12x13),每核256神经元、64K突触 (256x256)。

NoC拓扑:片内及片间扩展均为2D Mesh结构,片间采用LVDS协议进行高速传输 (1.05Gb/s)。

路由算法:片内外均为X-Y维序路由,片内采用异步握手协议。

可使用额外的广播神经元和复制神经元来实现一对多发射,也可在核内执行多播判断

北京大学:PAICore芯片

规格指标:64核众核架构 (8x8),每核1K神经元、1M突触 (1024x1024)。

NoC拓扑: 片内及片间扩展均为2D Mesh结构,片间采用8:1Merge/Split合并或分流8个核心的数据。

路由算法:片内外均为Y-X维序路由,采用基于异步FIFO的异步握手协议。

路由地址采用绝对地址表示,比对目标地址与当前核地址是否一致。

智能芯片的发展趋势

人脑的优势:

超低功耗

在处理同样复杂任务时,没有任何人工系统能够媲美人脑的高能效性。

学习能力

没有任何自然/人工系统能够像人脑一样,具有对新环境的自适应能力、对新信息与新技能的自动获取能力。

存算融合

神经元实现信息整合,突触完成存储和学习,每个神经元通过上万突触与其他神经元互联,高度并行、存算一体。

高鲁棒性

没有任何系统能够像人脑一样,在复杂环境下有效决策并稳定工作、能够在多处损伤情况下依然具有很好鲁棒性。

智能芯片的未来发展:

计算驱动:算力和能效的持续提升推进军事智能应用。

ANN深度学习处理器:高性能计算稠密性数据、高算力。

SNN类脑计算芯片:事件驱动型稀疏性数据、低功耗。

生物启发:持续提升规模、复杂度探索通用智能实现方法。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分