类脑计算芯片与应用、趋势与展望

半导体产业纵横 2022-12-12 2513

描述

类脑计算芯片结合微电子技术和新型神经形态器件，模仿人脑神经系统计算原理进行设计，旨在突破“冯·诺依曼瓶颈”，实现类似人脑的超低功耗和并行信息处理能力。

在今日举办的创新智能芯片，共筑未来航天学术会议当中，北京大学集成电路学院教授王源做了题为《类脑芯片与应用技术》的报告。王源教授主要介绍了类脑计算概述、类脑计算关键技术、类脑计算芯片与应用、趋势与展望。

类脑计算概述

类脑计算（Brain-inspired Computing）又被称为神经形态计算（Neuromorphic Computing）。是借鉴生物神经系统信息处理模式和结构的计算理论、体系结构、芯片设计以及应用模型与算法的总称。王源教授表示人工神经网络（ANN）是对神经网络连接性的模拟而脉冲神经网络（SNN）是对生物神经系统的仿生模拟，并展示了ANN与SNN的区别。

ANN的原理为计算机科学、数学；编码方式为电平高低；神经元是非线性激活函数；学习规划通过BP等全局学习算法；应用场景主要是图像分类、语音识别、自然语言处理等。

SNN的原理为神经科学原理；编码方式为脉冲时间或频率；神经元包含内在动力学；学习规则主要是生物启发学习算法；应用场景主要是物体追踪等低延时应用，超低功耗应用以及类脑智能。

类脑计算关键技术

神经元：对从树突接收到的时空信息进行整合，并在超过特定阈值时发放新的脉冲，通过轴突传递到其他神经元。准确但复杂度高的神经元模型：HH模型；较为简化神经元模型：累积释放（I&F）模型。

突触：突触是不同神经元之间的连接，支撑记忆、学习功能；记忆以突触连接强度的形式存储在神经网络中。突触连接强度能够变化，体现为不同类型的可塑性包括短时程、长时程可塑性等，从而实现神经网络的学习功能。

神经网络：由神经元与突触组成的高度互连网络，包含约1011神经元，1015突触。信息以脉冲形式（二值型）在生物神经网络中传递，并以局域模拟的形式进行处理；支撑人脑复杂的感知、认知等功能。

发射率编码：信息编码在发射率r=N/T中，即在一定时间T内发放了N个脉冲。

时间编码：信息编码在发放脉冲的具体时间或时间间隔中。

群编码：信息编码在某一组神经元的行为模式中。

关键技术：片上网络、片上网络拓扑、片上网络路由

片上网络的四个基本组成部分：

路由节点：执行通讯任务的节点，其核心是交换开关，包括仲裁器、纵横交换电路、输入缓冲器等。

资源节点：执行计算任务的 IP 核，可以是同质的处理核，也可以是异质的处理器核、存储器核、数字信号处理核等。

网络接口：指路由节点与资源节点之间的接口，配置了网络接口才能通过NOC与其他资源节点通讯。

通道：指路由节点与资源节点之间、路由节点与路由节点之间的连线，通道具有一定的方向性。

按照路由节点的连接方式，NoC拓扑结构可分类如下：

一维结构：链式（Chain)、环形（Ring）等。

二维结构：网格 (Mesh)、环面 (Torus) 、多边形、蜘蛛网形 (Spidergon) 、星形（Star）等。

高维及层次化结构：3D网格、3D环面、树形 (Tree)、蝶形 (Butterfly) 等。

路由设计的功能考量多种不利现象：

死锁：数据包等待前级清空，前级又在等待更前级，依赖关系形成闭环，数据包无法路由。

活锁：数据包持续进行路由，但就是无法到达目标地址。只出现在自适应的非最短路径中。

饥饿：多个方向的数据包竞争输入，优先级固定只处理一个方向，其他方向被完全堵死。

解决活锁：仅使用最短路径路由方案，限制错误路由操作数量。

解决饥饿：采用需求跟踪的循环优先级，为低优先级适当保留带宽。

解决死锁：一般有死锁预防、死锁恢复和死锁避免方案。

关键技术：SNN学习算法

脉冲神经网络学习算法分类：

ANN转SNN离线学习：任何在ANN中能实现学习的算法，只要求能转换到SNN。

无监督在线学习：主要包含Hebb、STDP、BCM等与突触可塑性相关的仿生学习算法。

监督在线学习：依赖于梯度下降、突触可塑性、脉冲卷积序列、时空反向传播的浅层/深层学习算法。

其他在线学习：基于SNN的强化学习、半监督学习、液体状态机学习、深度信念网络学习等。

其中，无监督在线学习的实现方式包括：

突触可塑性：无监督学习的理论基础，生物可信，表征为突触连接强度增强或抑制。

长时程增强 (LTP):NMDA受体强烈兴奋，Ca2+大量内流，形成新的AMPA受体。（海马体）

长时程抑制（LTD):NMDA受体活动处于低水平，Ca2+流量低下，AMPA受体消亡。（纹状体）

STDP学习规则：对Hebb学习在突触前后脉冲时间依赖可塑性上的拓展。

类脑计算芯片与应用

IBM TrueNorth芯片

规格指标：4096核众核架构（64x64)，每核256神经元、64K突触（256x256)。

NoC拓扑：片内及片间扩展均为2D Mesh结构，片间传输速度显著慢于片内。

路由算法：片内外均为X-Y维序路由，片内采用异步双轨四相、片间采用异步单轨两相协议。

近存计算：非冯·诺依曼架构，存储与计算单元邻近分布在各处理核，高度并行，事件驱动。路由节点：需要处理东/西/南/北/本地五个方向的数据出入，首先处理东西向，再处理南北向。路由节点内置FIFO缓存缓解拥堵饥饿，最短路径算法避免活锁，支持一对一发射（同时避免死锁）

Intel Loihi芯片

规格指标：128核众核架构 (16x8)，每核含1K神经元，1M突触，此外有3（6）个x86嵌入式处理核心。

NoC拓扑：四个核与一个路由节点构成四叉树，路由节点之间构成2D Mesh结构，片间也是2D Mesh。

路由算法：片内及片间X-Y维序算法，纯异步路由握手设计。

框架本身仅支持一对一发射，但可在源神经元处，通过复制多个一对一实现一对多发射。

Loihi芯片每个核都包含一个基于微码操作的学习引擎，可以编程在线学习算法。

神经元模型：采用基于电流的LIF模型。

片上学习：学习引擎针对过滤的脉冲轨迹进行操作，根据历史脉冲活动情况，随着时间的推移改变突触状态变量。为适配包括STDP在内的高级学习规则，Loihi定义了多种微码操作来满足不同算法需求。

清华大学：Tianjic芯片

规格指标：156核众核架构 (12x13)，每核256神经元、64K突触 (256x256)。

NoC拓扑：片内及片间扩展均为2D Mesh结构，片间采用LVDS协议进行高速传输 (1.05Gb/s)。

路由算法：片内外均为X-Y维序路由，片内采用异步握手协议。

可使用额外的广播神经元和复制神经元来实现一对多发射，也可在核内执行多播判断

北京大学：PAICore芯片

规格指标：64核众核架构 (8x8)，每核1K神经元、1M突触 (1024x1024)。

NoC拓扑：片内及片间扩展均为2D Mesh结构，片间采用8:1Merge/Split合并或分流8个核心的数据。

路由算法：片内外均为Y-X维序路由，采用基于异步FIFO的异步握手协议。

路由地址采用绝对地址表示，比对目标地址与当前核地址是否一致。

智能芯片的发展趋势

人脑的优势：

超低功耗

在处理同样复杂任务时，没有任何人工系统能够媲美人脑的高能效性。

学习能力

没有任何自然/人工系统能够像人脑一样，具有对新环境的自适应能力、对新信息与新技能的自动获取能力。

存算融合

神经元实现信息整合，突触完成存储和学习，每个神经元通过上万突触与其他神经元互联，高度并行、存算一体。

高鲁棒性

没有任何系统能够像人脑一样，在复杂环境下有效决策并稳定工作、能够在多处损伤情况下依然具有很好鲁棒性。

智能芯片的未来发展：

计算驱动：算力和能效的持续提升推进军事智能应用。

ANN深度学习处理器：高性能计算稠密性数据、高算力。

SNN类脑计算芯片：事件驱动型稀疏性数据、低功耗。

生物启发：持续提升规模、复杂度探索通用智能实现方法。

审核编辑：郭婷

打开APP阅读更多精彩内容