近年来,依托电子芯片技术的发展,神经网络的结构被设计得更深更大,以应对更加复杂和抽象的场景。随之而来的问题是深府神经网络在训练和推理都依托大规模的浮点运算实现,对存储资源的占用和设备功耗的需求产生了很高的需求。基于传输触发架构(TransportTriggered Architecture,TTA)的专用指令集处理器(ApplicationSpecific Instruction Set Processor,ASIP)既能够提供专用集成电路级别的高性能和低功耗,又能够提供处理器级别的指令集灵活性,是解决该问题的途径之一。
量化与加速是深度神经网络硬件实现时常用的两项技术,卷积神经网络是最有代表性和最通用的深度神经网络。本文的主要工作即围绕这两项技术,进行面向TTA架构ASIP设计的卷积神经网络的优化,具体内容包含以下两个部分:
其一,本文针对基于TTA架构的神经网络ASIP的需求,提出了一套端到端完整的8比特量化方案。该方案结合权重、激活值和梯度的各自特点,为它们制定了相应的量化策略,包括了对称仿射的权重量化、带动态上限的激活值量化、变精度的梯度量化以及一种近似的批量归一化算法。在多数据集、多模型结构的实验中,该方案都取得了与全精度网络相当的精度,领先于部分当下常用的量化方案。
其二,本文将查找表资源融入到卷积运算中,提出了一种基于乘法结合律的卷积运算的加速方案。该方案针对面向TTA架构的量化卷积功能单元,提供了符合量化卷积特性的卷积核分块、循环展开、数据交换规则,并展示了基于TTA架构的神经网络加速器的整体结构。对比传统卷积方案,该方案缓解了有限的乘法器资源对于神经网络并行计算的限制,在并行度与计算能效比两方面都有所提升。
本文中,量化方案是加速方案的基础,加速方案是量化方案的补充,二者共同构成了本文的优化工作,为基于TTA架构的深度神经网络的ASIP实现提供了支持。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部1条评论
快来发表一下你的评论吧 !