TI Edge AI - AM6xA 处理器与深度学习加速器及其效率

描述

TI 处理器与深度学习加速器

[TI]的AM6xA(如[AM68Ax]和[AM69Ax])边缘AI处理器采用异构架构,带有用于深度学习计算的专用加速器。这个加速器被称为MMA -矩阵乘法加速器。该MMA与TI自己的C7x数字信号处理器一起,可以进行高效的张量,矢量和标量处理。加速器是独立的深度学习处理,不依赖于主机ARM CPU。由于模型计算有大量的数据传输,加速器有自己的DMA引擎和内存子系统,与SoC的其余部分连接到相同的DDR。这与专有的Super-tiling技术一起,导致高达90%的加速器引擎利用率和DDR带宽驱动尽可能低的功耗,以实现节能计算。
*附件:am68a 数据手册.pdf
*附件:am69a数据手册.pdf

AIimage586×586 85.1 KB

MMA架构(来源:TI)
使用MMA作为AI功能的加速,整体SoC框图如下图所示。产品组合中的每个边缘AI设备(如AM62A、AM68A等)的架构都是相似的。

AIimage865×320 68.2 KB

AM6xA处理器框图(来源:TI)

基于异构架构,片上系统(SoC)经过优化,可在多核Cortex-A微处理单元(mpu)上轻松编程,同时集成深度学习、成像、视觉、视频和图形处理等计算密集型任务。任务被卸载到专用硬件加速器和可编程核心上。使用高带宽互连和智能存储器架构对这些核心进行整体系统级集成,可实现高吞吐量和能源效率。通过系统组件的预集成实现优化的系统BOM。请注意,像AM62A这样的成本和功耗优化的SoC并不包括所有硬件功能,例如GPU和DMPAC,或者可能包括性能降低的加速器变体以降低功耗。

深度学习效率

通常,TOPS(每秒tera次操作)用于衡量深度学习的性能比较。TOPS不能完全涵盖深度学习性能的所有方面,因为它还依赖于内存(DDR)容量和神经网络架构。

实际的推理时间取决于系统架构利用系统中最优数据流的效率。因此,更好的性能基准是给定模型在给定输入图像分辨率下的推理时间。更快的推理时间允许处理更多的图像,从而产生更高的每秒帧数(FPS)。因此,FPS除以TOPS (FPS/TOPS)显示了建筑的效率。同样,FPS/瓦特是嵌入式处理器能源效率的一个很好的基准。

特性

AI

处理器内核:

  • 高达双 64 位 Arm Cortex-A72 微处理器子系统,频率高达 2GHz
    • 每个双核 Cortex-A72 群集 1MB 共享 L2 缓存
    • 每个 Cortex-A72 内核 32KB L1 D-Cache 和 48KB L1 I-Cache
  • 深度学习加速器:
    • 高达 8 万亿次每秒作 (TOPS)
  • 带有图像信号处理器 (ISP) 和多个视觉辅助加速器的视觉处理加速器 (VPAC)
  • 双核 Arm Cortex-R5F MCU,在通用计算分区中高达 1.0GHz,带 FFI
    • 16KB L1 D-Cache、16KB L1 I-Cache 和 64KB L2 TCM
  • 双核 Arm® Cortex-R5F® MCU,频率高达 1.0 GHz,支持设备管理
    • 32K L1 D-Cache、32K I-Cache 和 64K L2 TCM,所有内存均支持 SECDED ECC
  • 带有图像信号处理器 (ISP) 和多个视觉辅助加速器的视觉处理加速器 (VPAC)
    • 480 MPixel/s 图像处理器
    • 支持高达 16 位的输入 RAW 格式
    • 宽动态范围 (WDR)、镜头畸变校正 (LDC)、视觉成像子系统 (VISS) 和多标量 (MSC) 支持
    • 输出颜色格式 : 8 位、12 位和 YUV 4:2:2、YUV 4:2:0、RGB、HSV/HSL

多媒体:

  • 显示子系统支持:
    • 最多 4 个显示器
    • 最多两个 DSI 4L TX(最高 2.5K)
    • 1 个 eDP 4L
    • 1 个 DPI 24 位 RGB 并行接口
    • 安全功能,如冻结帧检测和 MISR 数据检查
  • 3D 图形处理单元
    • IMG BXS-4-64,高达 800MHz
    • 50GFLOPS,4GTexels/秒
    • 500MTexels/s,>8GFLOPs

    • 支持至少 2 个合成图层
    • 最高支持 2048x1080 @60fps
    • 支持 ARGB32、RGB565 和 YUV 格式
    • 支持 2D 图形
    • OpenGL ES 3.1、Vulkan 1.2
  • 两个 CSI2.0 4L 摄像机串行接口 (CSI-Rx) 加上带 DPHY 的 CSI2.- 4L Tx (CSI-Tx)
    • 符合 MIPI CSI 1.3 标准 + MIPI-DPHY 1.2
    • 支持高达 2.5Gbps 的 1、2、3 或 4 数据通道模式
    • 使用 CRC 校验 + RAM 上的 ECC 进行 ECC 验证/校正
    • 虚拟通道支持(最多 16 个)
    • 能够通过 DMA 将流数据直接写入 DDR
  • 视频编码器/解码器
    • 支持 5.1 级高级的 HEVC (H.265) 主要配置文件
    • 支持 5.2 级 H.264 BaseLine/Main/High 配置文件
    • 支持高达 4K UHD 分辨率 (3840 × 2160)
    • 4K60 H.264/H.265 编码/解码(高达 480MP/s)

内存子系统:

  • 高达 4MB 的片上 L3 RAM,具有 ECC 和一致性
    • ECC 错误保护
    • 共享一致性缓存
    • 支持内部 DMA 引擎
  • 最多两个带 ECC 的外部内存接口 (EMIF) 模块
    • 支持 LPDDR4 内存类型
    • 支持高达 4266MT/s 的速度
    • 多达 2 个 32 位数据总线,每个 EMIF 具有高达 17GB/s 的内联 ECC
  • 通用内存控制器 (GPMC)
  • 在 MAIN 域中最多两个 512KB 片上 SRAM,受 ECC 保护

设备安全性:

  • 具有安全运行时支持的安全启动
  • 客户可编程根密钥,最高 RSA-4K 或 ECC-512
  • 嵌入式硬件安全模块
  • 加密硬件加速器 – 具有 ECC、AES、SHA、RNG、DES 和 3DES 的 PKA

高速串行接口:

  • 一个 PCI-Express (PCIe) Gen3 控制器
    • 每个控制器最多 4 个通道
    • 第 1 代 (2.5GT/s)、第 2 代 (5.0GT/s) 和第 3 代 (8.0GT/s)作,具有自动协商功能
  • 一个 USB 3.0 双角色设备 (DRD) 子系统
    • 增强的 SuperSpeed Gen1 端口
    • 支持 Type-C 切换
    • 可独立配置为 USB 主机、USB 外围设备或 USB DRD
  • 两个 CSI2.0 4L 摄像机串行接口 RX (CSI-RX) 和两个带 DPHY 的 CSI2.0 4L TX (CSI-TX)
    • 符合 MIPI CSI 1.3 标准 + MIPI-DPHY 1.2
    • CSI-RX 支持 1、2、3 或 4 数据通道模式,每通道高达 2.5Gbps
    • CSI-TX 支持 1、2 或 4 数据通道模式,每通道高达 2.5Gbps

以太网:

  • 两个以太网 RMII/RGMII 接口

闪存接口:

  • 嵌入式多媒体卡接口 (eMMC™ 5.1)
  • 1 个安全数字 3.0/安全数字输入输出 3.0 接口 (SD3.0/SDIO3.0)
  • 两个同步闪存接口配置为
    • 一个 OSPI 或 HyperBus™ 或 QSPI,以及
    • 一个 QSPI

技术/封装:

  • 16nm FinFET 技术
  • 23mm x 23mm、0.8mm 间距、770 引脚 FCBGA (ALZ)

技术文档

=TI 选择的此产品的热门文档

日期
数据表AM68x 处理器,Silicon Revision 1.0 数据表 (Rev. B)PDF格式
----
勘误表J721S2、TDA4VE、TDA4AL、TDA4VL、AM68A 处理器硅勘误表 (Rev. C)PDF格式
用户指南J721S2、TDA4AL、TDA4VL、TDA4VE、AM68A 技术参考手册 (Rev. E)PDF格式
功能安全信息TÜV SÜD 功能安全软件开发流程证书 (Rev. D)
用户指南为 Jacinto 7 SoC 供电,用于具有 TPS6594133A-Q1 + 双 HCPS 的隔离电源组 (Rev. A)PDF格式
应用资料显示接口:Sitara MPU 可视化设计综合指南 (Rev. A)PDF格式
白皮书保护基于 Arm 的应用处理器 (Rev. F)PDF格式
应用资料Jacinto™ 和 Sitara™ 嵌入式处理器上的微控制器抽象层PDF格式
用户指南J784S4、TDA4VH、TDA4AH、TDA4VP、TDA4AP、AM69 功耗估算工具用户指南 (Rev. A)
应用资料Jacinto 7 LPDDR4 电路板设计和布局指南 (Rev. F)PDF格式
应用资料调试 TDA4x 和 AM6x 设备上的 GPU 驱动程序问题PDF格式
应用资料Jacinto7 AM6x、TDA4x 和 DRA8x 高速接口设计指南 (Rev. A)PDF格式
应用资料MMC 软件调整算法 (Rev. A)PDF格式
应用资料AM6xA ISP 调优指南 (Rev. A)PDF格式
应用简介智慧多顯示器系統的五個主要設計考量PDF格式
Applicationief스마트 다중 디스플레이 시스템을 위한 5가지 설계 고려 사항PDF
Technical article高度整合的嵌入式處理器如何推動工業機器人進步PDF
Technical article고도로 통합된 임베디드 프로세서가 산업용 로봇을 발전시키는 방법PDF
Application noteJacinto7 AM6x/TDA4x/DRA8x Schematic Checklist (Rev. B)PDF
ApplicationiefTop Five Design Considerations for Smart Multi-display SystemsPDF
Technical articleHow highly integrated embedded processors are advancing industrial roboticsPDF
Functional safety informationJ721E, J721S2, J7200, J784S4 MCAL TUV Certification
Application noteJacinto7 HS Device Customer Return ProcessPDF
Application noteUsing TSN Ethernet Features to Improve Timing in Industrial Ethernet ControllersPDF
Application noteBuilding an Edge AI Application for Automated Retail Scanner on AM6xA MPUsPDF
User guideAM68 Power Estimation Tool User’s Guide (Rev. A)PDF
White paperAdvanced AI Vision Processing Using AM68A for Industrial Smart Camera AppsPDF
White paper以高度整合處理器設計高效邊緣 AI 系統 (Rev. A)PDF
White paper고도로 통합된 프로세서를 사용해 효 율적인 에지 AI 시스템 설계 (Rev. A)PDF
Application noteAM68x Processor Power Solutions Using LP87334E PMIC for Industrial ApplicationsPDF
White paperDesigning an Efficient Edge AI System with Highly Integrated Processors (Rev. A)PDF
Application noteJacinto7 DDRSS Register Configuration Tool (Rev. B)PDF
Application noteUART Log Debug System on Jacinto 7 SoCPDF
User guideSK-AM68 Process Starter Kit User's GuidePDF
User guideJ721S2/TDA4VE/TDA4VL/TDA4AL EVM User GuidePDF
Application noteDual-TDA4x System SolutionPDF
Application noteSPI Enablement & Validation on TDA4 FamilyPDF
Technical articleHow to simplify your embedded edge AI application developmentPDF
Application noteEnabling MAC2MAC Feature on Jacinto7 Soc
Application noteTDA4 Flashing TechniquesPDF
White paperJacinto™ 7 프로세서의 보안 구현 도구
White paperSecurity Enablers on Jacinto™ 7 Processors
White paperSicherheitsaktivierung auf Jacinto™ 7-Prozessoren
White paperDifferenzierungsmöglichkeit durch MCU-Integration Prozessoren der Reihe Jacinto™
White paperEnabling Differentiation through MCU Integration on Jacinto™ 7 Processors
White paperJacinto™ 7 프로세서의 MCU 통합으로 차별화 지원
Application noteOSPI Tuning ProcedurePDF
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分