后摩智能推出边端大模型AI芯片M30，展现出存算一体架构优势

Carol Li 2024-07-03 5922

描述

电子发烧友网报道（文/李弯弯）近日，后摩智能推出基于存算一体架构的边端大模型AI芯片——后摩漫界™️M30，最高算力100TOPS，典型功耗12W。为了进一步提升部署的便捷性，后摩智能还同步推出了基于M30芯片的智算模组(SoM)和力谋®️AI加速卡。

后摩智能存算一体架构芯片产品

后摩智能是一家专注于存算一体芯片技术的创新型企业，成立于2020年。该公司基于先进的存算一体技术和存储工艺，致力于突破芯片的性能与功耗瓶颈。存算一体架构将存储和计算功能融合，比传统架构更接近人脑的计算方式，具备远高于传统方式的计算效率。

2023年5月10日，后摩智能发布了其第一款芯片产品——后摩鸿途®️H30智驾芯片，该芯片最高物理算力达到256TOPS，这一数值略高于英伟达Orin-X的254TOPS，展现出强大的计算能力。在Int8数据精度下，其AI核心IPU能效比高达15Tops/W，是传统架构芯片的7倍以上，实现了高效的AI计算。

后摩鸿途®️H30智驾芯片典型功耗仅为35W，这使得鸿途®️H30在提供高算力的同时，也保持了较低的能耗水平。SoC能效比达到7.3Tops/W，体现了存算一体架构在提升能效比方面的优势。鸿途®️H30获得了ASIL D级功能安全流程认证，这是车规安全等级中的最高标准，确保了芯片在智能驾驶应用中的可靠性和稳定性。

鸿途®️H30采用存算一体架构，将存储和计算功能融合，比传统架构更接近人脑的计算方式，具备远高于传统方式的计算效率。基于SRAM的纯数字设计，实现存内运算，在存储器内能完全实现数据处理，打破了传统芯片性能瓶颈并提升了能效比。

此外，该芯片基于自研IPU（Intelligence Processing Unit）架构——天枢架构，通过多核、多硬件线程以及双环拓扑总线的设计，保证了计算资源利用效率的同时可以灵活扩展算力。支持外扩Memory，最高带宽为128GB/s，以及16路FHD Encoder/Decoder和PCIe 4.0等多种接口，满足了不同应用场景的需求。

鸿途®️H30智驾芯片专为智能驾驶设计，支持运行点云网络、BEV网络等智能驾驶主流算法，能够支持L4级自动驾驶。该芯片已经成功在无人配送车上完成路测，展现了避让前方行人、识别红绿灯等智能驾驶能力。基于鸿途®️H30，后摩智能还推出了力驭®智能驾驶计算平台，为智能驾驶提供了更充沛的算力支持。

近期，后摩智能推出其第二款产品——后摩漫界™M30边端大模型AI芯片，该芯片在边端设备的大模型部署中展现出了卓越的性能和能效比。

后摩漫界™️M30最高算力达到100TOPS，这一强大的算力使得M30能够轻松应对边端侧大模型部署对高算力的需求。其典型功耗仅为12W，实现了高性能与低功耗的完美融合，为边端设备提供了更长的续航时间和更低的能耗成本。

据介绍，M30是一款通用的边端大模型AI芯片，能够支持多种大模型，包括但不限于ChatGLM、Llama2、通义千问等。这一特性使得M30在处理复杂AI任务时具有更高的灵活性和适应性。在运行Qwen1.5-7B-Chat等大模型时，M30的运行性能可达15-20 Tokens/s，这一表现足以证明其在处理复杂AI任务时的卓越能力。

为了进一步提升部署的便捷性，后摩智能还同步推出了基于M30芯片智算模组(SoM)和力谋®️AI加速卡。智算模组(SoM)，支持PCIe EP模式，以其小巧的体积、强劲的性能和极低的功耗，成为小型化设备和功耗敏感嵌入式场景的理想选择。

力谋®️AI加速卡，作为标准的半高半长PCIe加速卡，能在PC、一体机和服务器中实现快速部署。支持主动散热和被动散热两种模式，确保设备在不同环境下的稳定运行。

后摩漫界™M30芯片具有高性能、低功耗和通用性特点，可广泛应用于多个领域，包括AI PC、边缘AI一体机、智能座舱、商用显示、智能融合网关、NAS（网络附加存储）等。

存算一体架构在边端大模型AI芯片中的优势

随着AI大模型部署需求从云端迅速向端侧和边缘侧设备迁移，AI芯片的性能、功耗和响应速度面临前所未有的挑战。基于存算一体架构的后摩漫界™️M30芯片在这方面表现出显著的优势，它兼具高性能与低功耗特性，可满足边端侧大模型部署对高效率和实时性的严苛要求。

具体来看，在性能提升方面，存算一体架构通过将存储单元与计算单元集成在同一片芯片上，实现了计算与存储的紧密耦合，从而提高了数据处理的速度和效率。同时，由于数据在芯片内部直接进行计算，避免了传统架构中数据在存储器和处理器之间频繁传输所产生的延迟。这对于需要实时响应的边端应用场景尤为重要。

在功耗降低方面，存算一体架构减少了数据传输的能量损耗，使得芯片在保持高性能的同时，能够显著降低功耗。而且，采用非易失性存储介质（如ReRAM）的存算一体芯片，在不需要进行数据读写时，可以保持极低的静态功耗，甚至为零功耗。

在数据处理效率方面，存算一体架构避免了传统架构中数据在存储器和处理器之间的大量搬运，减少了数据传输的带宽需求，提高了数据处理的效率。存算一体架构能够支持更多的并行计算任务，提高了芯片的整体处理能力和吞吐量。

在成本控制方面，存算一体架构可以在不依赖先进制程的前提下，通过优化芯片设计和算法，实现较高的算力和能效比。这有助于降低芯片的生产成本，提高市场竞争力。同时，由于芯片内部集成了存储单元，减少了对外部存储器的依赖，从而降低了系统的整体成本。

从应用场景方面来看，存算一体架构特别适用于对算力、功耗和实时性有较高要求的边端设备，如智能手机、可穿戴设备、智能家居设备等。在大数据处理和AI推理等应用场景中，存算一体架构能够提供高效的数据处理能力和低延迟的响应速度，满足复杂计算任务的需求。

写在最后

存算一体架构的边端大模型AI芯片，如后摩漫界™️M30，通过创新的设计实现了高性能、低功耗和实时性的完美结合。随着AI大模型应用的不断扩展和边端设备需求的增加，这种架构的芯片将在未来发挥更加重要的作用，推动AI技术在更多领域的深入应用和发展。

打开APP阅读更多精彩内容