安霸生成式AI芯片解决方案助力本地处理大型语言模型

描述

具有高AI性能和效率的最新SoC系统助力本地处理大型语言模型

随着 AI 技术的不断进步,十年前还只能在书本和科幻电影中看到的功能,如今随处可见。然而,迄今为止,对性能有着高要求的最新生成式 AI 技术应用通常只能运行在云端。

直到最近,生成式 AI 的主要应用还是倚靠耗电量巨大的服务器,这些服务器的任务本是开发和训练大型语言模型(LLM)。LLM 的出现本身就是一项突破,它只是迈出了一系列重要变革中的第一步。

目前,人们非常关注并推动着端侧大模型技术的广泛发展,因为该技术将使生成式 AI 能够部署到更多应用中,获益良多。具体来说,这些用例将大大增加生成式 AI 在智能城市、工业自动化、机器人和智能驾驶等市场的端侧设备中的广泛应用。

生成式 AI 要在前端领域取得成功,需要注意四要素:AI 的隐私、性能,能效和高生产率,这些因素决定了市场转化的速度。

前端集成也有能源效率、设备微调和可靠性方面的技术挑战。这些问题本身就很棘手,因此向开发人员提供的解决方案须兼顾性能和成本,才能克服这些障碍。

为了应对这些相互冲突的挑战,定制化的芯片成为首选解决方案。

生成式AI的高能效SoC

安霸观察到前端应用对高能效 AI 处理器的需求,因此推出了一系列 AI SoC,适用于各种前端的生成式 AI 应用。

在大多数用于前端应用的高性能多模式分析用例中,第一步通常是在所有照明条件下捕获高质量视频。为此,需要一个即使在低光照条件下也能提供出色图像质量的图像信号处理器(ISP)。同样,高对比度场景的捕捉也必须使用具有先进的高动态范围(HDR)能力的处理器,这样才能捕捉到非常清晰的细节,为安防视频分析、自主移动机器人(AMR)和智能驾驶感知算法提供高品质的图像输入,从而得到通用的解决方案。此外,通过高效的视频编码技术,安霸的 SoC 还能以极低的码率传输高分辨率的视频流。

安霸 SoC 中的专有 CVflow AI 引擎,除了支持 LLM 处理外,还支持同时运行多个神经网络(NN),在运行各类计算机视觉算法时维持低功耗。安霸的 Cooper 开发者平台包含一套功能丰富的工具,使得客户很方便地把在PC上开发的神经网络移植到安霸芯片平台。

安霸的生成式 AI 芯片解决方案在模型的参数上具备高扩展性,从支持多达 340 亿个参数的多模态 LLM 的 N1 系列,到支持多达 30 亿个参数的较小视觉语言模型 (VLM) 的 CV7 系列。

如果你的应用需要超强的前端处理能力,那么安霸的旗舰款 N1 系列 SoC 是最佳选择之一。N1 可以接收多个高分辨率摄像头数据流输入,同时运行多达 340 亿个参数的多模态 LLM,并且支持连接更多的外围设备。N1 芯片集成了神经向量处理器 (NVP)、高级图像信号处理器(ISP)、16 个 Arm Cortex-A78AE CPU, 以及用于 3D 用户界面的 GPU,单颗芯片可提供高性能神经网络计算。不仅性能卓越,N1 芯片的每次推理功耗仅为业界领先 GPU 解决方案的一小部分。

N1 芯片非常适合为多种应用提供生成式 AI,包括工业机器人、智慧城市、智能医疗成像和诊断、多摄像头 AI 处理中心、运行多模态 LLM 的终端 AI 服务器以及智驾车队远程信息处理等。设备端通过运行多模态 LLM 促进了 生成式 AI 功能的实现,例如对视频和图像输入进行智能上下文搜索;使用自然语言命令控制机器人;以及多才多艺的 AI 助手,比如代码、文本和图像的生成等。

虽然这些系统多种多样,但它们在很大程度上都依赖于摄像头和自然语言理解的结合。在这种情况下,设备端的生成式 AI 处理可提高运行速度和增强隐私保护,同时降低总成本。本地处理也是特定应用大语言模型处理的理想选择,这些大语言模型通常在前端针对每个用例进行微调,而不是采用服务器方法,即使用更大、功耗更高的大语言模型来覆盖所有用例。

N1 系列芯片基于安霸功能强大的第三代 CVFlow 架构设计,因此具有出色的网络推理性能,广泛兼容各类神经网络,包括多模态大模型。例如,N1 SoC 在单流模式下以低于 50 瓦的功耗运行 Llama2-13B,每秒可推理 25 个 token。结合预移植模型的易集成性,这一新型解决方案可帮助设备制造商快速将生成式 AI 部署到任何对功耗敏感的应用中,如 AI 智能盒子、送货机器人等产品。

第四要素-生产率

Cooper 是安霸自研的开发者平台,提供灵活的模块化开发环境,可与安霸任何 AI SoC(包括 CV2,CV5, CV7 系列和 N1 系列)配合使用。它因强调合作而得名,适用于各种应用,包括机器人、AIoT、汽车和消费类视频设备。

是围绕一个名为 Cooper Foundry 的软件平台构建的,该开发平台由以下四个软件模块组成:

Cooper Core 核心组件:包含基于 Linux 的操作系统、编译器和  SDK。

Cooper Foundation AI 应用组件:用于在前端构建和部署 ML 应用程序

Cooper Vision 视觉感知组件:包含多模态传感器处理和融合的构建模块

Cooper UX 应用交互组件:用于分析和开发

全面的 Cooper 开发平台加快了产品上市速度

该开发平台在 Cooper Metal 上运行。Cooper Metal 是一套硬件参考板,包括高能效 AI SoC、开发套件和模块,它还集成了常见的第三方开源软件工具。

为了展示这些功能,安霸利用其最新的 AI SoC 在 Cooper 上开发了一个演示系统。其中,安霸将业界领先的具有 AI 功能的 ISP 与多模态视觉语言模型相融合,后者还考虑到了视频帧中的图像数据。

作为向开发人员提供的单独演示的一部分,安霸使用 N1 SoC 建立了一个系统,支持处理多达 16 个视频流。它允许用户使用自然语言搜索任何异常或不寻常事件的上下文,甚至搜索特定的内容,如特定品牌或型号的汽车。

在 CV7 系列 SoC 的基础上,可以更低功耗构建具有 1-4 个视频流小型系统。这些系统可运行“CLIP”等视觉语言模型,整个系统的功耗低于 5W。

总结

生成式 AI 是一项变革性技术,由于其处理过程通常在 GPU 上,消耗大量电能,它曾一度被局限于成本高昂的服务器中。基于安霸高效的 AI SoC 搭建的端侧 LLM 推理设备,其每次AI推理所需的功耗极低,领先行业。安霸 N1 SoC 将生成式 AI 引入终端设备和可内部部署的硬件,应用范围更加广泛,例如安防视频分析、机器人技术和众多工业自动化需求。此外,与 GPU 及其他 AI 加速器相比,安霸提供了完整的 SoC 和系统解决方案,每生成一个 token 的能效比大幅提升,可达 3 倍,并可快捷、低成本地部署。

原文标题:生成式AI赋能前端,未来已来

文章出处:【微信公众号:Ambarella安霸半导体】欢迎添加关注!文章转载请注明出处。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分