近日,基于华为CANN(Compute Architecture for Neural Networks)端云协同架构打造的华为PC端AI闪绘功能正式落地,标志着端侧AI大模型应用迈入新阶段。
AI闪绘是一种基于扩散模型的图生图技术,可根据现有图片与提示词生成符合用户预期的新图像。该功能背后,凝结了华为CANN团队与生态伙伴悟空图像的深度协作,双方围绕SDXL(Stable Diffusion XL)模型的端侧部署展开合作,通过模型瘦身、多风格适配与算子优化等关键技术突破,为端侧大模型的落地提供可行的“华为方案”。
从“云端”到“端侧”:破解大模型落地的三大难题
端侧AI大模型的部署长期面临三大挑战:
模型体积庞大:大模型参数规模可达数十亿甚至百亿级,端侧设备面临非常大的内存压力;
推理延迟高:端侧算力有限,复杂模型难以实现实时响应;
风格单一化:单一模型难以满足用户多样化创作需求。
针对这些痛点,CANN团队提出“瘦身—加速—灵活”三位一体技术路径,实现大模型在端侧的高效落地。
模型瘦身:量化技术让大模型轻装上阵
模型体积是端侧部署的首要门槛。
依托CANN端云一致的异构计算架构及内置量化能力,双方团队通过混合精度量化,将SDXL模型的体积大幅度压缩,同时高度保留原始精度。
这一优化不仅能高效压缩模型在端侧的存储空间,还能使得推理时的内存带宽显著减少。该方案已在麒麟芯片NPU完成验证,为端侧大模型的高效运行奠定了坚实基础。
多风格适配:LoRA微调让AI创作更懂用户
端侧AI的核心价值在于“个性化”。
为实现“一键切换艺术风格”的创作体验,团队引入LoRA(Low-Rank Adaptation)微调技术——通过在预训练模型中引入低秩适配器(Low-Rank Adapters),仅需训练数千个可训练参数(约占原模型的0.1%),即可快速适配不同风格(如梦幻糖衣、汽车、像素等)。
凭借LoRA的轻量化特性,用户点击风格切换后画面可瞬间重构,让AI从“固定工具”真正成为“创作伙伴”。
算子适配:Ascend C打通端侧部署“最后一公里”
端侧大模型落地不仅依赖模型优化,更需要底层算子与硬件的深度协同。CANN作为业界首个同时支持云侧和端侧NPU自定义算子编程的解决方案,通过Ascend C算子编程语言结合华为自研的Da Vinci架构,为开发者提供“端云一致的开发体验”。悟空图像团队基于Ascend C算子编程语言完成了SDXL模型关键算子的NPU优化与融合调度。
这一技术可以提供一定灵活性,使得开发者可以更加自主的部署端侧模型。
从“可用”到“好用”:端侧AI生态的加速跃迁
此次合作的成功落地,不仅是单一功能的发布,更标志着端侧AI生态的一次系统升级:
技术普惠化:通过模型量化、LoRA微调等技术优化,开发者可低成本实现大模型端侧部署,推动AI能力从“云端”向“终端”普惠延伸;
场景多元化:端侧大模型的低延迟与个性化特性,为创意设计(如AI绘画)、智能交互(如个性化助手)等场景带来更多想象空间。例如,未来用户可在PC端用AI闪绘快速生成多风格插画;
生态协同化:CANN平台底座与悟空图像的AI应用能力结合,为行业树立了“芯片—框架—应用”协同创新的标杆,吸引更多开发者加入端侧AI生态,共同做大产业蛋糕。
展望未来
从“实验室”到“用户桌面”,从“云端”到“端侧”,AI闪绘功能的本地化是CANN推动AI大模型普惠化的重要里程碑。
未来,华为CANN团队将持续深化在计算加速、端云协同等方向的技术投入,携手更多生态伙伴,共同加速AI从“可用”到“好用”的跨越,让每一台设备都成为智能创造力的源泉。
全部0条评论
快来发表一下你的评论吧 !