面壁智能联合清华、OpenBMB开源BitCPM-CANN

描述

近日,面壁智能正式宣布联合清华大学、OpenBMB开源社区,发布并开源其在低比特大模型训练方向的最新成果——BitCPM-CANN。这是中国首个完全基于国产算力平台华为昇腾实现端到端训练并开源的三值(1.58-bit)大模型,也是全球首个基于昇腾CANN架构完成训练的1.58-bit精度大模型。该模型于5月23日在华为鲲鹏昇腾开发者大会(KADC 2026)上完成首次技术亮相后,现已将全系列模型向全社会正式开放。

BitCPM-CANN的核心突破在于将模型权重从传统的BF16(16-bit浮点)精度压缩至1.58-bit三值精度。所谓三值,即模型参数仅取三个离散值,以极低的比特宽度承载原本需要16-bit才能表达的信息。这种极致压缩带来的直接收益是惊人的:在推理阶段,BitCPM-CANN相比传统BF16精度可释放约6倍的显存红利,而模型能力保留率依然维持在90%至97.2%的高水平。换句话说,同样的设备显存,现在可以承载远超以往的模型能力;或者反过来,同样的模型能力在同一款终端上运行,只需要过去六分之一的内存。

这一数字背后的产业意义不言而喻。当前端侧大模型的最大瓶颈之一就是内存。手机SoC的内存资源有限,想要在端侧运行大参数模型,要么牺牲模型能力,要么依赖云端推理。BitCPM-CANN的出现,直接将这道 wall 推倒了。面壁智能透露,基于1.58-bit的极致压缩,未来有望在手机上运行60B参数量级的大模型,这意味着手机的端侧智能将迎来一次质的飞跃,复杂的推理、长文本理解、多轮对话等能力都可以在本地完成,无需联网,隐私更安全,响应更迅速。

值得特别强调的是,BitCPM-CANN并非在英伟达GPU上训练后再迁移至昇腾平台的"移植方案",而是从训练到推理全链路基于华为昇腾CANN架构原生完成。训练阶段即在昇腾算力上以1.58-bit精度进行端到端优化,这确保了模型与国产硬件的深度耦合,避免了跨平台迁移带来的精度损失和性能退化。在当前中美科技博弈持续深化、国产算力自主可控需求日益迫切的大背景下,这一"全栈国产"的技术路径具有极强的战略示范意义。

在开源生态方面,BitCPM-CANN由面壁智能、清华大学与OpenBMB开源社区三方联合推出。OpenBMB作为国内最具影响力的大模型开源社区之一,此前已开源了CPM系列等多款广受欢迎的模型。此次三方合作,不仅将模型权重和训练代码全面开放,还提供了基于CANN的完整推理部署方案,开发者可以直接在昇腾硬件上进行模型加载、微调与部署,大幅降低了国产算力上运行低比特大模型的技术门槛。

从技术路线来看,BitCPM-CANN所代表的1.58-bit三值化方向,正成为大模型压缩领域最前沿的探索之一。相比业界常见的INT8或INT4量化方案,三值精度在压缩比与能力保留率之间取得了更优的平衡。面壁智能此前已在模型小型化和端侧部署方面积累了深厚的技术底蕴,其CPM系列模型长期位居开源榜单前列。BitCPM-CANN的发布,标志着面壁智能在低比特训练这一前沿方向上再次迈出了关键一步,也为整个国产大模型生态在端侧落地提供了一条清晰可行的技术路径。

在AI终端爆发的当下,端侧大模型的竞争力正在从"能不能跑"转向"能跑多大、跑多快、跑多省"。BitCPM-CANN以1.58-bit的极致压缩和全栈国产的技术底座,给出了一个极具说服力的答案。当60B大模型有望在手机上本地运行的那一天真正到来,端侧AI的想象力将被彻底改写。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分