几B都有！BM1684X一键适配全系列Qwen3

算能开发者社区 2025-04-30 1245

描述

Qwen3发布，大小尺寸通吃

Qwen3一发布，登顶开源大模型排行榜！235B、32B、8B、4B、1.7B云边端全尺寸模型，BF16和FP8两种精度，一次性发布，无论云端大卡还是边缘AI设备，都可体验最新的大模型能力。

来看下Qwen3各个模型的benchmark得分：

边缘AI

边缘AI

这些年看多了大模型的迭代，各家都在玩参数竞赛和架构魔术，但阿里这次Qwen3的设计有点意思——它搞了个"混合模式"的机制，让模型能自己决定什么时候该"慢慢想"，什么时候该"快速答"。这玩意儿本质上是在延迟和精度之间做动态权衡，技术上不算新鲜（OpenAI的o3就玩过这套），但阿里的实现方式更像个老会计——给你个"思考预算"的开关，让用户自己把控成本。

边缘AI

BM1684X，Qwen3部署性价比之王

这种设计背后是典型的工程思维：既然大模型的推理成本居高不下，不如把选择权交给用户。就像当年CPU的动态调频技术，与其无脑跑满频，不如让系统根据负载灵活调节，但这种模式切换要在硬件层面做好流水线调度，否则切换时的上下文保存就能吃掉那点省下来的算力。

现在的大模型就像过度教育的孩子，解得了奥数题但算不清买菜账。Qwen3给"孩子"装了个手动挡，让用户自己决定什么时候该挂高档位冲刺，什么时候该低档省油，这种策略下每瓦特的性价比自然就上去了，而边缘和端侧的设备对成本更是敏感，那作为边缘大模型部署的性价比之王，BM1684X表现如何？

4B运行demo（SOC模式950Mhz 16.4tokens/s）

边缘AI

1.7B运行demo(SOC模式950Mhz 30.3 tokens/s)

边缘AI

一行代码适配，解锁全系模型

BM1684X 单芯配置16GB内存，20B以下的都可以在一颗芯片跑，32B用2颗就可以(32B dense模型性能约5 tokens/s)。

更详细的适配流程参考：https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen3，拉取最新的tpu-mlir代码后，只需要一行代码即可转出bmodel，不用再通过onnx中介。

边缘AI

bmodel转好之后，可以用python或者cpp来跑：

边缘AI

限制我们适配新模型速度的不是工具链，而是模型下载速度，欢迎关注算能产品，解锁更多大模型部署方案，手中有BM1684X的同学可以玩起来了！

打开APP阅读更多精彩内容

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

相关推荐
热点推荐
边缘AI
大模型

全部0条评论

快来发表一下你的评论吧 !

×

20

完善资料，
赚取积分