概要:在RK3588+RK1828 上通过 ClawChips 插件实现 OpenClaw 端云协同——智能路由自动分流降低 Token 消耗,Context Router Proxy 安全网在上下文超限时自动切云端,保障每次对话稳定返回高质量结果。日常使用OpenClaw的Token开销快速累积:system prompt 注入动辄 10000+ tokens,再加 tools 定义和多轮历史,上下文轻松破万。全推云端账单高,全留本地上下文一旦超出 RK1828 NPU 本地模型窗口,直接输出乱码或无响应。
其根本矛盾是:ClawChips 路由决策运行在对话发出请求模型之前,看不到OpenClaw 组装后的完整请求体的真实 token 数,容易出现超限时路由已经选好本地模型导致直接爆掉。因此需要采取ClawChips 智能路由 + Context Router Proxy 双层方案来解决。
ClawChips是瑞芯微面向 RK3588 + RK1820/1828 协处理器打造的一套端云协同智能路由方案,以 OpenClaw 插件形式运行,核心能力一句话概括:
根据任务复杂度自动分流,简单任务留本地,复杂任务上云端,同时支持反馈驱动的记忆路由持续优化决策。
| 能力 | 带来的价值 |
| 本地 / 云端智能路由 | 按任务复杂度自动分流,节省云端 Token 消耗 |
| 反馈驱动记忆路由 | 用户反馈写入记忆库,持续优化路由决策 |
| Context Router Proxy | Token 安全网,防止本地模型因上下文溢出崩溃 |
| 内置 Skills | ADB、ASR、TTS、图像分析等开箱即用 |
| Dashboard 可视化 | 路由统计、运行时配置、反馈标注一站式管理 |

下面让我们进入实战环节。

KeyPi BQ3588HM + RK1820

KeyPi Robo3588 + RK1828
核心硬件
RK3588 开发板:运行 OpenClaw 网关、ClawChips 插件及代理服务
RK1820/1828 NPU 协处理器:插在 RK3588 上,负责本地大模型推理
完整设备清单、连接方式及烧写工具请参考:
https://www.bearkey.net/thread-126-1-1.html
在 RK3588 上安装 RKNN3 运行(NPU 固件 + 推理库 + rkllm3-server),部署 Qwen3-4B 并启动服务。启动后 RK1828 NPU 通过 OpenAI 兼容接口对外提供本地推理能力。终端显示服务就绪即为成功。(如图是成功运行的日志信息可作为参考)

> 详细的安装命令、模型部署步骤及常见问题排查,请参考:
https://www.bearkey.net/thread-126-1-1.html
一键装入 ClawChips 插件并运行初始化脚本。安装完成后,再oenclaw配置文件中配置你的云端模型,然后在 ClawChips Dashboard 中绑定 LOCAL 和 CLOUD 模型,完成路由规则配置。

ClawChips 在完整请求体(system prompt + tools + 历史)组装完之前,路由就以已定确定用户发送的对话的请求模型,如果请求的实际需求很大本地模型容易直接崩溃。Context Router Proxy 是部署在 rkllm3-server 前的透明 Node.js 代理,拦截 OpenClaw 组装后的完整请求体,统计真实 token 数,超限自动转云端。运行过程如下
三层决策一目了然:ClawChips 判定本地 → 代理发现超限 → 自动转云端。用户无感知,本地模型不崩。具体配置流程参考:
https://www.bearkey.net/thread-126-1-1.html
具体体验过程如下:
当你发送一个比较复杂的问题时比如如图的”用Python写一个快速排序算法并解释时间复杂度”,那么clawchis的智能路由就会根据智能路由处理去选择云端模型,效果如下
后续马上能看到问题被发送给云端模型进行处理得到回复。

如果你的语言虽然不复杂但对token的要求很大,比如“要你再详细讲讲某个部分吗?或者需要看其他排序算法的对比?”

如图这里是直接分配给了本地模型但是已经超过本地模型能力,Token 安全网自动触发调换到了云端模型。
如图就能说明ClawChips 原本将请求路由给了本地 Qwen3-4B,但代理检测到实际上下文有14522 tokens(远超本地模型阈值),自动触发安全网将请求转发到云端——这就是token安全网兜底的实际效果。

ClawChips +Token 安全网的组合,本质上是把"智能分类"和"容量安全"两件事分别交给最合适的人去做:
●ClawChips负责判断"这个任务该不该给本地"——轻量、快速、基于知识库
●Context Router Proxy负责判断"这个请求本地装不装得下"——精确、兜底、基于真实 token
两层配合,既利用了本地 NPU 的算力省出 Token 费用,又用上下文安全网守住了本地模型的物理上限。该方案核心是解决clawchips的缺陷问题,为OpenClaw 扩展出真正可用的端云协同能力和处理用端云混合模型去稳定对话的思路。
全部0条评论
快来发表一下你的评论吧 !