近期,Anthropic正式发布 Claude Fable 5 ——公司有史以来首款向公众开放的"Mythos级"大模型。与此同时,无限制版Claude Mythos 5通过"Project Glasswing(玻璃翼计划)"面向少数网络安全防御机构与基础设施提供商定向开放。两款模型共享同一底层架构(内部代号Capybara,即"水豚"),区别仅在于:Fable 5装了安全护栏,Mythos 5拆掉了。
Anthropic称Fable 5性能超越其以往所有公开模型,任务越长、越复杂,优势越明显。几个硬核数据:
Fable 5最受关注的设计不是能力,而是它的安全策略。
当分类器检测到用户请求涉及 三大红线 ——攻击性网络安全技术、生物与化学敏感查询(如生物武器)、模型蒸馏(能力窃取)——系统不会直接拒绝,而是自动将对话静默切换至Claude Opus 4.8来回答,并通知用户当前由哪个模型响应。
Anthropic数据显示,超过 95%的会话不会触发降级 ,对绝大多数用户来说体验与无限制版几乎无差别。但这套机制也有代价:
这一设计引发开发者强烈反弹。AI研究机构SemiAnalysis直接批评:"不会帮你,如果它觉得你的机器学习研究'太有趣',就会秘密下调智商。"Anthropic随后承认这是"错误的权衡",承诺让限制变得可见。
经过超过1000小时外部红队测试,目前未发现能绕过安全分类器的通用越狱方法。
Fable 5已在Anthropic官网、Amazon Bedrock上线,API同步开放。Mythos 5目前仅限Glasswing合作伙伴使用,后续将通过可信访问计划逐步扩展。
Fable 5的核心逻辑不是"发还是不发"的二选一,而是"能力上切一刀":你买的是Mythos级的智商,但在最危险的那几个领域,你其实是在跟Opus说话。Anthropic的赌注是——95%的人永远不会碰到那条线,而碰到的人,用Opus 4.8也够用了。
全部0条评论
快来发表一下你的评论吧 !