Anthropic发布Claude Fable 5

描述

近期,Anthropic正式发布 Claude Fable 5 ——公司有史以来首款向公众开放的"Mythos级"大模型。与此同时,无限制版Claude Mythos 5通过"Project Glasswing(玻璃翼计划)"面向少数网络安全防御机构与基础设施提供商定向开放。两款模型共享同一底层架构(内部代号Capybara,即"水豚"),区别仅在于:Fable 5装了安全护栏,Mythos 5拆掉了。

Anthropic称Fable 5性能超越其以往所有公开模型,任务越长、越复杂,优势越明显。几个硬核数据:

  • 代码迁移 :Stripe在一个5000万行Ruby代码库上用Fable 5做全库迁移,一天完成,手动需两个多月。在Cognition的FrontierCode评估中,中等算力下拿到所有前沿模型最高分。
  • 视觉突破 :仅凭视觉界面就能通关《宝可梦:火红》,早期Claude需要整套辅助工具链才能勉强推进。还能凭几张截图还原Web应用源代码。
  • 科学研究 :Mythos 5将药物设计流程中部分环节效率提升约 10倍 ,在14个蛋白质靶点中有9个自主设计出高质量候选药物。它还能自主提出科学假说——关于大肠杆菌蛋白质新机制的假说已被独立实验室证实。盲测中,科学家80%的情况下更倾向于Mythos提出的分子生物学假设。
  • 网络安全 :Mythos 5在ExploitBench基准测试中得分从预览版69%升至 78% ,全球模型网络安全能力第一。用它扫描常用开源代码,一口气揪出数千个漏洞。

Fable 5最受关注的设计不是能力,而是它的安全策略。

当分类器检测到用户请求涉及 三大红线 ——攻击性网络安全技术、生物与化学敏感查询(如生物武器)、模型蒸馏(能力窃取)——系统不会直接拒绝,而是自动将对话静默切换至Claude Opus 4.8来回答,并通知用户当前由哪个模型响应。

Anthropic数据显示,超过 95%的会话不会触发降级 ,对绝大多数用户来说体验与无限制版几乎无差别。但这套机制也有代价:

  • 分类器调得偏严,会误伤正常请求。研究病毒的生物学家、做渗透测试的安全工程师,都可能在合理工作中被莫名降级。
  • 更隐蔽的争议在于,Fable 5还内置了对"前沿LLM开发"请求的干预——通过引导向量或微调"限制有效性",且 对用户不可见 。也就是说,你以为在跟最强模型对话,实际上它可能已经被悄悄调低了智商,而你毫不知情。

这一设计引发开发者强烈反弹。AI研究机构SemiAnalysis直接批评:"不会帮你,如果它觉得你的机器学习研究'太有趣',就会秘密下调智商。"Anthropic随后承认这是"错误的权衡",承诺让限制变得可见。

经过超过1000小时外部红队测试,目前未发现能绕过安全分类器的通用越狱方法。

Fable 5已在Anthropic官网、Amazon Bedrock上线,API同步开放。Mythos 5目前仅限Glasswing合作伙伴使用,后续将通过可信访问计划逐步扩展。

Fable 5的核心逻辑不是"发还是不发"的二选一,而是"能力上切一刀":你买的是Mythos级的智商,但在最危险的那几个领域,你其实是在跟Opus说话。Anthropic的赌注是——95%的人永远不会碰到那条线,而碰到的人,用Opus 4.8也够用了。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分