Claude 5 双模型上线,编程和科学都更强
4 个看点看懂 Claude 5:Fable 与 Mythos 双模型上线,编程、视觉和科学任务都给出强势成绩。

Claude 5 这次推出 Fable 和 Mythos 双模型,重点提升编程、视觉与科学任务表现。
读完这 5 项,你可以快速判断 Claude 5 该选公开版还是完整版,也能看出它在代码、视觉和研究自动化上到底强在哪里。
| 项目 | 定位 | SWE-Bench Pro | 价格 |
|---|---|---|---|
| Claude Fable 5 | 公开版 | 80.3% | 输入 $10 / 百万 token,输出 $50 / 百万 token |
| Claude Mythos 5 | 完整版 | 与 Fable 5 接近,常差 1 到 3 个百分点 | 无安全分类器限制 |
| Claude Opus 4.8 | 上一代对照 | 69.2% | Fast Mode 定价参考 |
| GPT-5.5 | 竞品对照 | 58.6% | 文中对比约为 Fable 5 的六分之一价格 |
1. Claude Fable 5
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Fable 5 是这次面向大众开放的版本,也是最值得先看的主力模型。它的重点不是单点炫技,而是在软件工程、知识工作、视觉和长上下文任务上同时拉高上限。

最直接的信号来自编程榜单。SWE-Bench Pro 上它拿到 80.3%,比 Claude Opus 4.8 高 11.1 个百分点,也明显压过 GPT-5.5。文章还提到,它不用把推理档位开满,也能跑到很高的水平。
- 适合:日常编码、Agent 工作流、代码迁移
- 价格:输入 $10 / 百万 token,输出 $50 / 百万 token
- 可用性:Pro、Max、Team 用户可在 6 月 22 日前免费体验
2. Claude Mythos 5
Mythos 5 更像这次发布的“原始版本”。文章写得很明确,它没有安全分类器限制,和 Fable 5 的分数几乎一致,通常只差 1 到 3 个百分点,说明底座能力基本相同。
如果你在意的是模型到底能做到什么,而不是产品层的约束,Mythos 5 更有观察价值。但它也更敏感,尤其是在网络安全、生物化学和蒸馏相关请求上,Anthropic 之前一直没有放开。
- 特点:无安全分类器
- 定位:更接近内部能力样本
- 适合:研究者、红队测试、能力边界观察
3. SWE-Bench Pro 的代码差距
如果只看一个指标,SWE-Bench Pro 最能说明 Claude 5 这次升级有多实。它测的不是简单补全,而是模型能不能在真实代码库里把复杂任务真正做完。

对比很直接:Fable 5 是 80.3%,Claude Opus 4.8 是 69.2%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。这不是小幅领先,而是把一整档差距拉开了。
Fable 5: 80.3%
Opus 4.8: 69.2%
GPT-5.5: 58.6%
Gemini 3.1 Pro: 54.2%4. 视觉输入带来的连续执行
Claude 5 的另一条主线,是它能把视觉信息接到连续行动上。文章举了两个很典型的例子:只靠截图通关《宝可梦火红版》,以及在浏览器里搭出一个 3D CAD 编辑器,再继续修改模型。
这类能力的意义,不只是“看图更准”,而是模型开始能理解屏幕内容并推进后续步骤。对开发者来说,这会直接影响图表读取、网页重建、界面操作和文档抽取;对普通用户来说,AI 不再只是回答问题,而是能接着做事。
- 截图输入即可推进游戏和应用操作
- 可从科学图表中提取数值
- 可根据少量界面信息重建 Web 应用
5. 科学研究与自动化实验
文章最夸张的部分在科学任务。Mythos 5 被描述为能自动做蛋白质设计、基因组学分析,甚至在一周多时间里自己搜集 138 个物种、几百万个细胞的数据,训练出一个机器学习模型。
这里真正值得注意的不是单次分数,而是工作方式变了。它开始像一个能持续运行的研究助理,自己找数据、自己试错、自己修正。对生命科学、材料、物理这类高门槛领域,这种自动化会比单点问答更有价值。
- 蛋白质设计:14 个疾病靶点中拿到 9 个强候选
- 基因组学:体量比近期 Science 同类研究小 100 倍
- 物理任务:36 小时跑到 GPT-5.5 四天才到的位置
哪种适合你
如果你是开发者、产品经理,或者只是想要一个更强的通用模型,先看 Fable 5 就够了。它公开可用、价格明确,而且在编程和多模态任务上已经很有竞争力。
如果你做研究、红队测试,或者想看模型在更少限制下的真实边界,Mythos 5 更值得关注。它更像内部能力样本,也更能反映 Anthropic 这次把模型推到了什么位置。