[IND] 4 分鐘閱讀OraCore 編輯部

Claude 5 双模型上线,编程和科学都更强

4 个看点看懂 Claude 5:Fable 与 Mythos 双模型上线,编程、视觉和科学任务都给出强势成绩。

分享 LinkedIn
Claude 5 双模型上线,编程和科学都更强

Claude 5 这次推出 Fable 和 Mythos 双模型,重点提升编程、视觉与科学任务表现。

读完这 5 项,你可以快速判断 Claude 5 该选公开版还是完整版,也能看出它在代码、视觉和研究自动化上到底强在哪里。

项目定位SWE-Bench Pro价格
Claude Fable 5公开版80.3%输入 $10 / 百万 token,输出 $50 / 百万 token
Claude Mythos 5完整版与 Fable 5 接近,常差 1 到 3 个百分点无安全分类器限制
Claude Opus 4.8上一代对照69.2%Fast Mode 定价参考
GPT-5.5竞品对照58.6%文中对比约为 Fable 5 的六分之一价格

1. Claude Fable 5

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Fable 5 是这次面向大众开放的版本,也是最值得先看的主力模型。它的重点不是单点炫技,而是在软件工程、知识工作、视觉和长上下文任务上同时拉高上限。

Claude 5 双模型上线,编程和科学都更强

最直接的信号来自编程榜单。SWE-Bench Pro 上它拿到 80.3%,比 Claude Opus 4.8 高 11.1 个百分点,也明显压过 GPT-5.5。文章还提到,它不用把推理档位开满,也能跑到很高的水平。

  • 适合:日常编码、Agent 工作流、代码迁移
  • 价格:输入 $10 / 百万 token,输出 $50 / 百万 token
  • 可用性:Pro、Max、Team 用户可在 6 月 22 日前免费体验

2. Claude Mythos 5

Mythos 5 更像这次发布的“原始版本”。文章写得很明确,它没有安全分类器限制,和 Fable 5 的分数几乎一致,通常只差 1 到 3 个百分点,说明底座能力基本相同。

如果你在意的是模型到底能做到什么,而不是产品层的约束,Mythos 5 更有观察价值。但它也更敏感,尤其是在网络安全、生物化学和蒸馏相关请求上,Anthropic 之前一直没有放开。

  • 特点:无安全分类器
  • 定位:更接近内部能力样本
  • 适合:研究者、红队测试、能力边界观察

3. SWE-Bench Pro 的代码差距

如果只看一个指标,SWE-Bench Pro 最能说明 Claude 5 这次升级有多实。它测的不是简单补全,而是模型能不能在真实代码库里把复杂任务真正做完。

Claude 5 双模型上线,编程和科学都更强

对比很直接:Fable 5 是 80.3%,Claude Opus 4.8 是 69.2%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。这不是小幅领先,而是把一整档差距拉开了。

Fable 5: 80.3% Opus 4.8: 69.2% GPT-5.5: 58.6% Gemini 3.1 Pro: 54.2%

4. 视觉输入带来的连续执行

Claude 5 的另一条主线,是它能把视觉信息接到连续行动上。文章举了两个很典型的例子:只靠截图通关《宝可梦火红版》,以及在浏览器里搭出一个 3D CAD 编辑器,再继续修改模型。

这类能力的意义,不只是“看图更准”,而是模型开始能理解屏幕内容并推进后续步骤。对开发者来说,这会直接影响图表读取、网页重建、界面操作和文档抽取;对普通用户来说,AI 不再只是回答问题,而是能接着做事。

  • 截图输入即可推进游戏和应用操作
  • 可从科学图表中提取数值
  • 可根据少量界面信息重建 Web 应用

5. 科学研究与自动化实验

文章最夸张的部分在科学任务。Mythos 5 被描述为能自动做蛋白质设计、基因组学分析,甚至在一周多时间里自己搜集 138 个物种、几百万个细胞的数据,训练出一个机器学习模型。

这里真正值得注意的不是单次分数,而是工作方式变了。它开始像一个能持续运行的研究助理,自己找数据、自己试错、自己修正。对生命科学、材料、物理这类高门槛领域,这种自动化会比单点问答更有价值。

  • 蛋白质设计:14 个疾病靶点中拿到 9 个强候选
  • 基因组学:体量比近期 Science 同类研究小 100 倍
  • 物理任务:36 小时跑到 GPT-5.5 四天才到的位置

哪种适合你

如果你是开发者、产品经理,或者只是想要一个更强的通用模型,先看 Fable 5 就够了。它公开可用、价格明确,而且在编程和多模态任务上已经很有竞争力。

如果你做研究、红队测试,或者想看模型在更少限制下的真实边界,Mythos 5 更值得关注。它更像内部能力样本,也更能反映 Anthropic 这次把模型推到了什么位置。