Claude Mythos 5发布:5000万行代码一天迁移
Anthropic发布Claude Fable 5和Mythos 5,主打长任务、代码迁移、视觉推理和更严格的权限控制。

Anthropic发布Claude Fable 5和Mythos 5,把长任务、代码迁移和权限控制绑在了一起。
这次发布最扎眼的数字不是参数,而是结果:一个5000万行Ruby代码库,官方称Fable 5一天就完成了迁移。与此同时,API价格也被砍到每百万输入Token 10美元、每百万输出Token 50美元,直接把开发者的注意力拉回到“能干活”和“干活贵不贵”这两个问题上。
| 项目 | 数据 | 含义 |
|---|---|---|
| 全库迁移 | 5000万行 Ruby 代码 | 官方展示的长任务能力 |
| 迁移耗时 | 1天 | 对比人工团队的2个多月 |
| API定价 | $10 / $50 每百万Token | 输入与输出的统一价格 |
| 会话降级比例 | 超过95% | 多数请求仍走高能力路径 |
| 数据留存 | 30天 | 用于安全监控,不用于训练 |
Claude 这次不是只升级能力,而是改了产品形态
Get the latest AI news in your inbox
Weekly picks of model releases, tools, and deep dives — no spam, unsubscribe anytime.
No spam. Unsubscribe at any time.
Anthropic这次端上桌的是两个版本:Anthropic 的 Claude Fable 5 和 Claude Mythos 5。前者面向所有用户,后者只给少数受信任用户开放。两者的差别不只是“一个更强”,而是权限、场景和安全策略被拆开了。

Fable 5带着防护网,碰到高风险请求时会自动降级到上一代 Claude Opus 4.8。Mythos 5则保留更完整的能力,官方把它描述成在网络安全和生物科研上更接近“满血版”。这意味着用户看到的,不再只是一个统一模型,而是一套带路由和权限分层的系统。
这类设计很像企业软件里的分级访问控制,只是对象从数据库权限换成了模型能力。普通写作、代码、分析、研究请求继续走高能力路径;一旦触发网络攻击、生物化学风险或蒸馏相关内容,系统就切换到更保守的处理方式。
- Fable 5面向所有用户开放
- Mythos 5只给受信任用户
- 高风险请求会自动降级到Opus 4.8
- 官方称超过95%的会话不会触发降级
软件工程是这代模型最直接的战场
如果只看开发者最关心的部分,Claude Fable 5最明显的进步在软件工程。它在 SWE-bench Pro 上拿到 80.3%,而文中提到的 OpenAI 顶级主力模型 GPT-5.5 是 58.6%。这个差距不算小,尤其是当评测目标已经接近真实工程问题时。
更值得注意的是 Cognition 的 Frontier Code 评测。Anthropic强调,Fable 5在中等推理强度下就拿到了前沿模型最高分。这说明它的优势不只是“更会聊天”,而是能在更少人工干预下推进复杂工程任务。
“It feels less like a tool and more like a small team.” — Ethan Mollick
这句话来自沃顿商学院教授 Ethan Mollick,他在拿到测试权限后写下了自己的体验。这个判断很贴切,因为他让 Fable 5 处理的是一个等时圈地图项目,模型自己去查了航班、铁路和道路速度信息,再把结果整合成可用产品。对开发者来说,这已经不是“补几行代码”的级别,而是“接住一个模糊目标并自己拆解任务”。
- SWE-bench Pro:80.3%
- GPT-5.5:58.6%
- Stripe 5000万行 Ruby 迁移:1天完成
- 人工团队预估时间:2个多月
视觉、长上下文和记忆,让它更像一个持续工作的系统
Claude Fable 5的另一个变化,是它对长上下文和记忆的处理更像“持续运行”而不是“单轮回答”。Anthropic称它能在百万级 Token 的长期任务里保持专注,还能使用自己的笔记改进输出。对做 Agent 的人来说,这一项比单次跑分更实用,因为真正的难点从来不是开局,而是中途别把自己忘了。

视觉能力也有明显进步。VentureBeat报道,Fable 5 和 Mythos 5 在 GDPpdf 基准上拿到 29.8%,而 Opus 4.8 是 22.5%,GPT-5.5 是 24.9%,Gemini 3.1 Pro 是 16.7%。这类文件推理任务对模型的图像理解和结构化提取要求很高,差几个百分点,实际体验可能就是“能不能直接用”。
官方演示里最有传播力的是《宝可梦·火红版》。以前 Claude 想玩这类 RPG,往往要外部脚手架帮它读地图、记状态、处理导航。Fable 5 现在可以直接看原始截图盲打推进,靠原生视觉自己通关。这个 demo 听起来像玩具,但它说明了一件事:模型开始把视觉输入当作连续任务的一部分,而不是一次性识别。
- GDPpdf:29.8%
- Opus 4.8:22.5%
- GPT-5.5:24.9%
- Gemini 3.1 Pro:16.7%
科研能力的重点,已经从“会回答”变成“会提出假设”
在更硬核的科研场景里,Mythos 5 才是这次发布真正想传达的信号。Anthropic称,它在生物医药领域可以独立执行一整套工作流:选择蛋白质结合位点、调用生物信息学工具、在失败后自己调试。更夸张的是,官方说它设计出的 14 个蛋白质靶向复合物里,9 个已经进入实验室的真实药物研发管线。
这类说法当然需要更长时间验证,但它至少说明 Anthropic想把模型从“文献总结器”推进到“假设生成器”。在分子生物学盲测里,科学家在 80% 的情况下更偏向 Mythos 的假设。另一项关于大肠杆菌蛋白机制的假设,后来还在独立实验室的研究中得到证实。
还有一个更值得注意的点:Mythos 5 在基因组学研究中自主工作了一周多,拼接了 138 个物种的单细胞数据,还训练了一个定制微型模型。Anthropic说,这个模型比原始方案体积小 100 倍,但表现反而超过了刚发表在《Science》上的新成果。即便把这类表述看得保守一点,它也说明高能力模型正在向“自动提出并筛选科学路线”靠近。
如果你想看更广义的模型产品变化,可以参考 OraCore.dev 之前关于 Claude Code 工作流 的文章。那篇文章讨论的是开发者如何把模型接进日常编码任务,这次 Claude Fable 5 讨论的则是模型如何自己把任务做完。
安全、价格和留存,才是企业真正要算的账
Anthropic这次最有争议的地方,不是能力,而是安全机制。Fable 5 背后挂着独立分类器,专门识别网络安全攻击、生物和化学风险,以及模型蒸馏。一旦触发,它不会直接拒绝,而是把请求转交给 Opus 4.8。这个做法比一句“抱歉我不能帮你”更像产品设计,也更像企业软件的权限分层。
代价也很清楚。分类器越保守,误伤就越多。做病毒研究的生物学家、做授权攻防演练的安全工程师,都可能在合理任务里被降级。Anthropic也承认,当前护栏比理想状态更严格,后续会继续调。
另一个现实问题是数据留存。从 Fable 5、Mythos 5 开始,Anthropic要求相关流量保留 30 天,覆盖第一方和第三方使用场景。官方说这些数据不用于训练,只用于安全监控。对个人用户来说,这可能只是条款里的一个数字;对企业来说,这直接关系到合规、审计和内部数据治理。
价格方面,Fable 5 和 Mythos 5 统一定价为每百万输入 Token 10 美元、每百万输出 Token 50 美元。比之前的预览版便宜不少,但仍然是高价模型。Anthropic显然在传递一个信号:这代产品适合高价值任务,不适合把所有普通请求都丢上去烧。
- 输入 Token:$10 / 100万
- 输出 Token:$50 / 100万
- 流量留存:30天
- 会话降级触发率:不到5%
结尾:这代 Claude 更像“可委托的工作室”
最能概括 Claude Mythos 5 的,不是“更聪明”,而是“更像一个能接长单的团队”。Ethan Mollick 的体验很说明问题:人类正在从逐句指挥模型,转向交付目标、等待成品、最后验收。这个变化一旦稳定下来,产品经理、工程师、研究员和分析师的工作方式都会被重新排序。
接下来真正值得盯的,不是 Anthropic 还能放出多少 demo,而是企业会不会把这种权限分级、长上下文、自动路由的模型,接进真实业务系统。问题已经从“模型会不会做”变成“你愿不愿意让它连续做 9 个小时”。
如果 Fable 5 的误伤率继续下降、留存策略更清晰、价格再往下走一档,下一轮竞争就不只是比单次回答质量,而是比谁更适合长期托管复杂任务。到那时,最先被改变的可能不是聊天体验,而是软件开发和知识工作的交付方式。
// Related Articles
- [MODEL]
GPT-5.6先追前端,再谈超越Mythos
- [MODEL]
Claude Fable 5 leads a quiet AI release week
- [MODEL]
Mistral’s model lineup proves specialization beats one giant model
- [MODEL]
Xiaomi MiMo pushes 1T model to 1000 tokens/s
- [MODEL]
Google Gemini’s latest update centers on Maps
- [MODEL]
Ideogram 4.0 在 ComfyUI 里的首测表现