Claude Mythos 5发布：5000万行代码一天迁移

OraCore Editors

Back to home

[MODEL] June 11, 20264 min readOraCore Editors

Claude Mythos 5发布：5000万行代码一天迁移

Anthropic发布Claude Fable 5和Mythos 5，主打长任务、代码迁移、视觉推理和更严格的权限控制。

长上下文 Claude Mythos 5 Anthropic AI agent 软件工程

Share LinkedIn

Anthropic发布Claude Fable 5和Mythos 5，把长任务、代码迁移和权限控制绑在了一起。

这次发布最扎眼的数字不是参数，而是结果：一个5000万行Ruby代码库，官方称Fable 5一天就完成了迁移。与此同时，API价格也被砍到每百万输入Token 10美元、每百万输出Token 50美元，直接把开发者的注意力拉回到“能干活”和“干活贵不贵”这两个问题上。

项目	数据	含义
全库迁移	5000万行 Ruby 代码	官方展示的长任务能力
迁移耗时	1天	对比人工团队的2个多月
API定价	$10 / $50 每百万Token	输入与输出的统一价格
会话降级比例	超过95%	多数请求仍走高能力路径
数据留存	30天	用于安全监控，不用于训练

Claude 这次不是只升级能力，而是改了产品形态

Get the latest AI news in your inbox

Weekly picks of model releases, tools, and deep dives — no spam, unsubscribe anytime.

No spam. Unsubscribe at any time.

Anthropic这次端上桌的是两个版本：Anthropic 的 Claude Fable 5 和 Claude Mythos 5。前者面向所有用户，后者只给少数受信任用户开放。两者的差别不只是“一个更强”，而是权限、场景和安全策略被拆开了。

Fable 5带着防护网，碰到高风险请求时会自动降级到上一代 Claude Opus 4.8。Mythos 5则保留更完整的能力，官方把它描述成在网络安全和生物科研上更接近“满血版”。这意味着用户看到的，不再只是一个统一模型，而是一套带路由和权限分层的系统。

这类设计很像企业软件里的分级访问控制，只是对象从数据库权限换成了模型能力。普通写作、代码、分析、研究请求继续走高能力路径；一旦触发网络攻击、生物化学风险或蒸馏相关内容，系统就切换到更保守的处理方式。

Fable 5面向所有用户开放
Mythos 5只给受信任用户
高风险请求会自动降级到Opus 4.8
官方称超过95%的会话不会触发降级

软件工程是这代模型最直接的战场

如果只看开发者最关心的部分，Claude Fable 5最明显的进步在软件工程。它在 SWE-bench Pro 上拿到 80.3%，而文中提到的 OpenAI 顶级主力模型 GPT-5.5 是 58.6%。这个差距不算小，尤其是当评测目标已经接近真实工程问题时。

更值得注意的是 Cognition 的 Frontier Code 评测。Anthropic强调，Fable 5在中等推理强度下就拿到了前沿模型最高分。这说明它的优势不只是“更会聊天”，而是能在更少人工干预下推进复杂工程任务。

“It feels less like a tool and more like a small team.” — Ethan Mollick

这句话来自沃顿商学院教授 Ethan Mollick，他在拿到测试权限后写下了自己的体验。这个判断很贴切，因为他让 Fable 5 处理的是一个等时圈地图项目，模型自己去查了航班、铁路和道路速度信息，再把结果整合成可用产品。对开发者来说，这已经不是“补几行代码”的级别，而是“接住一个模糊目标并自己拆解任务”。

SWE-bench Pro：80.3%
GPT-5.5：58.6%
Stripe 5000万行 Ruby 迁移：1天完成
人工团队预估时间：2个多月

视觉、长上下文和记忆，让它更像一个持续工作的系统

Claude Fable 5的另一个变化，是它对长上下文和记忆的处理更像“持续运行”而不是“单轮回答”。Anthropic称它能在百万级 Token 的长期任务里保持专注，还能使用自己的笔记改进输出。对做 Agent 的人来说，这一项比单次跑分更实用，因为真正的难点从来不是开局，而是中途别把自己忘了。

视觉能力也有明显进步。VentureBeat报道，Fable 5 和 Mythos 5 在 GDPpdf 基准上拿到 29.8%，而 Opus 4.8 是 22.5%，GPT-5.5 是 24.9%，Gemini 3.1 Pro 是 16.7%。这类文件推理任务对模型的图像理解和结构化提取要求很高，差几个百分点，实际体验可能就是“能不能直接用”。

官方演示里最有传播力的是《宝可梦·火红版》。以前 Claude 想玩这类 RPG，往往要外部脚手架帮它读地图、记状态、处理导航。Fable 5 现在可以直接看原始截图盲打推进，靠原生视觉自己通关。这个 demo 听起来像玩具，但它说明了一件事：模型开始把视觉输入当作连续任务的一部分，而不是一次性识别。

GDPpdf：29.8%
Opus 4.8：22.5%
GPT-5.5：24.9%
Gemini 3.1 Pro：16.7%

科研能力的重点，已经从“会回答”变成“会提出假设”

在更硬核的科研场景里，Mythos 5 才是这次发布真正想传达的信号。Anthropic称，它在生物医药领域可以独立执行一整套工作流：选择蛋白质结合位点、调用生物信息学工具、在失败后自己调试。更夸张的是，官方说它设计出的 14 个蛋白质靶向复合物里，9 个已经进入实验室的真实药物研发管线。

这类说法当然需要更长时间验证，但它至少说明 Anthropic想把模型从“文献总结器”推进到“假设生成器”。在分子生物学盲测里，科学家在 80% 的情况下更偏向 Mythos 的假设。另一项关于大肠杆菌蛋白机制的假设，后来还在独立实验室的研究中得到证实。

还有一个更值得注意的点：Mythos 5 在基因组学研究中自主工作了一周多，拼接了 138 个物种的单细胞数据，还训练了一个定制微型模型。Anthropic说，这个模型比原始方案体积小 100 倍，但表现反而超过了刚发表在《Science》上的新成果。即便把这类表述看得保守一点，它也说明高能力模型正在向“自动提出并筛选科学路线”靠近。

如果你想看更广义的模型产品变化，可以参考 OraCore.dev 之前关于 Claude Code 工作流的文章。那篇文章讨论的是开发者如何把模型接进日常编码任务，这次 Claude Fable 5 讨论的则是模型如何自己把任务做完。

安全、价格和留存，才是企业真正要算的账

Anthropic这次最有争议的地方，不是能力，而是安全机制。Fable 5 背后挂着独立分类器，专门识别网络安全攻击、生物和化学风险，以及模型蒸馏。一旦触发，它不会直接拒绝，而是把请求转交给 Opus 4.8。这个做法比一句“抱歉我不能帮你”更像产品设计，也更像企业软件的权限分层。

代价也很清楚。分类器越保守，误伤就越多。做病毒研究的生物学家、做授权攻防演练的安全工程师，都可能在合理任务里被降级。Anthropic也承认，当前护栏比理想状态更严格，后续会继续调。

另一个现实问题是数据留存。从 Fable 5、Mythos 5 开始，Anthropic要求相关流量保留 30 天，覆盖第一方和第三方使用场景。官方说这些数据不用于训练，只用于安全监控。对个人用户来说，这可能只是条款里的一个数字；对企业来说，这直接关系到合规、审计和内部数据治理。

价格方面，Fable 5 和 Mythos 5 统一定价为每百万输入 Token 10 美元、每百万输出 Token 50 美元。比之前的预览版便宜不少，但仍然是高价模型。Anthropic显然在传递一个信号：这代产品适合高价值任务，不适合把所有普通请求都丢上去烧。

输入 Token：$10 / 100万
输出 Token：$50 / 100万
流量留存：30天
会话降级触发率：不到5%

结尾：这代 Claude 更像“可委托的工作室”

最能概括 Claude Mythos 5 的，不是“更聪明”，而是“更像一个能接长单的团队”。Ethan Mollick 的体验很说明问题：人类正在从逐句指挥模型，转向交付目标、等待成品、最后验收。这个变化一旦稳定下来，产品经理、工程师、研究员和分析师的工作方式都会被重新排序。

接下来真正值得盯的，不是 Anthropic 还能放出多少 demo，而是企业会不会把这种权限分级、长上下文、自动路由的模型，接进真实业务系统。问题已经从“模型会不会做”变成“你愿不愿意让它连续做 9 个小时”。

如果 Fable 5 的误伤率继续下降、留存策略更清晰、价格再往下走一档，下一轮竞争就不只是比单次回答质量，而是比谁更适合长期托管复杂任务。到那时，最先被改变的可能不是聊天体验，而是软件开发和知识工作的交付方式。

// Related Articles

Claude Mythos 5发布：5000万行代码一天迁移

Claude 这次不是只升级能力，而是改了产品形态

Get the latest AI news in your inbox

软件工程是这代模型最直接的战场

视觉、长上下文和记忆，让它更像一个持续工作的系统

科研能力的重点，已经从“会回答”变成“会提出假设”

安全、价格和留存，才是企业真正要算的账

结尾：这代 Claude 更像“可委托的工作室”

GPT-5.6先追前端，再谈超越Mythos

Claude Fable 5 leads a quiet AI release week

Mistral’s model lineup proves specialization beats one giant model

Xiaomi MiMo pushes 1T model to 1000 tokens/s

Google Gemini’s latest update centers on Maps

Ideogram 4.0 在 ComfyUI 里的首测表现