Claude Mythos 5:一天搬完5000萬行程式
Anthropic推出Claude Fable 5和Mythos 5,主打長任務、程式碼遷移、視覺推理與更嚴格權限控制,還把API價格壓到每百萬Token 10/50美元。

Anthropic推出Claude Fable 5和Mythos 5,把長任務、程式碼遷移和權限控制綁在一起。
這次最吸睛的不是模型名稱,而是結果。官方說,Anthropic 的 Fable 5 一天搬完 5000 萬行 Ruby 程式。這種數字很粗暴,也很有效,因為它直接戳到開發者最在意的點:能不能真的做事,還有做事會不會太貴。
另一個數字也很硬。API 價格壓到每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。對比前幾代高階模型,這已經不是單純比聊天品質,而是把「長任務成本」拉到檯面上。
| 項目 | 數據 | 含義 |
|---|---|---|
| 全庫遷移 | 5000萬行 Ruby 程式 | 官方展示的長任務能力 |
| 遷移耗時 | 1天 | 對比人工團隊的2個多月 |
| API定價 | $10 / $50 每百萬Token | 輸入與輸出的統一價格 |
| 會話降級比例 | 超過95% | 多數請求仍走高能力路徑 |
| 資料留存 | 30天 | 用於安全監控,不用於訓練 |
Claude 這次改的不是能力,而是產品形態
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Anthropic這次端上桌的是兩個版本:Claude Fable 5 和 Claude Mythos 5。前者面向所有使用者,後者只給少數受信任使用者。兩者差別不只是強弱,而是權限、場景和安全策略被拆開了。

Fable 5 帶著防護網。碰到高風險請求時,它會自動降級到上一代 Claude Opus 4.8。Mythos 5 則保留更完整的能力,官方把它放在網路安全和生物科研這類更敏感的場景裡。
講白了,這不再像單一模型。它更像一套有路由、有分級、有權限的系統。普通寫作、程式、分析、研究請求走高能力路徑;一旦踩到攻擊、生物化學風險或蒸餾相關內容,就切到更保守的處理方式。
- Fable 5 面向所有使用者
- Mythos 5 只給受信任使用者
- 高風險請求會降級到 Opus 4.8
- 官方稱超過 95% 的會話不會觸發降級
軟體工程,是這代模型最直接的戰場
如果只看開發者最在意的部分,Fable 5 的進步很直接。它在 SWE-bench Pro 拿到 80.3%。文中提到的 OpenAI 頂級主力模型 GPT-5.5 是 58.6%。這個差距不算小,尤其當評測已經接近真實工程問題時。
更有意思的是 Cognition 的 Frontier Code 評測。Anthropic強調,Fable 5 在中等推理強度下,就拿到前沿模型最高分。這代表它的優勢不只是更會聊天,而是更能在少量人工介入下推進複雜工程任務。
沃頓商學院教授 Ethan Mollick 的一句話,很適合形容這個感覺。
“It feels less like a tool and more like a small team.” — Ethan Mollick
他拿到測試權限後,讓 Fable 5 處理等時圈地圖專案。模型自己查航班、鐵路和道路速度,再把結果整合成可用產品。這已經不是補幾行程式,而是接住一個模糊目標,然後自己拆任務。
- SWE-bench Pro:80.3%
- GPT-5.5:58.6%
- Stripe 5000萬行 Ruby 遷移:1天完成
- 人工團隊預估時間:2個多月
視覺、長上下文和記憶,讓它更像持續工作的系統
Claude Fable 5 的另一個變化,是它對長上下文和記憶的處理更像持續執行,而不是單輪回答。Anthropic稱,它能在百萬級 Token 的長期任務裡維持專注,還能用自己的筆記改進輸出。對做 Agent 的人來說,這比單次跑分更實用。

真正難的從來不是開局,而是中途別把自己忘了。很多模型前 10 分鐘很猛,後面就開始亂掉。Fable 5 主打的,就是把這段長尾撐住,讓任務可以連續跑下去。
視覺能力也有進步。VentureBeat 報導,Fable 5 和 Mythos 5 在 GDPpdf 基準拿到 29.8%,Opus 4.8 是 22.5%,GPT-5.5 是 24.9%,Gemini 3.1 Pro 是 16.7%。這類文件推理任務很吃圖像理解和結構化提取,差幾個百分點,體感就差很多。
官方演示裡最有話題的,是《寶可夢·火紅版》。以前 Claude 玩這類 RPG,常常要外部腳手架幫它讀地圖、記狀態、處理導航。Fable 5 現在可以直接看原始截圖盲打推進,靠原生視覺自己通關。
- GDPpdf:29.8%
- Opus 4.8:22.5%
- GPT-5.5:24.9%
- Gemini 3.1 Pro:16.7%
科研能力的重點,已經從回答變成提出假設
在更硬核的科研場景裡,Mythos 5 才是這次發布真正想傳達的訊號。Anthropic稱,它在生物醫藥領域可以獨立執行整套工作流:選擇蛋白質結合位點、呼叫生物資訊工具、失敗後自己除錯。官方還說,它設計出的 14 個蛋白質靶向複合物裡,9 個已進入實驗室的真實藥物研發管線。
這類說法當然需要更長時間驗證,但方向很清楚。Anthropic想把模型從文獻整理器,推到假設生成器。模型不只是幫你找資料,而是先丟出一個可以拿去做實驗的方向。
還有一個更關鍵的點。Mythos 5 在基因組學研究中自主工作了一週多,拼接了 138 個物種的單細胞資料,還訓練了一個定制微型模型。Anthropic說,這個模型比原始方案小 100 倍,但表現還超過剛發表在 Science 的新成果。
如果你想看更日常的開發者用法,可以回頭看 OraCore.dev 的 Claude Code 工作流。那篇講的是怎麼把模型接進日常編碼;這次講的,則是模型怎麼自己把任務做完。
安全、價格和留存,才是企業真正要算的帳
Anthropic這次最有爭議的地方,不是能力,而是安全機制。Fable 5 背後掛著獨立分類器,專門識別網路安全攻擊、生物和化學風險,以及模型蒸餾。一旦觸發,它不會直接拒絕,而是把請求轉給 Opus 4.8。
這種做法比一句「抱歉,我不能幫你」更像產品設計,也更像企業軟體的權限分層。問題是,分類器越保守,誤傷就越多。做病毒研究的生物學家,或做授權攻防演練的安全工程師,都可能在合理任務裡被降級。
Anthropic也承認,現在的護欄比理想狀態更嚴。這代表它還在調整,不是已經收工。對企業來說,這種不確定性會直接影響導入意願,因為誰都不想買一個會在關鍵時刻自動縮手的系統。
另一個現實問題是資料留存。從 Fable 5、Mythos 5 開始,相關流量要保留 30 天,涵蓋第一方和第三方使用場景。官方說這些資料不用於訓練,只用於安全監控。對個人使用者來說,這只是條款裡的一個數字;對企業來說,這牽涉合規、稽核和內部資料治理。
價格也很直白。Fable 5 和 Mythos 5 統一定價為每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。比之前的預覽版便宜不少,但仍然是高價模型。Anthropic傳的訊號很清楚:這代產品適合高價值任務,不適合把所有普通請求都丟上去燒。
- 輸入 Token:$10 / 100萬
- 輸出 Token:$50 / 100萬
- 流量留存:30天
- 會話降級觸發率:不到5%
這代 Claude,更像可委託的工作室
最能概括 Claude Mythos 5 的,不是更聰明,而是更像一個能接長單的團隊。Ethan Mollick 的體驗很說明問題:人類正在從逐句指揮模型,轉向交付目標、等待成品、最後驗收。
這個變化一旦穩定下來,產品經理、工程師、研究員和分析師的工作方式都會被重新排序。你不再只是問模型一個問題,而是把一整段工作交出去,然後盯著它有沒有跑偏。
接下來真正值得盯的,不是 Anthropic 還能放出多少 demo,而是企業會不會把這種權限分級、長上下文、自動路由的模型,接進真實業務系統。問題已經從「模型會不會做」變成「你願不願意讓它連續做 9 個小時」。
如果 Fable 5 的誤傷率繼續下降、留存策略更清楚、價格再往下走一檔,下一輪競爭就不只是比單次回答品質,而是比誰更適合長期托管複雜任務。到那時,最先被改變的可能不是聊天體驗,而是軟體開發和知識工作的交付方式。