Claude Mythos 5：一天搬完5000萬行程式

OraCore Editors

返回首頁

[MODEL] 2026年6月11日7 分鐘閱讀OraCore 編輯部

Claude Mythos 5：一天搬完5000萬行程式

Anthropic推出Claude Fable 5和Mythos 5，主打長任務、程式碼遷移、視覺推理與更嚴格權限控制，還把API價格壓到每百萬Token 10/50美元。

程式碼遷移 Anthropic LLM Claude SWE-Bench Pro

分享 LinkedIn

Anthropic推出Claude Fable 5和Mythos 5，把長任務、程式碼遷移和權限控制綁在一起。

這次最吸睛的不是模型名稱，而是結果。官方說，Anthropic 的 Fable 5 一天搬完 5000 萬行 Ruby 程式。這種數字很粗暴，也很有效，因為它直接戳到開發者最在意的點：能不能真的做事，還有做事會不會太貴。

另一個數字也很硬。API 價格壓到每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。對比前幾代高階模型，這已經不是單純比聊天品質，而是把「長任務成本」拉到檯面上。

項目	數據	含義
全庫遷移	5000萬行 Ruby 程式	官方展示的長任務能力
遷移耗時	1天	對比人工團隊的2個多月
API定價	$10 / $50 每百萬Token	輸入與輸出的統一價格
會話降級比例	超過95%	多數請求仍走高能力路徑
資料留存	30天	用於安全監控，不用於訓練

Claude 這次改的不是能力，而是產品形態

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Anthropic這次端上桌的是兩個版本：Claude Fable 5 和 Claude Mythos 5。前者面向所有使用者，後者只給少數受信任使用者。兩者差別不只是強弱，而是權限、場景和安全策略被拆開了。

Fable 5 帶著防護網。碰到高風險請求時，它會自動降級到上一代 Claude Opus 4.8。Mythos 5 則保留更完整的能力，官方把它放在網路安全和生物科研這類更敏感的場景裡。

講白了，這不再像單一模型。它更像一套有路由、有分級、有權限的系統。普通寫作、程式、分析、研究請求走高能力路徑；一旦踩到攻擊、生物化學風險或蒸餾相關內容，就切到更保守的處理方式。

Fable 5 面向所有使用者
Mythos 5 只給受信任使用者
高風險請求會降級到 Opus 4.8
官方稱超過 95% 的會話不會觸發降級

軟體工程，是這代模型最直接的戰場

如果只看開發者最在意的部分，Fable 5 的進步很直接。它在 SWE-bench Pro 拿到 80.3%。文中提到的 OpenAI 頂級主力模型 GPT-5.5 是 58.6%。這個差距不算小，尤其當評測已經接近真實工程問題時。

更有意思的是 Cognition 的 Frontier Code 評測。Anthropic強調，Fable 5 在中等推理強度下，就拿到前沿模型最高分。這代表它的優勢不只是更會聊天，而是更能在少量人工介入下推進複雜工程任務。

沃頓商學院教授 Ethan Mollick 的一句話，很適合形容這個感覺。

“It feels less like a tool and more like a small team.” — Ethan Mollick

他拿到測試權限後，讓 Fable 5 處理等時圈地圖專案。模型自己查航班、鐵路和道路速度，再把結果整合成可用產品。這已經不是補幾行程式，而是接住一個模糊目標，然後自己拆任務。

SWE-bench Pro：80.3%
GPT-5.5：58.6%
Stripe 5000萬行 Ruby 遷移：1天完成
人工團隊預估時間：2個多月

視覺、長上下文和記憶，讓它更像持續工作的系統

Claude Fable 5 的另一個變化，是它對長上下文和記憶的處理更像持續執行，而不是單輪回答。Anthropic稱，它能在百萬級 Token 的長期任務裡維持專注，還能用自己的筆記改進輸出。對做 Agent 的人來說，這比單次跑分更實用。

真正難的從來不是開局，而是中途別把自己忘了。很多模型前 10 分鐘很猛，後面就開始亂掉。Fable 5 主打的，就是把這段長尾撐住，讓任務可以連續跑下去。

視覺能力也有進步。VentureBeat 報導，Fable 5 和 Mythos 5 在 GDPpdf 基準拿到 29.8%，Opus 4.8 是 22.5%，GPT-5.5 是 24.9%，Gemini 3.1 Pro 是 16.7%。這類文件推理任務很吃圖像理解和結構化提取，差幾個百分點，體感就差很多。

官方演示裡最有話題的，是《寶可夢·火紅版》。以前 Claude 玩這類 RPG，常常要外部腳手架幫它讀地圖、記狀態、處理導航。Fable 5 現在可以直接看原始截圖盲打推進，靠原生視覺自己通關。

GDPpdf：29.8%
Opus 4.8：22.5%
GPT-5.5：24.9%
Gemini 3.1 Pro：16.7%

科研能力的重點，已經從回答變成提出假設

在更硬核的科研場景裡，Mythos 5 才是這次發布真正想傳達的訊號。Anthropic稱，它在生物醫藥領域可以獨立執行整套工作流：選擇蛋白質結合位點、呼叫生物資訊工具、失敗後自己除錯。官方還說，它設計出的 14 個蛋白質靶向複合物裡，9 個已進入實驗室的真實藥物研發管線。

這類說法當然需要更長時間驗證，但方向很清楚。Anthropic想把模型從文獻整理器，推到假設生成器。模型不只是幫你找資料，而是先丟出一個可以拿去做實驗的方向。

還有一個更關鍵的點。Mythos 5 在基因組學研究中自主工作了一週多，拼接了 138 個物種的單細胞資料，還訓練了一個定制微型模型。Anthropic說，這個模型比原始方案小 100 倍，但表現還超過剛發表在 Science 的新成果。

如果你想看更日常的開發者用法，可以回頭看 OraCore.dev 的 Claude Code 工作流。那篇講的是怎麼把模型接進日常編碼；這次講的，則是模型怎麼自己把任務做完。

安全、價格和留存，才是企業真正要算的帳

Anthropic這次最有爭議的地方，不是能力，而是安全機制。Fable 5 背後掛著獨立分類器，專門識別網路安全攻擊、生物和化學風險，以及模型蒸餾。一旦觸發，它不會直接拒絕，而是把請求轉給 Opus 4.8。

這種做法比一句「抱歉，我不能幫你」更像產品設計，也更像企業軟體的權限分層。問題是，分類器越保守，誤傷就越多。做病毒研究的生物學家，或做授權攻防演練的安全工程師，都可能在合理任務裡被降級。

Anthropic也承認，現在的護欄比理想狀態更嚴。這代表它還在調整，不是已經收工。對企業來說，這種不確定性會直接影響導入意願，因為誰都不想買一個會在關鍵時刻自動縮手的系統。

另一個現實問題是資料留存。從 Fable 5、Mythos 5 開始，相關流量要保留 30 天，涵蓋第一方和第三方使用場景。官方說這些資料不用於訓練，只用於安全監控。對個人使用者來說，這只是條款裡的一個數字；對企業來說，這牽涉合規、稽核和內部資料治理。

價格也很直白。Fable 5 和 Mythos 5 統一定價為每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。比之前的預覽版便宜不少，但仍然是高價模型。Anthropic傳的訊號很清楚：這代產品適合高價值任務，不適合把所有普通請求都丟上去燒。

輸入 Token：$10 / 100萬
輸出 Token：$50 / 100萬
流量留存：30天
會話降級觸發率：不到5%

這代 Claude，更像可委託的工作室

最能概括 Claude Mythos 5 的，不是更聰明，而是更像一個能接長單的團隊。Ethan Mollick 的體驗很說明問題：人類正在從逐句指揮模型，轉向交付目標、等待成品、最後驗收。

這個變化一旦穩定下來，產品經理、工程師、研究員和分析師的工作方式都會被重新排序。你不再只是問模型一個問題，而是把一整段工作交出去，然後盯著它有沒有跑偏。

接下來真正值得盯的，不是 Anthropic 還能放出多少 demo，而是企業會不會把這種權限分級、長上下文、自動路由的模型，接進真實業務系統。問題已經從「模型會不會做」變成「你願不願意讓它連續做 9 個小時」。

如果 Fable 5 的誤傷率繼續下降、留存策略更清楚、價格再往下走一檔，下一輪競爭就不只是比單次回答品質，而是比誰更適合長期托管複雜任務。到那時，最先被改變的可能不是聊天體驗，而是軟體開發和知識工作的交付方式。

// 相關文章

Claude Mythos 5：一天搬完5000萬行程式

Claude 這次改的不是能力，而是產品形態

訂閱 AI 趨勢週報

軟體工程，是這代模型最直接的戰場

視覺、長上下文和記憶，讓它更像持續工作的系統

科研能力的重點，已經從回答變成提出假設

安全、價格和留存，才是企業真正要算的帳

這代 Claude，更像可委託的工作室

GPT-5.6先追前端，再談超越 Mythos

Claude Fable 5 讓這週像在降溫

Mistral 的模型陣容證明：專精勝過一個巨型模型

小米 MiMo 把 1T 模型推到 1000 tokens/s

MiMo 在 1T 模型跑到 1000 TPS

Gemini 把 Maps 變成對話介面