[MODEL] 7 分鐘閱讀OraCore 編輯部

Claude Mythos 5:一天搬完5000萬行程式

Anthropic推出Claude Fable 5和Mythos 5,主打長任務、程式碼遷移、視覺推理與更嚴格權限控制,還把API價格壓到每百萬Token 10/50美元。

分享 LinkedIn
Claude Mythos 5:一天搬完5000萬行程式

Anthropic推出Claude Fable 5和Mythos 5,把長任務、程式碼遷移和權限控制綁在一起。

這次最吸睛的不是模型名稱,而是結果。官方說,Anthropic 的 Fable 5 一天搬完 5000 萬行 Ruby 程式。這種數字很粗暴,也很有效,因為它直接戳到開發者最在意的點:能不能真的做事,還有做事會不會太貴。

另一個數字也很硬。API 價格壓到每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。對比前幾代高階模型,這已經不是單純比聊天品質,而是把「長任務成本」拉到檯面上。

項目數據含義
全庫遷移5000萬行 Ruby 程式官方展示的長任務能力
遷移耗時1天對比人工團隊的2個多月
API定價$10 / $50 每百萬Token輸入與輸出的統一價格
會話降級比例超過95%多數請求仍走高能力路徑
資料留存30天用於安全監控,不用於訓練

Claude 這次改的不是能力,而是產品形態

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Anthropic這次端上桌的是兩個版本:Claude Fable 5Claude Mythos 5。前者面向所有使用者,後者只給少數受信任使用者。兩者差別不只是強弱,而是權限、場景和安全策略被拆開了。

Claude Mythos 5:一天搬完5000萬行程式

Fable 5 帶著防護網。碰到高風險請求時,它會自動降級到上一代 Claude Opus 4.8。Mythos 5 則保留更完整的能力,官方把它放在網路安全和生物科研這類更敏感的場景裡。

講白了,這不再像單一模型。它更像一套有路由、有分級、有權限的系統。普通寫作、程式、分析、研究請求走高能力路徑;一旦踩到攻擊、生物化學風險或蒸餾相關內容,就切到更保守的處理方式。

  • Fable 5 面向所有使用者
  • Mythos 5 只給受信任使用者
  • 高風險請求會降級到 Opus 4.8
  • 官方稱超過 95% 的會話不會觸發降級

軟體工程,是這代模型最直接的戰場

如果只看開發者最在意的部分,Fable 5 的進步很直接。它在 SWE-bench Pro 拿到 80.3%。文中提到的 OpenAI 頂級主力模型 GPT-5.5 是 58.6%。這個差距不算小,尤其當評測已經接近真實工程問題時。

更有意思的是 Cognition 的 Frontier Code 評測。Anthropic強調,Fable 5 在中等推理強度下,就拿到前沿模型最高分。這代表它的優勢不只是更會聊天,而是更能在少量人工介入下推進複雜工程任務。

沃頓商學院教授 Ethan Mollick 的一句話,很適合形容這個感覺。

“It feels less like a tool and more like a small team.” — Ethan Mollick

他拿到測試權限後,讓 Fable 5 處理等時圈地圖專案。模型自己查航班、鐵路和道路速度,再把結果整合成可用產品。這已經不是補幾行程式,而是接住一個模糊目標,然後自己拆任務。

  • SWE-bench Pro:80.3%
  • GPT-5.5:58.6%
  • Stripe 5000萬行 Ruby 遷移:1天完成
  • 人工團隊預估時間:2個多月

視覺、長上下文和記憶,讓它更像持續工作的系統

Claude Fable 5 的另一個變化,是它對長上下文和記憶的處理更像持續執行,而不是單輪回答。Anthropic稱,它能在百萬級 Token 的長期任務裡維持專注,還能用自己的筆記改進輸出。對做 Agent 的人來說,這比單次跑分更實用。

Claude Mythos 5:一天搬完5000萬行程式

真正難的從來不是開局,而是中途別把自己忘了。很多模型前 10 分鐘很猛,後面就開始亂掉。Fable 5 主打的,就是把這段長尾撐住,讓任務可以連續跑下去。

視覺能力也有進步。VentureBeat 報導,Fable 5 和 Mythos 5 在 GDPpdf 基準拿到 29.8%,Opus 4.8 是 22.5%,GPT-5.5 是 24.9%,Gemini 3.1 Pro 是 16.7%。這類文件推理任務很吃圖像理解和結構化提取,差幾個百分點,體感就差很多。

官方演示裡最有話題的,是《寶可夢·火紅版》。以前 Claude 玩這類 RPG,常常要外部腳手架幫它讀地圖、記狀態、處理導航。Fable 5 現在可以直接看原始截圖盲打推進,靠原生視覺自己通關。

  • GDPpdf:29.8%
  • Opus 4.8:22.5%
  • GPT-5.5:24.9%
  • Gemini 3.1 Pro:16.7%

科研能力的重點,已經從回答變成提出假設

在更硬核的科研場景裡,Mythos 5 才是這次發布真正想傳達的訊號。Anthropic稱,它在生物醫藥領域可以獨立執行整套工作流:選擇蛋白質結合位點、呼叫生物資訊工具、失敗後自己除錯。官方還說,它設計出的 14 個蛋白質靶向複合物裡,9 個已進入實驗室的真實藥物研發管線。

這類說法當然需要更長時間驗證,但方向很清楚。Anthropic想把模型從文獻整理器,推到假設生成器。模型不只是幫你找資料,而是先丟出一個可以拿去做實驗的方向。

還有一個更關鍵的點。Mythos 5 在基因組學研究中自主工作了一週多,拼接了 138 個物種的單細胞資料,還訓練了一個定制微型模型。Anthropic說,這個模型比原始方案小 100 倍,但表現還超過剛發表在 Science 的新成果。

如果你想看更日常的開發者用法,可以回頭看 OraCore.dev 的 Claude Code 工作流。那篇講的是怎麼把模型接進日常編碼;這次講的,則是模型怎麼自己把任務做完。

安全、價格和留存,才是企業真正要算的帳

Anthropic這次最有爭議的地方,不是能力,而是安全機制。Fable 5 背後掛著獨立分類器,專門識別網路安全攻擊、生物和化學風險,以及模型蒸餾。一旦觸發,它不會直接拒絕,而是把請求轉給 Opus 4.8。

這種做法比一句「抱歉,我不能幫你」更像產品設計,也更像企業軟體的權限分層。問題是,分類器越保守,誤傷就越多。做病毒研究的生物學家,或做授權攻防演練的安全工程師,都可能在合理任務裡被降級。

Anthropic也承認,現在的護欄比理想狀態更嚴。這代表它還在調整,不是已經收工。對企業來說,這種不確定性會直接影響導入意願,因為誰都不想買一個會在關鍵時刻自動縮手的系統。

另一個現實問題是資料留存。從 Fable 5、Mythos 5 開始,相關流量要保留 30 天,涵蓋第一方和第三方使用場景。官方說這些資料不用於訓練,只用於安全監控。對個人使用者來說,這只是條款裡的一個數字;對企業來說,這牽涉合規、稽核和內部資料治理。

價格也很直白。Fable 5 和 Mythos 5 統一定價為每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元。比之前的預覽版便宜不少,但仍然是高價模型。Anthropic傳的訊號很清楚:這代產品適合高價值任務,不適合把所有普通請求都丟上去燒。

  • 輸入 Token:$10 / 100萬
  • 輸出 Token:$50 / 100萬
  • 流量留存:30天
  • 會話降級觸發率:不到5%

這代 Claude,更像可委託的工作室

最能概括 Claude Mythos 5 的,不是更聰明,而是更像一個能接長單的團隊。Ethan Mollick 的體驗很說明問題:人類正在從逐句指揮模型,轉向交付目標、等待成品、最後驗收。

這個變化一旦穩定下來,產品經理、工程師、研究員和分析師的工作方式都會被重新排序。你不再只是問模型一個問題,而是把一整段工作交出去,然後盯著它有沒有跑偏。

接下來真正值得盯的,不是 Anthropic 還能放出多少 demo,而是企業會不會把這種權限分級、長上下文、自動路由的模型,接進真實業務系統。問題已經從「模型會不會做」變成「你願不願意讓它連續做 9 個小時」。

如果 Fable 5 的誤傷率繼續下降、留存策略更清楚、價格再往下走一檔,下一輪競爭就不只是比單次回答品質,而是比誰更適合長期托管複雜任務。到那時,最先被改變的可能不是聊天體驗,而是軟體開發和知識工作的交付方式。