Mythos 為何沒公開？

OraCore Editors

返回首頁

[RSCH] 2026年4月21日7 分鐘閱讀OraCore 編輯部

Mythos 為何沒公開？

Anthropic 說 Mythos 太危險不能公開。它在 USAMO 2026 比舊模型高 31 分，資安測試成功率達 73%。這代表什麼？

OpenAI Anthropic LLM AI模型資安 Claude

分享 LinkedIn

Anthropic 最近丟出一顆震撼彈。它說新模型 Mythos 太危險，不能直接公開。這種說法在 AI 圈很少見，因為大家通常只會比誰更強，不太會自己先踩煞車。

數字也很硬。Anthropic 說，Mythos 在 Opus 4.6 的基礎上，USAMO 2026 數學測驗高了 31 分。外部資安測試裡，它在專家級 hacking 任務的成功率達 73%。這不是聊天機器人的小修小補，這是能力直接往實戰靠近。

但真正耐人尋味的，不是模型多強。是 Anthropic 選擇不公開，改走限制性釋出。這代表 AI 產業開始面對一個很現實的問題：有些模型，真的不能像一般軟體一樣直接上線。

Mythos 到底是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Mythos 是 Anthropic 的新一代大型語言模型。官方說法很直接，它在軟體工程、找 bug、數學推理上都很猛。配合那份 245 頁技術文件來看，Anthropic 想傳達的重點是：這模型不只會寫字，還很會拆解問題。

這種能力聽起來很香，對工程師也確實有用。你丟一段複雜程式碼給它，它可能會抓到你沒看到的邏輯錯誤。你叫它修 bug，它也可能自己回頭檢查前一步推論。講白了，就是像一個很會檢查自己作業的資深工程師。

但同一套能力，對攻擊者也很有價值。會讀程式、會找弱點、會修正失敗路徑的模型，對防守方是助手，對攻擊方就是加速器。這也是 Anthropic 這次不敢直接開放的原因。

Anthropic 沒把 Mythos 丟給所有人。它改用 Project Glasswing 這種限制性方案，先讓少數組織做防禦性資安測試。首批名單包含 Microsoft、Google、Apple、Amazon Web Services、JPMorgan Chase、Nvidia。

2026/04/07 公布，但沒有公開上線
USAMO 2026 比 Opus 4.6 高 31 分
U.K. AI Security Institute 測得 73% hacking 成功率
Anthropic 說它找出多個主流作業系統與瀏覽器漏洞
公司稱其中 99% 在揭露時還沒修補

為什麼資安數字這麼刺眼

Anthropic 的核心說法很簡單。Mythos 可以找出漏洞，還能把漏洞往 exploit 方向推進。這種能力如果落在防禦端，就是幫團隊更快找風險。落在攻擊端，就是讓攻擊鏈更短。

最吸睛的是 73% 這個數字。U.K. AI Security Institute 的測試顯示，Mythos 在專家級 hacking 任務裡成功率很高。可是測試環境不是實際企業環境。真實系統有權限控管、偵測機制、分段網路，還有一堆老舊設備在拖後腿。

所以這個數字不能直接等於「世界要完蛋了」。它比較像警報器。它在提醒大家，AI 已經不只是寫文案或摘要資料。它開始碰到能影響基礎設施安全的區域。

“I would not be at the more apocalyptic end of the scale.” — Ciaran Martin, University of Oxford Blavatnik School of Government，前 U.K. National Cyber Security Centre CEO

這句話很有意思。Ciaran Martin 沒有說沒事，也沒有跟著喊災難。他的意思很清楚：模型很強，但現在還不到末日級別。說真的，這種態度比很多公關稿更接近現實。

另一個值得看的人，是 Georgia Institute of Technology School of Cybersecurity and Privacy 的 Peter Swire。他直接說這場發表是「a PR success, if nothing else」。我覺得這句很毒，也很準。因為 Anthropic 的風險敘事，確實會放大外界對模型的注意力。

Mythos 跟前代模型差在哪

先看數字。Anthropic 說 Mythos 在 USAMO 2026 比 Opus 4.6 高 31 分。這在數學推理上是很大的差距，尤其是在高階題目裡，每一分都不好拿。

再看資安。U.K. AI Security Institute 也提到，2025 年 4 月以前，沒有任何 AI 模型能完成那組 expert-level hacking 任務。Mythos 做到了 73%。這代表它不是只有會講話，它是真的能把推理接到行動。

如果把時間拉長，這件事更明顯。GPT-2 在 2019 年曾經延後釋出，當時大家覺得那已經很保守了。現在 Mythos 直接不公開，代表 frontier AI 的風險門檻又往前推了一段。

GPT-2 是延後釋出，不是永久封存
Mythos 是限制性釋出，連公開下載都沒有
Anthropic 這次強調 next-generation GPU 訓練
銀行與雲端業者都很快開始關注

硬體也不能忽略。Mythos 是這波新模型裡，第一批在新一代 GPU 上訓練的系統之一。這代表訓練資源更大，模型上限也更高。你可以不喜歡這件事，但你不能假裝它不存在。

我覺得更重要的是產業態度變了。以前大家講 AI 釋出，重點是速度。現在開始有人先問：這模型會不會被拿去做資安攻擊、詐騙，或打到關鍵基礎設施？這個問題一出現，整個遊戲就不一樣了。

跟其他 AI 產品比，差在哪

如果要拿 Mythos 跟其他模型比，最直觀的就是能力與管控。像 OpenAI、Claude 這類產品，現在都在往更強的推理走。但 Mythos 的特別之處，不是它會推理，而是它被判定太敏感，不能直接放出去。

這件事會影響競品策略。若一家公司把模型先放大眾市場，另一家公司卻先做封閉測試，外界很容易把後者解讀成更負責。可是在商業上，封閉也有代價。它少了曝光，也少了開發者社群的回饋。

從資安角度看，Mythos 的比較對象不是一般聊天 AI，而是能做 code review、漏洞掃描、滲透測試輔助的系統。這類工具本來就介於防守與攻擊之間。差別只在於誰拿來用，還有用在哪裡。

OpenAI 與 Anthropic 都在強化推理能力
Mythos 的差異在於限制性釋出
資安工具市場會更重視模型審核
企業採購會先看資料隔離與權限控管

對買家來說，真正該問的不是「哪個模型最強」。而是「哪個模型最適合我的風險環境」。如果公司有大量 legacy system、舊版 browser、沒人管的 server，那再強的 AI 都只是放大器。

這也是為什麼銀行、雲端業者、晶片廠會先跳出來看。因為他們知道，模型能力一旦進入攻擊鏈，修補速度就會變成競爭力的一部分。

這件事放在產業脈絡裡怎麼看

AI 產業現在有個很明顯的轉折。前幾年大家比的是參數、token、上下文長度。現在開始比的是風險控管、審核流程、是否該封閉釋出。這不是行銷包裝，這是產品治理。

從台灣開發者角度看，這件事也不遠。因為很多團隊的系統都跑在雲端，或接了第三方 API。只要你的軟體堆疊有舊版元件、弱密碼、沒更新的依賴套件，AI 幫你找漏洞的速度就會比你想像快。

換句話說，Mythos 不是單一產品新聞。它是在提醒所有工程團隊：資安不再只是掃描器的工作。LLM 已經可以參與漏洞分析、程式審查、攻擊模擬，甚至幫忙整理修補優先順序。

這也解釋了為什麼 Anthropic 要走限制性路線。它不是單純怕出事。它是在試著把「模型能力」和「公開風險」拆開處理。這種做法會不會變成常態，接下來幾個季度就會看得很清楚。

Mythos 接下來會怎麼影響大家

我的判斷很直接。Mythos 不會是最後一個被鎖起來的模型。只要 LLM 繼續往資安、詐騙、基礎設施方向走，更多公司都會面臨同樣選擇：公開，還是先關門測試。

對開發者來說，現在最實際的動作不是焦慮。是盤點自己的系統。哪些服務還沒打補丁？哪些 browser 與 OS 版本太舊？哪些 API 權限給太大？這些問題比「模型到底多神」更重要。

如果你在做產品或平台，我會建議你先把資安流程當成 AI 導入的一部分。不是事後補救，而是設計階段就放進去。因為接下來的 AI 競爭，不只比誰更會寫程式，也比誰更會管風險。

說白了，Mythos 這種模型會逼整個產業做選擇。你要追求速度，還是先把門鎖好？我猜，接下來大家都得兩個都要，但先後順序會決定誰先出事。

// 相關文章

Mythos 為何沒公開？

Mythos 到底是什麼

訂閱 AI 趨勢週報

為什麼資安數字這麼刺眼

Mythos 跟前代模型差在哪

跟其他 AI 產品比，差在哪

這件事放在產業脈絡裡怎麼看

Mythos 接下來會怎麼影響大家

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

GLM 5.2 在 IDOR 測試贏過 Claude

OPD 讓你把技能蒸餾進模型

Google DeepMind把AI變研究工具

LLM 行為不一定可移植

Prompt injection 已是 AI 資安問題