Mythos 為何沒公開?
Anthropic 說 Mythos 太危險不能公開。它在 USAMO 2026 比舊模型高 31 分,資安測試成功率達 73%。這代表什麼?

Anthropic 最近丟出一顆震撼彈。它說新模型 Mythos 太危險,不能直接公開。這種說法在 AI 圈很少見,因為大家通常只會比誰更強,不太會自己先踩煞車。
數字也很硬。Anthropic 說,Mythos 在 Opus 4.6 的基礎上,USAMO 2026 數學測驗高了 31 分。外部資安測試裡,它在專家級 hacking 任務的成功率達 73%。這不是聊天機器人的小修小補,這是能力直接往實戰靠近。
但真正耐人尋味的,不是模型多強。是 Anthropic 選擇不公開,改走限制性釋出。這代表 AI 產業開始面對一個很現實的問題:有些模型,真的不能像一般軟體一樣直接上線。
Mythos 到底是什麼
Mythos 是 Anthropic 的新一代大型語言模型。官方說法很直接,它在軟體工程、找 bug、數學推理上都很猛。配合那份 245 頁技術文件來看,Anthropic 想傳達的重點是:這模型不只會寫字,還很會拆解問題。

這種能力聽起來很香,對工程師也確實有用。你丟一段複雜程式碼給它,它可能會抓到你沒看到的邏輯錯誤。你叫它修 bug,它也可能自己回頭檢查前一步推論。講白了,就是像一個很會檢查自己作業的資深工程師。
但同一套能力,對攻擊者也很有價值。會讀程式、會找弱點、會修正失敗路徑的模型,對防守方是助手,對攻擊方就是加速器。這也是 Anthropic 這次不敢直接開放的原因。
Anthropic 沒把 Mythos 丟給所有人。它改用 Project Glasswing 這種限制性方案,先讓少數組織做防禦性資安測試。首批名單包含 Microsoft、Google、Apple、Amazon Web Services、JPMorgan Chase、Nvidia。
- 2026/04/07 公布,但沒有公開上線
- USAMO 2026 比 Opus 4.6 高 31 分
- U.K. AI Security Institute 測得 73% hacking 成功率
- Anthropic 說它找出多個主流作業系統與瀏覽器漏洞
- 公司稱其中 99% 在揭露時還沒修補
為什麼資安數字這麼刺眼
Anthropic 的核心說法很簡單。Mythos 可以找出漏洞,還能把漏洞往 exploit 方向推進。這種能力如果落在防禦端,就是幫團隊更快找風險。落在攻擊端,就是讓攻擊鏈更短。
最吸睛的是 73% 這個數字。U.K. AI Security Institute 的測試顯示,Mythos 在專家級 hacking 任務裡成功率很高。可是測試環境不是實際企業環境。真實系統有權限控管、偵測機制、分段網路,還有一堆老舊設備在拖後腿。
所以這個數字不能直接等於「世界要完蛋了」。它比較像警報器。它在提醒大家,AI 已經不只是寫文案或摘要資料。它開始碰到能影響基礎設施安全的區域。
“I would not be at the more apocalyptic end of the scale.” — Ciaran Martin, University of Oxford Blavatnik School of Government,前 U.K. National Cyber Security Centre CEO
這句話很有意思。Ciaran Martin 沒有說沒事,也沒有跟著喊災難。他的意思很清楚:模型很強,但現在還不到末日級別。說真的,這種態度比很多公關稿更接近現實。
另一個值得看的人,是 Georgia Institute of Technology School of Cybersecurity and Privacy 的 Peter Swire。他直接說這場發表是「a PR success, if nothing else」。我覺得這句很毒,也很準。因為 Anthropic 的風險敘事,確實會放大外界對模型的注意力。
Mythos 跟前代模型差在哪
先看數字。Anthropic 說 Mythos 在 USAMO 2026 比 Opus 4.6 高 31 分。這在數學推理上是很大的差距,尤其是在高階題目裡,每一分都不好拿。

再看資安。U.K. AI Security Institute 也提到,2025 年 4 月以前,沒有任何 AI 模型能完成那組 expert-level hacking 任務。Mythos 做到了 73%。這代表它不是只有會講話,它是真的能把推理接到行動。
如果把時間拉長,這件事更明顯。GPT-2 在 2019 年曾經延後釋出,當時大家覺得那已經很保守了。現在 Mythos 直接不公開,代表 frontier AI 的風險門檻又往前推了一段。
- GPT-2 是延後釋出,不是永久封存
- Mythos 是限制性釋出,連公開下載都沒有
- Anthropic 這次強調 next-generation GPU 訓練
- 銀行與雲端業者都很快開始關注
硬體也不能忽略。Mythos 是這波新模型裡,第一批在新一代 GPU 上訓練的系統之一。這代表訓練資源更大,模型上限也更高。你可以不喜歡這件事,但你不能假裝它不存在。
我覺得更重要的是產業態度變了。以前大家講 AI 釋出,重點是速度。現在開始有人先問:這模型會不會被拿去做資安攻擊、詐騙,或打到關鍵基礎設施?這個問題一出現,整個遊戲就不一樣了。
跟其他 AI 產品比,差在哪
如果要拿 Mythos 跟其他模型比,最直觀的就是能力與管控。像 OpenAI、Claude 這類產品,現在都在往更強的推理走。但 Mythos 的特別之處,不是它會推理,而是它被判定太敏感,不能直接放出去。
這件事會影響競品策略。若一家公司把模型先放大眾市場,另一家公司卻先做封閉測試,外界很容易把後者解讀成更負責。可是在商業上,封閉也有代價。它少了曝光,也少了開發者社群的回饋。
從資安角度看,Mythos 的比較對象不是一般聊天 AI,而是能做 code review、漏洞掃描、滲透測試輔助的系統。這類工具本來就介於防守與攻擊之間。差別只在於誰拿來用,還有用在哪裡。
- OpenAI 與 Anthropic 都在強化推理能力
- Mythos 的差異在於限制性釋出
- 資安工具市場會更重視模型審核
- 企業採購會先看資料隔離與權限控管
對買家來說,真正該問的不是「哪個模型最強」。而是「哪個模型最適合我的風險環境」。如果公司有大量 legacy system、舊版 browser、沒人管的 server,那再強的 AI 都只是放大器。
這也是為什麼銀行、雲端業者、晶片廠會先跳出來看。因為他們知道,模型能力一旦進入攻擊鏈,修補速度就會變成競爭力的一部分。
這件事放在產業脈絡裡怎麼看
AI 產業現在有個很明顯的轉折。前幾年大家比的是參數、token、上下文長度。現在開始比的是風險控管、審核流程、是否該封閉釋出。這不是行銷包裝,這是產品治理。
從台灣開發者角度看,這件事也不遠。因為很多團隊的系統都跑在雲端,或接了第三方 API。只要你的軟體堆疊有舊版元件、弱密碼、沒更新的依賴套件,AI 幫你找漏洞的速度就會比你想像快。
換句話說,Mythos 不是單一產品新聞。它是在提醒所有工程團隊:資安不再只是掃描器的工作。LLM 已經可以參與漏洞分析、程式審查、攻擊模擬,甚至幫忙整理修補優先順序。
這也解釋了為什麼 Anthropic 要走限制性路線。它不是單純怕出事。它是在試著把「模型能力」和「公開風險」拆開處理。這種做法會不會變成常態,接下來幾個季度就會看得很清楚。
Mythos 接下來會怎麼影響大家
我的判斷很直接。Mythos 不會是最後一個被鎖起來的模型。只要 LLM 繼續往資安、詐騙、基礎設施方向走,更多公司都會面臨同樣選擇:公開,還是先關門測試。
對開發者來說,現在最實際的動作不是焦慮。是盤點自己的系統。哪些服務還沒打補丁?哪些 browser 與 OS 版本太舊?哪些 API 權限給太大?這些問題比「模型到底多神」更重要。
如果你在做產品或平台,我會建議你先把資安流程當成 AI 導入的一部分。不是事後補救,而是設計階段就放進去。因為接下來的 AI 競爭,不只比誰更會寫程式,也比誰更會管風險。
說白了,Mythos 這種模型會逼整個產業做選擇。你要追求速度,還是先把門鎖好?我猜,接下來大家都得兩個都要,但先後順序會決定誰先出事。





