Mythos 把安全驚嚇變稽核流程

OraCore Editors

返回首頁

[IND] 2026年6月25日13 分鐘閱讀OraCore 編輯部

Mythos 把安全驚嚇變稽核流程

我把 Anthropic 的 Project Glasswing 拆成一套可直接複製的 cyber audit 工作流，讓你能拿去做模型安全測試。

AI security Project Glasswing

分享 LinkedIn

我把 Anthropic 的 Project Glasswing 拆成一套可直接複製的 cyber audit 工作流。

我盯 AI 安全這件事很久了，老實說，很多說法我已經聽到膩。模型會寫 code，就開始有人把它講成防禦神器；模型會推理，就有人想把它塞進敏感系統。問題是，會寫一段 Python 跟能碰真實資安環境，根本是兩回事。我不吃這套包裝，因為真要出事，沒人會替你把 demo 的漂亮話收尾。

這次真正勾到我的是 CNBC 這篇報導。它講的不是「模型很會聊天」，而是 Anthropic 的 Anthropic 模型 Mythos，在跟美國情報相關的測試裡，居然能在幾小時內找出高度敏感系統的漏洞。這種事一方面很猛，一方面也很煩，因為它逼你面對一個很現實的問題：到底是在測模型，還是在測你自己的流程爛不爛。

我想偷的不是新聞標題，是背後那套方法。真正有用的不是「AI 很可怕」或「AI 很強」，而是成熟團隊已經開始把 frontier model 當成激進稽核員，用 sandbox、權限、人工審查把它框起來。這才是我想拆的 playbook。

觸發我整理這篇的公開錨點，就是 CNBC 這篇基於 Associated Press 的整理稿，另外也提到 AP、參議院銀行委員會聽證，以及 Anthropic 的 Project Glasswing。原文沒有提供觀看數或書籤數，所以我不亂編。

先別把模型當產品 demo，先把它當稽核員

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

“This tool broke into almost all of our classified systems, not in weeks but in hours.”

這句話很衝，但我覺得最重要的不是它多嚇人，而是它把模型的角色講清楚了。這不是拿來當一般聊天助理，也不是拿來比誰回得漂亮。它是在一個受控目標上找弱點，速度越快越好。這跟產品評估完全不同。產品評估看的是有沒有幫助、語氣順不順、延遲高不高；資安評估只看一件事，這東西能不能比人更快挖出人沒看到的洞。

我自己做內部 red-team 類測試時，最怕團隊把模型講成「功能」。一旦這樣講，大家就會開始優化錯東西：看到一個很漂亮的回答就興奮，卻忘了那回答是不是有證據；看到模型說「沒問題」就放心，卻沒問它到底有沒有真的查過。CNBC 跟 AP 的敘述其實很克制，它們講的是「找到漏洞」，不是「完成入侵」，這個差別大到不能混。

白話講就是：你如果要用模型做資安，不要先問它聰不聰明，先問它在這次任務裡是什麼角色。是 advisor、scanner、recon assistant，還是模擬攻擊者？角色不先定義，後面全部都會歪掉。

實操上我會這樣做：先寫一段任務說明，把模型定位成「只能找候選弱點」或「只能協助驗證」，然後把成功標準寫死。比如：找到幾個候選問題、每個問題的證據品質、是否可重現、是否有人工可驗證的影響路徑。你如果連一句話都講不清楚模型的角色，那通常不是模型太強，是你自己混了產品測試跟安全測試。

還有一個很現實的點。Anthropic 這次是透過 Project Glasswing 跟美國情報單位一起做測試，這代表它不是大家想像中那種「把模型丟進真實國防系統亂跑」。它是受控的。你要做類似的事，也得有書面範圍、停損機制、審查關卡，不然你不是在做資安，你是在做事故彩排。

幾小時很重要，但前提是你先搞懂「找到」是什麼意思

大家最愛拿來轉貼的，就是「不是幾週，是幾小時」這句。Sen. Mark Warner 在 6 月 11 日聽證會上的說法很有力，因為很好記；但我覺得它也最容易被誤讀。AP 引述的官員說，模型是在幾小時內識別出漏洞，這不等於它在同樣時間內完成了真正的利用。這條線不劃清楚，整個討論就會歪。

我把這件事翻成白話：模型很會找候選弱點，不代表它已經是一個完整攻擊者。資安裡 discovery 跟 exploitation 本來就是不同階段。掃描器可以告訴你門沒鎖，不代表它能自己開門、關警報、還順手擦掉指紋。很多人一聽到「找到漏洞」就開始腦補成「已經被攻破」，這種理解方式很危險。

我以前帶過一輪內部測試，團隊一開始很緊張，因為模型幾分鐘就吐出一堆看起來像樣的問題。結果我們一條條查下去，才發現大半是 pattern matching，真正能重現的只有少數。那次最有價值的，不是模型多神，而是我們終於把「發現」「驗證」「影響」拆開了。

實操寫法我會直接切三段：

Discovery：讓模型列出可疑弱點、錯誤設定、暴露面、權限邊界。
Verification：要求證據，像是 log、截圖、重現步驟、封包紀錄。
Impact：把技術嚴重性翻成業務影響，不要只寫 CVSS。

這樣做很土，但有效。你會少掉一堆假陽性，也比較不會把一個 typo 當成世界末日。

Project Glasswing 真正有料的地方，是它把 AI 變成受控測試架

CNBC 提到 Anthropic 的 Project Glasswing，我覺得這才是整篇最值得偷的地方。不是模型名字，不是政治角力，而是流程設計。它把 frontier model 放進一個有邊界的安全測試框架裡，讓模型變成工具，不是神諭。

白話一點說，就是 Anthropic 沒把模型包裝成萬能防禦器，也沒把它放任成無限制攻擊器。它比較像一個很兇的分析引擎：可以幫你枚舉 attack surface、提示可能的 exploit chain、幫你排序可疑路徑，但前提是你先把它關進籠子裡。這才合理，不然你只是把另一種盲點塞進系統。

我之前拿通用模型做應用程式安全 triage 時就踩過這坑。它很會把相似問題歸類，但也會很自信地把不相干的 finding 硬湊在一起，還會自己補一段看似合理的因果。後來我才知道，問題不是「模型不夠聰明」，而是我沒把它放進一個逼它引用證據、比對基準、停止下判斷的流程。

實操上你可以自己做一版 Glasswing harness：模型放 sandbox、工具權限縮到最小、輸入用 synthetic 或 redacted 環境、輸出全部記錄。你不要讓它直接碰 production write access，也不要讓它自己決定下一步該不該動手。只要會改狀態的動作，都要有人簽核。

用隔離帳號，絕對不要混到正式環境。
每次 prompt、tool call、response 都要留 log。
任何 remediation 或 exploit 驗證都要人工批准。

這不是官僚，這是防止實驗變事故。差很多。

政府那段不是 AI 恐慌，是採購與存取控制的現實課

報導裡還提到，美國政府後來限制了 Anthropic 某些模型的使用，並要求公司防止外國人使用最新系統 Fable 5 和 Mythos 5。Anthropic 的做法是把模型對所有客戶一起關掉來配合，但它也說，不認為政府的措施真的有必要。這段我看得很清楚：模型存取已經不是單純的軟體開關，而是政策面的一部分。

白話講就是，你以前在意的是密碼、ACL、IAM；現在你還得在意誰能用、從哪裡用、供應商會不會半夜把模型關掉。這很煩，但它就是現實。當模型本身被視為國安風險時，vendor 的合規姿態就直接變成你的 threat model 一部分。

我看過不少團隊把模型當成一般 SaaS，覺得「有帳號就能用」。問題是，這種前提在 frontier model 上根本不穩。你今天買的是能力，明天可能買到的是一個會被政策卡住的依賴。到那時候，法務、採購、資安如果還各做各的，最後一定會有人在事故回顧會上裝傻。

實操上我會要求三個答案：

誰可以用？
從哪裡可以用？
如果 vendor 明天把模型停掉，備援怎麼跑？

如果這三題答不出來，你不是有部署計畫，你只是有一個還沒爆的依賴。

再補一刀。政府這次的限制跟 Anthropic 的回應都告訴我們，就算模型是拿來做防禦測試，存取照樣可能因政策被切掉。所以你的資安流程不能建立在「這個頂級模型永遠都在」這種幻想上。要有 vendor diversity、fallback 工具，以及手動流程，才不會哪天 fancy 的東西沒了，整個團隊一起卡死。

別迷信單一模型，安全工作本來就該是模型組合拳

CNBC 也提到，有超過 100 位資安專家和來自 Adobe、NVIDIA 的主管聯名說，Mythos 這類模型確實很會找漏洞、也很會武器化 exploit，但它並不是唯一特別強的那個。這點我反而同意。市場本來就不該押在單一模型上。

白話講，模型多樣化是好事。你如果讓一個供應商壟斷安全助手，等於把所有判斷都綁在同一個失敗模式上。這種事我不想碰，也不建議任何要面對事後檢討的團隊碰。安全工作不是選偶像，是拼流程。

我實際上也比較常把不同模型混著用。一個拿來發散找線索，一個拿來整理 log，一個拿來寫測試案例。沒有哪個可以當最後裁判。你一旦讓模型自己下結論，證據鏈就會開始糊掉。問題不是它會不會答，問題是它會不會答得太像真的。

實操寫法我會直接做成 model portfolio：

一個模型負責廣泛 discovery。
一個模型負責結構化 verification support。
一個模型負責報告與摘要。

如果兩個模型意見不一樣，不是拿平均值，而是回去看證據。還有，如果 open-source 模型已經能做八成工作，而且風險比較低，就別因為 demo 聽起來比較帥而硬上最貴的那個。那不是成熟，那是花錢買心理安慰。

先 red-team 模型，再 red-team 它所在的流程

我從這則新聞學到的，不是 Mythos 很危險，而是任何夠強的模型，最後都會把你系統裡最弱的地方照出來。它如果能很快找到漏洞，那你自己的審查、授權、封鎖、升級流程也得跟著快，而且得夠嚴。

白話講，AI 資安工作其實有兩個 target：一個是被測的系統，另一個是 AI 自己參與的工作流。兩個都要測。模型如果能碰到敏感資料，代表你的權限設計有問題；分析師如果分不出假陽性跟真漏洞，代表你的 triage 有問題；供應商如果能隨時停掉模型，代表你的依賴管理有問題。問題不同，但都指向同一件事：流程不能靠感覺。

我會很直接地說，很多團隊太愛看 shiny part，卻不願意碰 plumbing。shiny part 是模型找出一個很漂亮的 finding；plumbing 是到底有沒有人能安全地採取行動。真正的工程都在後者。

實操上你可以安排兩種演練：第一種是讓模型攻擊受控目標；第二種是讓模型攻擊你的流程本身。它能不能用看似合理但其實錯的證據騙過分析師？它能不能製造 alert fatigue？它能不能讓 ticketing 系統把 finding 分錯類？這些問題都很煩，但這些才是你真的會遇到的。

最後，我會把整個過程寫下來。不是為了 compliance 演戲，是為了下一個接手的人知道，當初為什麼要把模型放進這個位置、又是怎麼把它關回去的。

可抄的模板

# Frontier model cyber audit workflow（可直接改成你自己的版本）

## 目標
用 advanced model 在受控環境裡找出漏洞，但不給 production write access，也不給未審核的自主權。

## 範圍
- Target：isolated replica、synthetic environment、或 redacted staging system
- Model role：discovery only，或 discovery + verification support
- Human role：final verification、impact assessment、approval
- Exclusions：no production mutation、no credential exfiltration、no unsupervised exploit execution

## 輸入
- 系統架構說明
- 資產清單
- 已知 threat model
- 允許的工具列表
- Logging requirements

## 評估流程

### 1) Discovery
請模型列出可疑弱點。

必填輸出：
- suspected vulnerability
- evidence source
- confidence score
- affected asset
- why it matters

### 2) Verification
由人或另一個工具確認 finding。

必填輸出：
- reproducible steps
- logs / screenshots / packet captures
- false-positive check
- severity estimate

### 3) Impact analysis
把技術問題翻成業務與資安影響。

必填輸出：
- technical severity
- likely attack path
- blast radius
- remediation owner
- remediation priority

## Guardrails
- Sandbox the model
- Log every prompt, tool call, and response
- Require human approval before any state change
- Use least-privilege credentials
- Disable outbound access unless explicitly needed
- Rotate test credentials after each exercise

## 報告格式
- Finding ID
- Summary
- Evidence
- Verification status
- Impact
- Recommended fix
- Owner
- Due date

## Model comparison
至少跑兩個模型：
- 一個負責 broad discovery
- 一個負責 structured verification support

如果兩個模型意見不同：
- 先看 evidence
- 不要平均答案
- 直接升級給人審

## Exit criteria
- 所有 findings 都被驗證或駁回
- 沒有未授權存取
- Logs 完整
- Lessons learned 寫下來
- Workflow 問題另外列 remediation

## Vendor fallback questions
- 誰可以用？
- 從哪裡可以用？
- 如果 access 被撤掉怎麼辦？
- 手動備援流程是什麼？
- 哪些任務可以移到 open-source 或 local model？

這版我真的會拿去給團隊當起手式。它不花俏，但不容易被誤用。你要是想把一個 frontier model 放進資安流程，先把它關進框架，再談它有多會找洞。

原始公開來源是 CNBC 的這篇報導：https://www.cnbc.com/2026/06/23/anthropics-mythos-model-found-vulnerabilities-in-classified-us-government-systems-official-says.html。我上面的拆解和模板是原創整理，但內容是直接衍生自這篇報導與它引用的公開脈絡。

// 相關文章

Mythos 把安全驚嚇變稽核流程

先別把模型當產品 demo，先把它當稽核員

訂閱 AI 趨勢週報

幾小時很重要，但前提是你先搞懂「找到」是什麼意思

Project Glasswing 真正有料的地方，是它把 AI 變成受控測試架

政府那段不是 AI 恐慌，是採購與存取控制的現實課

別迷信單一模型，安全工作本來就該是模型組合拳

先 red-team 模型，再 red-team 它所在的流程

可抄的模板

Anthropic 不該像壟斷者定價，應該先把 Claude 送快一點

新加坡房貸 SORA 歷史圖怎麼看

MiniMax 解禁不是警訊，而是市場壓力測試

AI 优先常选错方向，先看这 5 点

5 個 GitHub AI 新聞專案，先看這份再選

DeepMind人才流向Anthropic，研究竞争升温