[IND] 13 分鐘閱讀OraCore 編輯部

Mythos 把安全驚嚇變稽核流程

我把 Anthropic 的 Project Glasswing 拆成一套可直接複製的 cyber audit 工作流,讓你能拿去做模型安全測試。

分享 LinkedIn
Mythos 把安全驚嚇變稽核流程

我把 Anthropic 的 Project Glasswing 拆成一套可直接複製的 cyber audit 工作流。

我盯 AI 安全這件事很久了,老實說,很多說法我已經聽到膩。模型會寫 code,就開始有人把它講成防禦神器;模型會推理,就有人想把它塞進敏感系統。問題是,會寫一段 Python 跟能碰真實資安環境,根本是兩回事。我不吃這套包裝,因為真要出事,沒人會替你把 demo 的漂亮話收尾。

這次真正勾到我的是 CNBC 這篇 報導。它講的不是「模型很會聊天」,而是 Anthropic 的 Anthropic 模型 Mythos,在跟美國情報相關的測試裡,居然能在幾小時內找出高度敏感系統的漏洞。這種事一方面很猛,一方面也很煩,因為它逼你面對一個很現實的問題:到底是在測模型,還是在測你自己的流程爛不爛。

我想偷的不是新聞標題,是背後那套方法。真正有用的不是「AI 很可怕」或「AI 很強」,而是成熟團隊已經開始把 frontier model 當成激進稽核員,用 sandbox、權限、人工審查把它框起來。這才是我想拆的 playbook。

觸發我整理這篇的公開錨點,就是 CNBC 這篇基於 Associated Press 的整理稿,另外也提到 AP參議院銀行委員會聽證,以及 Anthropic 的 Project Glasswing。原文沒有提供觀看數或書籤數,所以我不亂編。

先別把模型當產品 demo,先把它當稽核員

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

“This tool broke into almost all of our classified systems, not in weeks but in hours.”

這句話很衝,但我覺得最重要的不是它多嚇人,而是它把模型的角色講清楚了。這不是拿來當一般聊天助理,也不是拿來比誰回得漂亮。它是在一個受控目標上找弱點,速度越快越好。這跟產品評估完全不同。產品評估看的是有沒有幫助、語氣順不順、延遲高不高;資安評估只看一件事,這東西能不能比人更快挖出人沒看到的洞。

Mythos 把安全驚嚇變稽核流程

我自己做內部 red-team 類測試時,最怕團隊把模型講成「功能」。一旦這樣講,大家就會開始優化錯東西:看到一個很漂亮的回答就興奮,卻忘了那回答是不是有證據;看到模型說「沒問題」就放心,卻沒問它到底有沒有真的查過。CNBC 跟 AP 的敘述其實很克制,它們講的是「找到漏洞」,不是「完成入侵」,這個差別大到不能混。

白話講就是:你如果要用模型做資安,不要先問它聰不聰明,先問它在這次任務裡是什麼角色。是 advisor、scanner、recon assistant,還是模擬攻擊者?角色不先定義,後面全部都會歪掉。

實操上我會這樣做:先寫一段任務說明,把模型定位成「只能找候選弱點」或「只能協助驗證」,然後把成功標準寫死。比如:找到幾個候選問題、每個問題的證據品質、是否可重現、是否有人工可驗證的影響路徑。你如果連一句話都講不清楚模型的角色,那通常不是模型太強,是你自己混了產品測試跟安全測試。

還有一個很現實的點。Anthropic 這次是透過 Project Glasswing 跟美國情報單位一起做測試,這代表它不是大家想像中那種「把模型丟進真實國防系統亂跑」。它是受控的。你要做類似的事,也得有書面範圍、停損機制、審查關卡,不然你不是在做資安,你是在做事故彩排。

幾小時很重要,但前提是你先搞懂「找到」是什麼意思

大家最愛拿來轉貼的,就是「不是幾週,是幾小時」這句。Sen. Mark Warner 在 6 月 11 日聽證會上的說法很有力,因為很好記;但我覺得它也最容易被誤讀。AP 引述的官員說,模型是在幾小時內識別出漏洞,這不等於它在同樣時間內完成了真正的利用。這條線不劃清楚,整個討論就會歪。

我把這件事翻成白話:模型很會找候選弱點,不代表它已經是一個完整攻擊者。資安裡 discovery 跟 exploitation 本來就是不同階段。掃描器可以告訴你門沒鎖,不代表它能自己開門、關警報、還順手擦掉指紋。很多人一聽到「找到漏洞」就開始腦補成「已經被攻破」,這種理解方式很危險。

我以前帶過一輪內部測試,團隊一開始很緊張,因為模型幾分鐘就吐出一堆看起來像樣的問題。結果我們一條條查下去,才發現大半是 pattern matching,真正能重現的只有少數。那次最有價值的,不是模型多神,而是我們終於把「發現」「驗證」「影響」拆開了。

實操寫法我會直接切三段:

  • Discovery:讓模型列出可疑弱點、錯誤設定、暴露面、權限邊界。
  • Verification:要求證據,像是 log、截圖、重現步驟、封包紀錄。
  • Impact:把技術嚴重性翻成業務影響,不要只寫 CVSS。

這樣做很土,但有效。你會少掉一堆假陽性,也比較不會把一個 typo 當成世界末日。

Project Glasswing 真正有料的地方,是它把 AI 變成受控測試架

CNBC 提到 Anthropic 的 Project Glasswing,我覺得這才是整篇最值得偷的地方。不是模型名字,不是政治角力,而是流程設計。它把 frontier model 放進一個有邊界的安全測試框架裡,讓模型變成工具,不是神諭。

Mythos 把安全驚嚇變稽核流程

白話一點說,就是 Anthropic 沒把模型包裝成萬能防禦器,也沒把它放任成無限制攻擊器。它比較像一個很兇的分析引擎:可以幫你枚舉 attack surface、提示可能的 exploit chain、幫你排序可疑路徑,但前提是你先把它關進籠子裡。這才合理,不然你只是把另一種盲點塞進系統。

我之前拿通用模型做應用程式安全 triage 時就踩過這坑。它很會把相似問題歸類,但也會很自信地把不相干的 finding 硬湊在一起,還會自己補一段看似合理的因果。後來我才知道,問題不是「模型不夠聰明」,而是我沒把它放進一個逼它引用證據、比對基準、停止下判斷的流程。

實操上你可以自己做一版 Glasswing harness:模型放 sandbox、工具權限縮到最小、輸入用 synthetic 或 redacted 環境、輸出全部記錄。你不要讓它直接碰 production write access,也不要讓它自己決定下一步該不該動手。只要會改狀態的動作,都要有人簽核。

  • 用隔離帳號,絕對不要混到正式環境。
  • 每次 prompt、tool call、response 都要留 log。
  • 任何 remediation 或 exploit 驗證都要人工批准。

這不是官僚,這是防止實驗變事故。差很多。

政府那段不是 AI 恐慌,是採購與存取控制的現實課

報導裡還提到,美國政府後來限制了 Anthropic 某些模型的使用,並要求公司防止外國人使用最新系統 Fable 5 和 Mythos 5。Anthropic 的做法是把模型對所有客戶一起關掉來配合,但它也說,不認為政府的措施真的有必要。這段我看得很清楚:模型存取已經不是單純的軟體開關,而是政策面的一部分。

白話講就是,你以前在意的是密碼、ACL、IAM;現在你還得在意誰能用、從哪裡用、供應商會不會半夜把模型關掉。這很煩,但它就是現實。當模型本身被視為國安風險時,vendor 的合規姿態就直接變成你的 threat model 一部分。

我看過不少團隊把模型當成一般 SaaS,覺得「有帳號就能用」。問題是,這種前提在 frontier model 上根本不穩。你今天買的是能力,明天可能買到的是一個會被政策卡住的依賴。到那時候,法務、採購、資安如果還各做各的,最後一定會有人在事故回顧會上裝傻。

實操上我會要求三個答案:

  • 誰可以用?
  • 從哪裡可以用?
  • 如果 vendor 明天把模型停掉,備援怎麼跑?

如果這三題答不出來,你不是有部署計畫,你只是有一個還沒爆的依賴。

再補一刀。政府這次的限制跟 Anthropic 的回應都告訴我們,就算模型是拿來做防禦測試,存取照樣可能因政策被切掉。所以你的資安流程不能建立在「這個頂級模型永遠都在」這種幻想上。要有 vendor diversity、fallback 工具,以及手動流程,才不會哪天 fancy 的東西沒了,整個團隊一起卡死。

別迷信單一模型,安全工作本來就該是模型組合拳

CNBC 也提到,有超過 100 位資安專家和來自 AdobeNVIDIA 的主管聯名說,Mythos 這類模型確實很會找漏洞、也很會武器化 exploit,但它並不是唯一特別強的那個。這點我反而同意。市場本來就不該押在單一模型上。

白話講,模型多樣化是好事。你如果讓一個供應商壟斷安全助手,等於把所有判斷都綁在同一個失敗模式上。這種事我不想碰,也不建議任何要面對事後檢討的團隊碰。安全工作不是選偶像,是拼流程。

我實際上也比較常把不同模型混著用。一個拿來發散找線索,一個拿來整理 log,一個拿來寫測試案例。沒有哪個可以當最後裁判。你一旦讓模型自己下結論,證據鏈就會開始糊掉。問題不是它會不會答,問題是它會不會答得太像真的。

實操寫法我會直接做成 model portfolio:

  • 一個模型負責廣泛 discovery。
  • 一個模型負責結構化 verification support。
  • 一個模型負責報告與摘要。

如果兩個模型意見不一樣,不是拿平均值,而是回去看證據。還有,如果 open-source 模型已經能做八成工作,而且風險比較低,就別因為 demo 聽起來比較帥而硬上最貴的那個。那不是成熟,那是花錢買心理安慰。

先 red-team 模型,再 red-team 它所在的流程

我從這則新聞學到的,不是 Mythos 很危險,而是任何夠強的模型,最後都會把你系統裡最弱的地方照出來。它如果能很快找到漏洞,那你自己的審查、授權、封鎖、升級流程也得跟著快,而且得夠嚴。

白話講,AI 資安工作其實有兩個 target:一個是被測的系統,另一個是 AI 自己參與的工作流。兩個都要測。模型如果能碰到敏感資料,代表你的權限設計有問題;分析師如果分不出假陽性跟真漏洞,代表你的 triage 有問題;供應商如果能隨時停掉模型,代表你的依賴管理有問題。問題不同,但都指向同一件事:流程不能靠感覺。

我會很直接地說,很多團隊太愛看 shiny part,卻不願意碰 plumbing。shiny part 是模型找出一個很漂亮的 finding;plumbing 是到底有沒有人能安全地採取行動。真正的工程都在後者。

實操上你可以安排兩種演練:第一種是讓模型攻擊受控目標;第二種是讓模型攻擊你的流程本身。它能不能用看似合理但其實錯的證據騙過分析師?它能不能製造 alert fatigue?它能不能讓 ticketing 系統把 finding 分錯類?這些問題都很煩,但這些才是你真的會遇到的。

最後,我會把整個過程寫下來。不是為了 compliance 演戲,是為了下一個接手的人知道,當初為什麼要把模型放進這個位置、又是怎麼把它關回去的。

可抄的模板

# Frontier model cyber audit workflow(可直接改成你自己的版本)

## 目標
用 advanced model 在受控環境裡找出漏洞,但不給 production write access,也不給未審核的自主權。

## 範圍
- Target:isolated replica、synthetic environment、或 redacted staging system
- Model role:discovery only,或 discovery + verification support
- Human role:final verification、impact assessment、approval
- Exclusions:no production mutation、no credential exfiltration、no unsupervised exploit execution

## 輸入
- 系統架構說明
- 資產清單
- 已知 threat model
- 允許的工具列表
- Logging requirements

## 評估流程

### 1) Discovery
請模型列出可疑弱點。

必填輸出:
- suspected vulnerability
- evidence source
- confidence score
- affected asset
- why it matters

### 2) Verification
由人或另一個工具確認 finding。

必填輸出:
- reproducible steps
- logs / screenshots / packet captures
- false-positive check
- severity estimate

### 3) Impact analysis
把技術問題翻成業務與資安影響。

必填輸出:
- technical severity
- likely attack path
- blast radius
- remediation owner
- remediation priority

## Guardrails
- Sandbox the model
- Log every prompt, tool call, and response
- Require human approval before any state change
- Use least-privilege credentials
- Disable outbound access unless explicitly needed
- Rotate test credentials after each exercise

## 報告格式
- Finding ID
- Summary
- Evidence
- Verification status
- Impact
- Recommended fix
- Owner
- Due date

## Model comparison
至少跑兩個模型:
- 一個負責 broad discovery
- 一個負責 structured verification support

如果兩個模型意見不同:
- 先看 evidence
- 不要平均答案
- 直接升級給人審

## Exit criteria
- 所有 findings 都被驗證或駁回
- 沒有未授權存取
- Logs 完整
- Lessons learned 寫下來
- Workflow 問題另外列 remediation

## Vendor fallback questions
- 誰可以用?
- 從哪裡可以用?
- 如果 access 被撤掉怎麼辦?
- 手動備援流程是什麼?
- 哪些任務可以移到 open-source 或 local model?

這版我真的會拿去給團隊當起手式。它不花俏,但不容易被誤用。你要是想把一個 frontier model 放進資安流程,先把它關進框架,再談它有多會找洞。

原始公開來源是 CNBC 的這篇報導:https://www.cnbc.com/2026/06/23/anthropics-mythos-model-found-vulnerabilities-in-classified-us-government-systems-official-says.html。我上面的拆解和模板是原創整理,但內容是直接衍生自這篇報導與它引用的公開脈絡。