Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

OraCore Editors

返回首頁

[RSCH] 2026年6月30日6 分鐘閱讀OraCore 編輯部

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Rootly 的 SRE benchmark 顯示，Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6，且每百萬輸出 Token 成本低約 40%。

分享 LinkedIn

Rootly 的 benchmark 顯示，Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6，還便宜不少。

Rootly 這次把 Claude Sonnet 4.6 丟進自家 SRE benchmark。結果很直接。它在根因分析上，已經貼近 Claude Opus 4.6。但成本少很多。

講白了，這不是單純比考卷分數。SRE 事故調查要看 logs、trace、cloud 設定，還要一路追 causal chain。模型如果只會答題，進到真實事故現場就會露餡。

更實際的是，Rootly 看到 Sonnet 4.6 在 agentic workflow 的表現，已經很有競爭力。對團隊來說，這種差距縮小，直接影響到 API 成本和事故處理速度。

模型	SRE-skills-bench	輸出成本 / 百萬 Token
Opus 4.6	94.7%	$25.00
Opus 4.5	94.6%	$25.00
Sonnet 4.6	90.4%	$15.00
Sonnet 4.5	85.9%	$15.00

Sonnet 4.6 拉近了距離

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Rootly 的 SRE-skills-bench 很好讀。Sonnet 4.6 拿到 90.4%。Sonnet 4.5 只有 85.9%。這代表它一次拉高了 4.5 分。

同一時間，Opus 4.6 只比 Opus 4.5 多 0.1 分。94.7% 對 94.6%。如果只看這次更新，Anthropic 明顯把進步火力放在 Sonnet 層級。

這件事對開發者很現實。很多團隊不是每次都要最貴模型。你要的是夠準、夠快、夠省。Sonnet 4.6 在這三件事上，已經比較像能上線的選項。

Sonnet 4.6：90.4%，每百萬輸出 Token $15
Sonnet 4.5：85.9%，每百萬輸出 Token $15
Opus 4.6：94.7%，每百萬輸出 Token $25
Opus 4.5：94.6%，每百萬輸出 Token $25

不同任務，差很多

Rootly 把 benchmark 拆成多個領域。這才有意思。Sonnet 4.6 在一般 SRE 知識上，甚至贏過 Opus 4.6。AWS networking 也打平。Kubernetes 和 compute 也很接近。

但一碰到 IAM 和 S3，差距就出來了。這兩類問題很吃權限邏輯。不是你會背名詞就行。你得真的懂 policy 怎麼交錯。

這也解釋了為什麼 SRE 工具不能只看總分。不同任務的難度差很多。模型路由才是比較像樣的做法。

“We experimented with our agentic workflows: investigating incidents, correlating signals, and reasoning through causal chains.” — Sylvain Kalache, Rootly

這句話很有重點。Rootly 測的不是孤立題目。它測的是事故流程。模型要先蒐證，再推理，最後才下結論。

Rootly 公布的分項如下：

GMCQ：Sonnet 88.0%，Opus 87.0%
Azure Compute：Sonnet 92.6%，Opus 95.6%
Azure Storage：Sonnet 92.2%，Opus 96.1%
Kubernetes：Sonnet 94.5%，Opus 97.3%
AWS Compute：Sonnet 94.3%，Opus 96.6%
AWS Network：Sonnet 97.1%，Opus 97.1%
AWS IAM：Sonnet 85.2%，Opus 92.2%
AWS S3：Sonnet 75.7%，Opus 91.9%

差距最大的，是 AWS S3。Opus 領先 16.2 分。AWS IAM 也差 7 分。這種題目很適合交給更強模型。其他題目就可以先讓 Sonnet 接手。

事故調查才是重點

Rootly 的意思很明確。真正的 AI SRE，不是做選擇題。它要讀 metrics、logs、config，還要把訊號串成一條故事線。這比單輪 code task 麻煩多了。

在 Rootly 的內部事故集上，Sonnet 4.6 在 root-cause accuracy 上，已經很接近 Opus 4.6。某些情境下，甚至還更好。兩者都贏過 Opus 4.5。

重點是，Sonnet 4.6 的成本低很多。Rootly 提到，這個 agentic workflow 的每 token 成本，大約少 40%。對要大量跑事故分析的團隊，這差很多。

Anthropic 這次也放進了 adaptive thinking。簡單說，模型可以先省著算，等證據夠了再加大推理力道。這很符合 incident response 的節奏。

Rootly 還提到幾個對 AI SRE 很實用的功能：

1M token context window
Context compaction，能整理長對話
更好的 prompt-injection 抗性
四段 effort levels：low、medium、high、max

對團隊來說，該怎麼選

如果你的工具處理的是 Kubernetes、compute、一般雲端排障，Sonnet 4.6 很可能夠用。它不是只會聊天的模型。它已經能扛不少實務工作。

但只要碰到 IAM、S3、權限邊界這種題目，Opus 還是比較穩。這種地方不要省錯錢。一次誤判，後面就會多花更多時間救火。

所以比較合理的做法，是分流。常見問題給 Sonnet。高風險、權限重、推理長的題目給 Opus。這樣比較像工程，不像信仰。

常見事故：用 Sonnet 4.6
權限與政策：升級到 Opus 4.6
長上下文排查：看 1M token 是否夠用
成本敏感團隊：先壓低平均 Token 單價

Rootly 也說，它會在每次 frontier model 發表時跑 SRE benchmark，並把結果放在 sreskillsbench.com。這種公開評測很有價值。因為它逼模型面對真實工作，而不是漂亮簡報。

這波對 AI SRE 產品很重要

我覺得這次最有意思的地方，不是 Sonnet 分數變高，而是「夠用」的範圍變大了。以前很多團隊會直接想上最強模型。現在可以開始算路由。

這會影響產品設計。未來的 incident assistant，可能不是單一模型包到底。它比較像一個流程系統。不同模型處理不同 failure mode。

對台灣團隊來說，這很實際。你如果在做內部 on-call 工具，先把高頻任務丟給 Sonnet 4.6，再把難題轉給 Opus，整體成本會比較健康。這種選法，比盲目追最貴模型更像真的上線思維。

下一步可以觀察兩件事。第一，其他 incident 平台會不會跟進做分流。第二，Sonnet 4.6 在真實 production incident 裡，能不能持續維持這種表現。這才是最該盯的地方。

// 相關文章

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Sonnet 4.6 拉近了距離

訂閱 AI 趨勢週報

不同任務，差很多

事故調查才是重點

對團隊來說，該怎麼選

這波對 AI SRE 產品很重要

GLM 5.2 在 IDOR 測試贏過 Claude

OPD 讓你把技能蒸餾進模型

Google DeepMind把AI變研究工具

LLM 行為不一定可移植

Prompt injection 已是 AI 資安問題

求解器會改變納許均衡