[RSCH] 6 分鐘閱讀OraCore 編輯部

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Rootly 的 SRE benchmark 顯示,Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6,且每百萬輸出 Token 成本低約 40%。

分享 LinkedIn
Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

Rootly 的 benchmark 顯示,Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6,還便宜不少。

Rootly 這次把 Claude Sonnet 4.6 丟進自家 SRE benchmark。結果很直接。它在根因分析上,已經貼近 Claude Opus 4.6。但成本少很多。

講白了,這不是單純比考卷分數。SRE 事故調查要看 logs、trace、cloud 設定,還要一路追 causal chain。模型如果只會答題,進到真實事故現場就會露餡。

更實際的是,Rootly 看到 Sonnet 4.6 在 agentic workflow 的表現,已經很有競爭力。對團隊來說,這種差距縮小,直接影響到 API 成本和事故處理速度。

模型SRE-skills-bench輸出成本 / 百萬 Token
Opus 4.694.7%$25.00
Opus 4.594.6%$25.00
Sonnet 4.690.4%$15.00
Sonnet 4.585.9%$15.00

Sonnet 4.6 拉近了距離

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Rootly 的 SRE-skills-bench 很好讀。Sonnet 4.6 拿到 90.4%。Sonnet 4.5 只有 85.9%。這代表它一次拉高了 4.5 分。

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

同一時間,Opus 4.6 只比 Opus 4.5 多 0.1 分。94.7% 對 94.6%。如果只看這次更新,Anthropic 明顯把進步火力放在 Sonnet 層級。

這件事對開發者很現實。很多團隊不是每次都要最貴模型。你要的是夠準、夠快、夠省。Sonnet 4.6 在這三件事上,已經比較像能上線的選項。

  • Sonnet 4.6:90.4%,每百萬輸出 Token $15
  • Sonnet 4.5:85.9%,每百萬輸出 Token $15
  • Opus 4.6:94.7%,每百萬輸出 Token $25
  • Opus 4.5:94.6%,每百萬輸出 Token $25

不同任務,差很多

Rootly 把 benchmark 拆成多個領域。這才有意思。Sonnet 4.6 在一般 SRE 知識上,甚至贏過 Opus 4.6。AWS networking 也打平。Kubernetes 和 compute 也很接近。

但一碰到 IAM 和 S3,差距就出來了。這兩類問題很吃權限邏輯。不是你會背名詞就行。你得真的懂 policy 怎麼交錯。

這也解釋了為什麼 SRE 工具不能只看總分。不同任務的難度差很多。模型路由才是比較像樣的做法。

“We experimented with our agentic workflows: investigating incidents, correlating signals, and reasoning through causal chains.” — Sylvain Kalache, Rootly

這句話很有重點。Rootly 測的不是孤立題目。它測的是事故流程。模型要先蒐證,再推理,最後才下結論。

Rootly 公布的分項如下:

  • GMCQ:Sonnet 88.0%,Opus 87.0%
  • Azure Compute:Sonnet 92.6%,Opus 95.6%
  • Azure Storage:Sonnet 92.2%,Opus 96.1%
  • Kubernetes:Sonnet 94.5%,Opus 97.3%
  • AWS Compute:Sonnet 94.3%,Opus 96.6%
  • AWS Network:Sonnet 97.1%,Opus 97.1%
  • AWS IAM:Sonnet 85.2%,Opus 92.2%
  • AWS S3:Sonnet 75.7%,Opus 91.9%

差距最大的,是 AWS S3。Opus 領先 16.2 分。AWS IAM 也差 7 分。這種題目很適合交給更強模型。其他題目就可以先讓 Sonnet 接手。

事故調查才是重點

Rootly 的意思很明確。真正的 AI SRE,不是做選擇題。它要讀 metrics、logs、config,還要把訊號串成一條故事線。這比單輪 code task 麻煩多了。

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

在 Rootly 的內部事故集上,Sonnet 4.6 在 root-cause accuracy 上,已經很接近 Opus 4.6。某些情境下,甚至還更好。兩者都贏過 Opus 4.5。

重點是,Sonnet 4.6 的成本低很多。Rootly 提到,這個 agentic workflow 的每 token 成本,大約少 40%。對要大量跑事故分析的團隊,這差很多。

Anthropic 這次也放進了 adaptive thinking。簡單說,模型可以先省著算,等證據夠了再加大推理力道。這很符合 incident response 的節奏。

Rootly 還提到幾個對 AI SRE 很實用的功能:

  • 1M token context window
  • Context compaction,能整理長對話
  • 更好的 prompt-injection 抗性
  • 四段 effort levels:low、medium、high、max

對團隊來說,該怎麼選

如果你的工具處理的是 Kubernetes、compute、一般雲端排障,Sonnet 4.6 很可能夠用。它不是只會聊天的模型。它已經能扛不少實務工作。

但只要碰到 IAM、S3、權限邊界這種題目,Opus 還是比較穩。這種地方不要省錯錢。一次誤判,後面就會多花更多時間救火。

所以比較合理的做法,是分流。常見問題給 Sonnet。高風險、權限重、推理長的題目給 Opus。這樣比較像工程,不像信仰。

  • 常見事故:用 Sonnet 4.6
  • 權限與政策:升級到 Opus 4.6
  • 長上下文排查:看 1M token 是否夠用
  • 成本敏感團隊:先壓低平均 Token 單價

Rootly 也說,它會在每次 frontier model 發表時跑 SRE benchmark,並把結果放在 sreskillsbench.com。這種公開評測很有價值。因為它逼模型面對真實工作,而不是漂亮簡報。

這波對 AI SRE 產品很重要

我覺得這次最有意思的地方,不是 Sonnet 分數變高,而是「夠用」的範圍變大了。以前很多團隊會直接想上最強模型。現在可以開始算路由。

這會影響產品設計。未來的 incident assistant,可能不是單一模型包到底。它比較像一個流程系統。不同模型處理不同 failure mode。

對台灣團隊來說,這很實際。你如果在做內部 on-call 工具,先把高頻任務丟給 Sonnet 4.6,再把難題轉給 Opus,整體成本會比較健康。這種選法,比盲目追最貴模型更像真的上線思維。

下一步可以觀察兩件事。第一,其他 incident 平台會不會跟進做分流。第二,Sonnet 4.6 在真實 production incident 裡,能不能持續維持這種表現。這才是最該盯的地方。