[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-claude-sonnet-46-sre-benchmark-rootly-zh":3,"article-related-claude-sonnet-46-sre-benchmark-rootly-zh":32,"series-research-d6f25c66-98f5-4971-8d1d-487fb5fe1881":75},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":31},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","\u003Cp data-speakable=\"summary\">Rootly 的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 顯示，\u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> Sonnet 4.6 在事故調查上已接近 Opus 4.6，還便宜不少。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Frootly.com\" target=\"_blank\" rel=\"noopener\">Rootly\u003C\u002Fa> 這次把 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-4-6\" target=\"_blank\" rel=\"noopener\">Claude Sonnet 4.6\u003C\u002Fa> 丟進自家 SRE benchmark。結果很直接。它在根因分析上，已經貼近 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-4-6\" target=\"_blank\" rel=\"noopener\">Claude Opus 4.6\u003C\u002Fa>。但成本少很多。\u003C\u002Fp>\u003Cp>講白了，這不是單純比考卷分數。SRE 事故調查要看 logs、trace、cloud 設定，還要一路追 causal chain。模型如果只會答題，進到真實事故現場就會露餡。\u003C\u002Fp>\u003Cp>更實際的是，Rootly 看到 Sonnet 4.6 在 agentic workflow 的表現，已經很有競爭力。對團隊來說，這種差距縮小，直接影響到 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 成本和事故處理速度。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>SRE-skills-bench\u003C\u002Fth>\u003Cth>輸出成本 \u002F 百萬 Token\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Opus 4.6\u003C\u002Ftd>\u003Ctd>94.7%\u003C\u002Ftd>\u003Ctd>$25.00\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Opus 4.5\u003C\u002Ftd>\u003Ctd>94.6%\u003C\u002Ftd>\u003Ctd>$25.00\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Sonnet 4.6\u003C\u002Ftd>\u003Ctd>90.4%\u003C\u002Ftd>\u003Ctd>$15.00\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Sonnet 4.5\u003C\u002Ftd>\u003Ctd>85.9%\u003C\u002Ftd>\u003Ctd>$15.00\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>Sonnet 4.6 拉近了距離\u003C\u002Fh2>\u003Cp>Rootly 的 \u003Ca href=\"https:\u002F\u002Fsreskillsbench.com\" target=\"_blank\" rel=\"noopener\">SRE-skills-bench\u003C\u002Fa> 很好讀。Sonnet 4.6 拿到 90.4%。Sonnet 4.5 只有 85.9%。這代表它一次拉高了 4.5 分。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png\" alt=\"Claude Sonnet 4.6 對上 SRE 工作更接近 Opus\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>同一時間，Opus 4.6 只比 Opus 4.5 多 0.1 分。94.7% 對 94.6%。如果只看這次更新，\u003Ca href=\"\u002Ftag\u002Fanthropic\">Anthropic\u003C\u002Fa> 明顯把進步火力放在 Sonnet 層級。\u003C\u002Fp>\u003Cp>這件事對開發者很現實。很多團隊不是每次都要最貴模型。你要的是夠準、夠快、夠省。Sonnet 4.6 在這三件事上，已經比較像能上線的選項。\u003C\u002Fp>\u003Cul>\u003Cli>Sonnet 4.6：90.4%，每百萬輸出 Token $15\u003C\u002Fli>\u003Cli>Sonnet 4.5：85.9%，每百萬輸出 Token $15\u003C\u002Fli>\u003Cli>Opus 4.6：94.7%，每百萬輸出 Token $25\u003C\u002Fli>\u003Cli>Opus 4.5：94.6%，每百萬輸出 Token $25\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>不同任務，差很多\u003C\u002Fh2>\u003Cp>Rootly 把 benchmark 拆成多個領域。這才有意思。Sonnet 4.6 在一般 SRE 知識上，甚至\u003Ca href=\"\u002Fnews\u002Fglm-52-beats-claude-semgrep-idor-test-zh\">贏過\u003C\u002Fa> Opus 4.6。AWS networking 也打平。Kubernetes 和 compute 也很接近。\u003C\u002Fp>\u003Cp>但一碰到 IAM 和 S3，差距就出來了。這兩類問題很吃權限邏輯。不是你會背名詞就行。你得真的懂 policy 怎麼交錯。\u003C\u002Fp>\u003Cp>這也解釋了為什麼 SRE \u003Ca href=\"\u002Fnews\u002Fmcp-servers-ai-workflows-explained-zh\">工具\u003C\u002Fa>不能只看總分。不同任務的難度差很多。模型路由才是比較像樣的做法。\u003C\u002Fp>\u003Cblockquote>“We experimented with our agentic workflows: investigating incidents, correlating signals, and reasoning through causal chains.” — Sylvain Kalache, Rootly\u003C\u002Fblockquote>\u003Cp>這句話很有重點。Rootly 測的不是孤立題目。它測的是事故流程。模型要先蒐證，再推理，最後才下結論。\u003C\u002Fp>\u003Cp>Rootly 公布的分項如下：\u003C\u002Fp>\u003Cul>\u003Cli>GMCQ：Sonnet 88.0%，Opus 87.0%\u003C\u002Fli>\u003Cli>Azure Compute：Sonnet 92.6%，Opus 95.6%\u003C\u002Fli>\u003Cli>Azure Storage：Sonnet 92.2%，Opus 96.1%\u003C\u002Fli>\u003Cli>Kubernetes：Sonnet 94.5%，Opus 97.3%\u003C\u002Fli>\u003Cli>AWS Compute：Sonnet 94.3%，Opus 96.6%\u003C\u002Fli>\u003Cli>AWS Network：Sonnet 97.1%，Opus 97.1%\u003C\u002Fli>\u003Cli>AWS IAM：Sonnet 85.2%，Opus 92.2%\u003C\u002Fli>\u003Cli>AWS S3：Sonnet 75.7%，Opus 91.9%\u003C\u002Fli>\u003C\u002Ful>\u003Cp>差距最大的，是 AWS S3。Opus 領先 16.2 分。AWS IAM 也差 7 分。這種題目很適合交給更強模型。其他題目就可以先讓 Sonnet 接手。\u003C\u002Fp>\u003Ch2>事故調查才是重點\u003C\u002Fh2>\u003Cp>Rootly 的意思很明確。\u003Ca href=\"\u002Fnews\u002Fkimi-2-7-price-coding-benchmark-zh\">真正的\u003C\u002Fa> AI SRE，不是做選擇題。它要讀 metrics、logs、config，還要把訊號串成一條故事線。這比單輪 code task 麻煩多了。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750773730-mu5m.png\" alt=\"Claude Sonnet 4.6 對上 SRE 工作更接近 Opus\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>在 Rootly 的內部事故集上，Sonnet 4.6 在 root-cause accuracy 上，已經很接近 Opus 4.6。某些情境下，甚至還更好。兩者都贏過 Opus 4.5。\u003C\u002Fp>\u003Cp>重點是，Sonnet 4.6 的成本低很多。Rootly 提到，這個 agentic workflow 的每 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 成本，大約少 40%。對要大量跑事故分析的團隊，這差很多。\u003C\u002Fp>\u003Cp>Anthropic 這次也放進了 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-4-6\" target=\"_blank\" rel=\"noopener\">adaptive thinking\u003C\u002Fa>。簡單說，模型可以先省著算，等證據夠了再加大推理力道。這很符合 incident response 的節奏。\u003C\u002Fp>\u003Cp>Rootly 還提到幾個對 AI SRE 很實用的功能：\u003C\u002Fp>\u003Cul>\u003Cli>1M token context window\u003C\u002Fli>\u003Cli>Context compaction，能整理長對話\u003C\u002Fli>\u003Cli>更好的 prompt-injection 抗性\u003C\u002Fli>\u003Cli>四段 effort levels：low、medium、high、max\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對團隊來說，該怎麼選\u003C\u002Fh2>\u003Cp>如果你的工具處理的是 Kubernetes、compute、一般雲端排障，Sonnet 4.6 很可能夠用。它不是只會聊天的模型。它已經能扛不少實務工作。\u003C\u002Fp>\u003Cp>但只要碰到 IAM、S3、權限邊界這種題目，Opus 還是比較穩。這種地方不要省錯錢。一次誤判，後面就會多花更多時間救火。\u003C\u002Fp>\u003Cp>所以比較合理的做法，是分流。常見問題給 Sonnet。高風險、權限重、推理長的題目給 Opus。這樣比較像工程，不像信仰。\u003C\u002Fp>\u003Cul>\u003Cli>常見事故：用 Sonnet 4.6\u003C\u002Fli>\u003Cli>權限與政策：升級到 Opus 4.6\u003C\u002Fli>\u003Cli>長上下文排查：看 1M token 是否夠用\u003C\u002Fli>\u003Cli>成本敏感團隊：先壓低平均 Token 單價\u003C\u002Fli>\u003C\u002Ful>\u003Cp>Rootly 也說，它會在每次 frontier model 發表時跑 SRE benchmark，並把結果放在 \u003Ca href=\"https:\u002F\u002Fsreskillsbench.com\" target=\"_blank\" rel=\"noopener\">sreskillsbench.com\u003C\u002Fa>。這種公開評測很有價值。因為它逼模型面對真實工作，而不是漂亮簡報。\u003C\u002Fp>\u003Ch2>這波對 AI SRE 產品很重要\u003C\u002Fh2>\u003Cp>我覺得這次最有意思的地方，不是 Sonnet 分數變高，而是「夠用」的範圍變大了。以前很多團隊會直接想上最強模型。現在可以開始算路由。\u003C\u002Fp>\u003Cp>這會影響產品設計。未來的 incident assistant，可能不是單一模型包到底。它比較像一個流程系統。不同模型處理不同 failure mode。\u003C\u002Fp>\u003Cp>對台灣團隊來說，這很實際。你如果在做內部 on-call 工具，先把高頻任務丟給 Sonnet 4.6，再把難題轉給 Opus，整體成本會比較健康。這種選法，比盲目追最貴模型更像真的上線思維。\u003C\u002Fp>\u003Cp>下一步可以觀察兩件事。第一，其他 incident 平台會不會跟進做分流。第二，Sonnet 4.6 在真實 production incident 裡，能不能持續維持這種表現。這才是最該盯的地方。\u003C\u002Fp>","Rootly 的 SRE benchmark 顯示，Claude Sonnet 4.6 在事故調查上已接近 Opus 4.6，且每百萬輸出 Token 成本低約 40%。","rootly.com","https:\u002F\u002Frootly.com\u002Fblog\u002Fclaude-sonnet-4-6-benchmark-results-and-lessons-for-ai-sre",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","research","zh","e4fcd8f3-1391-4ef3-b44d-1aab77b30fca",[17,18,19,20,21,22,23],"Claude Sonnet 4.6","Claude Opus 4.6","Rootly","SRE benchmark","incident response","AI SRE","Anthropic",[25,26,27],"Sonnet 4.6 在 Rootly 的 SRE benchmark 已接近 Opus 4.6，且便宜約 40%。","AWS S3 和 IAM 仍是 Opus 的強項，適合做模型路由。","對 AI SRE 產品來說，分流比單一最強模型更實用。",0,"2026-06-29T16:32:28.457338+00:00","2026-06-29T16:32:28.446+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":33,"relatedLang":34,"relatedPosts":38},[],{"id":15,"slug":35,"title":36,"language":37},"claude-sonnet-46-sre-benchmark-rootly-en","Claude Sonnet 4.6 narrows the SRE gap","en",[39,45,51,57,63,69],{"id":40,"slug":41,"title":42,"cover_image":43,"image_url":43,"created_at":44,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"118680f5-6212-4535-986a-50c4a0e71699","solver-choice-nash-equilibrium-selection-zh","求解器會改變納許均衡","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782714784181-t42d.png","2026-06-29T06:32:31.062308+00:00",[76,81,86,91,96,101,106,111,116,121],{"id":77,"slug":78,"title":79,"created_at":80},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":82,"slug":83,"title":84,"created_at":85},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":87,"slug":88,"title":89,"created_at":90},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]