[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-opus-48-best-benchmark-not-default-zh":3,"article-related-opus-48-best-benchmark-not-default-zh":30,"series-model-release-34a87535-6782-4b8e-99a9-dee0c09c529f":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"34a87535-6782-4b8e-99a9-dee0c09c529f","opus-48-best-benchmark-not-default-zh","Opus 4.8 是榜首，但不該成為預設模型","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> Opus 4.8 在 Nate 的基準測試拿下第一，但它不該成為所有工作流的預設模型。\u003C\u002Fp>\u003Cp>Claude Opus 4.8 是 Nate 目前基準測試裡的第一名，但我仍不會把它設成每個工作流的預設。它的 strict-average 81 分，明顯高於 GPT-5.5 的 71 分，確實把多數對手甩開；但真正重要的不是排行榜，而是它最強的地方剛好是專業 AI 工作最常失手的環節：來源紀律、可追溯性、操作判斷、自我修正，以及知道何時該停下來，不再假裝一個髒問題已經被乾淨解掉。這代表它是重大升級，不代表它能當萬用解答。\u003C\u002Fp>\u003Ch2>第一個論點\u003C\u002Fh2>\u003Cp>Opus 4.8 拿下第一名，不只是因為它會寫得更像人，而是因為它把高風險工作裡最無聊也最關鍵的部分做得更好。Nate 的拆解指出，它在 source discipline、canary handling、provenance 和 self-correction 上，都比 \u003Ca href=\"\u002Ftag\u002Fopus-47\">Opus 4.7\u003C\u002Fa> 更強。這些不是裝飾性提升，而是模型輸出會不會變危險的分水嶺：一個看起來很完整、其實證據鏈斷掉的答案，一個把資料問題蓋過去的修補方案，或是一份表面漂亮、實際隱藏不確定性的摘要。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781085788510-2eht.png\" alt=\"Opus 4.8 是榜首，但不該成為預設模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果模型真的改善了這些地方，它降低的不是打字錯誤，而是審查成本與決策風險。這也是為什麼 81 分有意義：它不是單純代表更聰明，而是代表更少需要人類事後補洞。對研究、法務、產品決策、內部\u003Ca href=\"\u002Fnews\u002Fscoredetect-ai-content-moderation-rollout-zh\">審核\u003C\u002Fa>這類工作來說，這種提升很值錢。\u003C\u002Fp>\u003Ch2>第二個論點\u003C\u002Fh2>\u003Cp>但分數高，不等於該成為預設。Nate 的測試也顯示，GPT-5.5 雖然 strict-average 只有 71 分，卻在 Artemis 的 visualisation 任務上贏過 Opus 4.8。這提醒我們：多數團隊需要的不是「全場最強」模型，而是「某一類工作最適合」的模型。如果你的日常輸出偏向視覺、前端、或 artifact-heavy 任務，那麼一個總分更高的模型，並不能直接證明它應該成為預設。\u003C\u002Fp>\u003Cp>另一個更大的警訊來自 Andon Labs 的結果：在長時間線的 business \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上，Opus 4.8 的 max effort 表現，反而比 high effort 更差，而且兩者都輸給 Opus 4.7。這不是邊角案例，而是對「把推理開到最大就會更好」這種直覺的直接反駁。更強的推理，有時會帶來漂移、額外複雜度，甚至更差的結果。也就是說，模型可以同時更驚人、也更不實用。\u003C\u002Fp>\u003Ch2>反方可能怎麼說\u003C\u002Fh2>\u003Cp>最強的反方觀點很簡單：既然 Opus 4.8 是基準測試第一名，那就應該直接標準化，別再浪費時間做模型路由。預設模型能降低認知負擔，減少團隊混亂，也避免每次都靠主觀偏好選模型。若一個模型在審查品質上持續最好，那最\u003Ca href=\"\u002Fnews\u002Fkernel-org-turns-linux-source-into-one-safe-hub-zh\">安全\u003C\u002Fa>的組織策略，就是全面採用它，接受多一點成本或延遲。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781085776234-iips.png\" alt=\"Opus 4.8 是榜首，但不該成為預設模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個論點不是空話。對重視正確性勝過吞吐量的團隊來說，單一預設也能讓文件、 prompt 設計與評估流程更一致。大家都用同一個模型，團隊就更容易建立可重複的工作流，也更容易比較結果。在組織很亂的情況下，一致性本身就有價值。\u003C\u002Fp>\u003Cp>但這個論點最後還是敗在同一個地方：工作類型。Nate 的例子已經顯示 Opus 4.8 並非全域最佳，而 Andon Labs 的測試更證明，推理強度拉高不一定帶來更好的長任務結果。預設模型只有在跨越所有工作型態都夠穩時才合理；Opus 4.8 不是那種模型。它適合來源敏感、判斷密集、需要反覆校正的任務，\u003Ca href=\"\u002Fnews\u002Fsightengine-visual-moderation-right-choice-zh\">不適合\u003C\u002Fa>視覺工作、長鏈 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> loop，或任何比深度推理更重視速度與狀態維持的流程。\u003C\u002Fp>\u003Ch2>你能做什麼\u003C\u002Fh2>\u003Cp>如果你是工程師、PM 或創辦人，別再問哪個模型贏了排行榜，改問它最常在哪種失敗模式裡出錯。把 Opus 4.8 用在 provenance、修正、判斷最重要的任務：研究整理、審查、模糊分析、高風險修改。把 GPT-5.5 或 \u003Ca href=\"\u002Ftag\u002Fcodex\">Codex\u003C\u002Fa> 留給更偏 artifact、視覺、執行導向的工作。長時間 agent loop 先不要預設 max reasoning，先在你自己的任務上做小規模測試，再決定是否標準化。真正有效的工作流，不是同一個模型包辦一切，而是一組模型分別處理你最不能接受的錯誤。\u003C\u002Fp>","Claude Opus 4.8 在 Nate 的基準測試拿下第一，但它更適合當專家模型，不適合直接成為所有工作流的預設。","natesnewsletter.substack.com","https:\u002F\u002Fnatesnewsletter.substack.com\u002Fp\u002Fopus-48-benchmark-model-selection",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781085788510-2eht.png","model-release","zh","2eca32d0-5bb0-45b0-9cab-bec5eb6ab720",[17,18,19,20,21],"Claude Opus 4.8","benchmark","model routing","max reasoning","AI workflow",[23,24,25],"Opus 4.8 的確是基準測試第一名，但它強在審查、來源與修正，不代表適合當萬用預設。","高推理強度不等於更好，長任務與 agent loop 可能因 effort 拉高而變差。","實務上應該按失敗模式路由模型，而不是只看總分決定一切。",0,"2026-06-10T10:02:22.314699+00:00","2026-06-10T10:02:22.301+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,34,35,37,39],{"name":20,"slug":33},"max-reasoning",{"name":18,"slug":18},{"name":19,"slug":36},"model-routing",{"name":21,"slug":38},"ai-workflow",{"name":17,"slug":40},"claude-opus-48",{"id":15,"slug":42,"title":43,"language":44},"opus-48-best-benchmark-not-default-en","Opus 4.8 is the best model in the benchmark, not the default","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"af1e6b52-469d-42aa-a9fc-539f4d65e9b3","chatgpt-adult-mode-paused-may-2026-zh","ChatGPT 成人模式仍未開放","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781105573638-ehrx.png","2026-06-10T15:32:26.046475+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"c1351099-77ed-4b98-a9ce-e8922c5151a6","claude-opus-4-8-api-pricing-benchmarks-openrouter-en-zh","Claude Opus 4.8 上架：$5\u002F$25、1M 上下文","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781086670981-8nor.png","2026-06-10T10:17:24.721333+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"466021f3-b8a4-4ecb-ad64-8070beaf9cbc","gemini-1-5-pro-002-flash-002-2-0-flash-update-zh","Gemini 1.5 與 2.0 Flash 更新上線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780999389960-97qh.png","2026-06-09T10:02:27.849751+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"66ce4542-3c93-4a0c-ab52-5e6f90a36212","minimax-m3-kai-fang-quan-zhong-xie-cheng-shi-reng-neng-ying-zh","MiniMax M3 證明開放權重在寫程式上仍能贏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780968786191-lele.png","2026-06-09T01:32:30.829528+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"948a7dc4-b172-42f9-9bef-abcbbffaca18","gemini-35-flash-pricing-benchmarks-zh","Gemini 3.5 Flash 價格與長上下文解析","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780840978961-6b9n.png","2026-06-07T14:02:29.835438+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"5507f140-5223-4f68-ade6-30d9e5457638","gemma-4-12b-specs-benchmarks-run-locally-zh","怎麼做 Gemma 4 12B 本地部署","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780777971165-4bit.png","2026-06-06T20:32:24.857611+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]