[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-claude-mythos-vs-opus-46-capability-jump-zh":3,"article-related-claude-mythos-vs-opus-46-capability-jump-zh":27,"series-model-release-2478aa0c-2f56-447c-8fff-419d35183405":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":24,"created_at":25,"published_at":26,"topic_cluster_id":11},"2478aa0c-2f56-447c-8fff-419d35183405","claude-mythos-vs-opus-46-capability-jump-zh","Claude Mythos 跟 Opus 4.6 差多少","\u003Cp>Anthropic 這波傳聞很有戲。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 內部疑似有新模型 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude Opus 4.6\u003C\u002Fa> 之上。外流截圖還指向一個名字：Mythos。\u003C\u002Fp>\u003Cp>最誇張的數字在 \u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench Verified\u003C\u002Fa>。傳聞裡，Mythos 落在 80 分後段。Opus 4.6 則在 70 分前段。差距不是小修小補，已經像換了一顆等級不同的晶片。\u003C\u002Fp>\u003Cp>我覺得這件事值得看。因為現在選 LLM，不只是看會不會聊天。你是要拿它寫程式、做推理、看資安題。這些場景裡，5 分差距都可能很有感，更別說十幾分。\u003C\u002Fp>\u003Ch2>外流數字到底在講什麼\u003C\u002Fh2>\u003Cp>先講白了。這些分數不是官方發布。它們比較像訓練中的截圖。也就是說，\u003Ca href=\"\u002Fnews\u002Fanthropic-accidentally-exposes-claude-agent-code-zh\">Anth\u003C\u002Fa>ropic 可能還在調參，最後上線版本不一定一樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125819094-xhdz.png\" alt=\"Claude Mythos 跟 Opus 4.6 差多少\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但外流內容的方向很一致。Mythos 被放在 Opus 4.6 上面。強項也很明確。寫程式、解題、資安分析，三個都在榜上。這代表它不是只想拿來聊天。\u003C\u002Fp>\u003Cp>Anthropic 的命名也有脈絡。Haiku、Sonnet、Opus，一直是能力分層。現在多一個 Mythos，通常不是隨便取名。這種命名常常暗示新旗艦，或至少是另一條產品線。\u003C\u002Fp>\u003Cul>\u003Cli>Mythos 目前沒有正式發布。\u003C\u002Fli>\u003Cli>外流內容把它放在 Opus 4.6 之上。\u003C\u002Fli>\u003Cli>最強的項目是 coding、reasoning、security。\u003C\u002Fli>\u003Cli>最後上線分數可能和截圖不同。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以別把它當成最終規格表。比較合理的讀法，是把它當成方向指標。Anthropic 可能真的在準備一個更猛的旗艦模型。\u003C\u002Fp>\u003Cp>而且這種外流也常有時間差。截圖可能來自某次 checkpoint。後面如果又做了 safety tuning，分數就會變動。這很正常，別太快下結論。\u003C\u002Fp>\u003Ch2>為什麼 SWE-bench 這麼重要\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench Verified\u003C\u002Fa> 很像真實世界的考卷。它不是叫模型亂寫一段程式碼。它是要模型去修真實 GitHub issue。這差很多。\u003C\u002Fp>\u003Cp>因為真正難的地方，不是語法。是理解 repo。是看懂上下文。是知道哪個檔案該改，哪個地方不能動。還要避免修 bug 時順手弄出新 bug。\u003C\u002Fp>\u003Cp>Opus 4.6 本來就不弱。公開社群與測試追蹤常把它放在 70 分左右。這已經是很能打的水準。可如果 Mythos 真能衝到 80 分後段，那就不是一點點進步。\u003C\u002Fp>\u003Cul>\u003Cli>Opus 4.6 約在 72% 到 73%。\u003C\u002Fli>\u003Cli>Mythos 傳聞約在 84% 到 87%。\u003C\u002Fli>\u003Cli>差距大約 12 到 15 分。\u003C\u002Fli>\u003Cli>測的是實際 GitHub issue，不是玩具題。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對開發者來說，這差距很實際。因為 agent 工作流最怕反覆修正。模型如果第一次就能修對更多 bug，人工介入就會少很多。\u003C\u002Fp>\u003Cp>還有測試撰寫也會受影響。好的 coding model 不只是會補程式。它還要會補測試，會找出 failure path，會看 stack trace。這些都很吃上下文理解。\u003C\u002Fp>\u003Ch2>推理與數學，才是硬仗\u003C\u002Fh2>\u003Cp>推理類 benchmark 一直很擠。大家都在同一個分數帶打架。像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness\u002Ftree\u002Fmain\u002Flm_eval\u002Ftasks\u002Fgpqa\" target=\"_blank\" rel=\"noopener\">GPQA Diamond\u003C\u002Fa> 這種題目，差 2 分都可能很有感。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125833639-qtqm.png\" alt=\"Claude Mythos 跟 Opus 4.6 差多少\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>GPQA Diamond 是研究所等級的科學題。題目涵蓋生物、化學、物理。它專門抓模型的弱點。光靠語料拼湊，通常很難過關。\u003C\u002Fp>\u003Cp>外流內容說 Mythos 在這類題目上更高。這代表它可能比較會處理多步驟推理。也比較不會在最後一步翻車。說真的，這比單純會講漂亮話重要多了。\u003C\u002Fp>\u003Cblockquote>“The models are getting better at reasoning, but they still make mistakes in ways that are hard to predict.” — Dario Amodei, Anthropic CEO，受訪於 \u003Ca href=\"https:\u002F\u002Fwww.wired.com\u002Fstory\u002Fanthropic-dario-amodei-interview-ai-safety\u002F\" target=\"_blank\" rel=\"noopener\">WIRED\u003C\u002Fa>\u003C\u002Fblockquote>\u003Cp>數學也是一樣。像 \u003Ca href=\"https:\u002F\u002Fartofproblemsolving.com\u002Fwiki\u002Findex.php\u002FAIME\" target=\"_blank\" rel=\"noopener\">AIME\u003C\u002Fa> 類型題目，重點不是背答案。重點是連續推導。一步錯，後面全歪。\u003C\u002Fp>\u003Cp>如果 Mythos 在這塊真有提升，那對金融分析、科學研究、長鏈 agent 都很有用。因為這些工作最怕一個小算錯，整份結果一起壞掉。\u003C\u002Fp>\u003Cul>\u003Cli>GPQA Diamond 偏向研究所等級科學推理。\u003C\u002Fli>\u003Cli>Mythos 傳聞進到低到中 80 分。\u003C\u002Fli>\u003Cli>AIME 類題目很吃多步計算。\u003C\u002Fli>\u003Cli>數學錯誤會在 agent 流程裡連鎖放大。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>講白了，如果 Opus 4.6 已經能做事，Mythos 可能是比較少出糗的版本。差別不只在分數。差別在你要不要一直人工盯著它。\u003C\u002Fp>\u003Ch2>資安分數為什麼最敏感\u003C\u002Fh2>\u003Cp>最有意思的是資安。Anthropic 一直很在意危險能力評估。因為模型一旦太會看漏洞，防守方會受益，攻擊方也會受益。\u003C\u002Fp>\u003Cp>這就是雙面刃。模型能幫紅隊、幫 bug bounty、幫 CVE 分析，也可能被拿去做更糟的事。能力越強，控制就越重要。\u003C\u002Fp>\u003Cp>Anthropic 自己的 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fanthropics-approach-to-responsible-scaling\" target=\"_blank\" rel=\"noopener\">Responsible Scaling Policy\u003C\u002Fa> 也在講這件事。它會先測危險能力，再決定怎麼放大使用範圍。這不是公關話術，是產品門檻。\u003C\u002Fp>\u003Cul>\u003Cli>資安能力強，對防守方很有幫助。\u003C\u002Fli>\u003Cli>同時也可能被攻擊者拿去用。\u003C\u002Fli>\u003Cli>Anthropic 會先做能力測試。\u003C\u002Fli>\u003Cli>外流內容暗示 Mythos 比 Opus 4.6 更強。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你是防守方，這是好消息。你可能拿到更強的漏洞分析、威脅建模、CVE 解讀工具。可是如果控管不好，風險也會一起上升。\u003C\u002Fp>\u003Cp>所以資安分數才會這麼敏感。它不是單純的技術成績。它直接碰到部署策略、權限設計、甚至產品審核流程。\u003C\u002Fp>\u003Ch2>怎麼看這種外流，不要看歪\u003C\u002Fh2>\u003Cp>外流 benchmark 很容易被看過頭。因為它通常只是一個 checkpoint。模型還沒正式上線。後面可能還有對齊、修正、安全處理。\u003C\u002Fp>\u003Cp>還有一個問題是選擇性曝光。公司通常只會放最好看的部分。外流截圖也是一樣。你看到的可能是強項，不是全貌。\u003C\u002Fp>\u003Cp>再來，真實世界比 benchmark 難很多。你的 repo 可能很亂。文件可能過時。商業邏輯可能一堆例外。這些都不是單一分數能完全反映的。\u003C\u002Fp>\u003Cul>\u003Cli>benchmark 分數會在發布前變動。\u003C\u002Fli>\u003Cli>外流內容可能只挑了強項。\u003C\u002Fli>\u003Cli>真實工作比測試題更混亂。\u003C\u002Fli>\u003Cli>獨立評測比截圖更可靠。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但外流還是有價值。它至少告訴你一件事。Anthropic 很可能在做一個更適合 agent 工作的模型。這種模型不只會回答，還能真的動手。\u003C\u002Fp>\u003Cp>如果你在做 AI 產品，重點就很直接。它能不能少讓人修。它能不能少出錯。它能不能讓流程更短。這些才是你會不會換模型的理由。\u003C\u002Fp>\u003Ch2>跟其他模型比，差在哪\u003C\u002Fh2>\u003Cp>如果拿 Anthropic 自家產品來看，Opus 一直是高階線。Sonnet 偏實用。Haiku 偏便宜快。Mythos 若真存在，而且分數像外流那樣高，那它會更像旗艦中的旗艦。\u003C\u002Fp>\u003Cp>跟 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT 系列比，Anthropic 的強項常在長上下文、文字穩定度、以及 coding workflow。這不是絕對，但很多團隊是這樣感受的。若 Mythos 再把 coding 拉高，差距會更明顯。\u003C\u002Fp>\u003Cp>跟 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> 現有旗艦比，最值得注意的是「需要多少人工盯場」。如果一個模型能少犯幾個 repo 級錯誤，團隊就能省掉不少 review 時間。\u003C\u002Fp>\u003Cul>\u003Cli>Opus 偏高階通用。\u003C\u002Fli>\u003Cli>Sonnet 偏平衡。\u003C\u002Fli>\u003Cli>Haiku 偏速度與成本。\u003C\u002Fli>\u003Cli>Mythos 若屬實，可能更偏 agent 與重任務。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡還有成本問題。模型越強，通常越貴。對公司來說，不是分數高就一定買單。你要算 token 成本、延遲、錯誤率、人工修正時間。\u003C\u002Fp>\u003Cp>所以真正的比較，不是誰分數最高。是誰最適合你的工作流。這點很多人會忽略，但實務上超重要。\u003C\u002Fp>\u003Ch2>產業脈絡：大家都在往 agent 走\u003C\u002Fh2>\u003Cp>這波傳聞之所以重要，是因為整個產業都在往 agent 走。現在不是只比聊天順不順。是比誰比較能自己做事。這包含寫 code、查資料、跑工具、改檔案。\u003C\u002Fp>\u003Cp>LLM 進到這個階段，benchmark 的意義也變了。以前看字面回答。現在看任務完成率。SWE-bench、GPQA、資安測試，這些都比單純對話更接近真實需求。\u003C\u002Fp>\u003Cp>開發者的使用方式也在變。以前是問答。現在是把模型塞進 CI、IDE、客服系統、研究助手。模型一旦更穩，整條流程都會變順一點。\u003C\u002Fp>\u003Cp>這也是為什麼 Anthropic 這種公司很在意安全。因為能力越往上，產品就越像基礎設施。不是單一功能，而是整個工作流的一部分。\u003C\u002Fp>\u003Ch2>現在最實際的做法\u003C\u002Fh2>\u003Cp>如果你已經在用 \u003Ca href=\"\u002Fnews\u002Fopenclaw-testing-china-ai-ambitions-zh\">Cla\u003C\u002Fa>ude，我會建議你先準備自己的測試集。不要只看外流分數。拿你自己的 repo、你自己的 bug、你自己的 pro\u003Ca href=\"\u002Fnews\u002Ftempo-launches-ai-payment-protocol-zh\">mp\u003C\u002Fa>t 去跑。\u003C\u002Fp>\u003Cp>如果 Mythos 真的上線，而且分數接近外流說法，那它很可能在 code review、debug、資安輔助上很有感。尤其是需要多步推理的任務，差距應該會更明顯。\u003C\u002Fp>\u003Cp>我的預測很直接：如果 Anthropic 把 Mythos 推到市場，開發者會把它當成高風險任務用的模型。不是拿來閒聊。是拿來修真的東西。你現在就該先想，哪些工作值得升級，哪些工作沒必要多花錢。\u003C\u002Fp>\u003C\u002Fp>","Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實，開發者會感受到明顯差距。","www.mindstudio.ai","https:\u002F\u002Fwww.mindstudio.ai\u002Fblog\u002Fclaude-mythos-vs-opus-4-6-capability-comparison",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775125819094-xhdz.png","model-release","zh","8958b20f-16e9-4838-b10e-d75865a3a3e5",[17,18,19,20,21,22,23],"Claude Mythos","Claude Opus 4.6","Anthropic","SWE-bench Verified","LLM benchmark","AI coding","資安模型",4,"2026-04-02T09:09:38.488815+00:00","2026-04-02T09:09:38.46+00:00",{"tags":28,"relatedLang":40,"relatedPosts":44},[29,30,32,34,36,38],{"name":23,"slug":23},{"name":19,"slug":31},"anthropic",{"name":20,"slug":33},"swe-bench-verified",{"name":22,"slug":35},"ai-coding",{"name":17,"slug":37},"claude-mythos",{"name":21,"slug":39},"llm-benchmark",{"id":15,"slug":41,"title":42,"language":43},"claude-mythos-vs-opus-46-capability-jump-en","Claude Mythos vs Opus 4.6: How Big Is the Jump?","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"b5926931-ce20-4b9d-8814-a3c960187209","what-we-know-about-gpt-56-release-date-zh","GPT-5.6 何時發布？目前線索整理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780574585815-dzo7.png","2026-06-04T12:02:35.122398+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"1985ce38-03c6-4968-96fa-b751553bbef3","why-claude-opus-48-is-not-the-big-story-zh","為什麼 Claude Opus 4.8 不是大新聞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780531367297-nrfs.png","2026-06-04T00:02:24.633987+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"8810b91a-9aa2-4cd6-a58b-18fad5897423","devin-booker-sedona-mcdonalds-shoe-launch-zh","Booker把Sedona麥當勞變鞋款發表場","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780510686292-fm1k.png","2026-06-03T18:17:31.966783+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"d4d7e664-cc7f-4211-a733-b7c111b86bd6","best-open-source-llms-2026-ranked-zh","2026 最佳開源 LLM 排名","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780396385004-yyka.png","2026-06-02T10:32:37.264398+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"06774dfe-08eb-4a53-a8f7-36389b462c2b","llama-3-1-70b-specs-benchmarks-deployment-zh","Llama 3.1 70B：規格與部署","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780395481064-5yri.png","2026-06-02T10:17:33.072306+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"e8ee6f00-cf62-41e6-83b7-92ce148fe46e","kill-bill-whole-bloody-affair-4k-blu-ray-zh","《追殺比爾：血腥全集》4K 藍光上市","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780364908972-15qn.png","2026-06-02T01:48:00.707278+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]