[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-cursor-composer-2-agentic-coding-model-zh":3,"article-related-cursor-composer-2-agentic-coding-model-zh":27,"series-model-release-c4b6186f-bd84-4598-997e-c6e31d543c0d":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":11,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":26,"topic_cluster_id":11},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","\u003Cp>Cursor 推出 \u003Ca href=\"https:\u002F\u002Fcursor.com\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 的 \u003Ca href=\"https:\u002F\u002Fcursor.com\u002Fblog\u002Fcomposer-2\" target=\"_blank\" rel=\"noopener\">Composer 2\u003C\u002Fa>。它在 CursorBench 拿到 61.3，Terminal-Bench 2.0 拿到 61.7。這不是聊天玩具。它是要進 IDE 幫你改檔、跑測試、繼續做下去。\u003C\u002Fp>\u003Cp>講白了，AI 寫碼工具正在換檔。以前大家看重補全。現在大家看重 agent。能不能自己拆任務、動多個檔案、把 PR 推進到可合併，這才是重點。對工程團隊來說，少切幾次視窗，往往比多講幾句廢話更值錢。\u003C\u002Fp>\u003Cp>我覺得這波很現實。買單的人不在乎模型會不會寫詩。他們在乎每週能關幾個 PR，還有 token 帳單會不會炸掉。Composer 2 就是衝著這種需求來的。\u003C\u002Fp>\u003Ch2>Cursor 這次到底端了什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fcursor.com\u002Fblog\u002Fcomposer-2\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 在 2026 年 3 月 19 日發表 Composer 2。公司母體是 \u003Ca href=\"https:\u002F\u002Fanysphere.co\" target=\"_blank\" rel=\"noopener\">Anysphere\u003C\u002Fa>。它的定位很直接：這是給開發流程用的模型，不是萬用聊天機器人。\u003C\u002Fp>\u003Cp>它可以看程式碼、改多個檔案、呼叫工具，還能在長任務裡持續工作。這種能力很重要。因為真實專案裡，常常不是寫一段函式就結束。你還要補測試、修 lint、看 CI log，然後再修一次。\u003C\u002Fp>\u003Cp>Cursor 公布的重點數字很清楚。它把 Composer 2 放在自己的 editor 裡測，這點也很關鍵。因為 Cursor 不是只賣 API。它直接握著工作流程，能看到模型在真實開發場景裡怎麼死、怎麼活。\u003C\u002Fp>\u003Cul>\u003Cli>CursorBench：61.3\u003C\u002Fli>\u003Cli>Terminal-Bench 2.0：61.7\u003C\u002Fli>\u003Cli>SWE-bench Multilingual：73.7\u003C\u002Fli>\u003Cli>標準價格：每 1,000 input tokens 收 $0.50\u003C\u002Fli>\u003Cli>標準價格：每 1,000 output tokens 收 $2.50\u003C\u002Fli>\u003Cli>Fast 版：吞吐更高，但價格是 5 倍\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字代表的意思不難懂。Composer 2 不是想當全能型助理。它想當一個會做事的 coding worker。能在 repo 裡跑，能在 terminal 裡查，能在多步驟任務裡不亂掉，這才是它的賣點。\u003C\u002Fp>\u003Ch2>為什麼架構會影響體感\u003C\u002Fh2>\u003Cp>Cursor 說 Composer 2 延續了 \u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FMixture_of_experts\" target=\"_blank\" rel=\"noopener\">mixture-of-experts\u003C\u002Fa> 架構。意思是，不是每次都把全部參數打開。模型會把工作路由到少數 expert。這樣做，算力用得更省，回應也能更快。\u003C\u002Fp>\u003Cp>這件事對 agentic coding 很重要。因為 agent 不是只吐一句答案。它要讀檔、推理、改 patch、看 log、再 retry。每一步都慢，開發者就會開始罵人。每一步都夠快，體感就像旁邊多了一個 junior engineer。\u003C\u002Fp>\u003Cp>Cursor 也提到，它用 sandboxed coding 環境做了 reinforcement learning。簡單說，就是把模型丟進像真的開發任務裡，訓練它怎麼用工具、怎麼動檔案、怎麼面對失敗的測試。這比單純拿網頁文字做訓練，實用很多。\u003C\u002Fp>\u003Cul>\u003Cli>MoE 讓每個 token 不必動用全部參數\u003C\u002Fli>\u003Cli>Sandbox 訓練強化工具使用能力\u003C\u002Fli>\u003Cli>長任務需要模型記住前後文脈絡\u003C\u002Fli>\u003Cli>IDE 整合讓模型直接碰 terminal 和 worktree\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也是為什麼我會把 Composer 2 跟一般聊天模型分開看。寫碼 agent 常死在很無聊的地方。它可能改錯檔，忘記前面說過的限制，或是做一半就停。能在 repo 工作流裡訓練過的模型，至少比較懂這些坑。\u003C\u002Fp>\u003Ch2>分數、價格、還有大家最在意的比較\u003C\u002Fh2>\u003Cp>Cursor 的說法很明白。Composer 2 在 CursorBench 比 Composer 1.5 高 38%。Terminal-Bench 2.0 則拿到 61.7。對常常要跑多輪修 bug 的團隊來說，這種分數不是裝飾品。它會直接影響你要不要續訂。\u003C\u002Fp>\u003Cp>價格也很有意思。標準版是每 1,000 input tokens 收 $0.50，每 1,000 output tokens 收 $2.50。這個定價把它放在不少 frontier 模型之下。對高用量團隊來說，這種差距會很有感。因為寫碼 agent 很容易吃 token，尤其是大型 repo。\u003C\u002Fp>\u003Cp>Cursor 也有 Fast 版。它的吞吐更高，但價格是 5 倍。這很像拿錢換時間。你如果在趕版號，可能會想開。你如果只是做一般 refactor，標準版可能比較合理。\u003C\u002Fp>\u003Cul>\u003Cli>Composer 2 標準版：$0.50 \u002F 1,000 input tokens\u003C\u002Fli>\u003Cli>Composer 2 標準版：$2.50 \u002F 1,000 output tokens\u003C\u002Fli>\u003Cli>Composer 2 Fast：吞吐更高，價格 5 倍\u003C\u002Fli>\u003Cli>Composer 1.5：分數較低，長任務能力較弱\u003C\u002Fli>\u003Cli>GPT-5、Claude Opus 級模型：通常泛用推理更強，但成本也更高\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但我得吐槽一下。benchmark 再漂亮，也不等於真實開發現場就贏。Cursor 沒把每次跑分的 seed、硬體、完整流程全公開。這不代表分數沒用。只是你不能直接把它當成最後答案。\u003C\u002Fp>\u003Cblockquote>“The model is only as good as the workflow around it.” — Andrej Karpathy, X post, 2023\u003C\u002Fblockquote>\u003Cp>Karpathy 這句話很適合拿來看 Composer 2。模型本身很重要。可是真正決定體感的，還有 editor、terminal、權限、review 流程。Cursor 的優勢，就是它把這些東西綁在一起。\u003C\u002Fp>\u003Ch2>企業為什麼會盯上它\u003C\u002Fh2>\u003Cp>Cursor 不是只在小圈子裡玩。它已經進到不少工程團隊裡。這代表 Composer 2 不是只要在 demo 裡會講話。它要在真實公司裡交作業。\u003C\u002Fp>\u003Cp>Tom’s Hardware 報導，\u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 內部有超過 30,000 個 Cursor 席位。公司也提過，程式碼產出比起 AI 之前的基準，已經變成 3 倍。這種數字，採購跟主管都會看。\u003C\u002Fp>\u003Cp>企業會在意的東西很務實。像 audit logs、sandboxed terminals、isolated worktrees、commit signing，這些都不是花拳繡腿。這些是讓 agent 能進公司流程的門票。沒有這些，很多法遵團隊根本不會點頭。\u003C\u002Fp>\u003Cul>\u003Cli>NVIDIA 內部超過 30,000 個 Cursor 席位\u003C\u002Fli>\u003Cli>公司宣稱程式碼產出達到 3 倍\u003C\u002Fli>\u003Cli>Audit logs 方便追查修改紀錄\u003C\u002Fli>\u003Cli>Sandboxed execution 降低危險操作外溢\u003C\u002Fli>\u003C\u002Ful>\u003Cp>但企業買不買，最後還是看結果。最難的不是寫出一段 patch。最難的是處理 flaky CI、半套 migration、還有那種靠 side effect 活著的老舊 codebase。這種環境，才是 agent 的照妖鏡。\u003C\u002Fp>\u003Ch2>產業脈絡沒有那麼浪漫\u003C\u002Fh2>\u003Cp>AI coding 工具這兩年變得很擠。\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeepmind.google\" target=\"_blank\" rel=\"noopener\">Google DeepMind\u003C\u002Fa> 都在往這裡壓。大家都知道，光會聊天不夠。要能動手做事，才有機會留在工作流裡。\u003C\u002Fp>\u003Cp>這也是為什麼 Cursor 的策略很聰明。它不是只賣模型。它賣的是整個寫碼介面。模型、editor、terminal、worktree、review，一起包進去。這種整合，讓它比純 API 供應商更容易觀察使用情境。\u003C\u002Fp>\u003Cp>不過，這條路也很吃驗證。外部團隊還是會想看獨立測試。尤其是同樣任務下，誰的完成率高，誰的 token 花費低，誰的延遲短。這些才是工程主管會拿來算帳的數字。\u003C\u002Fp>\u003Cp>我的判斷很直接。Composer 2 不是來跟聊天機器人比嘴砲。它是來搶「幫你把任務做完」的位置。這個位置很值錢，也很難守。因為只要模型在真實 repo 裡出一次包，信任就會掉得很快。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>我會先看兩件事。第一，第三方能不能重跑出接近的分數。第二，實際團隊用起來，token 成本是不是真的壓得住。這兩件事，比 launch thread 的聲量重要太多。\u003C\u002Fp>\u003Cp>如果你是台灣的工程團隊，我建議先拿一個非核心 repo 試。挑一個有多檔案修改、測試、跟簡單重構的任務。看它能不能自己走完。再看它的失敗率、重試次數、和每個 merged change 的成本。這比看簡報準多了。\u003C\u002Fp>\u003Cp>我的預測很簡單。接下來 6 到 12 個月，寫碼 agent 會從「幫你補字」變成「幫你收尾」。誰能把收尾做穩，誰就比較有機會留在 IDE 裡。你如果現在就在評估工具，別只看模型分數。直接跑一個小型 pilot，答案會比較誠實。\u003C\u002Fp>","Cursor 推出 Composer 2，CursorBench 61.3、Terminal-Bench 2.0 61.7，主打代理式寫碼與高量產團隊的成本效率。","www.aicerts.ai","https:\u002F\u002Fwww.aicerts.ai\u002Fnews\u002Fcursor-composer-2-frontier-agentic-coding-model-debuts\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774497597106-o12v.png","model-release","zh","d23cd5f6-f875-49f5-b53b-1c5416d13d99",[17,18,19,20,21,22,23,24],"Cursor","Composer 2","agentic coding","AI寫碼","Terminal-Bench 2.0","CursorBench","LLM","IDE",11,"2026-03-28T03:13:06.422716+00:00",{"tags":28,"relatedLang":40,"relatedPosts":44},[29,31,33,36,38],{"name":17,"slug":30},"cursor",{"name":23,"slug":32},"llm",{"name":34,"slug":35},"Terminal Bench 2.0","terminal-bench-20",{"name":19,"slug":37},"agentic-coding",{"name":20,"slug":39},"ai寫碼",{"id":15,"slug":41,"title":42,"language":43},"cursor-composer-2-agentic-coding-model-en","Cursor Composer 2 Bets on Agentic Coding","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"cfb68e08-fe4e-49f6-b449-e566faf56311","kimi-2-7-price-coding-benchmark-zh","Kimi 2.7 讓價格成為真正的寫碼基準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782746270225-tcs9.png","2026-06-29T15:17:24.321277+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"ca1e6960-10e7-4fa7-949f-c5991c99fc7e","kimi-k26-open-source-coding-agentic-ai-benchmarks-zh","Kimi K2.6 登頂程式與代理式 AI 基準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782739078329-qvne.png","2026-06-29T13:17:26.530857+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"edf8e66b-c717-4cc1-b15a-96839bb7bbcf","llama-legends-380-season-3-heroes-raids-zh","Llama Legends 3.8.0 推出 Season 3 英雄與突襲","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782711179415-qurv.png","2026-06-29T05:32:32.733919+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"88d353ca-468b-4774-922d-ef0cbc2edd68","omlx-045-dev1-glm52-minimax-m3-speedups-zh","oMLX 0.4.5.dev1 讓長上下文更快","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782709372375-25nm.png","2026-06-29T05:02:28.341041+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"e6ae84b6-4e55-4ab2-a1cf-4a08e23cbc77","grok-45-private-beta-tesla-spacex-zh","Grok 4.5 先進 Tesla 和 SpaceX 內測","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782687769532-te5b.png","2026-06-28T23:02:22.915901+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"186b266a-5b45-4bd4-85a4-5fa62fcc50dc","google-openrl-llm-fine-tuning-kubernetes-zh","Google OpenRL 把 RL 細調搬上 Kubernetes","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782572576166-gzxw.png","2026-06-27T15:02:27.036919+00:00",[82,87,92,97,102,107,112,113,118,123],{"id":83,"slug":84,"title":85,"created_at":86},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":4,"slug":5,"title":6,"created_at":26},{"id":114,"slug":115,"title":116,"created_at":117},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]