Anthropic 自己的數據已經證明：AI 正在幫 AI 進步

OraCore Editors

返回首頁

[RSCH] 2026年6月12日4 分鐘閱讀OraCore 編輯部

Anthropic 自己的數據已經證明：AI 正在幫 AI 進步

Anthropic 的內部與外部數據都顯示，AI 已經開始加速 AI 開發；這不是未來想像，而是今天就該警惕的工程現實。

Anthropic

分享 LinkedIn

Anthropic 的數據顯示，AI 已經在加速 AI 開發本身。

我站在明確的一邊：AI 正在幫 AI 進步，而且這件事已經不是科幻，而是工程流程的現實。Anthropic 自己公布的資料很直接，到了 2026 年 5 月，超過 80% 的合併程式碼由 Claude 撰寫，工程師產出也比 2024 年高出約 8 倍。這不是單純的效率優化，而是研發結構改變，因為寫程式、審程式、測程式，已經有相當一部分交給模型接手。

第一個論點：AI 已經在實驗室內形成複利

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Anthropic 最有力的證據，不是某個榜單分數，而是內部勞動分工的轉移。Claude Code 在 2025 年初推出前，Claude 參與撰寫的程式碼還只在個位數百分比；到 2026 年 5 月，這個比例已經突破 80%。這代表公司不再只是把 AI 當作建議層，而是把它放進生產層，由工程師負責定義問題、審查結果，而不是逐行手寫。

這件事重要，因為複利從工具變成機器的一部分時才真正開始。Anthropic 表示，工程師現在每季交付的程式碼量，已經比 2021 到 2025 年間高出約 8 倍，而且當模型開始能更長時間自主工作後，曲線還進一步變陡。即使程式碼行數不能完全等同生產力，方向也很清楚：瓶頸已從「寫出程式」轉成「監督程式生成」。

第二個論點：外部基準也在同一方向上加速

Anthropic 的外部數據和內部數據互相印證。模型能穩定獨立完成的任務，正以大約每四個月翻倍的速度成長，快於先前約七個月的節奏。例子很具體：Claude Opus 3 在 2024 年 3 月能處理人類約 4 分鐘的工作；一年後，Sonnet 3.7 能處理約 90 分鐘的工作；再一年後，Opus 4.6 已經能處理 12 小時的任務。若這條曲線延續，日級任務今年就會進入可處理範圍，週級任務則可能在 2027 年出現。

軟體與研究基準測試也在說同一件事。SWE-bench 在兩年內從低個位數進到飽和，CORE-Bench 這類測試模型能否重現已發表研究的基準，則從 2024 年約 20% 成功率，在 15 個月內接近飽和。這些不是花俏指標，它們測的是模型能不能真的執行會餵養下一代模型的工作。當模型能穩定重現、除錯、優化這條管線，距離「協助」和「自我改進」就會急速縮短。

反方可能怎麼說

嚴肅的反對意見也成立：Anthropic 距離一個能自己決定目標、判斷研究方向、端到端重設自身的模型，還差得很遠。公司自己也承認，Claude 已經能執行定義清楚的工作，甚至在某些實驗上接近或超過熟練人類，但它在判斷、目標選擇、以及長鏈條優先順序上仍然落後。這個落差是真實的，也正是「強力編碼代理」和「真正閉環自我改進系統」之間的分界。

另一個質疑是衡量方式本身有問題。程式碼行數只是粗糙代理，基準測試飽和也不等於通用智能。能在 SWE-bench 上大勝的模型，仍可能在組織判斷、安全權衡、或長期策略上失手。前沿 AI 最重要的工作不只是實作，而是決定該做什麼、該測什麼、以及該相信什麼。

但這些反駁無法推翻核心結論。遞迴式自我改進不需要第一天就完全自治，它只需要足夠的能力，把研發管線一步一步從人轉到機器，直到機器承擔越來越多「改善下一代機器」的工作。Anthropic 自己的數據已經顯示這個轉移正在發生。等到完美閉環才重視，屬於分類錯誤。

你能做什麼

如果你是工程師，別再把 AI 當成更快的自動補全，而要把它當成會改變 review、測試、incident response 的勞動乘數；如果你是 PM，要把任務拆解、規格撰寫、評估設計視為每季都更重要的核心能力；如果你是創辦人，路線圖要建立在「軟體交付成本下降」與「判斷該交付什麼的成本上升」這兩件事同時發生的前提上。真正會贏的團隊，不是叫 AI 多寫幾行 code，而是把整條工作流重新設計成機器產出加上人類監督。

// 相關文章

Anthropic 自己的數據已經證明：AI 正在幫 AI 進步

第一個論點：AI 已經在實驗室內形成複利

訂閱 AI 趨勢週報

第二個論點：外部基準也在同一方向上加速

反方可能怎麼說

你能做什麼

果蠅啟發回歸：用模式匹配省算力

世界模型不只看場景，也要看心智

Q 函數不一定要先預訓練

OpenAI 事件逼你收緊 eval

CARE 用信心分派 LoRA 專家

πR² 讓流式策略即時反應