[RSCH] 4 分鐘閱讀OraCore 編輯部

Anthropic 自己的數據已經證明:AI 正在幫 AI 進步

Anthropic 的內部與外部數據都顯示,AI 已經開始加速 AI 開發;這不是未來想像,而是今天就該警惕的工程現實。

分享 LinkedIn
Anthropic 自己的數據已經證明:AI 正在幫 AI 進步

Anthropic 的數據顯示,AI 已經在加速 AI 開發本身。

我站在明確的一邊:AI 正在幫 AI 進步,而且這件事已經不是科幻,而是工程流程的現實。Anthropic 自己公布的資料很直接,到了 2026 年 5 月,超過 80% 的合併程式碼由 Claude 撰寫,工程師產出也比 2024 年高出約 8 倍。這不是單純的效率優化,而是研發結構改變,因為寫程式、審程式、測程式,已經有相當一部分交給模型接手。

第一個論點:AI 已經在實驗室內形成複利

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Anthropic 最有力的證據,不是某個榜單分數,而是內部勞動分工的轉移。Claude Code 在 2025 年初推出前,Claude 參與撰寫的程式碼還只在個位數百分比;到 2026 年 5 月,這個比例已經突破 80%。這代表公司不再只是把 AI 當作建議層,而是把它放進生產層,由工程師負責定義問題、審查結果,而不是逐行手寫。

Anthropic 自己的數據已經證明:AI 正在幫 AI 進步

這件事重要,因為複利從工具變成機器的一部分時才真正開始。Anthropic 表示,工程師現在每季交付的程式碼量,已經比 2021 到 2025 年間高出約 8 倍,而且當模型開始能更長時間自主工作後,曲線還進一步變陡。即使程式碼行數不能完全等同生產力,方向也很清楚:瓶頸已從「寫出程式」轉成「監督程式生成」。

第二個論點:外部基準也在同一方向上加速

Anthropic 的外部數據和內部數據互相印證。模型能穩定獨立完成的任務,正以大約每四個月翻倍的速度成長,快於先前約七個月的節奏。例子很具體:Claude Opus 3 在 2024 年 3 月能處理人類約 4 分鐘的工作;一年後,Sonnet 3.7 能處理約 90 分鐘的工作;再一年後,Opus 4.6 已經能處理 12 小時的任務。若這條曲線延續,日級任務今年就會進入可處理範圍,週級任務則可能在 2027 年出現。

軟體與研究基準測試也在說同一件事。SWE-bench 在兩年內從低個位數進到飽和,CORE-Bench 這類測試模型能否重現已發表研究的基準,則從 2024 年約 20% 成功率,在 15 個月內接近飽和。這些不是花俏指標,它們測的是模型能不能真的執行會餵養下一代模型的工作。當模型能穩定重現、除錯、優化這條管線,距離「協助」和「自我改進」就會急速縮短。

反方可能怎麼說

嚴肅的反對意見也成立:Anthropic 距離一個能自己決定目標、判斷研究方向、端到端重設自身的模型,還差得很遠。公司自己也承認,Claude 已經能執行定義清楚的工作,甚至在某些實驗上接近或超過熟練人類,但它在判斷、目標選擇、以及長鏈條優先順序上仍然落後。這個落差是真實的,也正是「強力編碼代理」和「真正閉環自我改進系統」之間的分界。

Anthropic 自己的數據已經證明:AI 正在幫 AI 進步

另一個質疑是衡量方式本身有問題。程式碼行數只是粗糙代理,基準測試飽和也不等於通用智能。能在 SWE-bench 上大勝的模型,仍可能在組織判斷、安全權衡、或長期策略上失手。前沿 AI 最重要的工作不只是實作,而是決定該做什麼、該測什麼、以及該相信什麼。

但這些反駁無法推翻核心結論。遞迴式自我改進不需要第一天就完全自治,它只需要足夠的能力,把研發管線一步一步從人轉到機器,直到機器承擔越來越多「改善下一代機器」的工作。Anthropic 自己的數據已經顯示這個轉移正在發生。等到完美閉環才重視,屬於分類錯誤。

你能做什麼

如果你是工程師,別再把 AI 當成更快的自動補全,而要把它當成會改變 review、測試、incident response 的勞動乘數;如果你是 PM,要把任務拆解、規格撰寫、評估設計視為每季都更重要的核心能力;如果你是創辦人,路線圖要建立在「軟體交付成本下降」與「判斷該交付什麼的成本上升」這兩件事同時發生的前提上。真正會贏的團隊,不是叫 AI 多寫幾行 code,而是把整條工作流重新設計成機器產出加上人類監督。