Anthropic 警告遞迴自我改進是對的,但真正的問題是 AI 控制已經失速
Anthropic 對遞迴自我改進的警告是正確的,但更大的問題是 AI 的治理速度已經跟不上能力擴張。

Anthropic 對遞迴自我改進的警告是正確的,但更大的問題是 AI 的治理速度已經跟不上能力擴張。
Anthropic 這次拉警報不是危言聳聽,而是對現況的直白描述。公司自己就給出一個很硬的訊號:到 2026 年第二季,典型工程師每天產出的程式碼比兩年前多了 8 倍,而公司生成的程式碼有 80% 來自模型而不是人。這不是「AI 幫忙寫幾段 code」的故事,而是研發流程已經被模型重寫。當能力增長快到可以改變工程產線,政策還在討論名詞時,控制權其實已經開始鬆動。
第一個論點:遞迴自我改進是分水嶺,不是行銷詞
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Anthropic 的核心警告不在今天的聊天機器人,而在下一階段的系統:它不只會做事,還能改善自己,並把改善成果再放大。公司提到,某個最新模型在 11 個月內把執行其作業系統程式碼的速度提升到原本的 52 倍。這種加速的意義不是單純的效能提升,而是人類審核節奏第一次明顯落後於系統迭代節奏。

另一個更直接的指標是任務持續時間。Anthropic 表示,模型能獨立完成的任務長度大約每 4 個月翻倍。這代表 AI 不只是更會回答問題,而是開始能處理更完整的工作流。當一個系統已經能參與產生下一代系統的流程,過去那種「人類永遠是瓶頸」的假設就不成立了。這不是抽象哲學,而是工程治理的臨界點。
第二個論點:安全風險已經先於公共討論發生
Anthropic 這份警告最有說服力的地方,是它其實已經看到濫用的早期樣貌。報告提到,公司曾扣住 Mythos Preview,因為它據稱能建立一種可找出超過 10,000 個漏洞的網路武器,目標是被認為高度安全的系統。這不是假設情境,而是模型能力從生產力工具滑向攻擊基礎設施的具體案例。
如果把這種能力接上自主性,風險就不只限於資安。模型一旦能自動搜尋、測試、修補或變形攻擊路徑,生物與化學風險也會跟著放大。問題不只是 AI 變聰明,而是攻擊面擴張的速度,遠快於人類逐步檢查每個步驟的能力。到那時候,「對齊」不再是令人安心的研究詞,而只是事後止血的技術名詞。
反方可能怎麼說
最強的反對意見是,這種警報很容易變成過度監管、過度保密,最後只會鞏固少數大公司的權力。前沿 AI 本來就集中在少數實驗室,若再把「安全」包裝成「軍備管制」,很容易讓既有巨頭藉由合規門檻排除新創。另一個現實顧慮是競爭:如果美國先踩煞車,而對手沒有,國家在資安、情報與軍事規劃上都可能吃虧。

這些擔心不是假的,但它們不構成對 Anthropic 的否定,只是提醒我們不能用粗暴的一刀切處理。真正可行的做法,是把管制鎖定在最危險的能力上,例如更嚴格的算力監測、部署前的自主行為測試、以及對高風險工具使用的審計。全球協調不會完美,這是限制;但因為不完美就放棄治理,才是更大的錯誤。
你能做什麼
如果你是工程師,先做可觀測性,再做能力擴張,把自主任務長度、工具使用、以及自我修改風險列為硬性門檻;如果你是 PM,別把 autonomous behavior 當研究備註,直接當 launch-blocking 指標;如果你是創辦人,現在就預設監管會盯上算力、模型存取與跨境使用,先設計治理與稽核流程,再談擴張。對 Anthropic 的警告,最好的回應不是恐慌,而是把前沿 AI 當成可能失控的基礎設施來管理。