Anthropic 的 robodog 測試證明:物理型 agentic AI…
Anthropic 的 Project Fetch 第二階段顯示,通用模型已能在有限的機器人任務中超越人類,物理型 agentic AI 不再只是概念。

Anthropic 的 Project Fetch 第二階段顯示,Claude 已能在有限的機器人任務中超越人類,物理型 agentic AI 正在成形。
Anthropic 這次不是在證明機器人已經成熟,而是在證明通用模型已經跨進「能對物理世界採取有效行動」的門檻,而且速度比多數團隊預期得更快。
第一個論點:模型已經能在窄任務上贏過人類
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
在 Project Fetch Phase Two 裡,Claude Opus 4.7 完成了前一輪實驗中至少有一組人類做成的所有任務,而且速度至少快 10 倍。更關鍵的是,在兩組人類都完成的 4 個任務上,Anthropic 指出它比不使用 Claude 的團隊快超過 37 倍,也比使用 Claude 的團隊快超過 18 倍。

這不是炫技,而是訊號。當模型在一個具體工作流裡,能比受訓人類更快找出介面路徑、寫出可用程式、完成動作,瓶頸就不再是「模型懂不懂任務」,而是「模型能不能把任務做得夠快、夠穩、夠便宜」。
第一個論點:物理世界的工作,本質上就是工作流
Anthropic 的描述很直白:模型擅長挑選操作路徑、第一次就寫出有效程式,而且產出的程式碼量比人類團隊少得多,卻仍能成功。這和 agentic 軟體工作一模一樣,只是這次執行端換成了現成的機器狗平台。
對企業來說,真正有價值的從來不是「完全自主」這個口號,而是多步驟流程能否被縮短。若模型能連接感測器、寫控制器、快速修正錯誤,價值單位就不再是單一機器人,而是「機器人加模型」的整體堆疊。那個堆疊已經開始比純人力流程更划算。
第二個論點:這是通用模型外溢,不是機器人專用奇蹟
Anthropic 也坦白指出,它仍然沒解決最難的閉環抓取問題,例如精準抓取 beach ball。這個限制是真的,但它不改變主結論:模型已經把周邊任務做得夠好,剩下的缺口更像可分解的工程問題,而不是一堵不可跨越的牆。

更重要的是,Anthropic 說這次進展不是來自機器人專項突破,而是來自一般性 scaling。這代表物理控制能力不是等某個「機器人革命」才出現,而是會跟著通用模型持續進步而外溢。等專用方案,往往等不到真正的轉折點。
第二個論點:這會改變產品與團隊的設計方式
如果模型已經能在有限場景裡自主完成感知、規劃、執行與修正,那產品設計就不能再把人類操作員視為預設核心。工程上要做的是把系統拆成可觀測、可回退、可接手的模組,讓模型先做前段決策,再把高精度步驟交給人或硬規則。
這也意味著團隊 KPI 要從「是否能完全自動化」改成「能否把人工介入壓到最小」。在這種架構下,模型不是替代品,而是流程加速器;但一旦它在多個環節都比人快,替代關係就會從局部開始擴大。
反方可能怎麼說
最強的反對意見是:這仍然只是玩具級 benchmark。機器狗不是倉儲機器人,beach ball 也不是有安全規範、法規限制、失敗成本的真實工作場景。Anthropic 自己也承認,模型沒有解決低階致動策略與最難的閉環控制。
另一個合理質疑是,demo 的成功不代表可擴展。今天在受控實驗裡快,不代表明天面對雜訊、磨損、異常物件、責任歸屬時也快。很多技術都能在 demo 裡看起來像未來,最後卻卡死在部署成本與可靠性。
這些批評都成立,但它們只是否定「已經成熟」,不是否定「已經到來」。Anthropic 展示的重點不是全面自主,而是通用模型已經能在物理工作流中獨立產生有效行動,而且速度優勢大到不容忽視。當剩下的問題是工程化、可靠性與邊界收斂,而不是能力類型本身,那就是產業轉向的前兆。
你能做什麼
如果你是工程師、PM 或創辦人,現在就該把機器人與 agentic software 放在同一個設計框架裡:先做可觀測性、工具調用、錯誤回退與人機接手,再談全自動。別再只問「能不能完全自主」,而要問「哪一段流程已經能被模型穩定接管」,因為物理型 agentic AI 的入口,往往就是從這種局部接管開始的。