4 種世界動作模型，正在改寫機器人策略

OraCore Editors

返回首頁

[IND] 2026年6月27日4 分鐘閱讀OraCore 編輯部

4 種世界動作模型，正在改寫機器人策略

4 種世界動作模型設計路線，從影片先驗到逆動力學與混合堆疊，幫你判斷機器人政策該往哪個方向投資。

robotics

分享 LinkedIn

世界動作模型正在成為機器人策略的第二條路，和 VLA 並行競爭。

看完這 4 種設計路線，你就能判斷：團隊該先押影片先驗、逆動力學、聯合預測，還是直接做混合式架構。這不是抽象趨勢，而是會影響資料需求、控制方式與部署難度的選擇。

項目	核心思路	代表訊號	對機器人策略的影響
1. 影片骨幹 WAM	先用預訓練影片模型當 policy backbone	強世界動態先驗	較容易吃進視覺變化與未來狀態
2. 逆動力學 WAM	從狀態轉移反推動作	動作標註較少也能學	適合從影片學控制結構
3. 聯合預測模型	同時預測未來狀態與動作	感知與控制一起對齊	有助長時序任務與規劃
4. 混合 VLA-WAM 堆疊	語言理解加上世界預測	語意與物理一起處理	更接近可落地的通用策略

1. 影片骨幹先上場

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

WAM 最直觀的做法，是直接拿預訓練影片模型當控制骨幹，再把它微調成機器人策略。這樣做的重點不是從零學「怎麼動」，而是先借到一個對物體持續性、運動軌跡、場景變化都很熟悉的先驗。

像 NVIDIA Cosmos 這類方向，還有 DreamZero、LingBot-VA、Cortex 2.0，都在示範同一件事：影片預訓練可能比純機器人資料更省樣本。

常見輸入：影像、影片、語言、潛在狀態
常見輸出：未來幀、latent 特徵、動作片段

2. 逆動力學把問題倒過來

逆動力學的思路更像「看結果猜過程」。模型先看現在觀測與未來觀測，再反推出最可能造成這段變化的動作序列。這讓它很適合處理動作標註少、但影片資料多的場景。

如果你的資料大多來自網路影片或示範錄影，而不是大量機器人 log，這條路會特別有吸引力。它也常和離散動作 token 或 latent action space 搭配，讓模型能從狀態轉移中學到控制結構。

o_t + o_t+k -> a_t:t+k-1

3. 聯合預測把感知和控制綁在一起

聯合預測的核心，是讓同一個 policy 同時輸出未來狀態與動作。這種做法的好處很直接：模型如果要同時說明「接下來會發生什麼」與「現在該做什麼」，內部表徵就比較不容易脫鉤。

對長時序任務來說，這通常比只吐動作更穩。因為策略不只是在執行，還在持續檢查自己對環境變化的理解是否一致。

可用 action chunk 取代單步控制
可搭配 latent 預測或明確未來幀

4. 混合 VLA-WAM 最像落地解

現在最值得注意的，不一定是純 VLA 或純 WAM，而是兩者混合。做法通常是先用語言能力強的 vision-language backbone 負責指令理解，再交給 world model 去處理場景演化與動作生成。

這種堆疊很符合實際機器人需求：一邊要懂人講什麼，一邊要知道物理世界接下來會怎麼變。當任務同時牽涉語意對齊、接觸動作與分佈外情境時，混合架構往往最有工程價值。

適合已有 VLM 與影片基礎設施的團隊
適合需要指令理解加上動態預測的任務

5. 大規模預訓練正在改變門檻

WAM 之所以突然變得更像主流，不只是架構巧，而是預訓練規模開始到位。文中提到 VLA Foundry 的 Foundry-LLM checkpoint，採用 1.2B 非 embedding 參數、在 800B DCLM-Baseline-1.0 tokens 上訓練，這代表通用預訓練已經能先把底子打好。

對 WAM 來說，這個訊號很重要：機器人資料不再是唯一燃料。影片語料、世界模型目標、跨模態基座一起進來後，模型在進入真實控制前就已經有更強的先驗。

預訓練來源可以是文字、影片或多模態資料
真實機器人微調仍然必要

哪種適合你

如果你最在意的是指令跟隨、現有機器人堆疊與快速落地，VLA 仍然是保守選擇；如果你更在意場景動態、從影片學控制，影片骨幹 WAM 和逆動力學會更有吸引力。

如果你的目標是做通用策略、又不想在語言與物理之間二選一，混合 VLA-WAM 是最值得追的路線。這份清單真正要幫你做的決定，就是先分清楚瓶頸在語言、世界預測，還是兩者之間的落差。

// 相關文章

4 種世界動作模型，正在改寫機器人策略

1. 影片骨幹先上場

訂閱 AI 趨勢週報

2. 逆動力學把問題倒過來

3. 聯合預測把感知和控制綁在一起

4. 混合 VLA-WAM 最像落地解

5. 大規模預訓練正在改變門檻

哪種適合你

Anthropic 指控 Alibaba 大量蒸餾 Claude

AI 付款代理該受嚴格限制，不該全自動放權

AI 與 Web3 要同一套規則，不要特權門檻

Midjourney 60秒超音波掃描器解析

Midjourney 的醫療水療轉向不是重生，而是可信度測試

年齡驗證會把網路變成監控哨站