InSight 讓 VLA 自學新技能
InSight 讓 vision-language-action 政策在沒有目標任務人類示範的情況下,自行拆解原始動作、找出缺口,並收集新技能資料。

InSight 讓 vision-language-action 政策在沒有目標任務人類示範的情況下,自行拆解原始動作、找出缺口,並收集新技能資料。
- 研究機構:arXiv 摘要未明確標註
- 核心數據:摘要無公開 benchmark 數字
- 突破點:可操控原始動作
這篇論文想解的,不是單一操作怎麼做得更準,而是 VLA 怎麼自己長出新能力。對機器人來說,這差很多。因為很多系統卡住的地方,不是模型不會模仿,而是訓練資料從來沒教它那個新動作。
InSight: Self-Guided Skill Acquisition via Steerable VLAs 的重點,就是把「缺什麼技能」這件事,變成模型自己能處理的流程。它不是只讓機器人更會跟著示範做,而是讓政策本身能被導向原始動作層級,進一步自己去補資料。
這篇在補哪個洞
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Vision-language-action 模型的優勢,是把視覺、語言和控制串在同一個政策裡。這讓它很適合做操作任務。但它也有一個很現實的限制:監督式學習能學到的,基本上就是示範資料涵蓋到的範圍。

如果資料裡沒有關抽屜、翻方塊、旋轉或倒液體這類動作,模型就很難憑空長出穩定能力。摘要把這件事描述成 skill acquisition 問題,而不是單純的 task execution 問題。這個切法很重要,因為它把焦點從「做完這次任務」移到「系統怎麼持續擴充技能庫」。
對開發者來說,這也對應到真實部署的痛點。你不會只想要一個只能重播固定軌跡的 policy。你會想要它知道自己缺什麼,然後把缺口補起來。這篇論文就是在回答這件事怎麼做。
InSight 怎麼運作
InSight 的流程分成兩段。第一段是把示範資料自動切成帶標籤的 primitive actions。摘要說,這一步結合了 VLM 的 plan decomposition 和 end-effector poses。做完之後,VLA 不再只是看一條完整軌跡,而是能在更細的動作層級被操控。
這種切法的差別很大。原本一段示範可能只是「把瓶子倒進碗裡」。但拆成 primitive 之後,就可能變成「靠近碗」、「抬起」、「傾倒」這些更小的片段。當模型知道自己卡在哪一段時,後面就有機會針對那個缺失動作去補強,而不是整條軌跡重來一次。
第二段是 VLM-guided data flywheel。當系統遇到新任務時,它會先判斷缺少哪些 primitives。接著,它會用 VLM 提議的低階控制,自主嘗試去做那些缺失的原始動作。只要嘗試成功,系統就會自動標記資料、存下來,並把它加回 VLA 的訓練集。
這就形成一個循環:找缺口、嘗試補洞、保留成功資料、重新訓練、擴充技能庫。也就是說,模型不只是吃資料,也參與產生下一輪資料。這是 InSight 最核心的設計。
它實際證明了什麼
摘要提到,作者在 simulation 和 real-world manipulation tasks 都做了評估。任務包含 block flipping、drawer closing、sweeping、twisting 和 pouring。重點是,這些目標技能都沒有對應的人類示範資料。

換句話說,InSight 證明的是:當 VLA 具備 primitive steerability 之後,它可以在沒有目標任務示範的前提下,自己學到新技能,還能把這些新技能組合起來,完成較長鏈的操作任務。這是摘要裡最強的主張。
但也要講清楚,摘要沒有公開完整 benchmark 細節。沒有成功率表、沒有 sample efficiency 數字、沒有 latency,也沒有和其他方法的數值對照。就這份 raw 資料來看,我們只能確認方向與機制,不能幫它補上沒寫的性能數據。
這代表這篇論文的價值,比較像是一個訓練與資料生成流程的設計,而不是單靠一個 headline metric 取勝。它在摘要裡展示的是方法論:原始動作切分、自主找缺口、自己產生並吸收新資料。
對機器人開發有什麼意義
如果你做過機器人系統,就知道最花時間的通常不是模型本身,而是資料迴圈。你要收示範、標資料、找缺口、再收一次。每多一個新技能,這個流程就再跑一輪。
InSight 提供的是一種更自動化的路徑。當 policy 能暴露 primitive actions,又能辨識自己缺什麼,它就有機會在部署後繼續擴充能力。這對操作型任務特別有吸引力,因為很多長鏈任務本來就是由小技能拼出來的。
另一個實作上的好處,是可除錯性。相較於把整個端到端軌跡模型當黑盒子,primitive-level 的 steerability 讓你比較容易看出問題在哪裡。任務失敗時,你可以先問:是少了哪個動作?是轉動不穩?還是倒液體那段沒學好?這種切法比較適合工程排查。
限制也很明顯
摘要沒有交代資料集規模、機器人平台大小、人工介入程度,也沒有說自動標記在 VLM 分解不準時會怎麼處理。這些都會直接影響系統能不能真的落地,但 raw 資料沒有提供更多細節。
它也沒有宣稱可以泛化到所有機器人技能或所有環境。摘要裡明確提到的,是 block flipping、drawer closing、sweeping、twisting 和 pouring。這些都是操作任務,但不能直接推論到更廣泛的場景。
另外,自主收集資料這件事,最大的風險就是把錯的東西也一起學進去。摘要只說成功的示範會被自動標記、儲存並整合,沒有描述失敗樣本怎麼過濾。對任何想做類似系統的人來說,這會是很關鍵的工程問題。
這篇論文真正的訊號
InSight 想做的,不是把 VLA 變成一次性完成任務的工具,而是讓它變成可以持續長出新技能的系統。它把示範拆成原始動作,再用自我導向的資料飛輪去補缺口。這讓政策不再只是固定模型,而比較像一個能自我擴張的技能庫。
對台灣開發者來說,這篇的啟發很直接:如果你能讓機器人知道自己缺哪個 primitive,就有機會把人力從「每次都重做資料」改成「只處理真正的缺口」。這不是一個已經被數字完全證明的結論,因為摘要沒有公開完整 benchmark;但它提供了一個很清楚的方向。
總結來說,InSight 的貢獻在流程,不在漂亮數字。它把 VLA 往「可操控、可擴充、可自我補資料」的方向推了一步。對想做長期演進的機器人系統,這種設計比單次任務表現更值得注意。
- 把示範切成 primitive actions,是它能自我補技能的前提。
- VLM-guided flywheel 讓模型能找缺口、試補洞、再吸收新資料。
- 摘要只確認了真實與模擬任務,沒有公開 benchmark 數字。