InSight 讓 VLA 自學新技能

OraCore Editors

返回首頁

[RSCH] 2026年6月24日6 分鐘閱讀OraCore 編輯部

InSight 讓 VLA 自學新技能

InSight 讓 vision-language-action 政策在沒有目標任務人類示範的情況下，自行拆解原始動作、找出缺口，並收集新技能資料。

分享 LinkedIn

InSight 讓 vision-language-action 政策在沒有目標任務人類示範的情況下，自行拆解原始動作、找出缺口，並收集新技能資料。

研究機構：arXiv 摘要未明確標註
核心數據：摘要無公開 benchmark 數字
突破點：可操控原始動作

這篇論文想解的，不是單一操作怎麼做得更準，而是 VLA 怎麼自己長出新能力。對機器人來說，這差很多。因為很多系統卡住的地方，不是模型不會模仿，而是訓練資料從來沒教它那個新動作。

InSight: Self-Guided Skill Acquisition via Steerable VLAs 的重點，就是把「缺什麼技能」這件事，變成模型自己能處理的流程。它不是只讓機器人更會跟著示範做，而是讓政策本身能被導向原始動作層級，進一步自己去補資料。

這篇在補哪個洞

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Vision-language-action 模型的優勢，是把視覺、語言和控制串在同一個政策裡。這讓它很適合做操作任務。但它也有一個很現實的限制：監督式學習能學到的，基本上就是示範資料涵蓋到的範圍。

如果資料裡沒有關抽屜、翻方塊、旋轉或倒液體這類動作，模型就很難憑空長出穩定能力。摘要把這件事描述成 skill acquisition 問題，而不是單純的 task execution 問題。這個切法很重要，因為它把焦點從「做完這次任務」移到「系統怎麼持續擴充技能庫」。

對開發者來說，這也對應到真實部署的痛點。你不會只想要一個只能重播固定軌跡的 policy。你會想要它知道自己缺什麼，然後把缺口補起來。這篇論文就是在回答這件事怎麼做。

InSight 怎麼運作

InSight 的流程分成兩段。第一段是把示範資料自動切成帶標籤的 primitive actions。摘要說，這一步結合了 VLM 的 plan decomposition 和 end-effector poses。做完之後，VLA 不再只是看一條完整軌跡，而是能在更細的動作層級被操控。

這種切法的差別很大。原本一段示範可能只是「把瓶子倒進碗裡」。但拆成 primitive 之後，就可能變成「靠近碗」、「抬起」、「傾倒」這些更小的片段。當模型知道自己卡在哪一段時，後面就有機會針對那個缺失動作去補強，而不是整條軌跡重來一次。

第二段是 VLM-guided data flywheel。當系統遇到新任務時，它會先判斷缺少哪些 primitives。接著，它會用 VLM 提議的低階控制，自主嘗試去做那些缺失的原始動作。只要嘗試成功，系統就會自動標記資料、存下來，並把它加回 VLA 的訓練集。

這就形成一個循環：找缺口、嘗試補洞、保留成功資料、重新訓練、擴充技能庫。也就是說，模型不只是吃資料，也參與產生下一輪資料。這是 InSight 最核心的設計。

它實際證明了什麼

摘要提到，作者在 simulation 和 real-world manipulation tasks 都做了評估。任務包含 block flipping、drawer closing、sweeping、twisting 和 pouring。重點是，這些目標技能都沒有對應的人類示範資料。

換句話說，InSight 證明的是：當 VLA 具備 primitive steerability 之後，它可以在沒有目標任務示範的前提下，自己學到新技能，還能把這些新技能組合起來，完成較長鏈的操作任務。這是摘要裡最強的主張。

但也要講清楚，摘要沒有公開完整 benchmark 細節。沒有成功率表、沒有 sample efficiency 數字、沒有 latency，也沒有和其他方法的數值對照。就這份 raw 資料來看，我們只能確認方向與機制，不能幫它補上沒寫的性能數據。

這代表這篇論文的價值，比較像是一個訓練與資料生成流程的設計，而不是單靠一個 headline metric 取勝。它在摘要裡展示的是方法論：原始動作切分、自主找缺口、自己產生並吸收新資料。

對機器人開發有什麼意義

如果你做過機器人系統，就知道最花時間的通常不是模型本身，而是資料迴圈。你要收示範、標資料、找缺口、再收一次。每多一個新技能，這個流程就再跑一輪。

InSight 提供的是一種更自動化的路徑。當 policy 能暴露 primitive actions，又能辨識自己缺什麼，它就有機會在部署後繼續擴充能力。這對操作型任務特別有吸引力，因為很多長鏈任務本來就是由小技能拼出來的。

另一個實作上的好處，是可除錯性。相較於把整個端到端軌跡模型當黑盒子，primitive-level 的 steerability 讓你比較容易看出問題在哪裡。任務失敗時，你可以先問：是少了哪個動作？是轉動不穩？還是倒液體那段沒學好？這種切法比較適合工程排查。

限制也很明顯

摘要沒有交代資料集規模、機器人平台大小、人工介入程度，也沒有說自動標記在 VLM 分解不準時會怎麼處理。這些都會直接影響系統能不能真的落地，但 raw 資料沒有提供更多細節。

它也沒有宣稱可以泛化到所有機器人技能或所有環境。摘要裡明確提到的，是 block flipping、drawer closing、sweeping、twisting 和 pouring。這些都是操作任務，但不能直接推論到更廣泛的場景。

另外，自主收集資料這件事，最大的風險就是把錯的東西也一起學進去。摘要只說成功的示範會被自動標記、儲存並整合，沒有描述失敗樣本怎麼過濾。對任何想做類似系統的人來說，這會是很關鍵的工程問題。

這篇論文真正的訊號

InSight 想做的，不是把 VLA 變成一次性完成任務的工具，而是讓它變成可以持續長出新技能的系統。它把示範拆成原始動作，再用自我導向的資料飛輪去補缺口。這讓政策不再只是固定模型，而比較像一個能自我擴張的技能庫。

對台灣開發者來說，這篇的啟發很直接：如果你能讓機器人知道自己缺哪個 primitive，就有機會把人力從「每次都重做資料」改成「只處理真正的缺口」。這不是一個已經被數字完全證明的結論，因為摘要沒有公開完整 benchmark；但它提供了一個很清楚的方向。

總結來說，InSight 的貢獻在流程，不在漂亮數字。它把 VLA 往「可操控、可擴充、可自我補資料」的方向推了一步。對想做長期演進的機器人系統，這種設計比單次任務表現更值得注意。

把示範切成 primitive actions，是它能自我補技能的前提。
VLM-guided flywheel 讓模型能找缺口、試補洞、再吸收新資料。
摘要只確認了真實與模擬任務，沒有公開 benchmark 數字。

// 相關文章

InSight 讓 VLA 自學新技能

這篇在補哪個洞

訂閱 AI 趨勢週報

InSight 怎麼運作

它實際證明了什麼

對機器人開發有什麼意義

限制也很明顯

這篇論文真正的訊號

FLUX3D 讓 3DGS 保住細節

隨機次梯度最後一輪界更緊了

Anthropic 警告遞迴自我改進是對的，但真正的問題是 AI 控制已經失速

OpenAI 一週挖出三大瀏覽器漏洞

2026 生產環境 LLM 微調指南

LifeSciBench 讓模型先過科研關