標籤
2 篇文章
Humanoid-GPT 用 GPT 風格 Transformer 與 20 億幀動作資料,主打零樣本全身動作追蹤與更強泛化。
這篇論文把文字提示塞進 ViT 編碼過程中,讓影像特徵能朝指定物件偏移,同時盡量保留通用視覺用途。