李飛飛團隊提出無監督功能蒸餾(UAD) 技術,讓機器人首次實現從模擬訓練到真實場景的 “零遷移成本”,無須人工標注,機器人就能像人類一樣理解物體功能,輕松應對未知環境。
理解細粒度的物體功能對于機器人在非結構化環境中根據開放式任務指令操作物體至關重要。 然而,現有的視覺功能預測方法通常依賴于手動注釋數據或僅在預定義的任務集上的條件。 本文介紹了無監督功能蒸餾(UAD),這是一種從基礎模型中蒸餾功能知識到任務條件功能模型的方法,無需任何手動注釋。 通過利用大型視覺模型和視覺語言模型的互補優勢,UAD 自動用詳細的 <指令,視覺功能> 對注釋大規模數據集。 僅在凍結特征之上訓練輕量級任務條件解碼器,UAD 對真實機器人場景和各種人類活動表現出顯著的泛化能力,盡管僅在模擬中渲染的物體上訓練。 使用 UAD 提供的功能作為觀察空間,我們展示了一種模仿學習策略,該策略在僅訓練 10 個演示后,對未見物體實例、物體類別甚至任務指令的變化表現出有希望的泛化能力。 在非結構化環境中,機器人執行有目的交互的能力取決于對物體功能的理解。 當面對自然語言指定的開放式任務指令時,機器人必須基于視覺感知識別環境提供的動作可能性,且這種理解應超越物體或物體部分,涵蓋像素級的細粒度細節。 盡管從具有封閉詞匯的手動注釋數據中學習視覺功能已被廣泛研究,但將功能學習擴展到以自由形式任務指令為條件的開放世界場景仍是一個長期挑戰。 視覺語言模型能在語言空間編碼功能知識,但如何將其有效錨定在連續空間域仍是問題; 自監督視覺模型提供捕獲物體低級結構的通用像素級特征,但未以特定開放世界任務語義為條件。 提出了一種無監督管道,使用現成的VLM和LVM自動提取細粒度的功能注釋。 擴展了任務條件功能模型的訓練,該模型在現有基準上表現優于先前方法,盡管是零樣本評估。 表明在模仿學習策略中使用功能作為觀察空間,能夠泛化到未見環境、物體實例、物體類別和任務指令,同時僅使用少量演示進行訓練。 提取功能注釋:利用 LVM 找到每個對象的細粒度語義區域,使用 VLM 提出與每個對象相關的候選任務指令,再將區域和指令關聯,創建連續的功能圖。 具體來說,對于每個 3D 對象,渲染 14 個視圖,從 DINOv2 提取像素級特征并融合得到全局 3D 特征場,通過 PCA 和聚類獲得細粒度語義區域; 通過 VLM 進行視覺提示提出任務指令; 計算參考特征與全局特征的余弦相似度,投影到相機視圖得到功能圖(如圖 2 (a))。 學習任務條件功能模型:凍結 DINOv2 的權重,僅在其頂部訓練輕量級語言條件模塊。 使用 FiLM 層將語言嵌入與 DINOv2 的像素空間特征結合,通過二進制交叉熵損失訓練,輸出每個像素位置的對數作為最終的功能圖預測(如圖 2 (b))。 將功能作為觀察空間的策略學習:將 UAD 集成到基于視覺的策略架構中,作為視覺輸入的編碼器。 使用多視圖 Transformer 策略,結合功能圖、深度值、世界坐標和本體感受向量,輸出末端執行器位姿和夾爪動作,通過模仿學習訓練(如圖 2 (c))。 任務條件功能預測:UAD 在渲染對象上對新實例、類別和指令的 AUC 得分至少為 0.92;在 DROID 數據集上,UAD 的 AUC 為 0.840,優于 CLIP 的 0.500 和 OpenSeeD 的 0.836(如圖 4); 在 AGD20K 數據集上,UAD 的 KLD 為 0.526、SIM 為 0.366、NSS 為 1.359,表現優于多個基線(如圖 5、表 1)。 模擬中的策略學習:在 Pouring、Opening 和 Insertion 任務中,UAD-based 策略在對象姿態、實例、類別和指令變化的泛化設置中表現優于使用 RGB、DINOv2、CLIP 和 Voltron 作為觀察的基線策略(如圖 6)。 現實世界中的策略學習:在澆水、打開抽屜和插入筆的任務中,UAD-based 策略的平均成功率為 73%,能夠進行精確的 6-DoF 操作(如圖 3)。 本文提出的 UAD 方法從基礎模型中蒸餾功能知識到任務條件功能模型,無需手動注釋數據集。 該模型在現有功能預測基準上表現出色,并在真實機器人任務中展示了強大的泛化能力。 然而,UAD 也存在一些局限性:專注于從基礎模型提取視覺功能,未提供運動層面的泛化; 僅考慮單幀功能解釋,未涉及多步視覺理解和行為; 提取的訓練數據集僅包含單個對象渲染,擴展到真實世界多對象圖像可能更好地將基礎模型中的世界知識錨定到連續空間域。
論文鏈接:https://arxiv.org/pdf/2506.09284v1