李飛飛:不要數字孿生,要數字表兄弟,一張照片生成機器人場景

機器之心報道

編輯:澤南、Panda

我們很多人都聽說過數字孿生(digital twin),在英偉達等公司的大力推動下,這種高效運營工作流程的方法已經在很多工業場景中得到應用。

但你聽說過數字表親(digital cousin)嗎?

近日,斯坦福大學李飛飛團隊就做出了一個這樣的研究,其可有效地將真實數據變成適用於機器人學習的模擬數據 —— 在降低真實轉模擬成本的同時還能提升學習的泛化性能。

簡單來說,你只需拍一張照片,就能將照片中的物體變成虛擬版本,並且這個數字虛擬版本還不是照片中物體的一比一復刻,而是存在一定的變化。

我們知道,在真實世界中訓練機器人並不安全,而且成本很高,難以大規模擴展。這就是模擬的用武之地,其成本低,並且可以源源不斷地獲取訓練數據。但是,模擬的問題也很明顯,模擬環境和真實環境總歸不一樣,存在含義和物理機制上的差異。

爲了解決這種差異,數字孿生的概念誕生了。簡單來說,數字孿生就是爲真實場景構建一個虛擬副本,但其成本很高,並且難以實現跨域泛化。

爲了解決這些侷限,李飛飛團隊提出了數字表親(digital cousin)的概念。不同於數字孿生,數字表親並不是真實物體的虛擬對應,而只是具有相似的幾何和語義特質和屬性。

如此一來,數字表親既能降低生成相似的虛擬環境的成本,還能通過提供相似訓練場景的分佈而實現更好的跨域泛化。基於數字表親,該團隊提出了一種用於自動創建數字表親的全新方法,該方法就叫做自動數字表親創建(AutomaticCreation ofDigitalCousins),簡稱 ACDC。

他們還提出了一種全自動的「真實→虛擬→真實」流程,可用於生成完全可交互的場景以及訓練可以零樣本方式部署在原始場景中的機器人策略。

結果表明,ACDC 得到的數字表親可以成功保留幾何與語義特質和屬性,同時訓練得到的機器人策略也優於使用數字孿生得到的策略:在零樣本虛擬→真實遷移條件下,能以 90% 的成功率勝過數字孿生的 25%。

方法概述

ACDC 由三個連續步驟構成:

實驗

該團隊進行一系列實驗,試圖解答以下研究問題:

問題 1:ACDC 能否得到高質量的數字表親場景?給定一張 RGB 圖像,ACDC 能否捕獲原始場景中固有的高層級語義和空間細節?

問題 2:當在原始設置上進行評估時,基於數字表親訓練得到的策略能否與基於數字孿生得到的策略相媲美?

問題 3:相比於基於數字孿生訓練得到的策略,基於數字表親訓練得到的策略是否更加穩健

問題 4:基於數字表親訓練得到的策略能否實現零樣本「虛擬→真實」策略遷移

通過 ACDC 進行場景重建

在模擬 - 模擬場景中,ACDC 對場景重建進行定量和定性評估。

其中,「Scale」是輸入場景中兩個物體的邊界框之間的最大距離。「Cat.」表示正確分類的物體與場景中物體總數的比例。「Mod.」顯示正確建模的物體與場景中物體總數的比例。「L2 Dist.」提供輸入和重建場景中邊界框中心之間的歐幾里得距離的平均值和標準差。「Ori. Diff.」表示每個中心對稱物體的方向幅度差異的平均值和標準差。「Bbox IoU」表示資產 3D 邊界框的交併比 (IoU)。

定性 ACDC 真實 - 模擬場景重建結果。針對給定場景顯示多個表親。

基於這些結果,我們可以放心地回答問題 1:ACDC 確實可以保留輸入場景的語義和空間細節,從單個 RGB 圖像生成現實世界對象的表親,這些表親可以準確定位和擴展,以匹配原始場景。

使用數字表親進行模擬 - 模擬策略學習

模擬-模擬策略結果。

在精確孿生、不同數量的表親和三個最近類別的所有資產上訓練的策略的彙總成功率。策略在四種設置上進行測試:精確數字孿生和三種越來越不相似的設置(以 DINOv2 嵌入距離爲衡量標準)以探測零樣本泛化。請注意,對於任務 3,使任務可行的櫥櫃模型要少得多,因此這裡僅比較數字孿生和 8 個表親的策略。

使用數字表親進行模擬-真實策略學習

數字孿生與數字表親策略的零樣本真實世界評估。任務是打開宜家櫥櫃的門,衡量標準是成功率:模擬 / 真實結果在 50/20 次試驗中取平均值。

真實-模擬-真實的場景生成和策略學習

全自動數字表親生成。ACDC 的無剪切視頻完全自動執行,爲真實廚房場景生成了多個數字表親。ACDC 步驟 1 末尾的軸對齊邊界框無需加速即可做到可視化。

零樣本模擬到真實世界策略遷移。專門從上面生成的四個數字表親訓練的模擬策略,我們可以零樣本遷移到相應的真實廚房場景。

基於這些結果,我們可以放心地回答問題 2、3、4:與在數字孿生上訓練的策略相比,使用數字表親訓練的策略表現出相當的分佈內性能和更穩健的分佈外性能,並且可以實現零樣本模擬到真實策略遷移。

一些失敗的案例。

結論

作爲一種全自動管道,ACDC 用於快速生成與單個現實世界 RGB 圖像相對應的完全交互式數字表親場景。我們可以發現,利用這些數字表親訓練的策略比在數字孿生上訓練的策略更穩健,具有可媲美的域內性能和卓越的域外泛化能力,同時也支持零樣本模擬到現實的策略轉移。