GR-2登場!ByteDance Research提出機器人大模型,具備世界建模

機器之心編輯部

最近,ByteDance Research 的第二代機器人大模型 —— GR-2,終於放出了官宣視頻和技術報告。GR-2 以其卓越的泛化能力和多任務通用性,預示着機器人大模型技術將爆發出巨大潛力和無限可能。

GR-2 官方項目頁面:

https://gr2-manipulation.github.io

初識 GR-2:百鍊出真金

和許多大模型一樣,GR-2 的訓練包括預訓練和微調兩個過程。

如果把機器人和人做比較,預訓練過程就好像是人類的 “嬰兒期”。而 GR-2 的嬰兒期與其他機器人截然不同。

在預訓練的過程中,GR-2 在互聯網的海洋中遨遊。

它在 3800 萬個互聯網視頻片段上進行生成式訓練,也因此得名 GR-2(Generative Robot 2.0)。這些視頻來自學術公開數據集,涵蓋了人類在不同場景下(家庭、戶外、辦公室等)的各種日常活動。

這個過程,就像是它在經歷一個快速的 “生長痛”,迅速學會了人類日常生活中的各種動態和行爲模式。

該圖展示了 GR-2 預訓練數據中的樣本視頻和動詞分佈。下圖中的 y 軸是最熱門單詞的對數頻率。

這種預訓練方式使 GR-2 具備了學習多種操作任務和在多種環境中泛化的潛能。龐大的知識儲備,讓 GR-2 擁有了對世界的深刻理解,彷彿它已經環遊世界無數次。

微調的藝術:視頻生成能力拔高動作準確率

據悉,GR-2 的開發團隊採用了一種創新的微調方法。

在經歷大規模預訓練後,通過在機器人軌跡數據上進行微調,GR-2 能夠預測動作軌跡並生成視頻。

GR-2 的視頻生成能力,讓它在動作預測方面有着天然的優勢。它能夠通過輸入一幀圖片和一句語言指令,預測未來的視頻,進而生成相應的動作軌跡。

如下圖所示,只需要輸入一句語言指令:“pick up the fork from the left of the white plate”,就可以讓 GR-2 生成動作和視頻。可以看到,機械臂從白盤子旁邊抓起了叉子。右圖中預測的視頻和真機的實際運行也相差無幾。

以下是幾個進一步展示 GR-2 視頻生成能力的示例,包括把物品放進烤箱、將物品置於咖啡壺嘴下方等任務。

這種能力,不僅提升了 GR-2 動作預測的準確性,也爲機器人的智能決策提供了新的方向。

Scaling Law:機器人 + 大模型的要訣

在人工智能領域,Scaling Law 是一個備受矚目的概念。它描述了模型性能與其規模之間的關係。對於 GR-2 這樣的機器人模型來說,這一法則尤爲關鍵。

隨着模型規模的增加,GR-2 的性能呈現出顯著的提升。

(a)(b)(c) 分別展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三個數據集的驗證集上的視頻生成損失。(d) 展示了不同尺寸 GR-2 在真機實驗中的成功率。

在 7 億參數規模的驗證中,團隊看到了令人鼓舞的結果:更大的模型不僅能夠處理更多複雜的任務,而且在泛化到未見過的任務和場景時也表現得更加出色。

這表明,通過擴大模型規模,我們可以解鎖機器人更多的潛能,使其在多任務學習和適應新環境方面更加得心應手。

多任務學習與泛化:未知場景的挑戰者

在多任務學習測試中,GR-2 能夠完成 105 項不同的桌面任務,平均成功率高達 97.7%。

GR-2 的強大之處不僅在於它能夠處理已知任務,更在於其面對未知場景和物體時的泛化能力。無論是全新的環境、物體還是任務,GR-2 都能夠迅速適應並找到解決問題的方法。

我開、我放……我眼裡有活兒

更讓人驚豔的是,GR-2 還能夠與大語言模型相結合,完成複雜的長任務,並與人類進行互動。

比如,我們想要喝一杯咖啡。GR-2 會先從托盤裡拿起杯子,並將其放在咖啡壺嘴下方。接着,它會按下咖啡機上的按鈕來煮一杯咖啡。最後,當咖啡煮好了,機器人會把杯子放回托盤上。整個過程無需人類干預。

又如,我們早餐想要吃點東西。根據場景中的物體,機器人決定爲我們製作一份烤麪包。機器人首先按下烤麪包機上的開關來烤制面包。然後它拿起烤好的麪包,並將其放入紅色的碗中。

認真工作中,勿擾

ByteDance Research 還想強調,GR-2 能夠魯棒地處理環境中的干擾,並通過適應變化的環境成功完成任務。

以果蔬分類任務爲例:桌子上放置着水果和蔬菜,我們需要機器人幫忙將水果和蔬菜分裝到不同的盤子裡。機器人能夠自主識別物體的類別,並自動將它們放入正確的盤子中。

當在機器人移動的過程中移動盤子,GR-2 依然能回過神來,準確找回它要放的目標盤子。

穿越“果”羣,仍能找到你

工業應用中的突破:端到端的絲滑物體揀選

在實際應用中,GR-2 相比前一代的一個重大突破在於能夠端到端地完成兩個貨箱之間的物體揀選。

這個任務要求機器人從一個貨箱中逐個拿起物體,並將其放入旁邊的貨箱。看似簡單,但在實際應用中,能夠實現這個需求的多模態端到端模型卻難得一見。

端到端揀選任務場景

如下圖所示,GR-2 可以實現貨箱之間絲滑且連續的物體揀選。

真 · 無情的揀選機器人

無論是透明物體、反光物體、柔軟物體還是其他具有挑戰性的物體,GR-2 均能準確抓取。這展現了其在工業領域和真實倉儲場景的巨大潛力。

除了能夠處理多達 100 餘種不同的物體,例如螺絲刀、橡膠玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2 在未曾見過的場景和物體上也有着出色的表現。

揀選任務中的 122 個測試物品,其中只有 55 個物體參與訓練。

GR-2 可以識別透明的、可變形的或反光的物體。

話分兩頭,儘管 GR-2 在互聯網視頻上接受了大規模的預訓練,但也存在一些進步空間。例如,真實世界動作數據的規模和多樣性仍然有限。

GR-2 的故事,是關於 AI 如何推動機器人發展的故事。它不僅僅是一個機器人大模型,更是一個能夠學習和適應各種任務的智能體。我們有理由相信,GR-2 在實際應用中擁有巨大潛力。

GR-2 的旅程,纔剛剛開始。