馬斯克畫的餅,波士頓動力要實現了?

人形機器人行業又迎來一對新的強強聯合。

近期,波士頓動力宣稱,會使用豐田研究所的“大型行爲模型”來訓練機器人,它類似於驅動ChatGPT的“大型語言模型”,可以讓機器人通過少量演示數據和多模態感知來掌握複雜任務,走向通用機器人。

在過去,這條技術路徑一直是馬斯克爲Optimus(下稱“擎天柱”)畫的“餅”,想借此實現通用人形機器人。

今年10月初,馬斯克以《We, Robot》爲主題在加州開了一場“科幻”味兒十足的發佈會。在現場,擎天柱以服務員的身份一邊爲賓客調酒,一邊擡手打招呼說着“Hi,everybody”,甚至在現場和賓客熱舞。

但發佈會結束後,有現場賓客卻表示,擎天柱“親口”向他承認,自己是被遠程遙控的。而整個發佈會,馬斯克也沒有透露關於擎天柱的任何技術細節。

看似自主的機器人,依舊離不開人類的遠程遙控。

馬斯克似乎做了一個雙面鏡,一面是真實的擎天柱仍然做着人類的提線木偶;而另一面,他又用一種近乎虛假的方式爲人們構畫出一個可能實現的未來。

但顯而易見,馬斯克並沒有興趣解答擎天柱當前的研發進度,那麼作爲馬斯克在機器人領域的強敵, 波士頓動力這次與豐田研究所的聯合,能將馬斯克畫的餅實現嗎?

波士頓動力,率先走到終點?

想要完成馬斯克這張拼圖,擎天柱需要擁有與人類和環境交互的能力。

比如將機器人放在廚房,它首先要能識別出自己所處場景是“廚房”。然後,當人類告訴他要做一道菜時,它可以主動從冰箱拿出食材、清洗、切菜、並按步驟烹飪。

要實現這個過程,意味着機器人能夠自主辨別什麼是冰箱,並移動到冰箱前,打開冰箱門,在衆多食材中找到需要的食材,取出來,然後結合各種工具進行清洗.....

這個過程對人類來說十分簡單,但對機器人而言卻十分困難。

當前無論是老牌人形機器人波士頓動力的Atlas,還是“新貴”擎天柱、Figure,都只能在受限制的環境裡執行單一任務,比如在案板前將已經分揀好的各種蔬果拿起或者放下。

▲Figure01拾取水果,圖源YouTube@Figure

▲Optimus Gen2拾取雞蛋,圖源YouTube@Tesla

要知道這其中的區別,可以想一想咱們自己家裡的冰箱,當各種食材被混雜在一起、用透明塑料袋裝着的時候,識別難度就會高於單個的西紅柿、紅薯。

所以如果將機器人自主做出一頓飯的難度,比作是登上珠穆朗瑪峰,那麼現在的人形機器人才剛剛坐進學步車。對,它還沒有學會“走路”。

而更重要的是,當前機器人學習新技能的效率十分低下,比如學會了疊衣服之後,轉而疊被子就要重新學習大量數據。

爲了克服這個難題,波士頓動力和豐田研究院團隊採用一種新的AI系統“大型行爲模型”訓練機器人,通過物理演示任務(例如觀看視頻)進行教學,來幫助將Atlas打造成一款自主性能力強的通用人形機器人。

經過這套“大型行爲模型”的訓練,機器人可以通過少量數據學習新技能,這種方法叫做“擴散策略”,這套策略可以探索多種不同的路徑,並根據實時情況選擇最佳方案,它可以幫助機器人更好地應對不確定性的環境,比如突然的障礙或任務變化。

豐田研究院公佈了關於這一成果的報告,其中有一個通俗案例可以解釋這個策略:

經過擴散策略訓練的機器人,可以做醬汁燒注和塗抹任務,需要將醬汁塗抹在披薩麪糰中心,分拆步驟來看:①握住勺子接近披薩麪糰中心;②將醬汁以螺旋狀鋪在披薩上;③提起勺子。

▲論文《擴散政策:通過動作擴散進行視覺運動策略學習》

在這個過程裡,披薩麪糰會隨機移動,而機器人可以“隨機應變”,它能跟隨披薩麪糰中心位置的遷移而即時挪動勺子。

根據豐田工作人員透露,學會這個能力並不費勁,“這個過程從老師遠程操作演示一小部分技能開始”,機器人晚上學習,第二天就可以獲得新技能。也就是說,它用少量數據向機器人演示,便能夠讓機器人獲得“泛化”能力。

和傳統的機器人學習相比,這種行爲模型就像運動界的ChatGPT一樣,給它一點行爲上的Prompt,就能泛化出一套完成任務的操作軌跡和應變能力。

但並不是任何人形機器人都能適配這套策略,擴散策略更依賴視覺數據,這就需要硬件上擁有高精度視覺傳感器,還要擁有抓取複雜和精細物體操作能力。

這也是目前波士頓動力面臨的挑戰。

其最新款人形機器人Atlas目前並不具備實現“自主”的硬性條件,它既沒有靈巧手,又缺乏生活場景的數據。

Atlas機器人雖然具備一定的抓握能力,但其手部設計相對簡單,只有三指,並且常用場景是應急救援和工廠搬運,對於生活場景的數據也相對缺乏。

與此相比,特斯拉的擎天柱卻顯得更有優勢。

比如在視覺數據上,特斯拉的自動駕駛一直堅持純視覺的解決方案,目前市場上運行着將近600萬輛特斯拉汽車,可以積累大量的視覺數據。

其次擎天柱在靈巧手、關節有更接近人類的設計。在特斯拉最新展示的視頻裡,擎天柱可以走到桌邊,用雙手的“指尖”舉起重11kg的4680電池盒。

這雙機械手已經擁有22個自由度,分佈在手指、手腕和小指下方,而年初手部擁有11個自由度的第二代擎天柱,所有手指都具有觸覺感應,能夠靈巧地處理雞蛋等易碎物品。

▲擎天柱舉起電池,圖源:Tesla@YouTube

所以,雖然波士頓動力和豐田研究院的找到了一種更有效率的機器人訓練方式,但想要比擎天柱更快實現真正的自主性,Marc Raibert或許需要聯合他的老搭檔---曾一起在MIT腿部實驗室共事、豐田研究所的CEO兼豐田汽車公司首席科學家Gill Pratt,對目前Atlas的機械手作一番改造,並且補足視覺識別所需要的硬件能力。

馬斯克鍾愛“奇蹟廚房”

與波士頓動力聯合豐田研究院發佈的新技術相比,馬斯克更鐘愛打造“奇蹟廚房”。

所謂“奇蹟廚房”,是指誇大產品能力的科技營銷行爲。

1959年7月,《展望》雜誌刊登了一篇描述未來“奇蹟廚房”的文章,讓美國人認爲,未來自己家庭會有功能齊全、十分智能的廚房,在美國的宣傳片中,有一部分電器的運作會被含糊其辭地描述爲“自主”的:

“推車會將吃完飯後的髒盤子,推到牆面,進行自動清洗和乾燥”

“清潔器可以從牆上自動出來,在清理完地面後,會自動迴歸原來的位置”

“揮一揮手”就能召喚出隱藏在牆面的飲料機,告訴它“我想喝一罐冰凍橙汁”,飲料機就會自動出水

▲吸塵機器人,照片由Robert S. Lerner Photography LLC拍攝

但這些在50年代令人感到驚奇的黑科技,卻是一個實實在在的謊言。

2013年,一位“奇蹟廚房”設計師成員揭露,自動洗碗機和清潔器這些“自走式電器”根本無法正常工作,而是工作人員在後臺通過遙控操作,讓一些隱藏在地板下的電子軌道輔助完成的。

“奇蹟廚房”本質上是冷戰時期的一種營銷工具,設計初衷是爲了嚇唬蘇聯遊客,讓他們產生“一無所有”的感覺。

但從馬斯克的角度,他上演“奇蹟廚房”的目的,顯然並不是爲了讓人覺得自己一無所有,反而是爲了讓人們知道自己未來可能會擁有什麼。

2021年9月,馬斯克在特斯拉AI Day上突然宣佈進軍人形機器人領域,配合他宣傳的是一段“機器人”的熱舞,當時這些機器人還只是身穿緊身衣的人類舞者,而僅僅一年之後,擎天柱的原型機就被人攙扶着走上了發佈會。

一直以來,馬斯克都以這種近乎誇張的方式,超前兜售自己的夢想。今年的《We,Robot》發佈會也是如此。

在10月初的《We,Robot》發佈會上馬斯克用了一種科幻手法,在香檳美酒和燈光舞影之下,一羣擎天柱與人類其樂融融地相處,甚至在一個玻璃房裡集體大跳“夜店舞”。

▲擎天柱熱舞,圖源Tesla@YouTube

可能是因爲擎天柱的表現過於自然,以致於現場賓客幾乎沒有格格不入感。

但賓客很快就發現了不對勁。在現場,不同擎天柱的音色不盡相同,並且它們與人類互動的反應是即時的,還伴隨着順滑的手勢,相比於自主,更像遠程遙控。

連擎天柱自己都承認了這一點,前微軟戰略家Robert Scoble在X上分享了一段視頻,他在現場向擎天柱發問:“How much of you is AI?Some or none.”(你的表現裡有多少成分是AI驅動?一點點,還是完全沒有?),擎天柱回覆“It might be some.”

擎天柱就像提線木偶,和背後操縱它的人類共同演了一場戲。

馬斯克並不是第一次這麼做,2024年1月份,他在X上發了一個擎天柱疊衣服的視頻,並配文“擎天柱在折襯衫。”

▲擎天柱折襯衫,圖源X@Elon Musk

眼尖的網友從視頻上看到一隻快速閃現的手,擎天柱很快被質疑背後由人類遠程操控,馬斯克也親自承認了這一點,他發了一條“重要提示”:擎天柱還不能自主地做到這一點。

馬斯克的做法,與當年“奇蹟廚房”的構建如出一轍。通過模棱兩可地描述,來構建一個似有似無的科技場景。

雖然很多人對於這樣的營銷方式不滿,但一些機器人從業者表示理解,谷歌DeepMind一位工作人員Ted Xiao在X上直言“實現低延遲全身遠程操作是邁向自主化的一大步”。

特斯拉機器人工程師Milan Kovac在X上也承認擎天柱“一定程度上有人類的幫助”,但它們可以自主行走,並且在保持平衡的情況下,跳了4個小時的舞蹈,期間只摔倒過一次。

▲特斯拉機器人工程師Milan Kovac,X@Milan Kovac

總結起來看,雖然擎天柱每一次的出場,都有着遙操的成分,但它在遙操模式下的表現越來越好。

而馬斯克就好像在完成一張龐大的拼圖,一點一點地累積擎天柱的能力,讓它從一個需要被攙扶着上臺的“機器”,逐步變身爲一個“有血有肉”的“類人”物種。

擎天柱研發每走到一個新的階段,馬斯克就開始啓動一次“奇蹟廚房”,用營銷上的含餬口徑,向外界秀一遍自己腦中關於擎天柱的拼圖全貌。

哪怕這張拼圖可能才完成百分之一。

結語

1939年,在紐約的世界博覽會,西屋電氣公司推出一款身高7英尺(2.1米)的機器人Elektro,它的外形酷似人類,會抽菸、會用手指數數,可以通過語音命令行走、會說700個單詞。

一經出現,Elektro就成爲大衆心中的文化偶像,他激發了當時的人們對未來機器人的想象。

▲A Blast from the Past,圖源justoborn-Elektro Robot

但實際上就像特斯拉擎天柱第一次登上發佈會一樣,Elektro的一切都是假的,它其實是用內置78rpm的唱片機來朗讀預先錄製的詞彙。

但85年後的今天,Elektro展示的一切已經成爲現實。越來越多企業開始聯合,共同推動人形機器人的發展。

比如爲了給給機器人安裝大腦,波士頓動力、Figure都選擇了尋找軟件實力強的合作伙伴,前者找到了豐田,後者綁定了OpenAI.

與他們相比,馬斯克就像一個孤膽英雄,他選擇了軟硬件自研的路徑。

不論是哪一種方法,在探索新物種的道路上,都充滿荊棘。

人類一直試圖釐清自己“從哪裡來”,並據此衍生出女媧造人、亞當夏娃這些神話故事。

在這些神話裡,中國的女媧、歐美的耶和華神,都充當着人類“造物主”的角色。而人形機器人,則是人類自己企圖成爲“造物主”的具象體現。

這個物種需要和人類一樣,擁有自己的思想和行動。

但現在,人們還只能在“奇蹟廚房”裡,等待着它們的到來。