全球頂級AI科學家李飛飛領銜的具身智能項目到底長啥樣?| 深度

《科創板日報》7月11日訊(記者 張洋洋)美國國家工程院院士、斯坦福大學教授李飛飛團隊於近日發佈了具身智能的最新研究成果,大模型接入機器人,可將複雜指令轉化成具體行動規劃,人類可以很隨意地用自然語言給機器人下達指令,機器人也無需額外數據和訓練。

該項目名爲“VoxPoser”,相比傳統方法需要進行額外的預訓練,該項目用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。

《科創板日報》記者從官網到採訪多位業內人士,一探這位全球頂尖AI科學傢俱身智能項目“VoxPoser”的真面目。

▍具身智能=?

《科創板日報》記者在VoxPoser官網看到,大模型接入機器人後,人類可以隨意用自然語言給機器人下達指令,就像這樣:

大語言模型+視覺語言模型,可以在3D空間中分析出目標和需要繞過的障礙,幫助機器人做行動規劃,就像這樣:

更重要的是,真實世界中的機器人在未經“培訓”的情況下,可以直接執行任務,就像這樣:

接入大模型後,機器人是如何“聽懂人話”的呢?根據李飛飛團隊闡述的工作原理:

對於VoxPoser項目,北京智譜華章科技有限公司AMiner項目團隊在官方微博表示,他們指出了機器人操作中的一個主要瓶頸,即大多數模型仍依賴預定義的運動原語來進行與環境的物理交互。

機器人要靈活運動,依賴預先輸入的數據來訓練,但後者稀缺且昂貴,所以直到目前爲止,機器人也只能實現工程師們預先定義的有限功能。

根據李飛飛團隊成員Wenlong Huang在社交媒體的闡述,VoxPoser的原理是不需要對機器人進行預訓練,即可有效解決原本的數據難題。

李飛飛團隊的研究成果,在國內外社交媒體上引起了廣泛的討論。《科創板日報》記者注意到,一名前微軟研究員和亞馬遜雲專家評價稱,“這項研究走在了人工智能系統最重要、最複雜的前沿”,私募大佬但斌也在微博上轉發了相關文章。

▍更智能的機器人,AI能力是關鍵

由於AI的加持,打開了人們對於機器人技術發展和應用場景的想象空間,近期機器人板塊熱度再次襲來,漲勢明顯。

一名機械行業券商研究員告訴《科創板日報》記者,近期他們正在密集調研機器人公司,尤其是人形機器人企業,並組織交流,要求是“調研50家機器人企業,交流100場”。

該研究員表示,但市場目前還是在炒作零部件供應商,AI+機器人,現在覈心矛盾是AI能力,也即大模型、算法、操作系統等軟件層面的構建方案,而真正具備這些能力的機器人企業並不多。

中國通信工業協會兩化融合委員會副會長吳高斌接受《科創板日報》記者採訪時表示,接入大模型,對整個機器人軟件和硬件系統提出了許多新要求。一方面,大模型需要更強大的計算和存儲能力。機器人廠商需要投入更多的資源來提升硬件設備的性能,以滿足大模型的需求。

另一方面,大模型對軟件系統的要求也更高。機器人廠商需要開發更加複雜和高效的算法和軟件架構,以支持大模型的訓練和應用。此外,大模型的使用還需要更多的數據集和標註,機器人廠商需要建立更完善的數據採集和管理系統。

因此,不同量級的公司對大模型的需求也存在一定的差異。吳高斌告訴記者,大型機器人廠商通常具有強大的研發實力和資源,對於他們而言,接入大模型幾乎是必選項,小型機器人廠商的市場需求相對較小,可能更注重成本和性能的平衡,則並不一定要接入大模型。

前述研究員也告訴記者,AI+機器人方向,他們現在最關注的是特斯拉、小米、達闥、優必選這些頭部企業的最新動向。

在剛剛結束的2023年世界人工智能大會上,特斯拉、達闥是位數不多展出人形機器人實物的廠商,在兩個展區,擠滿了前來觀展的人員。

在AI+機器人的概念下,產業鏈上哪種類型的公司將更具競爭力也成爲了一個關注的焦點。

吳高斌認爲,從整個產業鏈來看,與大模型相關的公司可能更具競爭力。這包括大型機器人廠商、人工智能技術提供商、數據服務提供商等。這些公司能夠提供更先進的技術和更完善的解決方案,從而在市場上佔據更有競爭力的地位。