具身智能進入GPT-3倒計時,我們距離賈維斯時刻還有多遠?|對話自變量機器人CEO王潛
本期,《科創板日報》記者對話自變量機器人(X Square)的創始人兼CEO王潛,邀請他分享在具身智能浪潮下的思考和洞察。
近期剛完成新一輪融資的自變量機器人(X Square)是賽道內值得關注的玩家。這家成立僅一年的中國初創企業直接對標海外明星項目Physical Intelligence(估值達到20億美元),從創立之初就選擇了端到端統一大模型技術路線。公司正在訓練的 Great Wall 操作大模型系列的 WALL-A模型,據稱是目前世界上參數規模最大的端到端統一具身智能大模型。
王潛本碩畢業於清華大學,是全球最早在神經網絡中引入注意力機制的學者之一。博士期間,他在美國頂級機器人實驗室參與了多項 Robotics Learning 的研究,方向覆蓋了機器人多個前沿領域。
PART1|具身智能的GPT-3還有多遠
科創板日報:今天具身的技術路線還遠沒有收斂,圍繞 RL(強化學習)和模仿學習,小模型VS大模型的討論一直在持續,自變量爲什麼從創立之初就選擇了端到端的統一大模型路線?
王潛:在機器人這條路上,主流的技術路線我都嘗試過,對各種技術路徑的瓶頸都很清楚。我自己從 2016 年開始做端到端的機器人模型,在2019年到2021年逐漸看清楚了統一大模型這個大方向的必然性。
首先,機器人的manipulation(操作)所面臨的物理交互非常複雜,雖然很多團隊本能會覺得這是一個CV(計算機視覺)問題,將物體的形態和環境的三維空間結構進行重建來解決。但做到這裡只是解決了manipulation問題的一半而已。
也有很多團隊下意識地選擇了非端到端的路線,通過模型分層分步的方法來做,表面上,這種方法似乎進展更快。但後續就會發現難度遠超預期。manipulation 和語言、圖像任務有着本質區別,其核心在於物理交互過程的複雜性:真正的難點在於處理機器人和物理世界的接觸過程。
這決定了任何分層分步的方法都很難徹底解決manipulation問題,每分出一個步驟,都可能在中間引入一些不可控的噪聲,或是丟失一些信息。這樣,隨着多個子模型或分層步驟的疊加,問題逐步累積,最終導致manipulation任務的失敗。
在大模型出來前,強化學習被業界認爲是最有機會的路線。當時主流想法是進行大規模的 simulation(仿真),然後通過模擬到現實的路徑實現應用。但在機器人manipulation這個領域,這條路線存在明確侷限,其所能達到的效果上限較低,而且很難再有進一步突破。核心問題還是回到手部的操作,物理世界交互的複雜性導致模擬器和現實世界存在巨大差距。
另一方面,如果完全依賴現實世界的數據來訓練模型,爲每個任務單獨構建一個模型,隨着任務複雜性的增加,所需的數據量也會指數級增長。那麼,面對無限種類的任務,實際上需要無限的數據量,總體成本和難度不可控。
到2020年左右,GPT-2在向GPT-3進化的過程中,隨着模型學習任務數量不斷增長,其能力持續提升,已經能夠看到一些少樣本學習現象的出現。
ChatGPT 是NLP(Natural Language Processing 自然語言處理 )領域的Foundation model(通用模型),可以通過零樣本的方式,由一個模型完成所有任務。第一次有了用有限的數據量做無限種類的任務的可能性,這對機器人操作(manipulation)這個領域來說具有決定性意義,解決了長期以來最大的難題——數據不夠的問題。
Foundation model實際上是一條能夠明確跨越數據障礙的路徑。
科創板日報:在那個節點,你做了什麼?
王潛:當時我就意識到,未來具身智能的技術棧和之前完全不同,團隊一定是大模型背景的人爲主。過去小模型背景的同學會更多關注如何爲每個任務設計特定的模型結構,但無法實現泛化。與之相反,大模型的人則重視的是如何通過工程化方式實現模型的scaling-up,直至達到完全通用
我自己已經有了機器人的技術儲備,需要和大模型背景的頂尖專家搭配。所以就積極和他們接觸,在這樣的背景下認識了聯合創始人王昊。雙方算得上是一拍即合,王昊長期深耕在大模型領域,他一直在思考,大模型如何在真實世界落地。
相比於純虛擬的大模型,通過機器人讓AI在真實世界落地是更實際的一條路線。不止是王昊,我還與很多研究大模型的同行進行交流,能明顯感覺到大家的熱情和對這一領域發展的期待。
(背景補充:聯合創始人兼 CTO 王昊博士畢業於北京大學,在粵港澳大灣區數字經濟研究院(IDEA 研究院)期間擔任封神榜大模型團隊負責人,發佈了國內首個多模態大模型「太乙」,首批百億級大語言模型「燃燈 / 二郎神」及千億級大語言模型「姜子牙」,模型累計下載量數百萬。)
科創板日報:基於端到端的統一大模型路線,公司的進展如何?
王潛:我們的“端到端”包括兩個維度,一是從機器人獲取原始的感知數據(如視覺傳感器數據、觸覺傳感器數據等)開始,直接將這些數據輸入到模型中,由模型學習並輸出機器人的決策和操作動作,中間沒有任何分層分步的處理步驟。
第二個維度,是實現了不同任務的統一,所有的任務放在同一個模型中訓練,推理也用同一模型進行操作。對於一切操作任務,在單一模型即可解決所有問題,因此稱之爲「統一」模型。
海外的明星創業公司Skild AI、Physical Intelligence(PI)等目前都在走這條路線。從目前公開的信息(比如學術界的論文、公司公佈的進展)來看,在全世界範圍內,我們應該都是屬於第一梯隊的,領先國內的競爭對手大概半年左右時間。
現在我們正在訓練的Great Wall系列(GW)的WALL-A模型,是目前世界上參數規模最大的端到端統一具身大模型,在處理長序列複雜任務,以及泛化性、通用性等方面的能力都超越了現有已知模型。
科創板日報:在規劃的路徑上,公司接下來會突破哪些瓶頸?
王潛:我個人認爲,當下的具身智能幾乎可以類比到GPT-2所處的時間點。不管是我們自己的模型,還是PI最近發佈的π0模型,它們現在的能力和配置,大致相當於GPT-2在大語言模型發展階段所達到的水平。
按照現在的進度,明年年底或者後年年初,預計就能實現一個類似GPT-3級別的具身智能大模型。
用泛化性來理解,我把泛化性分爲四個層次。最基礎的泛化性,是對諸如光照變化、攝像頭位置變化、物體位置改變等基礎條件的泛化;
第二層是改變整個環境背景,例如之前是在桌面上操作,現在拿到廚房的玻璃臺上,是不是也能完成操作;
到了第三個層次,就需要具備推理、歸納的能力。舉例來說,以前只操作過一個杯子,能不能推廣至各種各樣完全不同的杯子上面去。任務是一樣的,但被操作的物體是機器人此前沒見過的,它還能不能完成?這明顯要比前兩層難很多;
在第四個層次,給機器人一個從未做過的任務,它能否想辦法去完成。舉一個相對極端的例子,比如給機器人一個九連環,它之前從來沒有解過九連環,是否能嘗試解開。
現在我們和PI的模型,在前三個層次上都體現出了很好的通用性、泛化性的能力,當然遠沒有達到完美的程度。在第四層上,PI目前還沒有發佈相關信息,但我們的模型已經有一點點能夠自己發現新辦法的跡象了。
只有達到足夠的泛化性、通用性,才能在真實場景中解決問題,這是具身智能真正區別於以往機器人的核心。
科創板日報:隨着技術的成熟,在商業側做了哪些準備?
王潛:目前我們觀察下來,實現前三個層次的泛化性基本意味着可以在一個半封閉的或者是一個半開放的場景裡去替代掉很多繁瑣的體力勞動。在商業化層面,也就具備了落地的可能。
我們早期還是要以to B爲主,尤其是服務業的場景,會從裡面優先挑選一些,在技術上可以達到的、其他各方面維度都比較好的場景優先去落地。
目前已經在和潛在的客戶羣接觸,大家的預期還是比較樂觀。我們的最終目標是要讓它進入千家萬戶,從B端走向C端。
科創板日報:按照這個節奏,現在產品從demo到量產驗證還有多久?
王潛:硬件具有特定的迭代週期,同時產品打磨也遵循其客觀規律。這意味着,做出一個產品的demo並不是特別難,花費時間也不會很長。但一款非常成熟的產品,仍需要很長時間去打磨,去驗證,包括需要在客戶場景裡實際去落地測試,再基於對方的反饋重新調整。我們的節奏是硬件和模型同步迭代。
PART2|具身智能的未來在中國
科創板日報:現在全球範圍內的具身智能公司都處於相對早期,你曾經很明確地表示具身智能的未來在中國,是什麼支持你做成這樣的判斷?
王潛:今天的大模型創業,和上一代AI階段已經完全不一樣了。那個時候是算法驅動的,每家公司都需要大量的算法人員,去解決模型海量的corner case。以前自動駕駛動輒大幾千人的團隊,但當大家開始做端到端模型之後,用人哲學就不是這樣了。
現在是數據驅動的時代,相較於過去對算法研發的廣泛投入,現在更需要通過大量工程化手段來實現大模型的優化和落地,只要把儘可能多的算力集中在最高效的幾個人身上。目前海內外頭部的大模型公司裡,核心的算法團隊一般是小几十個人,個別可以達到大幾十個人規模,都很精簡。
這樣的趨勢下,中國相對於美國而言,在工程師的人才密度上也具備優勢。國內高質量的人才供應完全可以滿足行業需求。
比起昂貴的算力成本,用相對有競爭力的價格招募高質量的人才,是非常值得的事情。具身智能大模型的技術棧和以往非常不一樣,無論是純做機器人,還是純做大模型,投身具身大模型領域都存在技術躍遷的問題。我們希望吸引創新型人才,逐步培養他們的交叉技術能力,讓人才隨着公司一起發展。
另外,國內的產業生態也更完善。中國在供應鏈上的優勢可能領先了美國一個數量級。例如數據收集工作,中國的成本基本上是美國的1/10。大語言模型公司可以通過把數據的工作外包到東南亞、肯尼亞等地區去控制成本。但機器人領域的數據採集需要一定的專業性,無法輕易外包出去,這又是和語言模型很不一樣的地方。
之前學術界已經嘗試過多次,以異地外包、衆包的方式降低成本。但最終的結論是,這樣得來的數據在質量上很難達到要求。如果要滿足質量要求,最好還是在本地完成。
那麼,中國的綜合成本一定是全世界最好的,成本疊加效率,美國很多時候可能比中國就不只差一個數量級了,要慢更多的時間。像我們在深圳,定製一個零件幾天就搞定了,在美國就需要幾個月甚至更久。具身智能是個軟硬件結合的領域,硬件上的效率差距,也會造成極大影響。
科創板日報:提到生態,現在國內的具身智能創業公司扎堆涌現,你們也參與了華爲(深圳)全球具身智能產業創新中心,對於現在的產業生態怎麼理解?
王潛:我覺得這是一件好事情,能看到大家有各自擅長的地方,想法也不同。我們最擅長的就是模型,包括手部的操作,目前全部精力集中在這一方向。對於一些其他的零部件,如移動底盤等,我們還是非常希望能和合作夥伴一起去完善。
機器人的市場空間足夠大,產業鏈還在逐步成熟的過程中,我們希望和生態夥伴一起推動行業的良性發展。
這一波熱潮中,有認真做事的公司,同時也存在泡沫。部分玩家確實存在過度包裝以獲取資本流量的現象,而對於技術發展及落地與否並不真正關心,這確實會影響行業良序發展。
科創板日報:基於生態的理解,你們是不是未來有機會去賦能其他公司的產品?
王潛:是的,我們一直在和合作夥伴嘗試生態共建。機器人包含的子領域衆多,每個子領域都有極強的專業性。例如對於硬件設計,可能需要專門針對某個環境的特殊要求進行定製化設計,甚至爲了調整一個零件,就需要耗費兩年之久進行反覆調試。這種情況明顯不適合我們去做。
國內的生態更適合共生模式,不同公司基於自身的稟賦,擅長做哪些事情、哪些場景,以及哪些技術,然後共同發揮優勢,形成一個產業的生態,一起走下去。