☰

價值萬億的具身智能市場，大佬們如何從世界模型下刀？

機器之心報道

機器之心編輯部

具身智能，簡單來說，就是賦予 AI 一個「身體」，讓這顆聰明的大腦在物理世界中行動自如。

把這顆大腦升級成世界模型 —— 它擁有記憶、直覺和常識時，機器人可以不再機械地按訓練行事，而是能夠靈活變通，具體問題具體分析。

於是，在這兩個火熱的概念齊頭並進之時，這樣的展示層出不窮，機器人爲你掃地、喂貓、鋪牀、做飯，以後養老不用愁，放心交給機器人就好了。

但是爲什麼我們身邊還沒見到一個這樣的機器人呢？

帶着這個問題，我們圍觀了今年的智源論壇 2024 具身與世界模型專題峰會。當前學界前沿最聚焦具身智能的哪些問題？如何讓大模型飛昇的 scaling law，在機器人領域也獲得迴響？我們距離真正的世界模型，還有多遠？

從前沿技術成果，到最新實踐應用，來自學術界和產業界的代表們的精彩分享貫穿全天。

大佬們具體都聊了什麼？重點都已經劃出來了！

Scaling Law 的成功，機器人也想復刻

參數量越大，模型性能越高，這一原則在大模型領域已經得到了充分驗證。如何在機器人領域，活用「Scaling Law」的公式，這是產業面臨的共性問題。

作爲人工智能的創新引領者，聯合產學研協同突破行業痛點，也是智源研究院一直以來的核心願景。

一開場，智源研究院院長王仲遠詳細介紹了智源大模型「全家桶」。其中，最引人矚目的要數首個原生多模態大模型 Emu3。

它可以融會貫通文本、圖像、視頻三種模態，也首次證明了 Scaling Law 在多模態大模型的可行性。

如何讓 scaling law 跨越不同任務、本體、場景，構建泛化超強能力的大模型？這是智源具身多模態大模型研究中心負責人仉尚航近來關心的問題。在此次分享中，她展示了一系列基礎模型的新成果。

人類在思考問題時有快慢之分 —— 既有脫口而出的「快思維」，也有靜心推理的「慢思維」。

受此啓發，她帶領研究團隊提出了 RoboMamba、MR-MLLM 等一系列多模態大模型。詳情可以參考機器之心的報道：《北大推出全新機器人多模態大模型！面向通用和機器人場景的高效推理和操作》。

在打破模態的突破之上，仉尚航的下一步是把模態的原生能力升維到 4D—— 構建更好的 4D 世界模型與數據集。

4D 世界模型 EVA

「具身智能最大的問題就是沒有數據」，那麼什麼樣的數據對機器人最有用呢？

爆火全網的 Aloha、特斯拉的 Optimus 系列都在推崇遙感操作收集的真人數據，Depth Anything 這樣的單目視覺方法也在業界流行。

而北京大學助理教授、銀河通用創始人，智源學者王鶴認爲，合成數據或許是更優解。

這一結論來自他們的研究成果 D3RoMa。紅外深度圖顯示，D3RoMa 渲染出的光斑與真實世界高度吻合，首次實現了亞釐米級的深度精度。

至於機器人數據的 next level，王鶴看好的是 4D 數據。

提到 scaling law 在機器人領域的里程碑，繞不開「機器人的 ImageNet 時刻」—— 谷歌 DeepMind 聯合其他機構推出了 Open X-Embodiment 數據集，訓練出了能力更強的 RT-X 模型。

智源研究院還特邀了谷歌 RT-1 和 RT-2 的作者 Ted Xiao 帶來分享。

Ted Xiao 回顧了 scaling law 如何在 RT-1 和 RT-2 的逐步生效。而最近與 o1 一起爆紅的思維鏈，或許也能帶給機器人領域新的啓發。

Ted Xiao 介紹了 RT-Hierarchy 策略。機器人執行任務之前，會先生成一個「語言運動查詢」，用於預測一些粗粒度的動作，比如「向前移動手臂」。隨後，系統會生成一個具體的「動作查詢」，將動作分解爲更細緻的步驟。

有時候，機器人並不知道自己在做什麼

「有的時候，機器人並不知道自己在做什麼。」這可能是這場峰會被反覆 cue 到的一句話。

清華大學自動化系教授，加速進化聯合創始人趙明國展示了一場精彩的機器人足球賽。踢足球是一項天然的具身智能任務，機器人需要判斷球的位置，並協調下一步的動作。從上世紀 90 年代開始，日本本田開啓了提升機械腿自主行走能力的探索。

儘管機器人的運動策略經歷了一代又一代的技術革新，但在今年的 RoboCup 上，我們仍然看到了這樣的一幕：面對空無一人的球門，即使足球已經壓在門線上，出戰的機器人選手卻做不出判斷：要不要補上決定性的臨門一腳呢？

要使機器人在行爲層面展現出真正的智能，趙明國認爲關鍵在於根據不同身體部位的功能分工來設計和訓練機器人。如果一個機器人能夠掌握手部的典型任務，如抓取和放置物體，腿部的踢球，以及需全身協調的騎自行車等任務，逐步攻克，最終將這些能力擴展到實際應用中。

同樣提出這個問題的還有星塵智能的創始人兼 CEO 來傑。在開發機器人的過程中，他發現，雖然大語言模型爲機器人提供了很多知識，但這些知識離世界的底層邏輯還很遠。

例如，機器人已經從無數次訓練中熟練地掌握了開瓶蓋技巧，但如果遞給它一瓶橫放的礦泉水，它不會像人類一樣下意識地先將瓶子豎直，而是直接打開，水都灑了出來。

世界模型可以補全機器人感知中缺少的這些細節和背景信息。在等待世界模型的開花結果的過程中，星塵智能把目標設定爲 Design for AI，機器人平臺將作爲中間態，爲世界模型提供豐富的數據支持。而當世界模型最終成熟的時候，就要做最好的終端。

吉林大學唐敖慶講席教授、曼徹斯特大學終身教授任雷則帶來了一種不需要動腦，僅憑「肌肉記憶」，機器人就能自主行動的全新方案。

他帶領研究團隊結合神經解剖學和生理學，深入納米級別，解碼人類的觸覺感知與運動神經控制機理，提出了仿生拉壓體機器人機制。

即使在 X 光的透視下，仿生拉壓體機器人幾乎完全重現了人體自然行走的三維步態。相比波士頓動力採用的動力系統，機器人花費的能耗也降低了一個數量級。

中國科學院計算技術研究所研究員蔣樹強從涉身性、交互性和情境性等維度，結合哲學視角，對具身智能這一概念進行了深入分析和定位。

機器人進廠打工，走到哪一步了？

樂聚機器人創始人冷曉琨分享了人形機器人產業的一線視角，「雖然比不上造車，但工業場景對人形機器人的需求已經足夠支撐一個新的產業。」

樂聚機器人也正在科研平臺、商業服務、工業流水線、家庭康養、城市巡邏等各種場景中發光發熱。其中，最多的訂單對標展廳導覽、導購的崗位。

無需長期培訓，也不會頻繁跳槽的人形機器人，可以節省高達 60% 的成本投入。

要讓機器人坐在流水線上打螺絲，達到熟練工人的裝配水平，觸覺感知至關重要。沒有觸覺感知，機器人很難掌握螺栓應該擰到什麼程度。

大灣區大學 (籌) 講席教授，先進工程學院院長王煜認爲，人形機器人產業化的關鍵在於讓觸覺信息轉化爲運動信號，讓機器人能真正地得心應手。

當前，王煜團隊在高動態觸覺傳感器領域的一系列突破，正爲這一目標按下「加速鍵」。

面對工廠中複雜的任務，一雙靈巧手亦不可或缺。中科院自動化所研究員王鵬及其團隊注意到，人類手部之所以能夠完成各種複雜的操作任務，很大程度上得益於其高度的靈活性和對環境的適應性。

於是，在設計通用靈巧操作具身智能體系 Casia Hand 系列時，他們特別注重強調柔順性與剛性的結合，確保機器人在執行任務時既能保持穩定，又能避免對目標物體造成損傷。

One more thing

相較於傳統 AI 三要素數據、算法、算力，具身智能在硬件這一新要素上了有了更多要求。以上四要素的協同進化，推動了具身智能的新範式變革。

在圓桌討論中，智源研究院副院長林詠華也向嘉賓們提出了一個問題：「從硬件、數據、算法、芯片四個方面，哪個對搭載具身智能的機器人最重要？」

儘管每個要素都面臨着無數等待探索的問題和挑戰，但數據顯得尤爲迫切，智源研究院呼籲構建一個開放、標準化、低成本且便於複製的數據平臺。

作爲即將突破萬億規模的市場，具身智能的年複合增長率已達到 20.7%。在這火熱的浪潮中，學術界和工業界，都需要更多像智源峰會這樣的交流與討論，也需要更多冷靜的觀察與深思。

價值萬億的具身智能市場，大佬們如何從世界模型下刀？

相關資訊