驚歎!機器人竟能靠聲波振動感知物體
想象一下,當你坐在昏暗的電影院中,心裡琢磨着超大杯裡的汽水還剩多少。
你沒有揭開蓋子去查看,而是拿起杯子輕輕晃了晃,聽聽裡面冰塊晃動的聲響,這就能讓你大致清楚是否需要免費續杯。
把飲料放回原位,你漫不經心地想着扶手是不是實木做的。
然而,敲了幾下,聽到空洞的回聲後,你就斷定它肯定是塑料做的。
這種依靠物體發出的聲波振動來解讀世界的能力,是我們想都不想就會去做的事情。
將於 11 月 6 日至 9 日在德國慕尼黑舉行的機器人學習會議(CoRL 2024)上進行展示,杜克大學的一項新研究詳細介紹了一個叫做 SonicSense 的系統,這個系統能讓機器人以之前只限於人類的方式與周圍環境進行互動。研究結果發佈在arXiv預印本服務器上。
如今,機器人大多依靠視覺來解讀世界,”該論文的主要作者、杜克大學機械工程與材料科學教授博淵·陳實驗室的一年級博士生劉佳勳解釋說。“我們希望創造一種解決方案,能夠處理日常中複雜多樣的物體,賦予機器人更豐富的‘感受’和理解世界的能力。”
SonicSense 配有一隻帶有四根手指的機械手,每根手指的指尖都嵌入了一個接觸式麥克風。這些傳感器能夠檢測並記錄機器人輕敲、抓取或搖晃物體時產生的振動。而且因爲麥克風與物體接觸,所以機器人能夠排除環境噪音。
基於這些交互和檢測到的信號,SonicSense 提取頻率特徵,並且利用它先前的知識,結合人工智能的最新進展,搞清楚物體是由什麼材料製成的以及其 3D 形狀。如果是系統從未見過的物體,可能需要 20 種不同的交互才能得出結論。但如果是數據庫中已有的物體,它可以在短短四次交互中正確識別。
“SonicSense 爲機器人提供了一種新的聽覺和感知方式,非常類似於人類,這可以改變當前機器人感知和與物體互動的方式,”陳說道,他還在電氣與計算機工程以及計算機科學領域任職並帶有學生。“雖然視覺至關重要,但聲音增加了可以揭示眼睛可能錯過的事物的信息層。”
在論文和演示中,陳和他的實驗室展示了 SonicSense 所實現的許多功能。通過轉動或搖晃裝滿骰子的盒子,它能夠計算出裡面骰子的數量以及它們的形狀。通過對一瓶水做同樣的操作,它可以判斷裡面有多少液體。並且通過在物體外部敲擊,就如同人類在黑暗中探索物體一般,它能夠構建物體形狀的 3D 重建,並確定其由何種材料製成。
雖然 SonicSense 並非首次嘗試運用這種方法,但是它比以往的工作更進一步,表現更佳,通過使用四個手指而不是一個手指、能夠消除環境噪音的觸摸式麥克風和先進的人工智能技術。這種設置使該系統能夠識別由多種材料組成、具有複雜幾何形狀、透明或反射表面以及對於基於視覺的系統具有挑戰性的材料的物體。
“雖然大多數數據集是在受控的實驗室環境中收集的,或者有人爲干預,但我們需要我們的機器人在開放的實驗室環境中獨立與物體互動,”劉說。“在模擬中要複製這種複雜程度是很困難的。”
“受控數據和現實世界數據之間的這種差距極爲關鍵,而 SonicSense 能夠讓機器人直接與物理世界中多樣且混亂的現實進行交互,從而彌合了這一差距。”
“這些能力使 SonicSense 成爲訓練機器人在動態、非結構化環境中感知物體的堅實基礎。其成本也是如此。通過使用音樂家用於從吉他錄製聲音的相同接觸式麥克風、3D 打印以及其他市售組件,構建成本保持在略高於 200 美元。”
“展望未來,該團隊正在努力提升系統與多個物體交互的能力。通過集成對象跟蹤算法,機器人將能夠應對動態、雜亂的環境,從而讓它們在現實任務中更接近人類般的適應能力。”
另一項關鍵的發展在於機器人手自身的設計。“這只是個開始。未來,我們設想 SonicSense 能夠被應用於具備靈巧操作技能的更先進的機器人手中,讓機器人能夠完成需要細微觸覺感知的任務,”陳說。“我們滿懷興奮地探索如何進一步開發這項技術,以整合多種諸如壓力和溫度之類的感覺模式,實現更復雜的交互。”