李飛飛團隊提出RL計算框架,讓機器在複雜環境學習和進化

如果機器能像動物一樣學習與進化會如何?

這是李飛飛團隊的最新研究。

在過去6億年中,動物在複雜的環境中學習與進化成各異的形態,又利用進化的形態來學習複雜的任務。如此周而復始的學習與進化,造就了動物的認知智慧。

但其中環境複雜性、進化形態和智能控制的可學習性之間的關係原理仍然難以捉摸。

本中提出了一種深度進化強化學習計算框架DERL。它可以演化不同的形態,在複雜的環境中學習一些具有挑戰性的運動、操縱任務。

最終利用DERL,研究人員證明了環境複雜性、形態智能和控制的可學習性之間的幾個關係。

通過學習和進化來實現的形態智能

創建適應性的形態,在複雜的環境中學習操縱任務是具有挑戰性的,存在雙重困難。

第一種,在大量可能的形態組合中進行搜索。第二種,通過終生學習評估適應性所需要計算時間。

因此,此前的工作要麼在有限的形態空間中進化,要麼專注於尋找固定的形態最佳參數,亦或是就在平坦的地形中學習。

爲了克服這些實質性的限制,本文提出了深度進化強化學習(Deep Evolutionary Reinforcement Learning,DERL)計算框架。

本文提出了一種高效的異步方法,用於在許多計算元素之間並行化學習和進化基礎計算。

如圖(b)所示,進化的外循環通過突變操作優化機器形態,比如高度、位置、箱子的大小等屬性。

而內部的強化學習循環則用來優化神經控制器的參數。

還引入了一個UNIMAL,即UNIversal aniMAL形態設計空間,如圖(d)所示,它既具有高度的表現力,又豐富了有用的可控形態。

而複雜環境由三個隨機生成的障礙物組成:山丘、臺階和碎石。模型必須從初始位置(圖e綠色物體)開始,並將一個盒子移動到目標位置(紅色方塊)。

此外,DERL創建了體現型的模型,不僅可以在較少的數據進行學習,還可以泛化解決多個新任務,從而緩解了強化學習的樣本效率低下。

DERL的運作方式是模仿達爾文進化過程中幾代模型在形態上的搜索、一生中的神經學習交織在一起的過程,通過智能控制來評估一個給定形態解決複雜任務的速度和效果。

總共有8個測試任務,涉及了穩定性、敏捷性和操縱性的測試,來評估每個形態對強化學習的促進作用。

研究人員在每個環境的3次進化運行中挑選出10個表現最好的形態。然後,每個形態從頭開始訓練所有8個測試任務。

最終選出了在不同環境下演化出的最佳模型形態。

結果發現,通過鮑德溫效應,模型適應性可以在幾代的進化過程中從其表型學習能力迅速轉移到其基因型編碼的形態上。

(鮑德溫效應:沒有任何基因信息基礎的人類行爲方式和習慣,經過許多代人的傳播,最終進化爲具有基因信息基礎的行爲習慣的現象。)

這些進化後的形態學又賦予了模型更好更快的學習能力,以適應新任務。

團隊猜測,很可能是通過增加被動穩定性和能量效能來實現的。

此外還證實了環境複雜性、形態智能和可學習性控制之間存在着以下的關係。

首先,環境複雜性促進了形態智能的進化,以一種形態促進學習新任務的能力來量化。

其次,進化時會迅速選擇學習速度較快的形態,這一結果構成了長期以來猜想的形態學鮑德溫效應的首次證明。

第三,實驗表示, 鮑德溫效應和形態智能的出現都有一個機理基礎,即通過物理上更穩定、能量效率更高的形態的進化,從而可以促進學習和控制。

團隊介紹

這篇文章李飛飛團隊領銜,由來自斯坦福大學計算機科學系、應用物理系、吳蔡德神經科學研究所等團隊共同研究。

第一作者是Agrim Gupta,斯坦福大學二年級博士生,致力於研究計算機視覺。

論文鏈接:https://arxiv.org/abs/2102.02202