李飛飛高徒盤點年度十大AI亮點:核聚變、ChatGPT、AlphaFold上榜

新智元報道

編輯:Aeneas 昕朋

【新智元導讀】2022年有哪些人工智能的突破?今天,李飛飛高徒Jim Fan盤點了年度十大AI亮點。

人工智能的爆炸正在扭曲我們的時間感。

你能相信Stable Diffusion只有4個月大,而ChatGPT的出現還不到一個月嗎?

打個形象的比喻,只要眨一下眼,你就會錯過一個全新的行業。

2022年的AI領域,大規模的生成模型像雨後春筍一樣地冒出,改變了整個AI界的格局。

而且,這些模型正在迅速走出實驗室,在現實中被應用。

比如,LLM技術就啓發了兩個新興的領域——決策代理(遊戲、機器人等等)和 AI4Science。

李飛飛高徒Jim Fan爲我們總結了2022年的十大AI高光時刻。讓我們把時間倒轉,看看2022年都有哪些令人驚歎的AI突破。

一、文字-圖像生成

DALLE-2是第一個可以從任意標題生成逼真的高分辨率圖像的大規模擴散模型。

它啓動了AI的藝術革命,催生了許多新的應用程序、初創公司和思維方式。

但 DALLE-2被保護在OpenAI的圍牆後面,並沒有開源。

在OpenAI之後,LMU的StabilityAI和runwayml邁出了英勇的一步,基於「潛在擴散」算法訓練了他們自己的互聯網規模的text2image模型。他們稱該模型爲「穩定擴散」,並開源了代碼和權值(weighs)。

事實證明,Stable Diffusion的開放性,讓它給遊戲帶來了鉅變。

現在,許多初創公司和研究實驗室都在Stable Diffusion的基礎上創建新的應用程序,Stable Diffusion本身也被開源社區不斷改進。

最近,Stable Diffusion已經達到了v2.1版本,可以在單個GPU上運行了。

另外,今年還有來自GoogleAI的兩個image2text模型。GoogleAI既沒有發佈模型也沒有發佈API,但從論文中,我們仍然可以看到不少有趣的見解。

Imagen

https://imagen.research.google

Parti

https://parti.research.google。它是一個沒有diffusion的Transformer模型。

二、文字-文字生成

大家都知道,我說的是ChatGPT!

這是歷史上唯一一個在5天內就獲得了100萬用戶的應用程序。

ChatGPT也大大啓發了我們人類的創造力。

在這個列表中,可以看到所有有用的和有想象力的關於ChatGPT想法:https://github.com/f/awesome-chat

ChatGPT和GPT-3.5都使用了一種叫做RLHF(「從人類反饋中強化學習」)的新技術。

這也就意味着,提示工程或許很快就會消失了。

ChatGPT的流行,已經催生了一波新的創業公司和競爭者,比如Jasper Chat、YouChat、 Replit 的Ghostwriter chat,以及 perplexity_ai 。

這些競爭者提供瞭如此直觀的搜索方式,連谷歌的高管們都開始出汗了!

三、文本- 機器人模型

如何給GPT提供胳膊和腿,讓它們能打掃你混亂的廚房?

與NLP不同,機器人模型需要與物理世界互動。

在今年,大的預訓練Transformer終於開始解決機器人領域最難的問題了!

VIMA

10月,我和同事創建了一個 「機器人GPT 」——名爲VIMA的tranformer。

它可以接收任何混合的文本、圖像和視頻作爲prompt,並輸出機器人手臂的控制。

我們的模型被稱爲VIMA(「VisuoMotor Attention」),已經完全開源了。

現在,單個智能體已經能夠解決視覺目標、視頻的一次性模仿、新概念基礎、視覺約束等,具有了模型容量和數據的強大擴展性。

RT-1

沿着與VIMA類似的路徑,來自GoogleAI的研究人員發佈了RT-1,這是一種在700項任務和130K的人類演示上訓練的機器人transformer。

這些數據是由13個機器人在17個月內收集的,是字面意義上的鋼鐵部隊!

四、文本 - 視頻

本質上說,視頻就是隨着時間的推移捆綁在一起的一系列圖像,給我們創造了運動的錯覺。

如果我們可以做text2image,那爲什麼不在裡面加上時間軸,來獲得額外的樂趣呢?

目前,文本 - 視頻領域有3個重大的工作,但沒有一個是開源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成對的文本-視頻數據,就可以得到文本-視頻的生成。

您可以在此處註冊試用訪問權限:https://makeavevideo.studio

論文鏈接:https://arxiv.org/abs/2209.14792

Imagen Video

Google AI的Imagen Video:它能使用擴散模型生成高清視頻,基於Imagen靜態圖像生成器。

演示:http://imagen.research.google/video/

論文鏈接:https://arxiv.org/abs/2210.02303

Phenaki

來自谷歌AI的Phenaki: 從開放領域的文本描述中生成可變長度的視頻。

演示:https://phenaki.video

論文鏈接:https://arxiv.org/abs/2210.02399

五、文本-3D建模

從設計創新產品到在電影和遊戲中創造奇妙的視覺效果,3D建模正成爲文本-X生成模型的下一片藍海。

令人驚喜的是,2022年出現了許多卓有前途的3D生成模型。在此,Fan列舉了3個模型。

DreamFusion

首先登場的,是Google AI研究團隊與UC Berkeley聯合開發的DreamFusion。

論文鏈接:https://arxiv.org/pdf/2209.14988.pdf

該模型使用二維文本到圖像的擴散模型來執行文本到三維的合成。

基於NeRF算法,DreamFusion可以通過給定文本生成3D模型。

該模型可以從任何角度查看,在任意照明下可以重新點亮,還可以合成到任何三維環境當中。

Magic3D

第二項成果,是英偉達AI團隊的兩個項目,名爲GET3D和Magic3D。

GET3D論文鏈接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Magic3D論文鏈接:https://arxiv.org/pdf/2211.10440.pdf

GET3D僅使用二維圖像進行訓練,可生成具有高保真紋理和複雜幾何細節的三維圖形。

該模型允許用戶立即將其形體導入3D渲染器和遊戲引擎,以便進行後續編輯。

Magic3D與DreamFusion類似,使用文本到圖像模型生成2D圖像,然後優化爲體積NeRF(神經輻射場)數據,將低分辨率生成的粗略模型優化爲高分辨率的精細模型。

根據英偉達AI團隊,由此產生的Magic3D方法,可以比DreamFusion更快地生成3D目標。

Point-E

繼年初推出的DALL-E 2用天才畫筆驚豔所有人之後,週二OpenAI發佈了最新的圖像生成模型「POINT-E」,它可通過文本直接生成3D模型。

論文鏈接:https://arxiv.org/pdf/2212.08751.pdf

相比競爭對手們(如谷歌的DreamFusion)需要幾個GPU工作數個小時,POINT-E只需單個GPU便可在幾分鐘內生成3D圖像。

根據測試,Prompt輸入後POINT-E基本可以秒出3D圖像,此外輸出圖像還支持自定義編輯、保存等功能。

六、會玩《我的世界》的AI

《我的世界》是一款測試AI通用智能的絕佳遊戲。首先,它是一款無限開放的沙盒遊戲,極度體現玩家的創造力。

其次,該遊戲有1.4億的玩家羣體,是英國總人口的兩倍。用戶基礎如此龐大,供AI學習的遊戲數據可謂是源源不絕。

那麼,AI能否和人類一樣盡情揮灑想象力呢?

Jim Fan和同事合作開發了第一個玩《我的世界》的AI「MineDojo」,它可以在自然語言提示下解決許多任務。

論文鏈接:https://arxiv.org/pdf/2206.08853.pdf

Fan的最終目標是建立一個「具身的ChatGPT」。目前,MineDojo平臺已經完全開源。

與此同時,Jeff Clune的團隊宣佈了一個名爲視頻預訓練(VPT)的模型,該模型可以直接輸出鍵盤和鼠標的動作。

論文鏈接:https://arxiv.org/pdf/2206.11795.pdf

VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。

七、AI外交官

Meta AI推出的CICERO是第一個在《外交》遊戲中實現人類水平表現的人工智能智能體。

論文鏈接:https://www.science.org/doi/10.1126/science.ade9097

《外交》是一款七人制經典策略遊戲,可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合。該遊戲需要廣泛的自然語言協商才能與人類合作和競爭。

然而,CICERO的出現表明,人工智能現在已經有說服他人和虛張聲勢的能力。

目前,DeepMind也宣佈開發自己的外交官AI智能體。那麼,如果CICERO使用這個AI模型,又會發生什麼呢?

八、音頻-文本模型

Whisper是OpenAI發佈的一個大型開源語音識別模型,在英語語音識別方面有接近人類水平的魯棒性和準確性。

論文鏈接:https://arxiv.org/pdf/2212.04356.pdf

Whisper經過了來自網絡的680,000小時音頻數據的訓練。Open AI強調,Whisper的語音識別能力已達到人類水準。

Open AI將Whisper開源,是否是爲了解鎖更多文本token,用以訓練萬衆矚目的GPT-4呢?

九、核聚變

DeepMind與瑞士洛桑聯邦理工學院(EPFL)聯合開發了第一個核聚變相關的深度強化學習系統,可以保持核聚變等離子體在託卡馬克內的穩定。

論文鏈接:https://www.nature.com/articles/s41586-021-04301-9

同樣在本月,美國能源部宣佈了一項巨大的突破:人類首次實現了核聚變反應的淨能量增益!

這是人類首次實現這一里程碑。這一生,我們或許會成爲聚變文明!

十、應用於生物學的Transformer

2021年,AlphaFold開啓了語言模型預測蛋白質3D結構的序幕。

7月,DeepMind宣佈了「蛋白質宇宙」——將AlphaFold的蛋白質數據庫擴展到2億個結構!

此外,英偉達AI研究團隊還拓展了BioNeMo大型語言模型的框架,以幫助生物技術公司和研究人員生成、預測和理解生物分子數據。

視頻講解:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

以上便是Jim Fan對2022年十大AI亮點的盤點。當然,Fan也表示,還有無數令人興奮的作品爲人工智能的進步做出了貢獻。

每篇論文都是AI大廈裡的一磚一瓦,所有的努力都應該慶祝。

不過,Fan在最後也強調,隨着人工智能系統變得越來越強大,我們必須意識到潛在的危險和風險,並採取措施減輕它們。

無論是通過仔細的培訓設計、適當的監督還是全新的保障方法,人工智能的安全與倫理成爲越來越的AI專家所討論的議程。

毫無疑問,2022年是充滿奇蹟的一年,也是令人驚歎的一年。未來一年又會有什麼震驚世界的突破?我們與你一起關注。

參考資料:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw