女媧算法,殺瘋了!
大家好,我是週末加班寫技術文的 Jack。
今天分享一個「多模態」算法NÜWA(女媧)。
8項典型的視覺生成任務
論文的開頭,就放出了效果,NÜWA包攬了 8 項經典的視覺生成任務的 SOTA。
論文表示,NÜWA更是在文本到圖像生成中“完虐” OpenAI DALL-E。
碾壓各種對比的算法效果,殺瘋了!
NÜWA 效果
我們先看下NÜWA這算法在 8 項經典的視覺生成任務中的表現。
Text-To-Image(T2I)
文字轉圖片任務,其實就是根據一段文字描述,生成對應描述的圖片。
比如:
A dog with gogglesstaring at the camera.
一隻戴着護目鏡,盯着攝像機的狗。
還有更多效果:
NÜWA生成的效果看起來就沒那麼違和,從論文的效果看,很真實!
效果非常 Amazing。
Sketch-To-Image (S2I)
草圖轉圖片任務,就是根據草圖的佈局,生成對應的圖片。
比如:
在一張圖片上,畫個大致輪廓,就可以自動“腦補”圖片。
這效果真是開了眼了,真實效果真如論文這般的話,那確實很強。
這個算法,可以用在很多有意思的場景。
Image Completion (I2I)
圖像補全,如果一副圖片殘缺了,算法可以自動“腦補”出殘缺的部分。
好傢伙,是不是又有一些大膽的想法了?
這個遮擋還算可以,還有更細碎的。
圖片碎成這樣,還能“腦補”出畫面,我很期待代碼。
Image Manipulation (TI2I)
圖片處理,根據文字描述,處理圖片。
比如:
有一副草原的圖片,然後增加一段描述:
a horse is running on the grassland
一匹馬奔跑在草原上,然後就可以生成對應的圖片。
這驚人的理解力。
這讓我想起來了 P 圖吧大神,惡搞的作品。
有了這個算法,咱也可以試一試了,哈哈。
Video
這還不算完,除了上述的生成圖片的四種效果,NÜWA還可以生成視頻!
對應的四種視頻生成任務:
Text-To-Video (T2V)
Sketch-To-Video (S2V)
Sketch-To-Video (S2V)
Video Manipulation (TV2V)
既可以玩圖片又可以玩視頻。
NÜWA 原理
NÜWA模型的整體架構包含一個支持多種條件的 adaptive 編碼器和一個預訓練的解碼器,能夠同時使圖像和視頻的信息。
對於圖像補全、視頻預測、圖像處理和視頻處理任務,將輸入的部分圖像或視頻直接送入解碼器即可。
而編碼解碼器都是基於一個3D Nearby的自注意力機制(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:
W 表示可學習的權重,X 和 C 分別代表文本、圖像、視頻數據的 3D 表示。
3DNA 考慮了完整的鄰近信息,併爲每個 token 動態生成三維鄰近注意塊。注意力矩陣還顯示出 3DNA 的關注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。
更多細節,可以直接看論文:
NÜWA 的代碼還沒有開源,不過 Github 已經建立。
作者表示,很快就會開源:
公司有開源審批流程,代碼也得梳理下,所以可以先 Star 上標記下,耐心等等。
微軟亞研院和北大聯合打造的一個多模態預訓練模型 NÜWA,在首屆微軟峰會上亮相過。
這種應該不會鴿的~
總結
今年算是多模態 Transformer 大力發展的一年,從各種頂會的論文就能看出,各種多模態。
就聊這麼多吧,今天寫完技術文,我繼續做視頻了。我是 Jack,我們下期見~