☰

女媧算法，殺瘋了！

大家好，我是週末加班寫技術文的 Jack。

今天分享一個「多模態」算法NÜWA（女媧）。

8項典型的視覺生成任務

論文的開頭，就放出了效果，NÜWA包攬了 8 項經典的視覺生成任務的 SOTA。

論文表示，NÜWA更是在文本到圖像生成中“完虐” OpenAI DALL-E。

碾壓各種對比的算法效果，殺瘋了！

NÜWA 效果

我們先看下NÜWA這算法在 8 項經典的視覺生成任務中的表現。

Text-To-Image(T2I)

文字轉圖片任務，其實就是根據一段文字描述，生成對應描述的圖片。

比如：

A dog with gogglesstaring at the camera.

一隻戴着護目鏡，盯着攝像機的狗。

還有更多效果：

NÜWA生成的效果看起來就沒那麼違和，從論文的效果看，很真實！

效果非常 Amazing。

Sketch-To-Image (S2I)

草圖轉圖片任務，就是根據草圖的佈局，生成對應的圖片。

比如：

在一張圖片上，畫個大致輪廓，就可以自動“腦補”圖片。

這效果真是開了眼了，真實效果真如論文這般的話，那確實很強。

這個算法，可以用在很多有意思的場景。

Image Completion (I2I)

圖像補全，如果一副圖片殘缺了，算法可以自動“腦補”出殘缺的部分。

好傢伙，是不是又有一些大膽的想法了？

這個遮擋還算可以，還有更細碎的。

圖片碎成這樣，還能“腦補”出畫面，我很期待代碼。

Image Manipulation (TI2I)

圖片處理，根據文字描述，處理圖片。

比如：

有一副草原的圖片，然後增加一段描述：

a horse is running on the grassland

一匹馬奔跑在草原上，然後就可以生成對應的圖片。

這驚人的理解力。

這讓我想起來了 P 圖吧大神，惡搞的作品。

有了這個算法，咱也可以試一試了，哈哈。

Video

這還不算完，除了上述的生成圖片的四種效果，NÜWA還可以生成視頻！

對應的四種視頻生成任務：

Text-To-Video (T2V)

Sketch-To-Video (S2V)

Video Manipulation (TV2V)

既可以玩圖片又可以玩視頻。

NÜWA 原理

NÜWA模型的整體架構包含一個支持多種條件的 adaptive 編碼器和一個預訓練的解碼器，能夠同時使圖像和視頻的信息。

對於圖像補全、視頻預測、圖像處理和視頻處理任務，將輸入的部分圖像或視頻直接送入解碼器即可。

而編碼解碼器都是基於一個3D Nearby的自注意力機制（3DNA）建立的，該機制可以同時考慮空間和時間軸的上局部特性，定義如下：

W 表示可學習的權重，X 和 C 分別代表文本、圖像、視頻數據的 3D 表示。

3DNA 考慮了完整的鄰近信息，併爲每個 token 動態生成三維鄰近注意塊。注意力矩陣還顯示出 3DNA 的關注部分（藍色）比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

更多細節，可以直接看論文：

NÜWA 的代碼還沒有開源，不過 Github 已經建立。

作者表示，很快就會開源：

公司有開源審批流程，代碼也得梳理下，所以可以先 Star 上標記下，耐心等等。

微軟亞研院和北大聯合打造的一個多模態預訓練模型 NÜWA，在首屆微軟峰會上亮相過。

這種應該不會鴿的~

總結

今年算是多模態 Transformer 大力發展的一年，從各種頂會的論文就能看出，各種多模態。

就聊這麼多吧，今天寫完技術文，我繼續做視頻了。我是 Jack，我們下期見~

女媧算法，殺瘋了！

相關資訊