☰

拳打Pika腳踢Gen-2!斯坦福李飛飛聯合谷歌,AI文生視頻大模型炸圈

本文系本站新聞•本站號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。

AI文生視頻賽道正呈現出爆發之勢！

繼本月AI文生視頻工具Pika 1.0爆火出圈、Gen-2效果大升級之後，斯坦福大學AI科學家李飛飛的團隊也有了新動作！

智東西12月12日報道，今日，李飛飛及其學生團隊與谷歌合作，推出了AI視頻生成模型W.A.L.T（窗口注意力潛在Transformer ，Window Attention Latent Transformer）。

▲李飛飛在社交平臺X發聲轉發

演示中，W.A.L.T可以通過自然語言提示，生成3秒長的每秒8幀、分辨率達512×896的逼真視頻。

▲W.A.L.T的文生視頻示例

W.A.L.T可以讓一張靜態圖片變爲一個的動態感十足的動圖。

▲W.A.L.T的圖生視頻示例

W.A.L.T還可以用於生成3D攝像機運動的視覺效果。

▲W.A.L.T的3D視頻生成示例

與爆火的Pika 1.0、Gen-2等同類工具類似，W.A.L.T採用擴散模型（Diffusion Model）技術。

同時，W.A.L.T的創新之處在於，其將Transformer架構與潛在擴散模型（Latent Diffusion Models，LDM）相結合，在一個共享潛在空間中壓縮圖像和視頻，從而降低計算要求，提高訓練效率。

根據論文，W.A.L.T在視頻生成基準UCF-101和Kinetics-600、圖像生成基準ImageNet測試上實現了SOTA（當前最優效果）。

項目地址：https://walt-video-diffusion.github.io/

論文地址：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

▲W.A.L.T相關論文截圖

W.A.L.T模型目前支持文生視頻、圖片轉視頻和3D相機拍攝視頻三項能力，團隊展示了一系列W.A.L.T生成示例。

1、文生視頻：一句話生成高清逼真視頻

輸入一句簡短的提示詞，W.A.L.T模型就可以給出一個3秒長的逼真視頻。以下是一些示例：

陽光明媚的下午，宇航員在餵鴨子。（An astronaut feeding ducks on a sunny afternoon.）

一頭戴着生日帽的大象在海灘上行走。（An elephant wearing a birthday hat walking on the beach.）

皮卡丘在拳擊場內戴着拳擊手套。（Pikachu wearing boxing gloves, inside a boxing ring.）

一隻可愛的熊貓在天空中滑板，越過雪山，充滿夢幻和異想天開的氣氛。（A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere.）

一對情侶撐着雨傘走回家，傾盆大雨，油畫風格。（A couple walking home with umbrellas, heavy downpour, oil painting style.）

2、圖片轉視頻：用戶提供圖片，生成動態視頻

這裡的圖片不是由W.A.L.T模型生成的，但動態效果是的，如下面的示例所示：

一個穿着全套太空服的宇航員騎着馬，慢動作。（An astronaut in full space suit riding a horse, slow motion.）

一個巨大的機器人在雪裡行走。（A giant robot walking through a snowy landscape.）

一隻大泰迪熊慢鏡頭走在第五大道上。（A large teddy bear walking down 5th avenue, slow motion.）

3、3D相機拍攝視頻：物體全景多細節展示

團隊還展示了3D視頻內容的生成，效果看起來就像一個3D攝像機拍攝而來。示例如下：

鏡頭轉向盤子裡的漢堡，工作室。（Camera turns around a burger on a plate, studio lighting, 360 rotation.）

攝像機繞着戴着一副耳機的南瓜，工作室燈光，360度旋轉。（Camera turns around a pair of headphones around a pumpkin, studio lighting, 360 rotation.）

Transformer在處理視頻等高維數據時成本過高，潛在擴散模型（Latent diffusion models，LDM）可以降低計算要求。

因此，李飛飛學生團隊與谷歌研發者共同提出了窗口注意力潛在Transformer（Window Attention Latent Transformer，W.A.L.T），這是一種基於Transformer的潛在視頻擴散模型（latent video diffusion models，LVDM）方法。

當下，市面上的同類工具如Pika Labs推出的Pika 1.0、Runway的Gen-2，大都採用擴散模型（Diffusion Model），這是很長時間裡圖像和視頻生成領域的主流技術路線。

W.A.L.T沿用這一主流技術路徑，並在此基礎上進行創新，主要實現以下兩方面的升級：

1、使用局部窗口注意力，顯著降低計算需求。

2、更有利的聯合訓練：空間層獨立處理圖像和視頻幀，而時空層專注於時間關係建模。

據悉，這一架構主要的優勢是它能同時在圖像和視頻數據集上進行訓練。

這得益於W.A.L.T的兩個關鍵決策：

1、使用因果編碼器，在一個共享潛在空間中壓縮圖像和視頻。

2、使用基於窗口注意力的Transformer架構，在潛在空間中聯合時空生成建模，從而提高記憶和訓練效率。

團隊基於W.A.L.T訓練了三個模型的級聯（Cascade），用於文本到視頻的生成任務，包括：一個基本的潛在視頻擴散模型、兩個視頻超分辨率擴散模型。

在無需使用無分類器指導的情況下，W.A.L.T在視頻生成基準UCF-101和Kinetics-600、圖像生成基準ImageNet測試上實現了SOTA。

▲在基於kinect-600的幀預測和基於UCF-101的類條件生成的視頻生成評價

短短一個月時間裡，AI生成視頻賽道已成爆發態勢，背後玩家不僅覆蓋高校及科研團隊，還有多家科技巨頭及AI創企。

先是11月3日，視頻生成領域的“老大哥”Runway宣佈其AI視頻生成工具Gen-2更新，分辨率提升至4K，大幅提高保真度和一致性。一週後，Runway又緊鑼密鼓地發佈了運動畫筆功能，強化視頻局部編輯能力。

Gen-2體驗地址：https://research.runwayml.com/gen2

▲Runway在X平臺宣佈其AI視頻生成工具Gen-2更新

緊接着，國內外的科技巨頭都加入了這一賽道。

11月16日，科技巨頭Meta推出了文生視頻模型Emu Video。Emu Video可以通過自然語言生成高質量視頻，它將視頻生成分爲兩個步驟，首先生成以文本爲條件的圖像，然後生成以文本和生成的圖像爲條件的視頻。

項目主頁地址：emu-video.metademolab.com

11月18日，國內大廠字節跳動推出了文生視頻模型PixelDance，提出了基於文本指導+首尾幀圖片指導的視頻生成方法，使得視頻生成的動態性更強。

項目主頁地址：https://makepixelsdance.github.io

▲PixelDance的強動態效果演示

一些AI創企的做法則更激進，直接扔出體驗體驗鏈接，引爆消費級市場。

11月29日，AI創企Pika Labs推出網頁版Pika 1.0，一時間在消費級市場火出圈。Pika 1.0能根據文字圖片，生成一段3s的流暢視頻；它還支持用戶圈定視頻裡的元素，進行視頻局部編輯。Pika僅僅開放半年已有超50萬用戶，目前還有更多用戶排隊申請體驗網頁版Pika 1.0產品。Pika是一家創立於今年4月的創企，近期剛剛宣佈了5500萬美元融資。

Pika 1.0體驗地址：https://pika.art/waitlist

▲Pika Labs官宣網頁版Pika 1.0上線

在圖像領域深耕已久的Stability AI也不示弱。11月29日，Stability AI推出了名爲Stable Video Diffusion的視頻生成模型，提供SVD和SVD-XT兩個模型。其中，SVD將靜止圖像轉換爲14幀的576×1024視頻，而SVD-XT在相同的架構下將幀數提升至24。這兩者都能以每秒3到30幀的速度生成視頻，目前已進入“研究預覽”階段。

官方演示視頻：https://www.youtube.com/watch?v=G7mihAy691g

除此之外，國內美圖公司發佈的AI視覺大模型MiracleVision的4.0版本，剛剛新增了AI視頻兩大能力；來自中國科學院等機構的研究者在11月21日提出了一個無需訓練的文本生成視頻框架GPT4Motion；阿里的研究團隊在最新論文中提出了新框架Animate Anyone，支持從靜態圖像AI生成動態視頻。

商業化產品集中爆發，AI生成視頻技術似乎正迎來一個“ChatGPT時刻”。

短短一個月時間裡，我們看到AI視頻生成的技術和產品加速爆發，科研機構、AI創企和科技巨頭都出動了。

僅僅一年之前，ChatGPT以迅雷不及掩耳之勢走向全球，爲文本創作領域帶來重大的變革，並掀起了全球範圍內的“百模大戰”。

一年後的今天，AI視頻生成賽道或許迎來一個新的“ChatGPT時刻”，國內外的玩家都已經“開卷”了，推動多模態大模型的升維競賽打響。

拳打Pika腳踢Gen-2!斯坦福李飛飛聯合谷歌,AI文生視頻大模型炸圈

相關資訊