快手可靈,把壓力給到了抖音剪映

快手自研視頻生成大模型「可靈」上線後,截至目前,申請使用的預約人數已經超過 6.5 萬。一時間,引發行業轟動。

原因很簡單,OpenAI 的文生視頻 Sora 發佈後,一直處於內測狀態,外界無緣得以使用;而快手「可靈」發佈即測試,通過快手旗下創作工具快影 App,用戶可以直接申請公測,通過後可生成 2 分鐘左右、分辨率爲 1080p 的文生視頻,視覺效果並不弱於 OpenAI 的 Sora。

文生視頻需要耗費巨大的算力資源,對模型的能力維度要求更高,是國內大模型廠商尚未充分競爭的領地。讓人意外的是,快手「可靈」成爲國產大模型中最先「交卷」的一家,早於字節。

但快手這種領先優勢並不會維持太久,「字節跳動的視頻生成大模型也在內測中,估計很快(發佈)了。」行業知情人士透露,預計跟快手類似,字節旗下視頻生成大模型也將通過旗下創作工具剪映最先上線。

此外,就在「可靈」上線一週後的 6 月 13 日,Luma AI 發佈最新文生視頻模型 Dream Machine,向所有用戶免費開放使用,其效率可以達到每 120 秒就能生成 120 幀畫面,還能快速生成 5 秒鐘的電影級別視覺效果的視頻片段,此外,Luma的模型超越快手可靈的地方,還有豐富的美學風格選項。

更多競爭的對手正在趕來的路上。「6月底之前,大模型廠商都會不斷放出 Sora 類模型產品,文生視頻和圖生視頻大模型將遍地開花。」大模型行業分析人士認爲,此前各家大模型廠商都具備了視頻生成能力,只是礙於算力成本以及視頻效果尚未全面優化,所以並未全面鋪開。

大模型之戰,從技術捲到應用,從百模大戰捲到價格戰,視頻生成大模型會是下一個競爭高地嗎?答案正在揭曉。

彎道超車字節?

「可靈的效果是目前中國 Sora 類的第一,非常意外的是來自快手團隊。」行業分析人士認爲。

快手自研視頻生成大模型「可靈」上線後,讓外界意外的,一方面是視頻生成的效果可以比肩 Sora;另外一方面是其來自快手團隊。因爲,在此前的大模型競爭中,快手並不是引人關注的第一梯隊成員。快手此前發佈通用大語言模型「快意」、文生圖大模型產品「可圖」,影響範圍都很有限,直到如今的「可靈」。

從快手「可靈」公佈的數據看,中國版 Sora 確實是其對標的目標。

從技術路線上看,快手「可靈」採用的是跟 Sora 雷同的 DiT 架構,用 Transformer 代替了傳統擴散模型中基於卷積網絡的 U-Net。快手大模型團隊還自研了一款 3D 時空聯合注意力模塊和 3D VAE 網絡,以實現更好的時空運動建模與更高效的隱空間編/解碼。

而從「可靈」的官方網站上,可以一目瞭然其產品賣點。

最引人注意的是,可靈支持生成長達 2 分鐘的 30 幀視頻,分辨率最高 1080p,自由定製寬高比,這一點遠超 Sora 和國內大模型廠商。而在生成視頻的效果上,可靈強調自己的能力包括生成大幅度的合理運動、模擬物理世界特性、具備概念組合能力和想象力這三大優勢。

而從傳播上,「可靈」也區別於以往國內大模型的發佈,最先從國外社交媒體上引起關注,然後在國內熱度升高,實現了「出口轉內銷」或者「牆內開花牆外香」的特點。

在推特上,對「可靈」的使用評價和評測非常廣泛。

「感覺大家也別等 Sora 這種又貴又費時的工業級 AI 了,先可靈免費用起來。快手這次真是讓人驚喜。」

「與國外的 Sora 視頻生成大模型相比,中國大模型開發者更理解本土文化,大模型生成的內容也更能滿足本土用戶的需求。」

「下午充了一個快影的年費會員,好像就跳過了快手可靈的排隊,直接可以通過更改 prompt 生成視頻了,效果很驚豔呀。生成一個視頻的時間,在 VIP 會員下,大概需要 3 分鐘。」

正是靠着國外社交媒體的熱度,「可靈」的熱度水漲船高。發佈一週之後,快手才正式在官方公衆號上推薦這款產品,標題爲「今天你‘可靈’了嗎?」

事實上,騰訊和字節等互聯網公司,同樣擁有視頻生成大模型,只是尚未完全公測或者效果不盡人意。字節跳動剪映旗下的產品「即夢」就具備短視頻生成功能,可以選擇運鏡類型、視頻比例和運動速度,生成 3-6 秒的視頻,但在視頻呈現效果和時間長度上,並沒有展示出比肩 Sora 的優勢。

這也更凸顯了快手「可靈」令人驚訝的優勢,因爲行業一直認爲要對模型訓練做紮實,本質上不存在彎道超車,如果基礎模型做不好,文生文和文生圖都做不好,何談文生視頻。但意外就在於,快手的視頻大模型奇襲成功了。

可靈背後的人

誰纔是「可靈」背後的決定性人物?這可能是一個人才流動前仆後繼的故事。

就在快手「可靈」正式發佈的前幾天,快手專家研究員王鑫濤對外做過一個《視頻生成的初探及其可控性研究》學術分享,這被認爲是快手內部對「可靈」大模型技術層面的思考,相關 PPT 也很快流傳出來成爲大模型行業研究的資料。

「可靈」發佈之後,王鑫濤又出現在深圳的一次人工智能學術分享會中,王鑫濤提到在追趕 Sora 的過程中,面臨的核心挑戰在於,如何實現在長視頻和長鏡頭中學習到物理規律,從而確保生成的視頻具有高度的物理一致性。

因而這是王鑫濤認爲最值得深入研究的問題,「傳統上,AI 生成的視頻往往侷限於單一鏡頭,缺乏複雜場景下的連貫性和真實感。然而,Sora 卻能在複雜的長視頻中實現鏡頭的流暢切換,同時保持強大的三維、時序和物理一致性。」

事實上,王鑫濤入職快手的時間並不長,目前是快手視覺生成與互動中心的高級研究員,隸屬於快手多模型與 AIGC 部門,負責視覺內容生成方面的研究。公開資料顯示,去年他還是騰訊 AI 實驗室的高級研究員,領導了視覺內容生成 (AIGC)方面的工作。

可以說,快手「可靈」奇襲的背後,離不開王鑫濤這樣的騰訊前 AI 力量的貢獻。

此前騰訊混元開源混元大模型時,就已經公開其具備文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經支持 16s 視頻生成。當時混元大模型文生圖負責人蘆清林就提到,不同模態之間的對齊是難點之一,混元想做視頻和音頻的同時生成,但要解決二者用一個模型輸出的對齊有很大混淆。

而另外一方面,「可靈」出圈的背後,也意味着昔日快手 AI 團隊成員的某種失落。

前快手技術副總裁王仲遠,如今已經是北京智源人工智能研究院院長。去年 12月,快手組織架構大調整中,主站、電商與商業化三個事業部下屬都擁抱了變化,而負責 AI 業務的王仲遠不再擔任任何職務。

僅僅半年前,王仲遠作爲快手 AI &用戶增長業務負責人,在快手創作者大會上首次公佈了快手 AIGC 的進展,其核心旨在提升短視頻內容的創作力和生產力。當時快手已經開放了「可圖」大模型產品,支持文生圖和圖生圖兩類功能,已上線 20 餘種 AI 圖像玩法。

整個 2023 年,是快手缺少 CTO 的一年,也是快手大模型組建團隊和業務的落地之年。從組織架構上看,快手大模型團隊隸屬於快手社區科學線,而業務包含大語言模型、文生圖大模型、視頻生成大模型等多個方向,但大語言模型和文生圖模型相比同行都乏善可陳。

中國版的 Sora 肯定也是王仲遠的期待之一,只是不知道他如何看待「可靈」。

離開快手之後,王仲遠代表智源研究院對外接受過採訪,談及 AGI(通用人工智能)正在加速到來,過去他覺得實現科幻片裡超級人工智能的場景還有四五十年,現在他感覺可能再用四五年 AGI 就會誕生。

「Sora 的出現也是一個劃時代的時刻,它真正的價值不是文字生成精美的視頻,而是說明大模型可能具備了理解三維世界的能力。換句話說,Sora 初步展現了世界模型上的 scaling law(規模法則)。」王仲遠認爲。

第一能維持多久?

當下的快手「可靈」備受好評,但國內 Sora 第一的位置能維持多久?

「可靈」唯一的使用渠道就是快手創作工具快影 App,但快影 App 的下載數據並沒有太大的波動。根據七麥數據,App Store 近七日日均下載量仍舊維持在 2 萬左右,在應用(免費)和攝影與錄像(免費)榜單上的排名依然保持穩定,並沒有太大的變化曲線。

從商業路徑上看,目前「可靈」吸引的更多還是 C 端消費者。相比文生圖和文生文等模型在廣告等領域已經有廣泛的使用場景,文生視頻大模型的使用場景依然有限,所以策略往往先服務於內容生產者,不斷擴展消費端的使用場景,最終吸引 B 端客戶和商家付費使用。

更重要的是,國內 Sora 第一的競爭對手正在趕來的路上。

一方面是國內市場,根據消息人士透露,字節跳動旗下視頻生成大模型也在內測中,估計很快發佈,也將依靠旗下創作工具剪映上線。對剪映來說,此前已經上線的「即夢」已經實現了文生視頻大模型的相應功能,只是目前這部分功能優化程度不足而已。

而變化更快的是國際市場,就在 6月 13 日,Luma AI 首發了自己的視頻生成模型 Dream Machine,用戶可以通過文字或圖片生成高質量的高清視頻,比快手「可靈」更進一步的是,Luma 實現了免費全量開放,登錄即用並不用預約等待。

但與快手「可靈」面臨的問題一樣,Luma AI 也面臨算力不足的問題,使用時需要長時間等待,等待結果也有可能是生成內容失敗,所以算力是制約文生視頻大模型最大的瓶頸。

大模型行業此前公開過相關數據,大模型要實現 Sora 類似的水平,就需要有千卡級別的算力,進一步優化能力則需要萬卡級別的算力,這意味着大規模算力集羣的調動能力,不論是使用英偉達的旗艦 GPU 芯片,還是華爲昇騰的國產 AI 芯片。

大模型競爭依然處於初期,AI 大模型本身對雲服務來說是錦上添花,如何把應用落地做好,把成本最低,依然是當下大模型行業面臨的共同命題。

相比於字節跳動的大模型策略,快手在大模型上的策略僅僅有「可靈」依然是不夠的。字節跳動豆包大模型最明顯的策略和標籤就是成本低,通過價格戰大幅降低模型推理的單位成本,吸引 B 端客戶進入火山引擎的雲服務之中。如果字節跳動發佈視頻生成大模型,那一定是實現了成本更低的一條路。

無論如何,追趕 Sora,已經成爲大模型行業在 2024 年的主要共識和任務之一,快手要穩住國內 Sora 第一的位置,還要面臨殘酷的考驗。