視頻生成模型百花齊放:騰訊混元正式入局,但行業仍處於早期
21世紀經濟報道記者白楊 北京報道
今年2月,OpenAI發佈了視頻生成模型Sora。儘管直到今天,Sora都未向公衆開放使用,但它的出現,正式拉開了視頻生成時代的大幕。
自Sora問世以來,視頻生成模型開始百花齊放,從上半年的快手可靈、Runway Gen-3、Luma Dream Machine,到下半年的生數科技Vidu、智譜清影、字節跳動PixelDance、MiniMax海螺等,這些產品的出現,都引起了市場的廣泛關注。
12月3日,騰訊混元大模型宣佈上線視頻生成能力,正式加入競爭激烈的視頻生成賽道。騰訊的入局,不僅爲市場注入了新的活力,也意味着這一技術有望在更廣泛的應用場景中得到驗證。
騰訊混元相關負責人向 21 世紀經濟報道記者表示,混元視頻生成模型支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度,相比市面上其他視頻生成模型,混元在文本視頻一致性、運動質量和畫面質量等方面,表現會更加出色。
值得一提的是,在發佈混元視頻生成模型的同時,騰訊也宣佈將其開源,包含模型權重、推理代碼、模型算法等完整模型,參數量爲130億,是當前最大的視頻開源模型。
此前,騰訊混元已經開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現全面開源。
DiT架構成爲主流
在Sora的啓發下,DiT(Diffusion Transformer)架構,一種基於Transformer架構的擴散模型,正成爲視頻生成模型採用的主流技術方案,騰訊混元視頻生成模型也是基於該架構。
在業內,用於理解擴散模型最常聽見的比喻,是來自意大利文藝復興雕塑家米開朗琪羅的一句話:“塑像本來就在石頭裡,我只是把不需要的部分去掉。”
擴散模型的工作原理,就是去除不需要的部分。而如何判斷該去掉哪些石頭以及怎麼去掉這些石頭,這個思考框架就是“U-Net架構”和“Transformer架構”的核心區別。
擴散模型過去最常用的U-Net架構,它的思路是逐步縮小圖像,然後計算圖像的相似性。但是,隨着模型參數量的增加,U-Net模型容易陷入性能瓶頸,並且難以靈活適配多模態任務需求。
而Transformer架構則是將一張大圖切割成無數個小圖片,然後通盤計算整幅圖像中各個圖像塊之間的關聯,從而計算出與目標指令最接近的圖。
這種機制的優點是不會忽略圖片中的任何細節,但需要更多的計算資源。所以,只要算力與數據量足夠,Transformer架構就可以無限擴展,這也是爲什麼,DiT架構會成爲文生圖、生視頻、生3D等多模態視覺生成的首選架構。
在DiT架構的基礎上,混元視頻生成模型也進行了許多升級。
比如混元視頻生成模型適配最新一代大語言模型MLLM (Multimodal Large Language Model)作爲文本編碼器,因此具備了更強大的語義跟隨能力,可以更好地應對多個主體描繪,實現更加細緻的指令和畫面呈現。
另外,混元視頻生成模型採用了統一的全注意力(full attention)機制,使得每幀視頻的銜接更爲流暢,並能實現主體一致的多視角鏡頭切換。而通過先進的圖像視頻混合VAE(3D 變分編碼器),混元讓模型在細節表現有明顯提升,特別是小人臉、高速鏡頭等場景。
視頻生成尚處於早期
雖然市場上已經有許多視頻生成模型,但從用戶的感知來看,視頻生成模型的發展進度遠不及大語言模型。
騰訊研究院近期發佈的一份研究報告,便指出了視頻生成模型現階段的多個不足之處。
首先是視頻生成的成本過高。受底層擴散過程的制約,生成一次視頻需要多步迭代才能完成,對於動輒超百億參數的視頻生成模型,這可能意味着尖端顯卡數十秒甚至數分鐘的運轉。
數據顯示,目前,Runway Gen-3 Alpha Turbo生成一條10秒的768x1280分辨率的視頻價格爲0.5美元,可靈AI生成一條10秒的高品質模式視頻價格爲7元人民幣。
而同樣的價格若用於大語言模型的調用,大致可以生成百萬量級的token。因此,視頻生成的成本遠未達到人人可用的階段。
除此之外,報告認爲“模態不全,缺少聲音”,以及“尚未攻克穩定的長視頻”都是視頻生成模型未來亟需解決的問題。
目前,絕大多數視頻生成模型僅支持生成5-10秒的視頻,混元視頻生成模型的最大長度也是5秒。大家都不做長視頻的生成,一方面有算力成本的考慮,但另一方面,也是受到訓練數據的掣肘。
騰訊研究院認爲,網絡公開視頻和版權影視作品基本都是經原始拍攝素材剪輯而來,成片中單鏡頭時長往往也就3秒左右,遠不足以讓視頻模型充分觀察到物體的長期運動,更不要說底層物理規律的學習。
當然,這些問題也是整個行業在努力改善的方向。騰訊混元相關負責人向記者透露,混元視頻生成模型很快會進行迭代,推出包括視頻配音以及圖生視頻等在內的能力。
而長期看來,隨着技術的迭代、訓練數據的豐富以及模型開源化帶來的生態效應,視頻生成模型也將逐步成熟。當AI能夠創作出更加複雜且細膩的視頻內容時,相信很多行業也將因此迎來變革。