通信巨頭入局視頻生成,直接霸榜權威評測:人物跨越多場景依然一致

視頻生成模型評測權威榜單VBench,突遭“屠榜”。

這個突然殺出來的模型,就是中國電信人工智能研究院(TeleAI)剛剛發佈的視頻大模型(VBench上的代號爲TeleAI-VAST)。

而且16項子指標有9項都是第一,大幅領先第二名。

其中更是有5項得分超過99%,並在物體分類和人體動作兩項拿了滿分100%。

來看一段樣片(請移步公衆號)

這段短片中,四位女主角爲尋找寶石,分別踏上了各自的冒險之旅。

具體細節不展開太多,但關鍵之處在於,每個人物在各自的分鏡中,形象都和開頭的合影保持了一致。

要知道對於視頻生成來說,保持單個人物的前後一致就已經不是一件容易的事,TeleAI視頻生成大模型卻一下處理了四個。

除了開頭三分鐘的宣傳片,TeleAI展示了另外幾段作品。

第一段視頻中,女主角先後出現在公交車、馬路、酒吧吧檯和座位四個不同的場景。

在這四個場景中,人物的外貌、髮型、衣着全都保持了一致,畫面整體的色調風格也很統一。

這說明,TeleAI視頻生成大模型已經實現了不同的場景變化下主體的時空一致性。

接下來的這段畫面裡,兩隻猴王展開了一場近距離對戰,期間的人物動作、鏡頭跟隨,都已經呈現出了電影級的水準。

如果細節再繼續打磨優化,拿來拍電影指日可待。

人物特徵、時空一致性和動作精準性都有了,還能再做些什麼呢?

目前的視頻生成模型大多生成的都是默片,這次TeleAI把聲音也加進來了。

先看視頻(請移步公衆號)

從視頻中可以看到,TeleAI視頻生成大模型生成的聲音,不是單純地來上一段音樂那麼簡單。

仔細聽會發現,艦船的鳴笛聲、飛機起飛的轟鳴聲、潛水艇的水聲,以及最後火箭衝出水面的聲音,都與畫面中看到的內容做到了同步。

也就是說,TeleAI視頻生成大模型作品中體現的一致性,已經跨越模態了。

不僅效果和成績優秀,TeleAI視頻生成大模型的技術架構也十分獨特。

它沒有采用傳統的路徑,而是全自研了一個“二階段視頻生成技術”——VAST(Video As Storyboard from Text)。

TeleAI團隊沒有選擇一步到位,而是將視頻的生成分解成了兩個過程。

在第一階段,採用多模態大型模型根據文本輸入生成中間素材,包括姿勢、分割圖和深度信息。

TeleAI團隊把這些中間表示稱作“故事板”,是模型能夠體現場景語義和結構本質的關鍵。

第二階段,纔是真正的視頻生成。

利用基於DiT架構的擴散模型,TeleAI以這些表示爲條件,結合目標對象的文本描述和外觀信息,生成最終的視頻。

這種分段式的方式,使得生成視頻時能夠精確控制主體的位置、運動和視覺外觀。

而且,TeleAI視頻生成大模型不僅能在模型上分“階段”,還可以把視頻按場景分成“片段”。

當創作者想要生成一段長視頻時,視頻生成工具可以先設計具體的分鏡頭,開頭3分鐘的視頻就是用這種方法創作出來的。

針對每一個分鏡,生成具有一致性的生成中間素材,這些中間素材不僅作用於模型內部,對創作者也是可見的,甚至還能進行調整修改。

因爲對片段進行了劃分,所以,只要在每個片段中都能保持人物一致性,可以生成的視頻長度將是無限長。

中國電信介紹,本次發佈的視頻生成大模型將於明年開啓公測,可以期待一波新鮮的AI大片了。

此次亮相的視頻生成大模型,是TeleAI整個大模型佈局中的一個環節。

此前,TeleAI已經自主了研發覆蓋語義、語音、視覺、多模態的“星辰”大模型能力體系。

星辰大模型在央企中唯一開源,還完成首個全國產化萬卡萬參大模型訓練,並打造業界首個支持40種方言自由混說的語音識別大模型。

基礎模型之外,TeleAI還面向工業、教育等領域推出50多個場景大模型,並構建了“星海”數據智能中臺,形成了9萬億Tokens高質量數據集。

在使用方式上也另闢蹊徑,甚至推出了發短信和大模型對話的功能。

除了模態、場景、數據和使用方式,TeleAI也全新推出了大模型智能體平臺,與視頻生成大模型一同登上TeleAI開發者大會。

可以期待一下TeleAI下一波的AI產品了。