一張顯卡看遍天下電影!智源聯合高校開源Video-XL打破長視頻理解極限,95%準確率刷爆紀錄

新智元報道

編輯:編輯部 HYZ

【新智元導讀】長視頻理解迎來新紀元!智源聯手國內多所頂尖高校,推出了超長視頻理解大模型Video-XL。僅用一張80G顯卡處理小時級視頻,未來AI看懂電影再也不是難事。

長視頻理解是多模態大模型的核心能力之一,也是邁向通用人工智能(AGI)的關鍵一步。然而,現有的多模態大模型在處理10分鐘以上的超長視頻時,仍然面臨性能差和效率低的雙重挑戰。

對此,智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等多所高校,推出了小時級的超長視頻理解大模型Video-XL。

Video-XL藉助語言模型(LLM)的原生能力對長視覺序列進行壓縮,不僅保留了短視頻理解的能力,而且在長視頻理解上展現了出色的泛化能力。

Video-XL相較於同等參數規模的模型,在多個主流長視頻理解基準評測的多項任務中排名第一。

此外,Video-XL在效率與性能之間實現了良好的平衡,僅需一塊80G顯存的顯卡即可處理2048幀輸入(對小時級長度視頻採樣),並在視頻「大海撈針」任務中取得了接近95%的準確率。

僅需幾秒鐘,VideoXL便可以準確檢索長視頻中植入的廣告內容(https://github.com/VectorSpaceLab/Video-XL/tree/main/examples),也可以像人類一樣準確理解電影中發生的主要事件(本視頻僅用於學術研究,如有問題,請隨時聯繫)

未來,Video-XL有望在電影摘要、視頻異常檢測、廣告植入檢測等應用場景中展現出廣泛的應用價值,成爲得力的長視頻理解助手。

論文標題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

論文鏈接:https://arxiv.org/abs/2409.14485

模型鏈接:https://huggingface.co/sy1998/Video_XL

項目鏈接:https://github.com/VectorSpaceLab/Video-XL

圖1 不同長視頻模型在單塊80G顯卡上支持的最大幀數及在Video-MME上的表現

背景介紹

使用MLLM進行長視頻理解具有極大的研究和應用前景。然而,當前的視頻理解模型往往只能處理較短的視頻,無法處理十分鐘以上的視頻。

儘管最近研究社區出現了一些長視頻理解模型,但這些工作主要存在以下問題:

壓縮視覺token帶來的信息損失

爲了使語言模型的固定窗口長度適應長視頻帶來的大量視覺token,衆多方法嘗試設計機制對視覺token進行壓縮,例如LLaMA-VID主要降低token的數量,而MovieChat,MALMM則設計memory模塊對幀信息進行壓縮。然而,壓縮視覺信息不可避免帶來信息的損失和性能降低。

性能和效率的不平衡

相關工作LongVA嘗試finetune語言模型擴大其上下文窗口,併成功將短視頻理解能力泛化到了長視頻上。LongVila優化了 長視頻訓練的開銷,提出了高效訓練長視頻訓練的範式。然而,這些工作並未考慮推理時視頻幀數增加帶來的計算開銷。

方法介紹

1. 模型結構

圖2 Video-XL模型結構圖

如圖2所示,Video-XL的整體模型結構和主流的MLLMs結構相似,由視覺編碼器(CLIP), 視覺-語言映射器(2-layer MLP)以及語言模型(Qwen-7B)構成。

特別之處在於,爲了處理各種格式的多模態數據(單圖,多圖和視頻),Video-XL建立了一個統一的視覺編碼機制。

針對多圖和視頻數據,將每幀分別輸入CLIP;

針對單圖,將其劃分爲多個圖像塊,並將圖像塊輸入CLIP進行編碼。

因此,一個N幀的視頻或者一個N圖像塊的圖片都將統一標記成N×M視覺token。

2. 視覺上下文隱空間壓縮

相比於以往長視頻模型直接對視覺token壓縮,Video-XL嘗試利用語言模型對上下文的建模能力對長視覺序列進行無損壓縮。對於視覺語言連接器輸出的視覺信號序列:

其中n爲視覺token的數量。Video-XL的目標在於將X壓縮成更爲緊湊的視覺表示C (|C|<|X|)。在下文中將詳細介紹視覺上下文隱空間壓縮的原理。

受到Activation Beacon的啓發,Video-XL引入了一種新的特殊標記,稱爲視覺摘要標記(VST),記爲 。基於此可以將視覺信號的隱層特徵壓縮到VST在LLM中的激活表示中(每層的Key和Value值)。

具體而言,首先將視覺信號序列X分成大小爲w的窗口(默認每個窗口長度爲1440):

接着,對每個窗口首先確定壓縮比,並插入一組VST標記,以交替的方式在視覺標記序列中插入。

在該過程中,視覺token表示的變化可以由以下公式表達:

LLM將逐個處理每個窗口進行編碼,並使用額外的投影矩陣在每層自注意力模塊中處理VST的隱藏值。

編碼完成後,普通視覺標記的激活值被丟棄,而VST的激活值被保留並累積,作爲處理後續窗口時的視覺信號代理。

3. 模型訓練方式

Video-XL通過優化在壓縮視覺信號下的生成質量來進行訓練。

下一個token的預測通過以下公式進行計算:

其中Θ代表模型所有優化的參數,包含語言模型,視覺編碼器、視覺語言連接器、VST的投影矩陣,以及VST的token embedding。

模型通過最小化標準的自迴歸損失進行訓練,訓練過程中不計算VST標記的損失(其標籤設爲-100),因爲它們僅用於壓縮。

同時,爲了靈活支持不同的壓縮粒度,訓練時每個窗口的壓縮比會從{2,4,8,12,16}中隨機抽取。在推理時,可以根據具體的效率需求選擇一個壓縮比並應用於所有窗口。

4. 模型訓練數據

在預訓練階段,Video-XL使用Laion-2M數據集優化視覺語言連接器。

在微調階段,Video-XL充分利用了MLLM在各種多模態數據集上的能力。

對於單圖像數據,使用了Bunny 695k和Sharegpt-4o的57k張圖片。

對於多圖像數據,使用了從MMDU提取的5k個數據。

對於視頻數據,收集了不同時長的視頻樣本,包括來自NExT-QA的32k樣本,Sharegpt-4o的2k視頻樣本,CinePile的10k樣本以及11k個帶有GPT-4V視頻字幕註釋的私有數據。

爲了增強長視頻理解能力並釋放視覺壓縮機制的潛力,本工作開發了一個自動化的長視頻數據生產流程,並創建了一個高質量數據集——視覺線索順序數據(VICO)。

該流程首先從CinePile數據或YouTube等視頻平臺獲取長視頻,涵蓋電影、紀錄片、遊戲、體育等開放領域的內容。每個長視頻被分割成14秒的片段。

對於每個片段,本工作使用VILA-1.5 40B模型生成詳細描述,包括動作序列和關鍵事件。基於這些描述,本工作利用ChatGPT將線索按時間順序排列。

VICO數據集通過要求模型檢索關鍵幀並檢測時間變化,提升其長視頻理解能力。

實驗

1 . 評測基準

Video-XL選用多個主流視頻理解評測基準,對於長視頻理解任務,評測了VNBench、LongVideoBench、MLVU和Video-MME;對於短視頻理解任務,評測了MVBench和Next-QA。

2. 評測結果

長視頻理解:

表1 Video-XL在MLVU和VideoMME的性能

表2 Video-XL在VNBench和LongVideoBench上的性能

如表1和表2所示Video-XL在多個主流的長視頻評測基準上展現了卓越性能。

在VNBench上準確率超過了目前最好的長視頻模型大約10%;

在MLVU的驗證集上,僅僅具有7B參數的Video-XL甚至在單項選擇任務上超越了GPT-4o模型;

在Video-MME和LongVideoBench等數據集上,Video-XL也在同等量級規模的長視頻理解模型中排名第一。

超長視頻理解:

Video-XL通過進行了視頻「大海撈針」測試來評估其處理超長上下文的能力。

LLaVA-NexT-Video和LongLLaVA都採用了簡單的位置信息外推算法,但在輸入更多上下文時,仍然難以理解關鍵信息。雖然LongVA通過微調LLM來處理更長的輸入,但高昂的計算成本限制了其在單塊80G GPU上處理約400幀的能力。

相比之下,Video-XL在相同硬件條件下,以16倍壓縮比和2048幀輸入,達到了近95%的準確率。這表明,Video-XL在準確性和計算效率之間實現了最佳平衡。

短視頻理解:

儘管Video-XL的設計主要面向長視頻,但它保留了短視頻理解的能力。在MVBench和Next-QA任務評測中,Video-XL取得了和目前SOTA模型相當的效果。

3. 消融實驗

表3 Video-XL的消融實驗

Video-XL對所提出的視覺壓縮機制和VICO數據集進行了消融實驗,如表3所示。

視覺壓縮的有效性

Video-XL使用Bunny 695k數據集訓練了兩個模型:一個不使用壓縮,另一個使用隨機壓縮比(從{2, 8, 16}中選取)。

對於壓縮模型,在視頻基準MLVU和圖像基準MME、MMBench上測試時應用了不同的壓縮比。

值得注意的是,即使使用16的壓縮比,壓縮模型在仍表現出較好的效果,接近甚至超越了基線模型。

VICO數據集的有效性

Video-XL使用不同數據集訓練了四個模型:(a)僅使用Bunny 695k;(b)Bunny 695k結合NeXTQA 32k;( c)Bunny 695k結合CinePile 10k;(d)Bunny 695k結合長視頻字幕5k;(e)Bunny 695k結合VICO 5k。

值得注意的是,即使僅使用5k的VICO數據,Video-XL也超過了使用NeXTQA 32k訓練的模型。

此外,主要事件/動作排序任務比字幕生成任務帶來了更顯著的提升,因爲它促使模型從長序列中提取關鍵片段並進行理解。

可視化結果

圖3 Video-XL 在長視頻理解任務上的可視化結果

如圖3所示,Video-XL在電影摘要、視頻異常檢測、廣告植入檢測等長視頻任務上展現了良好的性能。

總結

該工作提出了Video-XL模型,利用語言模型的壓縮能力,僅需一塊80G顯卡即可理解小時級別的視頻;除此之外,Video-XL在多個主流長視頻理解基準評測上表現優異。

Video-XL有望在多個長視頻理解的應用場景中展現出廣泛的應用價值,成爲得力的長視頻理解助手。

目前,Video-XL的模型代碼均已開源,以促進全球多模態視頻理解研究社區的合作和技術共享。

參考資料:

https://arxiv.org/abs/2409.14485