多模態大模型多元路徑中,智源提出一種收斂可能

2024年中下旬,大模型賽道逐漸冷靜,零星動態更新也主要聚焦於多模態領域。相較於大語言模型逐漸收斂的技術趨勢,多模態領域技術路線暫時呈現多元化態勢,如OpenAI Sora 基於Diffusion Transformer架構,生數科技的核心是使用一個統一的底層架構U-ViT來處理圖像、3D、視頻等多類複雜生成任務。

10月21日,智源研究院提出一種新訓練範式,發佈原生多模態世界模型Emu3,可實現視頻、圖像、文本三種模態的統一理解與生成。原理上,Emu3基於自迴歸技術路線(Autoregressive Model),只基於下一個token(輸入數據的基本單位)預測,無需擴散模型或組合式方法,將圖像、文本和視頻編碼爲一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。

自迴歸技術路線屬於多模態大模型領域的一種方法,核心思想是利用序列數據中的時間依賴性來預測未來的數據點。該類型模型中,不同模態數據共享同一套參數,可實現跨模態的關聯和生成,無需人工設計的特徵工程。同時因自迴歸技術路線的特點,在生成數據時模型必須按順序進行,限制了並行計算的能力,導致生成速度較慢。也會遇到長期依賴問題,即模型難以捕捉序列中較遠距離的依賴關係。

此前,谷歌與麻省理工學院(MIT)何愷明團隊聯合推進了一個新研究項目,推出名爲Fluid的視覺自迴歸模型,採用連續token生成方式和隨機順序生成機制。國內市場中,智源研究院作爲非營利性研究組織,率先推出自迴歸路線多模態模型,初衷爲攻克大模型領域原始創新,目標在資源允許的情況下,在國際開源社區中展現中國技術實力與訓練成果。目前智源研究院已開源了Emu3生成和理解一體的預訓練模型以及相應的SFT訓練代碼,以方便後續研究和社區構建與集成。

Emu3之前,多模態生成任務主要由以Stable Diffusion爲代表的擴散模型所主導,多模態理解任務由CLIP視覺編碼器與LLM結合的組合式方法所主導。採訪中,智源研究院院長王仲遠對記者表示,Emu3證明了下一個token預測可以在多模態任務中有高性能的表現,有機會將基礎設施建設收斂到一條技術路線上,爲大規模的多模態訓練和推理提供基礎。

此前一位國內頭部大模型企業人員對記者表示,大語言模型是多模態模型的“智商”基礎,不論文生圖還是圖生視頻模型,都需要大語言模型作爲底座,再通過其他路徑將不同模型連接,實現最終的多模態。王仲遠對記者表示,Emu3有別於這類組合方法,採用的是原生統一的多模態技術範式。雖然多模態大模型訓練所需資源並不比大語言模型要少,但可以極大程度上覆用現有基礎設施,包括技術範式與GPU集羣等。

另外針對目前行業從訓練端轉向推理端的趨勢變化,王仲遠對記者表示,在技術路線收斂的趨勢下,廠商會更積極地探索模型的落地場景。從樂觀的角度來看,說明基礎大模型已經達到一定的能力水平。另從謹慎的角度來說,訓練轉推理說明僅靠市場驅動,會令廠商陷入“追隨者”的境地,不利於原始技術創新。

當下,王仲遠稱,研發多模態技術路線是比大語言模型更重要的時間節點,因爲後者主要跟隨已被驗證的ChatGPT技術路線,而如今的多模態領域還處於非常早期。

至於Emu3模型的具體落地場景方向,王仲遠表示,機器人大腦、自動駕駛、多模態對話和推理等都是潛在的應用方向。