☰

多模態大模型多元路徑中，智源提出一種收斂可能

2024年中下旬，大模型賽道逐漸冷靜，零星動態更新也主要聚焦於多模態領域。相較於大語言模型逐漸收斂的技術趨勢，多模態領域技術路線暫時呈現多元化態勢，如OpenAI Sora 基於Diffusion Transformer架構，生數科技的核心是使用一個統一的底層架構U-ViT來處理圖像、3D、視頻等多類複雜生成任務。

10月21日，智源研究院提出一種新訓練範式，發佈原生多模態世界模型Emu3，可實現視頻、圖像、文本三種模態的統一理解與生成。原理上，Emu3基於自迴歸技術路線（Autoregressive Model），只基於下一個token（輸入數據的基本單位）預測，無需擴散模型或組合式方法，將圖像、文本和視頻編碼爲一個離散空間，在多模態混合序列上從頭開始聯合訓練一個Transformer。

自迴歸技術路線屬於多模態大模型領域的一種方法，核心思想是利用序列數據中的時間依賴性來預測未來的數據點。該類型模型中，不同模態數據共享同一套參數，可實現跨模態的關聯和生成，無需人工設計的特徵工程。同時因自迴歸技術路線的特點，在生成數據時模型必須按順序進行，限制了並行計算的能力，導致生成速度較慢。也會遇到長期依賴問題，即模型難以捕捉序列中較遠距離的依賴關係。

此前，谷歌與麻省理工學院（MIT）何愷明團隊聯合推進了一個新研究項目，推出名爲Fluid的視覺自迴歸模型，採用連續token生成方式和隨機順序生成機制。國內市場中，智源研究院作爲非營利性研究組織，率先推出自迴歸路線多模態模型，初衷爲攻克大模型領域原始創新，目標在資源允許的情況下，在國際開源社區中展現中國技術實力與訓練成果。目前智源研究院已開源了Emu3生成和理解一體的預訓練模型以及相應的SFT訓練代碼，以方便後續研究和社區構建與集成。

Emu3之前，多模態生成任務主要由以Stable Diffusion爲代表的擴散模型所主導，多模態理解任務由CLIP視覺編碼器與LLM結合的組合式方法所主導。採訪中，智源研究院院長王仲遠對記者表示，Emu3證明了下一個token預測可以在多模態任務中有高性能的表現，有機會將基礎設施建設收斂到一條技術路線上，爲大規模的多模態訓練和推理提供基礎。

此前一位國內頭部大模型企業人員對記者表示，大語言模型是多模態模型的“智商”基礎，不論文生圖還是圖生視頻模型，都需要大語言模型作爲底座，再通過其他路徑將不同模型連接，實現最終的多模態。王仲遠對記者表示，Emu3有別於這類組合方法，採用的是原生統一的多模態技術範式。雖然多模態大模型訓練所需資源並不比大語言模型要少，但可以極大程度上覆用現有基礎設施，包括技術範式與GPU集羣等。

另外針對目前行業從訓練端轉向推理端的趨勢變化，王仲遠對記者表示，在技術路線收斂的趨勢下，廠商會更積極地探索模型的落地場景。從樂觀的角度來看，說明基礎大模型已經達到一定的能力水平。另從謹慎的角度來說，訓練轉推理說明僅靠市場驅動，會令廠商陷入“追隨者”的境地，不利於原始技術創新。

當下，王仲遠稱，研發多模態技術路線是比大語言模型更重要的時間節點，因爲後者主要跟隨已被驗證的ChatGPT技術路線，而如今的多模態領域還處於非常早期。

至於Emu3模型的具體落地場景方向，王仲遠表示，機器人大腦、自動駕駛、多模態對話和推理等都是潛在的應用方向。

多模態大模型多元路徑中，智源提出一種收斂可能

相關資訊