融合ChatGPT+DALLE3,賈佳亞團隊新作開源:識圖推理生圖一站解決

在開源社區中把GPT-4+Dall·E 3能⼒整合起來的模型該有多強?

香港中文大學終身教授賈佳亞團隊提出多模態模型Mini-Gemini:

Mini-Gemini還提供了2B小杯到34B的超大杯,最強模型在多個指標上相比谷歌的Gemini Pro甚至GPT-4V都不遑多讓。

目前,Mini-Gemini從代碼、模型到數據已全部開源,登上了PaperWithCode熱榜。

Mini-Gemini線上Demo也已發佈,超會玩梗,一起來體驗下!

接近商業閉源模型水平

Mini-Gemini Demo放出後受到廣大網友關注,一番“品嚐”後,他們認爲Mini-Gemini跟商業模型差不了多少。

目前,絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出,而在實際場景中,許多任務都需要對高清圖像進行解析,並用圖像的形式進行展現。

如下圖所示,Mini-Gemini不僅能夠根據圖片對做麪包的過程進行手把手教學,也能夠準確將不同電腦品種根據圖片中的各種參數進行對比。

有網友開玩笑說,這下媽媽不用擔心我獨自生活了。

更重要的是,Mini-Gemini在保留超強的圖像理解和推理能力的同時,還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結合。

下面,讓我們通過幾個例子來更直觀地感受這種能力:

還記得Google Gemini的官方演示視頻麼?當用戶給出兩個毛線團並問出能用它們做什麼時,Gemini可以識別出圖片內容並給出相應的建議。

當我們把相似的輸入給到Mini-Gemini,它會怎麼回答呢?

可以發現,Mini-Gemini也可以識別出圖片中的元素,並且合理地建議,同時生成了一隻對應的毛線小熊。

通過一些抽象的多模態指令來讓模型給出推理,並生成合適的圖片,這個操作就很像是ChatGPT和DALL·E 3的聯動了。

接下來讓Mini-Gemini做自己最擅長的推理和圖片理解,看看它表現:

比如理解圖片中的矛盾點並舉一反三——輸入冰川中的仙人掌,它會解釋其中的矛盾並生成一張熱帶雨林中北極熊的圖片:

同時,正如ChatGPT+DALL·E 3的夢幻結合一樣,Mini-Gemini的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環小故事。

比方說,讓它根據用戶輸入講一個貴族小老鼠的故事,Mini-Gemini會根據前文的文字生成結果和用戶輸入進行推理,在保持一致性的情況下對圖片進行修改,使其更符合用戶的要求。

當然,Mini-Gemini對於多模態模型的傳統技能圖表理解也不在話下。比方讓模型理解輸入曲線圖的數學意義(高斯分佈),並讓它使用代碼復現這張圖,通過運行生成的代碼,模型可以高質量地還原曲線圖,節省了復現的時間。

又或者讓Mini-Gemini理解梗圖,通過其強大的OCR和推理能力,也可以準確指出笑點。

在另一個案例中,Mini-Gemini除了理解梗圖本身,甚至推測了製作者的深層意圖。

高清複雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級外掛。

技術細節:

那麼問題來了,Mini-Gemini是怎樣做到這種驚豔的效果呢?

核心在於三點:

(1) 用於高清圖像的雙編碼器機制

(2) 更高質量的數據

(3) 訓練階段結合生成模型數據拓展

大道至簡,Mini-Gemini的整體思路並不複雜。其中的Gemini(雙子座)表達的是使用視覺雙分支的信息挖掘(Mining-Info inGemini)解決高清圖像理解問題。

詳細來說,Mini-Gemini將傳統所使用的ViT當做低分辨率的Query,而使用卷積網絡(ConvNet)將高分辨率的圖像編碼成Key和Value。

使用Transformer中常用的Attention機制,來挖掘每個低分辨率Query所對應的高分辨率區域。從而在保持最終視覺Token數目不變的情況下去提升對高清圖像的響應,保證了在大語言模型(LLM)中對於高清圖像的高效編碼。

值得一提的是,由於高分辨率分支卷積網絡的使用,可以根據需要對圖像所需的分辨率自適應調整。對於圖像的生成部分,Mini-Gemini藉助了SDXL,使用LLM推理後所生成的文本鏈接兩個模型,類似於DALL·E 3的流程。

對於數據,Mini-Gemini進一步收集並優化了訓練數據的質量,並加入了跟生成模型結合的文本數據進行訓練。在僅使用2-3M數據的情況下,實現了對圖像理解、推理和生成的統一流程。

Mini-Gemini在各種Zero-shot的榜單上毫不遜色於各種大廠用大量數據訓練出來的模型。

量化指標:

可以看出,Mini-Gemini提供了多種普通和高清版本的模型,並且覆蓋了2B的小杯到34B的超大杯,各個版本都取得了相似參數量下領先的效果,在許多指標上甚至超越Gemini Pro和GPT-4V。

在線可玩:

值得一提的是,Mini-Gemini的圖像理解和生成能力已經出了Demo,可以在線跟自定義圖像對話的那種。

操作也極其簡單,直接跟輸入圖像或文字進行對話即可,歡迎來撩!

Github地址:https://github.com/dvlab-research/MiniGeminiDemo地址:http://103.170.5.190:7860/論文地址:https://arxiv.org/pdf/2403.18814.pdf模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854數據地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624