BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬|大模型論文

今日值得關注的大模型前沿論文

BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬

ID-Aligner:利用獎勵反饋學習增強“文生圖”身份保持

Cantor:激發 MLLM 的多模態思維鏈

MMT-Bench:大型視覺語言模型綜合多模態評估基準

超越思維鏈(CoT),大模型的“Chain-of-X”範式調查

利用指令跟隨模型自動規劃版面設計

1.BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬

來自羅格斯大學的研究團隊及其合作者提出了 BattleAgent,這是一個結合了大型視覺語言模型(LVLM)和多智能體(agent)系統的仿真系統,旨在模擬多個智能體之間以及智能體與其環境之間特定時間內的複雜動態互動。

它既能模擬領導者的決策過程,也能模擬士兵等普通參與者的觀點,展示了當前智能體的能力,具有智能體與環境之間細粒度多模態交互的特點。它開發了可定製的智能體結構,從而滿足特定的情境要求,例如偵察和挖掘戰壕等各種與戰鬥相關的活動。這些組件相互協作,以生動全面的方式再現歷史事件,同時從不同的視角洞察個人的思想和情感。

BattleAgent 爲歷史戰役建立了詳細和身臨其境的場景,使單個智能體能夠參與、觀察和動態響應不斷變化的戰役場景。這種方法有可能大大加深我們對歷史事件的理解,特別是通過個人敘述。由於傳統的歷史敘事往往缺乏文獻記載,而且優先考慮決策者的觀點,忽略了普通人的經歷,因此這種舉措也有助於歷史研究。

論文鏈接:https://arxiv.org/abs/2404.15532

2.ID-Aligner:利用獎勵反饋學習增強“文生圖”身份保持

擴散模型的快速發展催生了各種應用。尤其是身份保持的文本到圖像生成(ID-T2I),因其廣泛的應用場景(如人工智能肖像和廣告)而備受關注。

雖然現有的 ID-T2I 方法已經取得了令人矚目的成果,但仍存在幾個關鍵挑戰:1)很難準確保持參考肖像的身份特徵;2)生成的圖像缺乏美感,尤其是在要求身份保持時;3)無法同時兼容基於 LoRA 和基於 Adapter 的方法。

爲了提高 ID-T2I 的性能,來自中山大學和字節跳動的研究團隊,提出了一種通用反饋學習框架——ID-Aligner。同時,爲了解決身份特徵丟失的問題,他們提出了身份一致性獎勵微調,利用人臉檢測和識別模型的反饋來改進生成的身份保存。此外,他們還提出了身份美學獎勵微調,利用人類標註的偏好數據獎勵和自動構建的字符結構生成反饋,從而提供美學調整信號。

得益於其通用反饋微調框架,該方法可輕鬆應用於 LoRA 和 Adapter 模型,從而實現一致的性能提升。在 SD1.5 和 SDXL 擴散模型上進行的大量實驗驗證了該方法的有效性。

論文鏈接:https://arxiv.org/abs/2404.15449項目地址:https://idaligner.github.io/

3.Cantor:激發 MLLM 的多模態思維鏈

隨着由思維鏈(CoT)方法加強的大型語言模型(LLMs)的出現,視覺推理問題通常被分解成易於管理的子任務,並利用各種外部工具依次解決。然而,這種範式面臨的挑戰是,由於視覺信息不足和低級感知工具的侷限性,決策過程中可能出現“確定性幻覺”,無法提供全面推理所需的抽象總結。

來自廈門大學和騰訊的研究團隊認爲,將視覺情境獲取與邏輯推理結合起來是解決視覺推理任務的關鍵。他們深入探討了多模態 CoT 領域,從而利用多模態大語言模型(MLLM)及其認知能力解決複雜的視覺推理任務。

爲此,他們提出了一個創新的多模態協同推理框架——Cantor,其特點是感知-決策架構。Cantor 首先充當決策生成器,整合視覺輸入來分析圖像和問題,確保與實際情境更加一致。此外,Cantor 還利用 MLLM 的高級認知功能,發揮多面專家的作用,獲取更高層次的信息,從而增強 CoT 生成過程。

大量實驗證明了 Cantor 的有效性,在兩個複雜的視覺推理數據集上顯示出多模態 CoT 性能的顯著提高,而無需進行微調或 ground-truth 論證。

論文鏈接:https://arxiv.org/abs/2404.16033項目地址:https://ggg0919.github.io/cantor/

4.MMT-Bench:大型視覺語言模型綜合多模態評估基準

大型視覺語言模型(LVLM)在通用多模態應用(如視覺對話和嵌入式導航)方面取得了長足進步。然而,現有的多模態評估基準僅涵蓋有限的多模態任務,只能測試最基本的能力。

在這項工作中,來自上海 AI Lab、上海交通大學和香港大學的研究團隊及其合作者,提出了一個綜合基準 MMT-Bench,用於評估大規模多模態任務中的 LVLM,這些任務需要專家知識和審慎的視覺識別、定位、推理和規劃。MMT-Bench 包括 31325 個多選視覺問題,這些問題來自車輛駕駛和模擬導航等各種多模態場景,涵蓋多模態理解中的 32 個核心元任務和 162 個子任務。由於任務覆蓋面廣,MMT-Bench 可以使用任務地圖對 LVLM 進行評估,便於發現領域內和領域外的任務。

論文鏈接:https://arxiv.org/abs/2404.16006

5.超越思維鏈(CoT),大模型的“Chain-of-X”範式調查

思維鏈(CoT)是一種被廣泛採用的提示方法,能激發大型語言模型(LLM)令人印象深刻的推理能力。受 CoT 的順序思維結構的啓發,人們開發了許多 Chain-of-X (CoX) 方法,從而應對涉及 LLM 的不同領域和任務中的各種挑戰。

在這項工作中,來自上海交通大學、加州大學聖地亞哥分校的研究團隊及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具體來說,他們按照節點分類法(即 CoX 中的 X)和應用任務對這些方法進行了分類。他們還討論了現有 CoX 方法的發現和影響,以及潛在的未來方向。

論文鏈接:https://arxiv.org/abs/2404.15676

6.利用指令跟隨模型自動規劃版面設計

最近在指令跟隨模型方面取得的進步使用戶與模型的交互更加友好和高效,從而擴大了模型的適用範圍。在平面設計領域,由於技能和資源有限,非專業用戶往往難以設計出具有視覺吸引力的佈局。

在這項工作中,加州大學聖巴巴拉分校、Adobe 研究團隊提出了一個新穎的多模態指令跟隨框架,允許用戶通過指定畫布尺寸和設計目的,如書籍封面、海報、宣傳冊或菜單,輕鬆地將視覺元素排列成定製佈局。

他們開發了三個佈局推理任務來訓練模型理解和執行佈局指令的能力。在兩個基準測試中的實驗表明,該方法不僅簡化了非專業人員的設計流程,且性能超過了少樣本 GPT-4V 模型,在 Crello 上的 mIoU 高出了 12%。這一進展凸顯了多模態指令跟隨模型在自動化和簡化設計流程方面的潛力。

論文鏈接:https://arxiv.org/abs/2404.15271

|點擊關注我 記得標星|