大模型週報|微軟、清華團隊提出“多頭混合專家”MH-MoE;超越思維鏈(CoT),“Chain-of-X”範式調查

本週值得關注的大模型 / AIGC 前沿研究:

Meta 新研究:大模型的端到端推理加速

超越思維鏈(CoT),“Chain-of-X”範式調查

微軟、清華團隊提出多頭混合專家 MH-MoE

BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬

OpenAI 最新論文:如何讓大模型免受惡意攻擊?

綜述:大型語言模型的高效推理

谷歌 274 頁論文:高級人工智能助手的倫理

清華、Meta 提出文生圖定製新方法 MultiBooth

微軟發佈 Phi-3 技術報告:手機上的高功能語言模型

上海 AI Lab 推出開源多模態大模型 InternVL 1.5

Tele-FLM 技術報告

蘋果推出開放語言模型 OpenELM

Google DeepMind 新研究:減輕說服型生成式 AI 的危害

清華團隊新研究:通過提示工程在 LLM 中整合化學知識

MIT CSAIL 推出多模態自動可解釋性智能體 MAIA

PhysDreamer:通過視頻生成,與 3D 物體進行基於物理交互

1.Meta 新研究:大模型的端到端推理加速

來自 Meta 的研究團隊及其合作者,提出了一種端到端的大型語言模型(LLM)推理加速解決方案——LayerSkip。

首先,在訓練過程中,他們採用了層間丟棄技術,早期層間丟棄率較低,後期層間丟棄率較高。其次,在推理過程中,他們證明這種訓練方法提高了早期退出的準確性,而無需在模型中添加任何輔助層或模塊。第三,他們提出了一種新型自我推測解碼方案,即在早期層退出,並通過模型的其餘層進行驗證和校正。與其他推測式解碼方法相比,該方法佔用的內存更少,並能從共享計算以及草稿和驗證階段的激活中獲益。

他們在不同大小的 Llama 模型上進行了不同類型的訓練實驗:從頭開始預訓練、持續預訓練、針對特定數據域的微調以及針對特定任務的微調。他們驗證了推理解決方案,結果表明,CNN/DM 文檔的摘要處理速度提高了 2.16 倍,編碼速度提高了 1.82 倍,TOPv2 語義解析任務的速度提高了 2.0 倍。

論文鏈接:https://arxiv.org/abs/2404.16710

2.超越思維鏈(CoT),“Chain-of-X”範式調查

思維鏈(CoT)是一種被廣泛採用的提示方法,能激發大型語言模型(LLM)令人印象深刻的推理能力。受 CoT 的順序思維結構的啓發,人們開發了許多 Chain-of-X (CoX) 方法,從而應對涉及 LLM 的不同領域和任務中的各種挑戰。

在這項工作中,來自上海交通大學、加州大學聖地亞哥分校的研究團隊及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具體來說,他們按照節點分類法(即 CoX 中的 X)和應用任務對這些方法進行了分類。他們還討論了現有 CoX 方法的發現和影響,以及潛在的未來方向。

論文鏈接:https://arxiv.org/abs/2404.15676

3.微軟、清華團隊提出多頭混合專家 MH-MoE

稀疏混合專家(SMoE)模型可在不顯著增加訓練和推理成本的情況下擴展模型容量,但存在以下兩個問題:專家激活率低,只有一小部分專家被激活用於優化;缺乏對單個 token 中多個語義概念的細粒度分析能力。

來自微軟、清華大學的研究團隊提出了多頭混合專家(MH-MoE),它採用多頭機制將每個 token 分割成多個子 token。然後,這些子 token 被分配給一組不同的專家並由它們並行處理,然後無縫地重新整合爲原始 token 形式。多頭機制使模型能夠集體關注不同專家的各種表徵空間的信息,同時顯著提高專家激活度,從而加深對上下文的理解並減輕過度擬合。此外,MH-MoE 易於實現,並與其他 SMoE 優化方法解耦,易於與其他 SMoE 模型集成,從而提高性能。

以英語爲重點的語言建模、多語言語言建模和掩碼多模態建模任務的大量實驗,證明了 MH-MoE 的有效性。

論文鏈接:https://arxiv.org/abs/2404.15045

4.BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬

來自羅格斯大學的研究團隊及其合作者提出了 BattleAgent,這是一個結合了大型視覺語言模型(LVLM)和多智能體(agent)系統的仿真系統,旨在模擬多個智能體之間以及智能體與其環境之間特定時間內的複雜動態互動。

它既能模擬領導者的決策過程,也能模擬士兵等普通參與者的觀點,展示了當前智能體的能力,具有智能體與環境之間細粒度多模態交互的特點。它開發了可定製的智能體結構,從而滿足特定的情境要求,例如偵察和挖掘戰壕等各種與戰鬥相關的活動。這些組件相互協作,以生動全面的方式再現歷史事件,同時從不同的視角洞察個人的思想和情感。

BattleAgent 爲歷史戰役建立了詳細和身臨其境的場景,使單個智能體能夠參與、觀察和動態響應不斷變化的戰役場景。這種方法有可能大大加深我們對歷史事件的理解,特別是通過個人敘述。由於傳統的歷史敘事往往缺乏文獻記載,而且優先考慮決策者的觀點,忽略了普通人的經歷,因此這種舉措也有助於歷史研究。

論文鏈接:https://arxiv.org/abs/2404.15532

5.OpenAI 最新論文:如何讓大模型免受惡意攻擊?

當前的大型語言模型(LLM)容易受到提示注入、越獄攻擊和其他攻擊的影響,這些攻擊允許攻擊者用他們自己的惡意提示覆蓋模型的原始指令。

OpenAI 研究團隊認爲,這些攻擊的主要漏洞之一是 LLMs 經常將系統提示(比如來自應用程序開發人員的文本)與來自不可信用戶和第三方的文本視爲相同的優先級。爲此,他們提出了一種指令層次(instruction hierarchy)結構,明確定義了當不同優先級的指令衝突時模型應該如何選擇。然後,他們提出了一種數據生成方法來演示這種分層指令跟隨的行爲,該方法指導 LLMs 有選擇地忽略低特權指令。

他們將這種方法應用於 GPT-3.5,結果表明它大大提高了模型的魯棒性——即使對於在訓練過程中未見過的攻擊類型也是如此,同時對標準能力的影響降到最低。

論文鏈接:

https://arxiv.org/abs/2404.13208

6.綜述:大型語言模型的高效推理

大型語言模型(LLM)因其在各種任務中的出色表現而受到廣泛關注。然而,LLM 推理需要大量的計算和內存,這給在資源有限的情況下部署 LLM 帶來了挑戰。該領域一直致力於開發旨在提高 LLM 推理效率的技術。

來自清華大學的研究團隊及其合作者全面考察了有關高效 LLM 推理的現有文獻。他們首先分析了 LLM 推理效率低下的主要原因,即模型規模過大、二次複雜性注意力操作和自動迴歸解碼方法;然後,提出了一個全面的分類法,將目前的文獻整理爲數據級、模型級和系統級優化;此外,還對關鍵子領域中的代表性方法進行了比較實驗,從而提供定量見解;最後,進行了一些知識總結,並討論了未來的研究方向。

論文鏈接:https://arxiv.org/abs/2404.14294

7.谷歌 274 頁論文:高級人工智能助手的倫理

來自 Google DeepMind、Google Research 的研究團隊及其合作者,重點探討了高級人工智能助理帶來的機遇以及倫理和社會風險。

他們將高級人工智能助理定義爲具有自然語言界面的 AI 智能體(artificial agents),其功能是根據用戶的期望,代表用戶在一個或多個領域規劃和執行一系列行動。

他們首先從技術本身入手,概述了人工智能助手、其技術基礎和潛在應用範圍;然後,探討了與人工智能價值一致性、幸福感、安全性和惡意使用有關的問題,他們將進一步擴大調查範圍,更詳細地考慮高級人工智能助手與個人用戶之間的關係,探討操縱和說服、擬人化、信任和隱私等話題,有了這些分析之後,他們將考慮在社會範圍內部署高級人工智能助手,重點關注合作、公平與獲取、錯誤信息、經濟影響、環境以及如何最好地評估高級人工智能助手;最後,他們爲研究人員、開發人員、政策制定者和公共利益相關者提供了一系列建議。

分析表明,高級人工智能助手很可能會對我們的個人和集體生活產生深遠影響。他們認爲,要使人工智能助手有益並與人類價值觀一致,就必須對用戶、開發者和社會之間相互競爭的訴求和需求做出適當迴應。

人工智能助手所具備的功能,如更強的智能體能力、自然語言交互能力和高度個性化,對用戶特別有幫助。然而,這些特點也使人們容易受到技術的不當影響,因此需要強有力的保障措施。

此外,當人工智能助手被大規模部署時,它們之間的互動所產生的連鎖效應以及它們對更廣泛的機構和社會進程的整體影響問題就會凸顯出來。這些動態可能需要技術和政策干預,從而促進有益的合作,實現廣泛、包容和公平的成果。

最後,鑑於目前的人工智能評估主要側重於人工智能系統的技術組成部分,因此必須投資於人工智能助手的整體社會技術評估,包括人與人工智能的互動、多智能體和社會層面的研究,從而支持該領域負責任的決策和部署。

論文鏈接:

https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/

8.清華、Meta 提出文生圖定製新方法 MultiBooth來自清華大學和 Meta 的研究團隊提出了一種用於從文生圖的多概念定製的新型高效技術—— MultiBooth。儘管定製生成方法取得了長足的進步,特別是隨着擴散模型的快速發展,但由於概念保真度低和推理成本高,現有方法在處理多概念場景時依然困難。

爲了解決這些問題,MultiBooth 將多概念生成過程分爲兩個階段:單一概念學習階段和多概念整合階段。在單概念學習階段,他們採用多模態圖像編碼器和高效的概念編碼技術,爲每個概念學習一個簡明且具有辨別力的表徵;在多概念整合階段,他們使用邊界框來定義交叉注意圖中每個概念的生成區域。這種方法可以在指定區域內創建單個概念,從而促進多概念圖像的形成。

這一策略不僅提高了概念的保真度,還降低了額外的推理成本。在定性和定量評估中,MultiBooth 都超越了各種基線,展示了其卓越的性能和計算效率。

論文鏈接:https://arxiv.org/abs/2404.14239項目地址:https://multibooth.github.io/

9.微軟發佈 Phi-3 技術報告:手機上的高功能語言模型

微軟發佈了 Phi-3 系列模型,包括 phi-3-mini、phi-3-small 和 phi-3-medium。

其中,phi-3-mini 是一個基於 3.3 萬億個 token 訓練的 38 億參數語言模型,根據學術基準和內部測試結果,其總體性能可與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上的得分率爲 69%,在 MT-bench 上的得分率爲 8.38),而且體積很小,可以部署在手機上。

微軟團隊表示,Phi-3 系列模型的創新點在於他們的訓練數據集,它是 phi-2 所用數據集的放大版,由經過大量過濾的網絡數據和合成數據組成。他們還進一步調整了模型的魯棒性、安全性和聊天格式。

此外,他們還提供了一些初步的參數縮放結果,包括針對 4.8T token 訓練的 7B 和 14B 模型,即 phi-3-small 和 phi-3-medium,這兩個模型的能力都明顯高於 phi-3-mini(例如,在 MMLU 上分別爲 75% 和 78%,在 MT-bench 上分別爲 8.7 和 8.9)。

論文鏈接:https://arxiv.org/abs/2404.14219

10.上海 AI Lab 推出開源多模態大模型 InternVL 1.5

來自上海 AI Lab 的研究團隊及其合作者,推出了一種開源多模態大型語言模型(MLLM)—— InternVL 1.5,其可彌合開源模型與專有商業模型在多模態理解方面的能力差距。

他們提出了三個簡單的改進:1)強視覺編碼器:他們探索了大規模視覺基礎模型——InternViT-6B 的持續學習策略,增強了其視覺理解能力,並使其可以在不同的 LLLM 中轉移和重用;2)動態高分辨率:根據輸入圖像的長寬比和分辨率,將圖像劃分爲 1 至 40 塊 448×448 像素的方塊,最高支持 4K 分辨率輸入;3)高質量的雙語數據集:他們精心收集了高質量的雙語數據集,涵蓋了常見的場景、文檔圖像,併爲其標註了中英文問答對,顯著提高了 OCR 和中文相關任務的性能。

評估結果顯示,與開源模型和專有模型相比,InternVL 1.5 在 18 個基準測試中的 8 個測試中取得了 SOTA。

論文鏈接:https://arxiv.org/abs/2404.16821GitHub 地址:https://github.com/OpenGVLab/InternVL?tab=readme-ov-file

11.Tele-FLM 技術報告

大型語言模型(LLM)在語言理解和生成方面展示了強大的能力,促進了廣泛的應用。然而,關於如何以最小的試錯成本和計算資源有效地將 LLM 擴展到超過 500 億個參數的詳細開源方法卻明顯不足。

在這項工作中,來自北京智源人工智能研究院、中國電信的研究團隊及其合作者,提出了一個 520 億參數的開源多語言大型語言模型 Tele-FLM(又名 FLM-2),其具有穩定、高效的預訓練範式和增強的事實判斷能力。

Tele-FLM 在文本語料庫的 BPB 測試中展示了優秀的多語言語言建模能力。此外,在英文和中文基礎模型評估中,它與涉及較大預訓練 FLOP 的開源模型(如 Llama2-70B 和 DeepSeek-67B)不相上下。除了模型權重之外,他們還分享了核心設計、工程實踐和訓練細節。

論文鏈接:

https://arxiv.org/abs/2404.16645

12.蘋果推出開放語言模型 OpenELM

大型語言模型(LLMs)的可重複性和透明度,對於推進開放研究、確保結果的可信性、以及對數據和模型偏差以及潛在風險進行調查,至關重要。

蘋果研究團隊推出了一種先進的開放語言模型 OpenELM。OpenELM 使用分層縮放策略,在 transformer 模型的每一層中有效地分配參數,從而提高了準確性。例如,在參數預算約爲 10 億的情況下,OpenELM 的準確率比 OLMo 提高了 2.36%,而所需的預訓練 token 卻減少了 2 倍。

與之前只提供模型權重、推理代碼以及在私有數據集上進行預訓練的做法不同,OpenELM 包含了在公共可用數據集上對語言模型進行訓練和評估的完整框架,包括訓練日誌、多個檢查點和預訓練配置。

此外,他們還發布了將模型轉換爲 MLX 庫的代碼,從而在蘋果設備上進行推理和微調。

論文鏈接:https://arxiv.org/abs/2404.14619GitHub地址:https://github.com/apple/corenet

13.Google DeepMind 新研究:減輕說服型生成式 AI 的危害

最近,生成式人工智能(AI)系統已經顯示出更先進的說服能力,並逐漸滲透到可以影響決策的生活領域。

然而,由於互惠交換和長時間互動的機會,生成式 AI 呈現了一種新的說服風險。這導致人們越來越關注說服型生成式 AI 的危害,以及如何減輕這些危害,從而突出了對說服型生成式 AI 進行系統研究的必要性。目前說服型生成式 AI 的定義不明確,相關的危害也沒有得到充分的研究。現有的減輕危害的方法優先考慮說服結果帶來的危害,而不是說服過程帶來的危害。

在這項研究中,Google DeepMind 團隊及其合作者提出了說服型生成式 AI 的定義,並區分了理性說服型生成式 AI 和操縱型生成式 AI(manipulative generative AI),前者依賴於提供相關事實、合理推理或其他形式的可信證據,後者則依賴於利用認知偏差和啓發式方法或歪曲信息。

他們還提出了服型生成式 AI 的危害,包括經濟、物理、環境、心理、社會文化、政治、隱私的定義和例子。然後,他們提出了一幅導致說服危害的機制圖,概述了可用於減輕說服過程危害的方法,包括操縱分類的提示工程和紅隊。他們未來的工作將使這些緩解措施具有可操作性,並研究不同類型說服機制之間的相互作用。

論文鏈接:https://arxiv.org/abs/2404.15058

14.清華團隊新研究:通過提示工程在 LLM 中整合化學知識

該論文介紹了一項關於整合提示工程中特定領域知識來提高科學領域大型語言模型(LLM)性能的研究。

來自清華大學和牛津大學的研究團隊設計了一個基準數據集,包括了小分子錯綜複雜的物理化學特性,在藥理學上的可藥性,以及酶和晶體材料的功能屬性,強調了其在生物和化學領域的相關性和適用性。通過對麥克米倫催化劑、紫杉醇和氧化鈷鋰等複雜材料的案例研究,證明了該方法的有效性。

研究結果表明,領域知識提示可以引導 LLM 生成更準確、更相關的回答,突出了 LLM 在配備特定領域提示後作爲科學發現和創新的強大工具的潛力。研究還討論了特定領域提示工程開發的侷限性和未來方向。

論文鏈接:https://arxiv.org/abs/2404.14467

15.MIT CSAIL 推出多模態自動可解釋性智能體 MAIA

MIT 計算機科學與人工智能實驗室團隊提出了一個多模態自動可解釋性智能體—— MAIA。

MAIA 是一個使用神經模型來自動完成神經模型理解任務(比如特徵解釋和故障模式發現)的系統。它爲預訓練的視覺語言模型配備了一系列工具,從而支持對其他模型的子組件進行迭代實驗,從而解釋其行爲。這些工具包括人類研究人員常用的工具:合成和編輯輸入,計算來自真實世界數據集的最大激活示例,以及總結和描述實驗結果。MAIA 提出的可解釋性實驗將這些工具組合在一起,用於描述和解釋系統行爲。

他們評估了 MAIA 在計算機視覺模型上的應用。他們首先描述了 MAIA 在圖像學習表示中描述(神經元級)特徵的能力。在幾個經過訓練的模型和一個具有配對 ground-truth 描述的合成視覺神經元新數據集上,MAIA 產生的描述與專家人類實驗者生成的描述相當。此外,MAIA 可以幫助完成兩個額外的可解釋性任務:降低對虛假特徵的敏感性,以及自動識別可能被錯誤分類的輸入。

論文鏈接:https://arxiv.org/abs/2404.14394項目地址:https://multimodal-interpretability.csail.mit.edu/maia/

16.PhysDreamer:通過視頻生成,與 3D 物體進行基於物理交互

逼真的物體交互對於創造身臨其境的虛擬體驗至關重要,然而如何根據新穎的交互合成逼真的 3D 物體動力學仍是一項重大挑戰。

與無條件或文本條件動態生成不同,動作條件動態生成需要感知物體的物理材料屬性,並根據這些屬性(如物體剛度)進行 3D 運動預測。然而,由於缺乏真實材料數據,估計物理材料屬性是一個未決問題,因爲測量真實物體的這些屬性非常困難。

來自麻省理工學院、斯坦福大學、哥倫比亞大學和康奈爾大學的研究團隊提出了一種基於物理學的方法 PhysDreamer ,它利用視頻生成模型學習到的物體動力學先驗,賦予靜態 3D 物體以交互式動態效果。通過提煉這些先驗,PhysDreamer 能夠合成逼真的物體對外力或智能體操作等新型交互的反應。

他們在各種彈性物體示例中演示了這種方法,並通過用戶研究評估了合成交互的逼真度。PhysDreamer 通過使靜態 3D 物體以物理上可信的方式對交互刺激做出動態響應,向更吸引人、更逼真的虛擬體驗邁出了一步。

論文鏈接:

https://arxiv.org/abs/2404.13026

項目地址:

https://physdreamer.github.io/

|點擊關注我 記得標星|