☰

北大、騰訊推出 ReVideo：通過動作和內容精確編輯視頻｜大模型週報

本週值得關注的大模型 / AIGC 前沿研究：

MIT 新研究：並非所有語言模型特徵都是線性的

大型語言模型的分佈式推測加速

北大、騰訊推出 ReVideo：通過動作和內容精確編輯視頻

GameVLM：基於視覺語言模型和零和博弈的機器人任務規劃決策框架

AlignGPT：可自適應對齊的多模態大型語言模型

清華團隊推出 DisenStudio：可定製的多主體文本到視頻生成

在擴散世界模型中訓練強化學習智能體

MIT 新研究：通過跨層注意力減少 Transformer 鍵值緩存大小

大型語言模型的元認知能力：數學問題解決探索

Octo：一個開源的通用機器人政策

OpenRLHF：易用、可擴展、高性能的 RLHF 框架

MoRA：面向參數高效微調的高階更新

綜述：基於 LLM 的多智能體強化學習

斯坦福大學、多倫多大學提出可觀測 Scaling law

綜述：高效多模態大型語言模型

劍橋大學新研究：大模型預訓練要靠“聯邦學習”

超越靜態 AI 評測：針對 LLM 危害和風險的人機交互評估

1.MIT新研究：並非所有語言模型特徵都是線性的

最近的研究提出了線性表徵假說：語言模型通過操作激活空間中概念（“特徵”）的一維表徵來執行計算。與此相反，來自麻省理工學院（MIT）的研究團隊探討了某些語言模型表徵是否可能本質上是多維的。

他們首先爲不可還原的多維特徵下了一個嚴格的定義，該定義基於這些特徵是否可以分解爲獨立或不共存的低維特徵。受這些定義的啓發，他們設計了一種可擴展的方法，利用稀疏自動編碼器自動發現 GPT-2 和 Mistral 7B 中的多維特徵。這些自動發現的特徵包括可解釋示例，例如代表星期和月份的 circular 特徵。他們確定了一些任務，在這些任務中，這些精確的 circular 被用來解決涉及一週中的天數和一年中的月份的模塊運算問題。最後，通過對 Mistral 7B 和 Llama 3 8B 的干預實驗，他們證明這些 circular 特徵確實是這些任務中的基本計算單元。

論文鏈接：

https://arxiv.org/abs/2405.14860

GitHub 地址：

https://github.com/JoshEngels/MultiDimensionalFeatures

2.大型語言模型的分佈式推測加速

大型語言模型（LLM）的推理是人工智能領域的一項重要挑戰。

來自魏茨曼科學研究所、英特爾和麻省理工學院（MIT）的研究團隊提出了一種新穎的分佈式推理算法——分佈式推測推理（DSI），與推測推理（SI）和傳統的自迴歸推理（non-SI）相比，其推理速度更快。與其他自迴歸推理算法一樣，DSI 在凍結的 LLM 上工作，不需要訓練或架構修改，並能保留目標分佈。

之前關於 SI 的研究表明，與 non-SI 相比，DSI 算法的經驗速度有所提高，但這需要快速、準確的起草 LLM。在實踐中，現成的 LLM 通常不具備足夠快速和準確的匹配起草器。他們發現：當使用速度較慢或準確度較低的起草員時，SI 的速度會比非 SI 慢。他們通過證明 DSI 在使用任何起草器的情況下都比 SI 和 non-SI 更快，彌補了這一差距。通過協調目標和起草器的多個實例，DSI 不僅比 SI 更快，而且還支持 SI 無法加速的 LLM。仿真顯示，在現實環境中，現成的 LLMs 的速度都有所提高：DSI 比 SI 快 1.29-1.92 倍。

論文鏈接：

https://arxiv.org/abs/2405.14105

3.北大、騰訊推出 ReVideo：通過動作和內容精確編輯視頻

儘管在利用擴散模型生成和編輯視頻方面取得了重大進展，但實現精確的本地化視頻編輯仍是一項巨大挑戰。此外，現有的大多數視頻編輯方法主要集中在改變視覺內容上，對動作編輯的研究十分有限。

在這項研究中，來自北京大學和騰訊的研究團隊及其合作者，提出了一種新穎的“重塑視頻”（ReVideo）嘗試，通過指定內容和動作，在特定區域進行精確的視頻編輯。內容編輯通過修改第一幀來實現，而基於軌跡的動作控制則提供了直觀的用戶交互體驗。ReVideo 解決了內容和動作控制之間的耦合和訓練不平衡問題。爲了解決這個問題，他們開發了一種三階段訓練策略，從粗到細逐步解耦這兩個方面。此外，他們還提出了一個時空自適應融合模塊，以整合不同採樣步驟和空間位置的內容和動作控制。

廣泛的實驗證明，ReVideo 在幾種精確的視頻編輯應用中具有良好的性能，即：1）局部改變視頻內容，同時保持動作不變；2）保持內容不變，同時定製新的動作軌跡；3）同時修改內容和動作軌跡。該方法還可以無縫地將這些應用擴展到多區域編輯，而無需特定的訓練，這證明了它的靈活性和魯棒性。

論文鏈接：

https://arxiv.org/abs/2405.13865

項目地址：

https://mc-e.github.io/project/ReVideo/

4.GameVLM：基於視覺語言模型和零和博弈的機器人任務規劃決策框架

GPT-4V 等預訓練視覺語言模型（VLM）具有突出的場景理解和推理能力，因此在機器人任務規劃中受到越來越多的關注。與傳統的任務規劃策略相比，視覺語言模型在多模態信息解析和代碼生成方面具有很強的優勢，並顯示出顯著的效率。雖然 VLM 在機器人任務規劃中展現出巨大潛力，但它也面臨着幻覺、語義複雜性和上下文有限等挑戰。

爲了解決這些問題，來自復旦大學的研究團隊提出了一種多智能體框架——GameVLM，從而增強機器人任務規劃中的決策過程。該研究提出了基於 VLM 的決策智能體和專家智能體來執行任務規劃。具體來說，決策智能體用於規劃任務，專家智能體用於評估這些任務計劃。研究引入了零和博弈理論來解決不同智能體之間的不一致性，並確定最佳解決方案。在真實機器人上進行的實驗結果表明，所提出的框架非常有效，平均成功率高達 83.3%。

論文鏈接：

https://arxiv.org/abs/2405.13751

5.AlignGPT：可自適應對齊的多模態大型語言模型

多模態大型語言模型（MLLM）被廣泛認爲是探索通用人工智能（AGI）的關鍵。MLLM 的核心在於其實現跨模態對齊的能力。爲了實現這一目標，目前的 MLLM 通常採用兩階段訓練模式：預訓練階段和指令微調階段。

儘管這些模型取得了成功，但在對齊能力建模方面仍存在不足。首先，在預訓練階段，模型通常假定所有圖像-文本對都是統一對齊的，但實際上不同圖像-文本對之間的對齊程度並不一致。其次，目前用於微調的指令包含多種任務，不同任務的指令通常需要不同程度的對齊能力，但以往的 MLLM 忽視了這些差異化的對齊需求。

爲了解決這些問題，來自南京大學的研究團隊提出了一種新的多模態大型語言模型——AlignGPT。在預訓練階段，他們並不是對所有圖像-文本對一視同仁，而是爲不同的圖像-文本對分配不同級別的對齊能力。然後，在指令微調階段，他們自適應地組合這些不同級別的對齊能力，以滿足不同指令的動態對齊需求。廣泛的實驗結果表明，AlignGPT 在 12 個基準測試中取得了具有競爭力的性能。

論文鏈接：

https://arxiv.org/abs/2405.14129

項目地址：

https://aligngpt-vl.github.io/

6.清華團隊推出 DisenStudio：可定製的多主體文本到視頻生成

近來，在視頻中生成定製內容受到越來越多的關注。然而，現有工作主要集中在爲單個主體生成定製的文本到視頻，當視頻預計包含多個主體時，就會出現主體缺失和屬性綁定問題。此外，現有模型難以將所需的動作分配給相應的主體（動作綁定問題），因此無法實現令人滿意的多主體生成性能。

爲了解決這些問題，來自清華大學的研究團隊提出了一個新穎的框架 DisenStudio，其可以在每個主體只有少量圖像的情況下，爲定製的多個主體生成文本引導視頻。

具體來說，DisenStudio 利用空間分離交叉注意機制增強了基於擴散的預訓練文本到視頻模型，從而將每個主體與所需的動作聯繫起來。然後，利用運動保留分離微調技術爲多個主體定製模型，其中包括三種微調策略：多主體共現微調、屏蔽單主體微調和多主體運動保留微調。前兩種策略能保證主體出現並保留其視覺屬性，第三種策略則能幫助模型在對靜態圖像進行微調時保持時間運動生成能力。

大量實驗證明，DisenStudio 在各種指標上都明顯優於現有方法，可用作各種可控生成應用的強大工具。

論文鏈接：

https://arxiv.org/abs/2405.12796

7.在擴散世界模型中訓練強化學習智能體

世界模型是一種很有前途的方法，可用於以安全、樣本效率高的方式訓練強化學習智能體。最新的世界模型主要通過離散潛變量序列來模擬環境動態。然而，這種壓縮爲緊湊的離散表示法可能會忽略對強化學習非常重要的視覺細節。與此同時，擴散模型已成爲圖像生成的主流方法，對離散潛變量建模的成熟方法提出了挑戰。

在這一模式轉變的推動下，來自日內瓦大學、愛丁堡大學和微軟的研究團隊推出了 DIAMOND（DIffusion As a Model Of eNvironment Dreams），這是一種在擴散世界模型中訓練的強化學習智能體。

他們分析了使擴散適合世界建模所需的關鍵設計選擇，並演示了改進視覺細節如何提高智能體性能。在競爭激烈的 Atari 100k 基準測試中，DIAMOND 獲得了 1.46 的人類標準化平均分；這是完全在世界模型中訓練的智能體的新最佳成績。

論文鏈接：

https://arxiv.org/abs/2405.12399

GitHub 地址：

https://github.com/eloialonso/diamond

8.MIT 新研究：通過跨層注意力減少 Transformer 鍵值緩存大小

鍵值（KV）緩存在加速基於 Transformer 的自迴歸大型語言模型（LLM）的解碼過程中發揮着至關重要的作用。然而，在序列長度較長、批量較大的情況下，存儲 KV 緩存所需的內存量可能會變得過大。

自 Transformer 被提出以來，爲減少 KV 緩存大小而發現的兩種最有效的干預措施是多查詢注意力（MQA）和分組查詢注意力（GQA）。MQA 和 GQA 都修改了注意力塊的設計，使多個查詢頭可以共享一個鍵/值頭，從而將不同鍵/值頭的數量減少了一大截，同時只將準確性降低到最低程度。

在這項工作中，來自麻省理工學院（MIT）的研究團隊展示了通過在相鄰層之間共享鍵和值頭，進一步推進 MQA 的可能性，從而產生一種新的注意力設計——跨層注意力（CLA）。通過 CLA，他們發現可以將 KV 緩存的大小再減少 2 倍，同時保持與未修改 MQA 幾乎相同的準確性。在從頭開始訓練 1B 參數和 3B 參數模型的實驗中，CLA 在傳統 MQA 的內存/準確率權衡上提供了帕累託改進，使推理的序列長度更長、batch 規模更大，這在其他情況下是不可能實現的。

論文鏈接：

https://arxiv.org/abs/2405.12981

9.大型語言模型的元認知能力：數學問題解決探索

元認知知識是指人類對自身思維和推理過程的直觀認識。當今的大型語言模型（LLMs）顯然擁有一些推理過程。來自這篇論文的證據表明，LLMs 還擁有元認知知識，包括在給定任務中說出應用技能和程序的能力。

來自蒙特利爾大學、Google DeepMind、普林斯頓大學和劍橋大學的研究團隊，主要從數學推理的角度探討了這一問題，開發了一個 prompt 引導的交互程序，讓強大的 LLM 爲數學問題分配合理的技能標籤，然後讓它進行語義聚類，從而獲得更粗略的技能標籤系列。這些粗略的技能標籤在人類看來是可以解釋的。

爲了驗證這些技能標籤是否有意義，是否與 LLM 的推理過程相關，他們進行了以下實驗：1）要求 GPT-4 爲數學數據集 GSM8K 和 MATH 中的訓練題分配技能標籤；2）在使用 LLM 解決測試題時，向它提供完整的技能標籤列表，並要求它識別所需的技能，然後，他們會隨機向它展示與該技能標籤相關的示範解題。

這種方法提高了 GSM8k 和 MATH 上幾種 LLM（包括代碼輔助模型）的準確性。儘管本文將其應用於數學問題，但所介紹的方法與領域無關。

論文鏈接：

https://arxiv.org/abs/2405.12205

10.Octo：一個開源的通用機器人政策

在各種機器人數據集上預先訓練的大型策略有可能改變機器人的學習方式：這種通用型機器人策略無需從頭開始訓練新策略，只需少量域內數據即可進行微調，具有廣泛的通用性。然而，爲了廣泛適用於各種機器人學習場景、環境和任務，這些策略需要處理不同的傳感器和行動空間，適應各種常用的機器人平臺，並根據新領域隨時高效地進行微調。

在這項工作中，來自 UC 伯克利、斯坦福、卡內基梅隆大學和 Google DeepMind 的研究團隊及其合作者旨在爲開發開源、廣泛適用的機器人操縱通用策略奠定基礎。作爲第一步，他們提出了一種基於 transformer 的大型策略——Octo，這是在迄今爲止最大的機器人操縱數據集 Open X-Embodiment 數據集中的 800k 個軌跡上訓練出來的。它可以通過語言命令或目標圖像進行指導，並可在標準消費級 GPU 上進行有效微調，從而適應具有新的感官輸入和動作空間的機器人設置。

在跨越 9 個機器人平臺的實驗中，Octo 被證明是一種多功能策略初始化工具，可根據新的觀察和行動空間進行有效微調。他們還對 Octo 模型的設計決策（從架構到訓練數據）進行了詳細分析，從而指導未來建立通用機器人模型的研究。

論文鏈接：

https://arxiv.org/abs/2405.12213

項目地址：

https://octo-models.github.io/

11.OpenRLHF：易用、可擴展、高性能的 RLHF 框架

隨着大型語言模型（LLMs）通過 scaling laws 不斷增長，基於人類反饋的強化學習（RLHF）因其出色的性能而備受關注。然而，與單個模型的預訓練或微調不同，擴展 RLHF 來訓練大型語言模型，對四種模型的協調提出了挑戰。

來自 OpenLLMAI、字節跳動、本站、阿里的研究團隊提出了是一個可實現 RLHF 高效擴展的開源框架——OpenRLHF。

現有的 RLHF 框架將四個模型放在同一個 GPU 上，與此不同，OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 重新設計了超過 70B 參數的模型調度，提高了資源利用率並採用了多種訓練方法。OpenRLHF 與 Hugging Face 無縫集成，提供了一個具有優化算法和啓動腳本的開箱即用解決方案，確保了用戶友好性。OpenRLHF 實現了 RLHF、DPO、剔除採樣和其他配準技術。

論文鏈接：

https://arxiv.org/abs/2405.11143

項目地址：

https://github.com/OpenLLMAI/OpenRLHF

12.MoRA：面向參數高效微調的高階更新

低階適應（Low-rank）是一種針對大型語言模型的流行參數高效微調方法。

在這項工作中，來自北京航空航天大學和微軟的研究團隊，分析了 LoRA 中實現的低階更新的影響。研究結果表明，低階更新機制可能會限制 LLM 有效學習和記憶新知識的能力。

受此啓發，他們提出了一種名爲 MoRA 的新方法，其採用方形矩陣來實現高階更新，同時保持相同數量的可訓練參數。爲了實現這一目標，他們引入了相應的非參數算子，以減少方陣的輸入維度，增加輸出維度。此外，這些算子確保了權重可以合併回 LLM，這使得該方法可以像 LoRA 一樣部署。

他們在指令微調、數學推理、持續預訓練、記憶和預訓練五項任務中對該方法進行了全面評估。在內存密集型任務上，該方法優於 LoRA，而在其他任務上，也取得了相當的性能。

論文鏈接：

https://arxiv.org/abs/2405.12130

13.綜述：基於 LLM 的多智能體強化學習

近年來，大型語言模型（LLM）在各種任務中顯示出了強大的能力，包括問題解答、算術解題和詩歌寫作等。儘管有關 LLM 即智能體（LLM-as-an-agent）的研究表明，LLM 可以應用於強化學習（RL）並取得不錯的效果，但將基於 LLM 的 RL 擴展到多智能體系統（MAS）並非易事，因爲單個智能體的 RL 框架沒有考慮智能體之間的協調和通信等方面。

爲了激發對基於 LLM 的多智能體強化學習的更多研究，來自羅格斯大學研究團隊調查了現有的基於 LLM 的單智能體和多智能體 RL 框架，併爲未來研究提供了潛在的研究方向。他們尤其關注具有共同目標的多個智能體的合作任務以及它們之間的通信。

論文鏈接：

https://arxiv.org/abs/2405.11106

14.斯坦福大學、多倫多大學提出可觀測 Scaling law

瞭解語言模型的性能如何隨規模變化對基準和算法開發至關重要。Scaling law 是建立這種理解的一種方法，但由於需要在許多不同尺度上對模型進行訓練，因此限制了其使用。

來自斯坦福大學、多倫多大學的研究團隊提出了另外一種觀察方法，即繞過模型訓練，從約 80 個公開可用的模型中建立 Scaling law。由於多個模型系列在訓練計算效率和能力方面存在巨大差異，因此從這些模型系列中建立單一的 Scaling law 具有挑戰性。然而，他們的研究表明，這些差異與簡單的廣義 Scaling law 是一致的，即語言模型的性能是低維能力空間的函數，而模型族僅在將訓練計算轉換爲能力的效率上存在差異。

利用這種方法，他們展示了複雜的 Scaling 現象令人驚訝的可預測性：展示了幾種新出現的現象遵循平滑的 S 型增長模式，並且可以從小型模型中預測；展示了 GPT-4 等模型的智能體性能可以從更簡單的非智能體基準中精確預測；還展示了隨着語言模型能力的不斷提高，如何預測思維鏈和自我一致性（Self-Consistency）等訓練後干預措施的影響。

論文鏈接：

https://arxiv.org/abs/2405.10938

15.綜述：高效多模態大型語言模型

在過去的一年裡，多模態大語言模型（MLLMs）在視覺問題解答、視覺理解和推理等任務中表現出了卓越的性能。然而，龐大的模型規模以及高昂的訓練和推理成本阻礙了 MLLM 在學術界和工業界的廣泛應用。因此，研究高效、輕量級的 MLLM 具有巨大的潛力，尤其是在邊緣計算場景中。

在這項工作中，來自騰訊、上海交通大學、北京智源人工智能研究院和華東師範大學的研究團隊，對高效 MLLM 的現狀進行了全面系統的回顧。具體來說，他們總結了具有代表性的高效 MLLM 的時間軸、高效結構和策略的研究現狀以及應用。最後，他們討論了當前高效 MLLM 研究的侷限性以及未來的發展方向。

論文鏈接：

https://arxiv.org/abs/2405.10739

GitHub 地址：

https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey

16.劍橋大學新研究：大模型預訓練要靠“聯邦學習”

生成式預訓練大型語言模型（LLMs）在各種任務中表現出了令人印象深刻的性能，這要歸功於它們所訓練的前所未有的數據量。正如既定的 Scaling law 所表明的那樣，LLMs 未來的性能提升取決於我們可以用於預訓練的計算量和數據源。聯邦學習（FL）有可能釋放地球上的大部分數據和計算資源，而目前的 LLM 實踐中，以數據中心爲中心的訓練方法並沒有充分利用這些資源。

來自劍橋大學的研究團隊提出了一種魯棒、靈活、可複製的 FL 方法，該方法可在訓練 LLM 時實現跨機構的大規模合作。這將調動更多的計算和數據資源，同時達到或可能超過集中式的性能。他們進一步證明了聯合訓練的有效性隨着模型規模的擴大而擴大，並介紹了他們利用有限資源訓練十億規模聯合 LLM 的方法。

論文鏈接：

https://arxiv.org/abs/2405.10853

17.超越靜態 AI 評測：針對 LLM 危害和風險的人機交互評估

模型評測對於瞭解人工智能系統的安全性、風險和社會影響至關重要。雖然現實世界中的大多數人工智能應用都涉及人與人工智能的互動，但目前對人工智能模型的大多數評測（如通用基準）都不涉及人與人工智能的互動。相反，它們以有限的方式將人的因素納入其中，孤立地評估模型的安全性，從而無法捕捉人與模型互動的複雜性。

在這項工作中，來自牛津大學、Centre for the Governance of AI、Collective Intelligence Project 和 OpenAI 的研究團隊，討論了一種新興的評估類別——“人機交互評估”（HIEs）——並對其進行了操作化定義，該類別側重於評估人機交互或人類使用模型的過程和結果。

首先，他們認爲人機交互評估可用於提高安全評估的有效性，評估對人類的直接影響和特定互動的危害，並指導未來對模型社會影響的評估。其次，他們提出了一個以安全爲重點的 HIE 設計框架——包含人類與 LLM 交互分類法——分爲三個階段：（1）確定風險或危害領域；（2）描述使用環境；（3）選擇評測參數。然後，他們將這一框架應用於對過度依賴和勸說風險的兩種潛在評估。最後，他們針對成本、可複製性和 HIE 的缺乏代表性等問題提出了切實可行的建議。

論文鏈接：

https://arxiv.org/abs/2405.10632

｜點擊關注我記得標星｜

北大、騰訊推出 ReVideo：通過動作和內容精確編輯視頻｜大模型週報

相關資訊