☰

清華朱軍團隊推出高保真 4D 重構模型 Vidu4D｜大模型週報

本週值得關注的大模型 / AIGC 前沿研究：

清華朱軍團隊推出高保真 4D 重構模型 Vidu4D

華爲推出 VeLoRA：便宜且內存高效的大模型訓練算法

Google DeepMind 提出直接獎勵優化（DRO）算法

Google DeepMind 提出多塔式解碼器架構 Zipper

谷歌新研究：將擴散模型提煉爲一步生成器模型

谷歌新研究：GPT-4 在高階心智理論任務中超過成人

西北大學、微軟提出自探索語言模型（SELM）算法

英偉達推出 ChatQA：RAG、QA 能力超過 GPT-4

英偉達推出全模態模型 X-VILA

英特爾推出 LLaMA-NAS：大型語言模型的高效神經架構搜索

Meta 領銜：一文讀懂視覺語言建模（VLM）

綜述：使用大型語言模型進行工具學習

1.清華朱軍團隊推出高保真 4D 重構模型 Vidu4D

近來，由於能夠生成逼真而富有想象力的畫面，視頻生成模型備受關注。此外，據觀察，這些模型還表現了出很強的 3D 一致性，大大提高了它們作爲世界模擬器的潛力。

在這項工作中，清華大學朱軍團隊推出了一種新穎的重構模型——Vidu4D，其能從單個生成的視頻中精確重構出 4D（即連續的 3D 呈現），解決了與非剛性和幀失真相關的難題。這種能力對於創建保持空間和時間一致性的高保真虛擬內容至關重要。

Vidu4D 的核心爲動態高斯曲面（DGS）技術。DGS 優化時變翹曲函數，將高斯曲面（曲面元素）從靜態狀態轉換爲動態翹曲狀態。這種變換可以精確地描繪運動和變形隨時間的變化。

爲了保持曲面對齊高斯曲面的結構完整性，他們設計了基於連續翹曲場的翹曲狀態幾何正則化，用於估計法線。此外，他們還對高斯曲面的旋轉和縮放參數進行了細化，從而大大減輕了翹曲過程中的紋理閃爍，並增強了對細粒度外觀細節的捕捉。Vidu4D 還包含一個新穎的初始化狀態，爲 DGS 中的翹曲場提供了一個正確的起點。Vidu4D 配備了現有的視頻生成模型，整個框架在外觀和幾何方面都展示了高保真文本到 4D 生成能力。

論文鏈接：

https://arxiv.org/abs/2405.16822

項目地址：

https://vidu4d-dgs.github.io/

2.華爲推出 VeLoRA：便宜且內存高效的大模型訓練算法

儘管大型語言模型（LLMs）已成爲處理許多語言處理任務的強大工具，但訓練和微調這些模型仍然需要大量的計算和內存。

在這項工作中，來自華爲諾亞方舟實驗室的研究團隊確定並描述了使用梯度下降技術有效收斂模型所需的重要組件。在此過程中，他們發現用於實現反向傳播的中間激活可以被過度壓縮，而不會導致性能下降。爲此，他們提出了一種便宜且內存效率高的算法，將其用於微調和預訓練 LLM。所提出的算法只需將 token 分成較小的子 token，然後在前向傳遞過程中將它們投影到一個固定的一維子空間上。然後在後向傳遞過程中對這些特徵進行粗略重構，從而執行更新規則。

研究證實，在 VTAB-1k 微調基準上，該算法與許多 PEFT 方法相比都非常有效。此外，在對 LLaMA 進行微調時，該算法的性能優於 QLoRA，而且在大規模 C4 數據集上，該算法的性能與其他節省內存的預訓練方法相比也很有競爭力。

論文鏈接：

https://arxiv.org/abs/2405.17991

3.Google DeepMind 提出多塔式解碼器架構 Zipper

將多個生成式基礎模型，尤其是在不同模態下訓練的模型，整合爲一個大於各個模型之和的模型，是一項巨大的挑戰。兩個關鍵障礙爲：對齊數據（包含相似含義但在不同模態中表達方式不同的概念）的可用性，以及在跨域生成任務中有效利用單模態表徵，同時不影響其原有的單模態能力。

在這項工作中，來自 Google DeepMind 的研究團隊提出了一種多塔式解碼器架構——Zipper，其利用交叉注意力從獨立預訓練的單模態解碼器中靈活地組成多模態生成式模型，從而解決了上述問題。

他們發現，在融合語音和文本模態的實驗中，Zipper 在文本-語音數據對齊有限的情況下表現出了很強的競爭力。他們還展示了該模型的靈活性，通過凍結相應模態塔（如文本），有選擇地保持單模態（如文本到文本生成）生成性能。在自動語音識別（ASR）等以文本爲輸出模態的跨模態任務中，凍結文本骨幹可使性能下降到可以忽略不計的程度。在輸出模態爲語音的文本到語音生成（TTS）等跨模態任務中，使用預訓練的語音骨幹可獲得優於基線的性能。

論文鏈接：

https://arxiv.org/abs/2405.18669

4.Google DeepMind 提出直接獎勵優化（DRO）算法

無論是通過基於人類反饋的強化學習（RLHF），還是直接偏好優化（DPO），大型語言模型（LLM）對齊的主流框架都是從偏好數據中學習。這就需要建立數據集，其中每個元素都是一個四元組，由一個提示、兩個獨立的回答（提示的完成）和人類對這兩個獨立回答的偏好組成，從而產生一個偏好回答和一個不偏好回答。這種數據通常很少，而且收集成本很高。

另一方面，單軌跡數據集的每個元素都是由一個提示、一個迴應和一個人類反饋組成的三元組，這種數據集自然更爲豐富。例如，此類數據集的典型元素是 LLM 對用戶提示的迴應，以及用戶的反饋（如豎起/放下大拇指）。

因此，在這項工作中，來自 Google DeepMind 的研究團隊及其合作者提出了一種不需要成對偏好的框架和相關算法 DRO，即“直接獎勵優化”（Direct Reward Optimisation）。DRO 使用一個簡單的均方目標，可以通過多種方式實現。

他們使用 T5 語言模型對研究結果進行了實證驗證，結果表明 DRO 的性能優於所選的基線算法，證實了 DRO 是一種簡單、經驗上令人信服的單軌跡策略優化方法。

論文鏈接：

https://arxiv.org/abs/2405.19107

5.谷歌新研究：將擴散模型提煉爲一步生成器模型

雖然擴散模型可以學習複雜的分佈，但採樣需要一個計算昂貴的迭代過程。現有的蒸餾方法可以實現高效採樣，但也有明顯的侷限性，例如採樣步驟很少就會導致性能下降，依賴於訓練數據訪問，或可能無法捕捉到完整分佈的尋模優化。

來自 Google DeepMind、Google Research 和加州大學洛杉磯分校的研究團隊，提出了 EM Distillation（EMD）方法，這是一種基於最大似然法的方法，可將擴散模型提煉爲一步生成器模型，同時將感知質量的損失降到最低。該方法從期望最大化（EM）的角度出發，使用擴散教師先驗和推斷生成器潛變量聯合分佈的樣本來更新生成器參數。

他們開發了一種重新參數化的採樣方案和一種噪音消除技術，共同穩定了蒸餾過程。他們進一步揭示了該方法與現有的最小化模式搜索 KL 方法之間的聯繫。在 ImageNet-64 和 ImageNet-128 上，就 FID 分數而言，EMD 優於現有的一步法生成方法，與之前的文本到圖像擴散模型蒸餾方法相當。

論文鏈接：

https://arxiv.org/abs/2405.16852

6.谷歌新研究：GPT-4 在高階心智理論任務中超過成人

來自谷歌的研究團隊及其合作者探討了大型語言模型（LLM）在多大程度上發展了高階心智理論（ToM），即人類以遞歸方式對多種心理和情感狀態進行推理的能力（比如，我認爲你相信她知道）。

在先前工作的基礎上，他們提出了一個手寫測試套件——多階心智理論問答（Multi-Order Theory of Mind Q&A ），並利用它將五個 LLM 的性能與新收集的成人人類基準進行比較。

他們發現，GPT-4 和 Flan-PaLM 在 ToM 任務上的整體表現達到了成人水平或接近成人水平，而 GPT-4 在 6 階推理上的表現超過了成人。研究結果表明，在實現 ToM 能力方面，模型大小和微調之間存在相互作用，表現最好的 LLM 已經發展出了 ToM 的綜合能力。鑑於高階 ToM 在人類廣泛的合作和競爭行爲中扮演的角色，這些發現對面向用戶的 LLM 應用具有重要意義。

論文鏈接：

https://arxiv.org/abs/2405.18870

7.西北大學、微軟提出自探索語言模型（SELM）算法

偏好優化，特別是通過基於人類反饋的強化學習（RLHF），在使得大型語言模型（LLM）與人類意圖對齊方面取得了成功。

與使用固定數據集進行離線對齊不同，從人類或人工智能那裡收集到的關於模型生成的在線反饋，通常會通過迭代過程產生能力更強的獎勵模型和對齊更好的 LLM。然而，要實現全局精確的獎勵模型，需要系統性的探索，從而生成跨越自然語言廣闊空間的各種迴應。僅從標準獎勵最大化 LLM 中隨機抽樣不足以滿足這一要求。

爲了解決這個問題，來自西北大學和微軟的研究團隊提出了一個雙層目標，即樂觀地偏向於潛在的高回報迴應，以積極探索分佈外區域。

通過用重新參數化的獎勵函數來解決內層問題，由此產生了自探索語言模型（SELM）算法，其不需要單獨的 RM，而是用一個直接的目標迭代更新 LLM。與直接偏好優化（DPO）相比，SELM 目標減少了對未見外推的盲目偏好，提高了探索效率。實驗結果表明，在 Zephyr-7B-SFT 和 Llama-3-8B-Instruct 模型上進行微調後，SELM 顯著提高了 MT-Bench 和 AlpacaEval 2.0 等指令跟隨基準以及各種標準學術基準在不同設置下的性能。

論文鏈接：

https://arxiv.org/abs/2405.19332

GitHub 地址：

https://github.com/shenao-zhang/SELM

8.英偉達推出 ChatQA：RAG、QA 能力超過 GPT-4

在這項工作中，英偉達團隊推出了 ChatQA，它是一套在檢索增強生成（RAG）和對話式問題解答（QA）方面好過 GPT-4 的模型。

爲了提高生成能力，他們提出了一種兩階段指令微調方法，該方法顯著提高了 RAG 的性能。爲了有效檢索，他們提出了針對會話式 QA 優化的密集檢索器，其結果可與其他先進的查詢重寫模型相媲美，同時大大降低了部署成本。他們還介紹了 ChatRAG Bench，其中包括十個數據集，涵蓋了對 RAG、表格相關 QA、算術計算和涉及無法回答問題的場景的全面評估。

ChatQA-1.0-70B（得分：54.14）是基於 Llama2（性能比 GPT-4 差的基礎模型）構建的，在 ChatRAG Bench 上略微優於 GPT-4-0613（得分：53.90）和 GPT-4-Turbo-2024-04-09 （得分：54.03），而無需依賴 OpenAI GPT 模型的任何合成數據。值得注意的是，Llama3-ChatQA-1.5-70B 模型的準確度超過了 GPT-4-Turbo-2024-04-09，提高了 4.4%。

此外，爲了推動這一領域的研究，他們向社區開源了模型權重、指令微調數據、ChatRAG Bench 和 retriever。

論文鏈接：

https://arxiv.org/abs/2401.10225

項目地址：

https://chatqa-project.github.io/

9.英偉達推出全模態模型 X-VILA

爲通過整合圖像、視頻和音頻模態來擴展大型語言模型（LLM）的功能，來自英偉達的研究團隊及其合作者提出了一種全模態模型——X-VILA。

通過將特定模態編碼器與 LLM 輸入對齊，將擴散解碼器與 LLM 輸出對齊，X-VILA 實現了跨模態理解、推理和生成。爲了促進這種跨模態對齊，他們策劃了一個有效的交錯任意模態指令跟隨數據集。此外，他們還發現當前的跨模態對齊方法存在一個重大問題，即會導致視覺信息丟失。爲了解決這個問題，他們提出了一種帶有視覺嵌入模塊的視覺對齊機制。

然後，他們介紹了一種用於訓練 X-VILA 的資源節約型方法，X-VILA 在任意模態到任意模態的對話中均表現出色，大大超越了之前的方法。即使在沒有類似訓練數據的情況下，X-VILA 也能展示跨模態的新興特性。

論文鏈接：

https://arxiv.org/abs/2405.19335

10.英特爾推出 LLaMA-NAS：大型語言模型的高效神經架構搜索

現代大型語言模型（LLM）在解決自然語言處理、複雜推理、情感分析和其他任務方面展現出了出色的能力。遺憾的是，這些能力伴隨着極高的內存和計算成本，使得 LLM 無法在大多數硬件平臺上使用。

爲了緩解這一問題，英特爾團隊提出了一種有效的方法，其利用單次 NAS 在 LLaMA2-7B 的基礎上找到帕累托最優網絡架構。特別是，他們只對 LLaMA2-7B 進行一次微調，然後應用基於遺傳算法的搜索來找到更小、計算複雜度更低的網絡架構。

研究證明，對於某些標準基準任務，預訓練的 LLaMA2-7B 網絡過於龐大和複雜。更具體地說，在某些任務中，模型規模縮小了 1.5 倍，吞吐量提高了 1.3 倍，而準確率幾乎沒有下降。除了找到更小、性能更高的網絡架構外，該方法比某些剪枝或稀疏化技術更有效、更高效。最後，他們展示了量化是如何與該方法相輔相成的，而且他們發現的網絡的規模和複雜性可以通過量化進一步降低。他們表示，這一工作提供了一種自動創建可以在更便宜、更容易獲得的硬件平臺上使用的 LLM 的方法。

論文鏈接：

https://arxiv.org/abs/2405.18377

11.Meta 領銜：一文讀懂視覺語言建模（VLM）

人們正在嘗試將大型語言模型（LLMs）擴展到視覺領域。從可以引導我們穿越陌生環境的視覺助手，到僅使用高級文本描述就能生成圖像的生成模型，視覺語言模型（VLM）的應用將極大地影響我們與技術的關係。然而，要提高這些模型的可靠性，還需要應對許多挑戰。語言是離散的，而視覺是在一個維度更高的空間中發展的，其中的概念並不總是很容易被離散化。

爲了更好地理解將視覺映射到語言背後的機制，來自 Meta 的研究團隊及其合作者詳細介紹了 VLM，希望能對任何想進入這一領域的人有所幫助。首先，他們介紹了什麼是 VLM、VLM 如何工作以及如何訓練 VLM。然後，他們介紹並討論了評估 VLM 的方法。雖然這項工作主要側重於將圖像映射爲語言，但他們也討論了將 VLM 擴展到視頻的問題。

論文鏈接：

https://arxiv.org/abs/2405.17247

12.綜述：使用大型語言模型進行工具學習

工具學習，可以增強大型語言模型（LLMs）的能力，從而解決高度複雜的問題。儘管這一領域日益受到關注並取得了快速發展，但現有的文獻缺乏系統的組織，給新手造成了進入障礙。

爲此，來自中國人民大學的研究團隊及其合作者對使用 LLMs 進行工具學習的現有工作進行了全面調查，主要從兩個方面回顧了現有文獻：（1）爲什麼工具學習是有益的；（2）如何進行工具學習，從而全面瞭解使用 LLMs 進行工具學習的情況。

他們首先探討了“爲什麼”，從六個具體方面回顧了工具集成的益處和工具學習範式的固有益處。在“如何”方面，他們根據工具學習工作流程中四個關鍵階段的分類法系統地回顧了相關文獻：任務規劃、工具選擇、工具調用和響應生成。

此外，他們還詳細總結了現有的基準和評估方法，並根據它們與不同階段的相關性進行了分類。最後，他們討論了當前面臨的挑戰，並概述了潛在的未來發展方向，旨在激勵研究人員和工業開發人員進一步探索這一新興且前景廣闊的領域。

論文鏈接：

https://arxiv.org/abs/2405.17935

｜點擊關注我記得標星｜

清華朱軍團隊推出高保真 4D 重構模型 Vidu4D｜大模型週報

相關資訊