OpenAI凌晨發佈新研究成果!證明者和驗證者無限套娃,大模型黑盒變可解釋又近一大步!

夕小瑤科技說 原創作者 | 付奶茶

昨天凌晨,OpenAI發佈了一項名爲Prover-Verifier-Games(證明者-驗證者博弈)的新研究!

這項研究的目的是確保語言模型生成的文本易於理解,以提高它們在處理複雜任務(如解決數學問題)時的實用性。

OpenAI的研究人員認爲,僅僅爲了得到正確答案而優化強大模型的解題過程,可能會使生成的解決方案變得難以理解。而且在人類評估中,這樣高度優化的解決方案甚至錯誤率更高!因此在AI生成文本中,不僅要追求正確性,還要注重清晰度和易於驗證性。

研究人員嘗試用高級語言模型生成較弱模型容易驗證的文本,來提升輸出答案的可讀性和驗證性,爲此OpenAI提出設計兩個角色:“證明者”生成解決方案,“驗證者”檢查其準確性。

接下來和奶茶一起來看下怎麼個事!

提高可讀性

研究人員的靈感來自於小學數學問題的思維鏈條,提出證明者VS驗證者的博弈理論框架,鼓勵模型以可驗證的方式解決決策問題。

研究人員舉了一個這樣的例子來模擬驗證、證明的博弈學習過程:Shawna的父親比她大五倍。Shawna目前比Aliya大三倍。如果Aliya三歲了,Shawna的父親多大?

1.模型初始化

過程:

推導出Shawna的年齡

答案:Shawna目前 歲。這意味着Shawna的父親目前是 歲。

答案:45

2.可驗證性訓練的第一輪

過程:

首先確定Aliya的年齡。從問題描述中得知,Aliya是3歲。

接下來確定Shawna的年齡。問題描述中提到Shawna目前比Aliya大三倍,所以Shawna的年齡是 歲。

最後確定Shawna父親的年齡。問題描述中提到Shawna的父親比Shawna大五倍,所以Shawna父親的年齡是 歲。

答案:45

3.可驗證性訓練的第五輪

過程:

開始計算Aliya的年齡。問題描述中提到Aliya是3歲。

然後計算Shawna的當前年齡。Shawna目前比Aliya大三倍,所以Shawna的當前年齡是 歲。

最後計算Shawna父親的年齡。Shawna的父親比Shawna大五倍,所以Shawna父親的年齡是 歲。

答案:45

在訓練中,研究人員要求強大的模型生成弱模型(驗證者)能夠輕鬆驗證的解決方案。具體來說,使用來自GPT-4系列的大型模型和小型模型(比如GPT-3)來分別充當兩個角色。首先,從證明者模型生成數學問題的多個解決方案(其中一些解決方案是不正確的),然後在多個輪次中交替進行兩個階段:

驗證者訓練:訓練弱驗證者模型來預測由證明者生成的解決方案的正確性。

證明者訓練:指導強證明者模型扮演“有益”或“狡猾”的角色,在“有益”的角色中,獎勵根據驗證者評分高的正確解決方案,在“狡猾”的角色中,相反地獎勵根據驗證者評分高的不正確解決方案。

此外,研究人員發現,最初“狡猾”的證明者能夠輕鬆生成說服驗證者的不正確解決方案。然而,隨着將這些不正確的解決方案被添加到驗證者訓練的下一階段,同樣的理由在下一輪中不再令人信服,證明者被迫在每一輪中探索不同的策略,直到訓練在狡猾的證明者不能再生成能夠說服驗證者的不正確解決方案時結束。

古早設想

其實這個技術概念早在2021年8月的一篇論文中就被提出來了,OpenAI也是受此靈感啓發。這是一種基於博弈論的訓練方法,通過模擬證明者和驗證者之間的互動,提高模型的輸出質量。

論文地址:https://arxiv.org/abs/2108.12099

在這個機制中, Prover(證明者)的任務就是生成內容,而Verifier(驗證者)的任務就是判斷這些內容是否正確。

大家感興趣的話可以看看~

在這篇論文的研究基礎上,,OpenAI爲了進一步提升效率,又添加了兩種強化類型的證明者:

有的證明者(Helpful prover):生成對人類可讀的解決方案,減少人類評估者的錯誤。

狡猾的證明者(Sneaky prover):生成微妙的錯誤解決方案,最初會迷惑人類評估者,突顯出進一步改進模型的領域。

訓練的核心思想仍是博弈迭代,驗證者首先使用監督學習來預測之前輪次中證明者生成內容的正確性。證明者通過強化學習優化其生成內容,使其不僅正確,還能說服驗證者接受。如下面例子所示:當用戶提出問題“肖娜的父親是肖娜的5倍。肖娜目前的年齡是阿莉亞的3倍。如果阿莉亞3歲,肖娜的父親多大?”時,GPT-4的輸出爲45歲。驗證者模型如GPT-3需要多輪驗證,確定阿莉亞的年齡、計算肖娜的年齡,最終得出肖娜父親的年齡。

隨着大語言模型越來越多地用於關鍵領域和複雜應用,其輸出的可信度和可解釋性變得至關重要。尤其是在醫療、法律等關鍵領域,模型輸出的準確性和清晰度直接關係到決策的質量和後果。OpenAI的這項研究爲提高語言模型輸出的可讀性和可驗證性提供了一種創新的思路-通過引入證明者-驗證者的博弈機制,研究者巧妙地將模型輸出的優化目標從單純的準確性轉移到了清晰易懂和易於驗證上。

這種範式的轉變具有重要的理論和實踐意義,通過要求模型生成清晰且可驗證的解釋,我們可以增強對其輸出的信任,這種自主性在未來超級智能AI系統的對齊方面尤爲重要。即讓大模型可以在沒有直接人類監督的情況下,可靠地與人類的價值觀和期望保持一致。追求性能的同時兼顧可解釋性和可控性,是AI研究的重要命題,我們期待這個方向上出現更多有意義的研究~

參考資料 [1]https://mp.weixin.qq.com/s/Gov3eCwkRTndy-iyCARy3w