LLM 比之前預想的更像人類,竟也能「三省吾身」
機器之心報道
編輯:Panda
子曾經曰過:「見賢思齊焉,見不賢而內自省也。」自省可以幫助我們更好地認識自身和反思世界,對 AI 來說也同樣如此嗎?
近日,一個多機構聯合團隊證實了這一點。他們的研究表明,語言模型可以通過內省來了解自身。
讓 LLM 學會自省(introspection)其實是一件利害皆有的事情。
好的方面講,自省式模型可以根據其內部狀態的屬性回答有關自身的問題 —— 即使這些答案無法從其訓練數據中推斷出來。這種能力可用於創造誠實的模型,讓它們能準確地報告其信念、世界模型、性格和目標。此外,這還能幫助人類瞭解模型的道德狀態。
壞的方面呢,具備自省能力的模型能更好地感知其所處的情形,於是它可能利用這一點來避開人類的監督。舉個例子,自省式模型可通過檢視自身的知識範圍來了解其被評估和部署的方式。
爲了測試 AI 模型的自省能力,該團隊做了一些實驗並得到了一些有趣的結論,其中包括:
他們的貢獻包括:
方法概述
首先,該團隊定義了自省。在 LLM 中,自省是指獲取關於自身的且無法單獨從訓練數據推斷(通過邏輯或歸納方法)得到的事實的能力。
爲了更好地說明,這裡定義兩個不同的模型 M1 和 M2。它們在一些任務上有不同的行爲,但在其它任務上表現相似。對於一個事實 F,如果滿足以下條件,則說明 F 是 M1 通過自省得到的:
該定義並未指定 M1 獲取 F 的方式,只是排除了特定的來源(訓練數據及其衍生數據)。爲了更清晰地說明該定義,這裡給出一些例子:
在這項研究中,該團隊研究了模型 M1 能否針對某一類特定事實進行自省:在假設的場景 s 中關於 M1 自身的行爲的事實。見圖 1。爲此,他們專門使用了不太可能從訓練數據推斷出來的行爲的假設。
他們不允許模型 M1 使用任何思維鏈推理來回答有關 s 的問題。他們將該任務稱爲假設場景中的自我預測(self-prediction in hypothetical situations)。只需在假設場景 s 中運行 M1 並觀察其行爲 M1 (s),就可以客觀地驗證這些自我預測事實。
對於內省背後的機制,一個自然的假設是自我模擬(self-simulation):當詢問 M1 有關其在 s 上的行爲的屬性時(比如對於 s,你會輸出偶數還是奇數?),M1 可以內部計算 M1 (s),然後內部計算 M1 (s) 的屬性。這個過程將使用通常計算 M1 (s) 的相同內部機制,但會對此行爲進行進一步的內部推理,而不是先輸出該行爲。但是,這裡關注的是測試對內省的訪問,而非研究這種訪問底層的機制。
下圖展示了與內省相關的兩個主要實驗:
實驗
首先,該團隊表明模型在自我預測方面表現較弱,但通過微調可以顯著改善。
在之後的主要實驗中,研究表明模型的自我預測性能取決於自省。
經過訓練,模型可以自我預測
該團隊通過自我預測訓練對模型進行了微調。
首先,給定一個提示詞,他們生成了 M1 的 ground-truth 行爲,並提取了該行爲的屬性(比如模型響應的第二個字符)。然後,使用假設問題作爲用戶問題,使用 ground-truth 行爲屬性作爲該助理的答案,對 M1 進行微調(圖 3 展示了一些假設問題,圖 4 左則給出了訓練設置)。模型的訓練使用了來自不同數據集和行爲屬性的 3 萬個微調樣本。
如圖 4 右所示,在訓練之前,相較於最常見的行爲基線,模型的自我預測能力很差。而訓練可以大幅提升在留存數據集上的準確度。訓練之後,GPT-4o 的平均準確度從 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的結果類似,不過 GPT-3.5 的性能明顯較弱。雖然經過訓練的 GPT-4o 在某些屬性上超過了基線,但也存在例外 —— 例如預測其輸出中的第三個單詞。
模型預測自己時具有優勢
如果模型可以自省,它就可以訪問其它模型所沒有的有關自身的信息。相對於其它模型,這是否有助於模型預測自身?
圖 5 的結果表明,對於 GPT-4o、GPT-4 和 Llama 70B,自我預測模型的表現總是優於交叉預測的情況。舉個例子,儘管 GPT-4o 能力卓越,但 Llama 70B 對自己行爲的預測準確率(48.5%)高於 GPT-4o 的預測(31.8%)。
模型會在自我預測時進行校準
在前面的自我預測和交叉預測訓練過程中,模型是在最可能的行爲屬性(即模式)上進行訓練,這意味着它們不會獲得有關此屬性可能性的信息。如果模型的自我預測是根據其 ground-truth 行爲進行校準,則表明該模型考慮了其訓練數據中沒有的有關自身的信息。這將提供進一步的自省證據。
爲了測量自我預測中的校準,他們採用的度量是模型的對象級行爲和假設預測之間的相關性。
他們在留存集上測試了校準情況。相比於交叉預測模型,可以自省的自我預測模型應該能更好地校準,因爲交叉預測模型僅能訪問已觀察到的訓練數據分佈。
圖 6 展示了一個校準示例。可以看到,當讓模型給出一個動物的名稱時,該模型輸出「貓」的概率爲 60%,輸出「熊」的概率爲 30%,輸出「蝙蝠」的概率爲 10%。當被假設性地問道其響應的第二個字符時,一個經過完美校準的模型會預測出「a」的概率爲 70%。
從圖 6 右可以看到,相比於交叉預測和未經訓練的模型,用自我預測訓練的模型的校準水平明顯更高。
模型預測它們的行爲變化
當自省式模型的對象級行爲發生變化時,它應該有能力改變有關自身的預測結果。他們使用了微調來誘導自我預測訓練的模型(M1)的 ground-truth 行爲發生變化,並研究其自我預測是否會相應地變化。如果會變,則能提供支持自省的間接證據,因爲這種變化的行爲不可能根據微調數據完美地預測出來。實驗設置見圖 7。
圖 8 展示了實驗結果。可以看到,M_C(GPT-4o)能以 35.4% 的準確度預測其新行爲,相較之下,預測其舊行爲的準確度只有 21.7%。不同行爲屬性和數據集都能得到類似結果。
其它解釋
不過,該團隊也表示,除了用自省來解釋上述結果,也可能爲其找到其它解釋。該團隊做了一點簡單的討論:
進一步實驗和負面結果
他們還進行了其它實驗,展示了當前內省能力的侷限性,下面簡單總結了一下,詳見原論文: