人類自身都對不齊,怎麼對齊AI?新研究審視偏好在AI對齊中的作用

機器之心報道

編輯:Panda

讓 AI 與人類價值觀對齊一直都是 AI 領域的一大重要且熱門的研究課題,甚至很可能是 OpenAI 高層分裂的一大重要原因 ——CEO 薩姆・奧特曼似乎更傾向於更快實現 AI 商業化,而以伊爾亞・蘇茨克維(Ilya Sutskever)爲代表的一些研究者則更傾向於先保證 AI 安全。

但人類真的能讓 AI 與自己對齊嗎?近日,來自麻省理工學院、加州大學伯克利分校、倫敦大學學院、劍橋大學的一個四人團隊研究發現,人類尚且難以對齊,也就更難以讓 AI 與自己對齊了。他們批判性地審視了當前 AI 對齊研究的缺陷,另外他們也展示了一些替代方案。

這篇論文的一作 Tan Zhi-Xuan 在 X 上稱這項研究耗時近 2 年時間,其表示這既是一份批判性評論,也是一份研究議程。「在其中,我們根據 4 個偏好論題描述了偏好在 AI 對齊中的作用。然後,我們強調了它們的侷限性,並提出了值得進一步研究的替代方案。」

哲學家 Nora Belrose 總結了這篇論文中一些有趣的結論:

該團隊首先提出,「人類價值觀」這個術語其實沒有清晰明確的定義,因此就很難對其進行量化,從而讓機器對齊。

目前,定義「價值」的一種主要方法是基於人類偏好,這種方法源自利用理性選擇理論、統計決策理論的傳統及其對人工智能中的自動決策和強化學習的影響。

無論是明確採用,還是以「獎勵」或「效用」的形式隱含地假設,這種基於偏好的方法已經成爲人工智能對齊的理論和實踐的主導方法。

但是,就連該方法的支持者也指出,在對齊 AI 與人類偏好方面存在諸多技術和哲學難題,包括社會選擇、反社會偏好、偏好變化以及難以從人類行爲中推斷偏好。

這項研究認爲,要想真正解決這些難題,就不能僅僅基於本體論、認識論或規範性理論來看待人類偏好。借用福利哲學中的一個術語,該團隊將這些對 AI 對齊的描述形式表述成了一種範圍寬廣用於 AI 對齊的偏好主義(preferentist)方法。之後,基於偏好在決策中的作用,他們又將這些方法分成了四類:

這些論點都只是觀點,而非一個統一的 AI 對齊理論。儘管如此,它們表達的思想是緊密關聯的,並且大多數 AI 對齊方法都採用了其中 2 個或更多論點。比如逆向強化學習、基於人類反饋的強化學習(RLHF)和直接偏好優化(DPO)全都假定可通過一個獎勵或效用函數來很好地建模人類偏好,並且該函數還可被進一步優化。

當然,偏好主義也有批評者。多年來人們一直在爭論上述論點是否合理。即便如此,偏好主義仍舊是實踐中的主導方法。

因此,該團隊表示:「我們相信有必要確定偏好主義方法的描述性和規範性承諾,明確說明其侷限性,並描述可供進一步研究的概念和技術替代方案。」

下面我們將簡要總結該論文梳理的觀點和替代方案,詳細描述請參閱原論文。

在建模人類時,超越理性選擇理論

理性選擇理論的核心原則是:假設人類的行爲是爲了儘可能地滿足自己的偏好,並且個體和總體人類行爲都可以用這些術語來理解。就理論前提而言,這一假設非常成功,並且還構成了現代經濟學這門學科的基石,還影響了與人類行爲分析有關的許多領域,包括社會學、法學和認知科學。

將揭示型偏好及其表徵用作效用函數。理性選擇理論最標準的形式是假設人類偏好可以表示爲一個標量值的效用函數,而人類選擇就可建模成選取的動作,其目標是最大化該函數的預期值。這種方法希望可以直接從人類的選擇中得出其偏好,並且還可以將他們的偏好程度表示爲標量值。這樣的偏好被稱爲揭示型偏好(revealed preferences),因爲它們會在人類選擇過程中逐步揭示出來。這些方法有衆多定理支持。這些定理表明,任何遵循某些「理性公理」的結果偏好排序都可以用效用函數來表示,例如著名的馮・諾依曼 - 摩根斯坦(VNM)效用定理。

機器學習中的理性選擇理論。根據理性選擇理論,許多機器學習和 AI 系統還假設人類偏好可以或多或少直接地基於人類選擇得出,並且進一步用標量效用或獎勵來表示這些偏好。逆向強化學習和基於人類反饋的強化學習領域尤其如此,它們假設人類的行爲可以描述爲(近似地)最大化隨時間推移的標量獎勵總和,然後嘗試推斷出一個能解釋所觀察到的行爲的獎勵函數。推薦系統領域也可以找到類似的假設。

帶噪理性選擇(noisily-rational choice)的玻爾茲曼模型。雖然這些基於偏好的人類行爲模型基於理性選擇理論,但值得注意的是,它們比僅僅「最大化預期效用」可能要更復雜一些。因爲人類其實很複雜,並不總是在最大化效用,因此模型必然帶有噪聲,只能算是近似的理性選擇。在機器學習和 AI 對齊領域,這種選擇模型的最常見形式是玻爾茲曼理性(得名於統計力學中的玻爾茲曼分佈),它假設選擇 c 的概率正比於做出該選擇的預期效用的指數:。

玻爾茲曼理性的論證和擴展。這種選擇模型在實踐和理論上都很有用。比如,通過調整「理性參數」 β(在 0 到無窮大之間),可以在完全隨機選擇和確定性最優選擇之間調整玻爾茲曼理性。理論上,玻爾茲曼理性可作爲盧斯(Luce)選擇公理的一個實例,也可作爲熱力學啓發的有限理性模型。此外,玻爾茲曼理性已擴展到建模人類行爲的其它方面,除了目標導向動作之外,還包括選項之間的直接比較、顯式陳述的獎勵函數、整體行爲策略和語言表達,從而允許從多種形式的人類反饋中推斷出偏好。

玻爾茲曼理性的侷限性。儘管玻爾茲曼理性可能很有用,但尋求替代方案也很重要。首先,它不是唯一直觀合理的噪聲理性選擇模型:隨機效用模型是將選擇建模成最大化隨機擾動效用值的結果,並被廣泛用於市場營銷研究。更重要的是,帶噪理性不足以解釋人類未能採取最佳行動的全部方式。爲了準確地從人類行爲中推斷出人類的偏好和價值觀,必需更豐富的有限理性模型。最根本的是,人類動機不能完全歸結爲單純的偏好或效用函數。我們需要更豐富的人類理性模型。

這一節討論並擴展的議題包括:

超越將預期效用理論作爲理性的規範標準

現在,問題來了:對於人類和機器行爲來說,效用最大化是預期的規範標準嗎?也就是說,智能體是否應該將最大化滿足其偏好作爲完美理性的條件,而不論其實際做得如何。

EUT(預期效用理論)的一致性論據。關於這種規範性標準的可行性,一直存在爭議。支持 EUT 的論據包括前面提到的效用表示定理。該定理基於這一公理:偏好算作理性;然後證明任何遵循偏好行事的智能體的行爲都必定像是在最大化預期效用。在 AI 對齊文獻中,這些結果通常被視爲關於理性智能體的「一致性定理(coherence theorems)」。

將 AI 對齊視爲對齊預期效用最大化。基於這些論據,AI 對齊研究者傳統上認爲:先進 AI 系統的行爲就像是在最大化預期效用。因此,很多人將對齊 AI 的問題表述爲如何讓預期效用最大化算法對齊的問題,並且各種提議方案都側重於如何規避效用最大化的危險或準確學習正確的效用函數。畢竟,如果先進的 AI 系統必定遵守 EUT,那麼對齊此類系統的唯一希望就是留在其範圍內。此外,如果預期效用最大化是理性所需的 —— 如果智能意味着理性 —— 那麼任何基於人類價值觀行事的足夠智能的智能體最終都必須將這些價值觀整合爲一個效用函數。

這一節討論並擴展的議題包括:

超越將單主體 AI 對齊用作偏好匹配

如果理性選擇理論不能充分描述人類的行爲和價值觀,而預期效用理論不能令人滿意地解釋理性決策,那麼這對 AI 對齊的實踐意味着什麼?

儘管人們越來越意識到這些偏好假設的侷限性,但大多數應用的 AI 對齊方法仍將對齊視爲偏好匹配問題:給定一個 AI 系統,目標是確保其行爲符合人類用戶或開發者的偏好。

通過基於偏好匹配的獎勵學習來實現對齊。目前,這類方法中最著名的莫過於 RLHF。基於用戶陳述其偏好的數據集,RLHF 會學習估計用戶假設存在的獎勵函數(獎勵模型)。然後,AI 系統會學習繼續優化學習得到的獎勵模型,目標是得到更符合用戶偏好的行爲。RLHF 最早是爲經典控制問題開發的,但現在已經被用於訓練越來越複雜的 AI 系統,包括用於機器人控制的深度神經網絡和大型語言模型(LLM)。其中後者更是憑藉其強大的能力和通用性爲 RLHF 吸睛無數。

獎勵學習的根本侷限性。RLHF 儘管成功,但仍面臨着許多技術難題,包括偏好引出問題和可擴展監督問題、過度優化問題、穩定訓練問題。不僅 RLHF ,所以獎勵學習方法都存在問題,包括前述的表徵限制問題和採用預期效用理論的問題。

獎勵學習和偏好匹配的範圍有限。爲了解決這些侷限性,還需要怎樣的 AI 對齊研究?該團隊表示:「我們並不是說基於獎勵的模型永遠不合適。相反,我們認爲基於獎勵的對齊(以及更廣義的偏好匹配)僅適用於有足夠本地用途和範圍的 AI 系統。」也就是說,它僅適用於價值對齊問題的最狹隘和最簡化版本,其中的價值和範式可以總結爲特定於該系統範圍的獎勵函數。AI 對齊還需要更多:AI 系統必須瞭解每個人的偏好是如何動態構建的,並與產生這些偏好的底層價值觀保持一致。

這一節討論並擴展的議題包括:

超越將多主體 AI 對齊用作偏好聚合

在批評了基於偏好的單主體對齊概念之後,現在轉向多主體對齊的問題:考慮到人類如此之多,持有的價值觀也非常多,那麼 AI 系統應當與其中哪些對齊呢?

偏好聚合的理論論證。這個問題的傳統答案是,AI 系統應該與人類的總體偏好對齊。爲什麼會這樣?部分原因可能是偏好效用主義倫理具有規範性的吸引力。但是,在 AI 對齊文獻中,偏好聚合的論證通常更具技術性,會使用 Harsanyi 的社會聚合定理作爲依據。進一步假設所有人類也都這樣做,這樣每個個體 i 的偏好都可以表示成對結果 x 的偏好 U_i (x)。最後,假設一致性是理性社會選擇的最低要求 —— 如果所有人類都偏好某個(概率性)結果 x 而非 y,則該 AI 系統也應該更偏好 x 而非 y。那麼,Harsanyi 定理表明 AI 系統的效用函數 U (x) 必定是單個效用函數的加權聚合:

對齊實踐中的偏好聚合。但是,無論這個理論觀點如何具有說服力,AI 對齊實踐中還是經常出現偏好聚合。RLHF 就是一個顯著例證:儘管 RLHF 原本是爲單個人類上下文設計的,但實踐中,RLHF 總是用於從多個人類標註者收集的偏好數據集。近期有研究表明,這種實踐等價於 Borda 計數投票規則。在效果上,每位標註者的選擇都會根據其在一組可能替代方案中的排名進行加權。

偏好聚合的實踐、政策和基礎限制。這一節將從實踐、政策和基礎層面對 AI 對齊中的偏好聚合進行批判性的審視。在實踐層面上,該團隊表示偏好聚合常常被錯誤解讀和錯誤應用,這樣一來,即使人們接受 Harsanyi 風格的效用聚合作爲規範性理想方法,在實踐中使用各種非效用聚合規則的效果通常更好。在政策層面上,該團隊批評了聚合主義方法的理想化性質,他們認爲,由於我們這個社會存在多樣化且互有爭議的價值觀,因此基於協商和社會契約理論的方法在政策層面上更可行。在基礎層面上,基於前面對 EUT 和偏好匹配的批評,該團隊將其闡述成了對效用注意聚合的規範性的批評。

這一節討論並擴展的議題包括:

參考鏈接:https://x.com/xuanalogue/status/1831044533779669136