AGI離我們還有多遠?大模型不是最終解,世界模型纔是未來

在科幻電影中,類似於賈維斯(J.A.R.V.I.S.)一般的 AI 系統,幾乎無所不能,是幫助人類解決各種各樣難題的終極助手。

它們的背後,是一種人們追求最高級 AI 的追求,而這一概念,被稱爲通用人工智能(Artificial General Intelligence,AGI)。

AGI的概念可以追溯到20世紀中期,當時許多計算機科學家和 AI 研究人員開始思考如何構建具有人類智能的計算機程序,與狹義 AI(Narrow AI)系統專注於解決特定任務不同,AGI被賦予了更廣泛的認知和推理能力,能夠在多個領域進行學習、適應和執行任務。

然而,在很長一段時間裡,AI 的相關研究主要集中在解決特定問題和任務上,而AGI的實現一直被認爲是一個更爲複雜和遙遠的目標。

近日,花旗銀行數據科學副總裁 Valentino Zocca 博士在一篇題爲《我們離AGI還有多遠?》(How far are we from AGI?)的文章中,就 AGI 和其他有關的重要議題展開了深度分析。核心觀點如下:

學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:

大約20萬年前,我們人類開始在地球上行走,同時也在思想和知識的領域中探索。人類歷史上的一系列發現和發明塑造了這段歷史。其中一部分不僅影響了我們的歷史走向,還潛移默化地影響了我們的生物學。例如,火的發現賦予我們祖先烹飪食物的能力,從而將熱量轉移到大腦的進化上,而非僅用於消化道,這推動了人類智力的進步。

從車輪的發明到蒸汽機的誕生,人類迎來了工業革命。在這段變革的歷程中,電力大大催生了我們熟知的技術進步。而印刷術則加速了新思想和新文化的廣泛傳播,進一步推動了創新的步伐。

然而,人類的進步並不僅僅源於新的物質發現,它還源於新的思想。所謂西方世界的歷史,是從羅馬帝國滅亡到中世紀,在文藝復興和啓蒙運動期間經歷了一次重生,它強調人類思想的中心地位,而不是所謂萬能的神靈。然而,隨着人類知識的進步,人類這開始認識到自身的渺小。在蘇格拉底之後的兩千多年裡,人類開始“知道自己一無所知”,我們的地球不再被視爲宇宙的中心。宇宙本身在擴張,而我們只是其中的一粒微塵。

改變對現實的看法

然而,就重塑我們對世界的認識而言,20世紀可能是爭論最多的一百年。1931年,哥德爾(Kurt Gödel)發表了不完備定理。

僅僅四年後,愛因斯坦、波多爾斯基(Boris Podolsky)和羅森(Nathan Rosen)以“完備性”爲主題,在題爲“Can Quantum-Mechanical Description of Physical Reality Be Considered Complete?”的論文中提出了“EPR弔詭”。隨後,波爾(Niels Bohr)對這篇論文進行了反駁,他證明了量子物理學的實際有效性。

哥德爾不完備定理表明,即使是數學也無法最終證明一切,我們總會面臨一些無法證明的事實存在的情況。而量子理論則認爲,我們的世界缺乏確定性,我們無法預測某些事件,如電子的速度和位置,儘管愛因斯坦曾說“上帝不會擲骰子”這一著名的立場。從根本上講,我們的侷限性已經超越了僅僅預測或理解物理領域內事件的範圍。即使我們努力構建一個完全由我們所設想的規則支配的數學宇宙,這個抽象的宇宙仍然會存在不可否認的事實。

然而,除了數學陳述之外,我們的世界還充滿了描述現實的哲學陳述,我們發現自己無法描述、完全表達、理解甚至只是定義這些現實。

類似於20世紀初“真理”概念的不確定性,其他諸如“藝術”“美”和“生命”等概念的定義同樣缺乏根本性的共識。然而,這些並非孤立的案例,“智慧”和“意識”等其他概念同樣處於這一困境之中。

智力的定義

爲了彌補這一差距,Legg 和 Hutter 於2017年在“Universal Intelligence: A Definition of Machine Intelligence”中提出了智能(intelligence)的定義:認爲“智能衡量的是一個代理在各種環境中實現目標的能力”。同樣,在“Problem-Solving and Intelligence”中,Hambrick、Burgoyne 和 Altmann 認爲,解決問題的能力不僅是智能的一個方面或特徵,而且是智能的本質。這兩種說法在字面上有相似之處,因爲實現目標可以與解決問題聯繫起來。

Gottfredson 在“An Editorial with 52 Signatories”中總結了幾位研究者的觀點:智能是一種非常普遍的心理能力,包括推理能力、計劃能力、解決問題的能力、抽象思維能力、理解複雜思想的能力、快速學習的能力以及從經驗中學習的能力。它不僅僅是書本知識、狹隘的學術技能或應試技巧。相反,它反映了一種更廣泛、更深層次的理解周圍環境的能力。一種“抓住”“理解”事物,或者“構思”應對方法的能力。

這一定義引入了兩個關鍵維度,即從經驗中學習和理解周圍環境的能力,從而使智能的概念超越了單純的“解決問題的技能”。換句話說,我們不應將智能僅僅視爲一種抽象的能力,即找到解決一般問題的方法,而應將其看作是一種具體的能力,即將從先前經驗中學習到的解決方案應用於我們所處環境中可能出現的不同情況。

這突出了智能與學習之間的內在聯繫。在“How we learn”中,Stanislas Dehaene將學習定義爲“學習就是形成一個世界模型”,這意味着智能也需要理解我們周圍環境並建立一個內部模型來描述它們的能力。因此,智能同樣需要具備創建世界模型的能力,即便這種能力可能並不全面。

當前的機器有多智能?

在討論通用 AGI 與狹義 AI 時,我們經常會強調它們之間的區別。狹義 AI(或稱弱 AI)非常普遍,也很成功,在特定任務上的表現往往能超越人類。一個很好的例子是,2016年,AlphaGo 以4比1的比分擊敗了當時的圍棋世界冠軍李世石。然而,即便如此,2023年的一個事件也凸顯了狹義 AI 的某些侷限性。在圍棋比賽中,業餘棋手 Kellin Perline 利用 AI 沒有發現的戰術獲勝。可見,AI 缺乏人類識別不常見策略並做出相應調整的能力。

實際上,在最基本的層面上,即使是缺乏經驗的數據科學家也能明白,AI 所依賴的每個機器學習模型,甚至包括最簡單的模型,都需要在偏差和方差(bias and variance)之間取得平衡。這意味着 AI 需要從數據中學習,以便理解和歸納解決方案,而不是死記硬背。狹義 AI 利用計算機的計算能力和內存容量,可以相對輕鬆地根據大量觀察到的數據生成複雜的模型。然而,一旦條件稍有變化,這些模型往往就無法通用。

這就好比我們根據觀測結果提出了一個只在地球上有效的引力理論,然後卻發現物體在月球上要輕得多。如果我們在引力理論知識的基礎上使用變量而不是數字,我們就會明白如何使用正確的數值快速預測每個行星或衛星上的引力強度。但是,如果我們只使用沒有符號的數字方程,那麼在不重寫這些方程的情況下,我們將無法正確地將這些方程推廣到其他天體。

換句話說,AI 可能無法真正“學習”,而只能提煉信息或經驗。AI 不是形成一個全面的世界模型,而是創建了一個概要。

我們真的實現了AGI嗎?

人們普遍理解的 AGI 定義是,AI 系統能夠以人類水平或更高水平在多個認知領域進行理解和推理。這與目前專門從事特定任務的狹義 AI 系統(如 AlphaGo)形成了鮮明對比。AGI 指的是一種 AI 系統,具備全面的、人類水平的智能,能夠跨越不同的抽象思維領域。

如前所述,這就要求我們有能力創建一個與經驗相一致的世界模型,並允許對預測進行準確的假設。

與大多數 AI 研究人員和權威人士的觀點一致,要實現真正的 AGI 還需要幾年時間,儘管大家對它何時出現的預測各不相同。在“AGI Safety Literature Review”一文中,Everitt、Lea、Hutter 提到:“我們問了很多研究人員,他們認爲 AGI 可能會在2040-2061年之間出現,但大家的猜測差異很大,有人覺得可能永遠不會出現,也有人覺得未來幾年可能就會出現”。總之,可以肯定的是,AGI 還沒有出現在我們身邊。

微軟在最近發表的“Sparks of Artificial General Intelligence: Early experiments with GPT-4”論文中指出:

問題是什麼?微軟是 OpenAI 的合作伙伴。

《紐約時報》的一篇文章援引卡內基梅隆大學教授 Maarten Sap 的話說:“這是其中一些大公司將研究論文格式用於公關宣傳的一個例子”。研究人員兼機器人企業家 Rodney Brooks 在接受 IEEE Spectrum 採訪時強調,在評估 ChatGPT 等系統的能力時,我們經常“誤把性能當能力”。

換個方式來解釋,將分數當作能力的標誌,AI 就好像只看到了世界的一個粗略概述,而沒有真正理解整個世界的本質。

AI 面臨一個重要問題,就是它們的訓練數據。大多數模型僅在文本基礎上進行訓練,不具備在現實世界中說話、聽覺、嗅覺或生活的能力。正如我之前提出的,這種情況有點像柏拉圖的洞穴寓言。在那個故事裡,人們只能看到洞穴牆上的影子,無法直接體驗真實的世界。即使能夠創建一個世界模型,他們的世界也只是一個純文字的世界,句法上正確,但語義上並不全面。這種環境缺乏直接感知所產生的“常識”,所以顯得乏善可陳。

大語言模型有哪些主要侷限性?

ChatGPT 或 GPT-4等大型語言模型(LLMs)面臨的另一個最有爭議的挑戰是,它們容易產生幻覺。所謂幻覺,就是這些模型會編造出一些假的引用和事實,有時甚至是毫無意義的內容。出現幻覺的原因在於,它們缺乏對事件之間原因和結果的理解。

在“Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation”一文中,作者得出結論:“ChatGPT 存在嚴重的因果幻覺問題,它傾向於假設事件之間的因果關係,而不管這些關係是否實際存在”。他們進一步指出:“ChatGPT 不是一個好的因果推理者,而是一個好的因果解釋者”,再次強調了它在解釋時提煉聯繫的能力,但卻無法通過構建一個現有的世界模型來推斷這些聯繫,而這些聯繫就自然而然地存在於這個世界模型中。雖然這篇文章的重點是 ChatGPT,但可以擴展到任何 LLMs。

從根本上說,我們可以發現,LLMs 善於從數據中識別和提取因果關係,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進行因果歸納的能力,但不具備因果演繹的能力。

這種區別凸顯了一個侷限性,系統可以識別因果模式,但缺乏抽象的因果推理能力。它並不能產生新的因果見解,而只是從數據中解釋因果聯繫。

然而,如果智能需要從經驗中學習,而學習又轉化爲創建一個我們可以用來理解周圍環境的世界模型,那麼因果演繹就構成了學習的一個基本要素,從而也構成了智能的一個基本要素,而這正是現有模型所缺少的一個方面。這是我們朝着 AGI 前進的關鍵步驟之一。

結論

正如在20世紀初所展示的那樣,實際情況常常與我們日常觀察所形成的直覺不同。就像20世紀初的物理學家因爲量子力學與人類直覺相悖而難以理解它一樣,我們現在構建的 AI 系統也受限於現實的一小部分,甚至比我們人類所能體驗到的範圍還要窄。

就像我們最終理解了一個與我們日常經驗相矛盾的真實世界一樣,只有當我們能夠創造出一個可以懷疑自身現實的系統,進行自我探索,至少能夠應用因果演繹來建立一個合理的世界模型時,我們才能真正實現 AGI。

這一展望可能是人類歷史邁向新階段的一個標誌,我們開始逐漸承認,人類在整個宇宙中的重要性正在減少。