大模型內部也有功能分區,MIT團隊揭示其“大腦”結構
AI 的“大腦”究竟長什麼樣?
近期,來自美國麻省理工學院的研究團隊通過稀疏自編碼器(SAE,Sparse Autoencoder)在大語言模型的激活空間中發現了大量可解釋的向量點,這些向量點代表了模型所掌握的各種概念。
研究人員對這些概念空間(向量點)的結構進行了深入分析,從“原子”“大腦”“星系”三個不同的空間尺度揭示了其獨特的幾何特徵。
這項研究的重要意義在於,它在試圖搞清楚大模型是如何在內部組織知識的。研究成果以預印本的形式發表。
(來源:arXiv)
就像理解人類大腦結構幫助我們理解人類思維一樣,分析模型內部的概念結構有助於我們理解人工智能是如何工作的。這些發現不僅有理論價值,也可能幫助我們設計出更好的語言模型。
在最微觀的“原子”尺度上,研究發現概念空間中存在“晶體”結構。這些晶體幾何結構代表的是語義關係(semantic relations),呈現出平行四邊形或梯形的形態。
這種幾何理解爲詞彙和語義賦予了擁有數學特徵的向量空間。
更通俗的解釋是,它們可以呈現出一種經典的概念(詞)類比關係:女人-男人≈ 女王-國王。
從向量的角度來看,從“女人”到“男人”是性別的轉換,就類似於從“女王”到“國王”。同理,從“女人”到“女王”,也類似於從“男人”到“國王”(皇室轉換)。
圖|“女人-男人≈ 女王-國王”關係的向量圖解(資料圖)
研究團隊發現,當消除詞長等無關特徵的干擾後,這種幾何結構會變得更加清晰。
具體而言,研究團隊首先計算了所有特徵向量之間的成對差異,並對這些差異向量進行聚類。理論上,如果存在功能向量(如性別轉換或身份提升),相關的差異向量應該形成聚類。
然而,研究者們發現了干擾特徵的存在。例如,一些詞彙的長度差異會導致幾何結構的扭曲。
這一發現啓發他們開發了更復雜的分析方法,通過線性判別分析(LDA,Linear Discriminant Analysis)將數據投影到排除干擾維度的低維空間中,可以顯著提高這些晶體結構的質量。這表明,概念之間的語義關係確實存在系統性的幾何對應。
在中觀的“大腦”尺度上,研究發現概念空間具有顯著的功能模塊性。類似於生物大腦中的功能分區,相似功能的特徵在空間上往往聚集在一起,形成“葉”狀結構。
(來源:arXiv)
例如,數學和編程相關的特徵會形成一個獨立的“葉”,這與神經科學中通過功能磁共振成像觀察到的大腦功能分區非常相似。
在研究方法上,團隊使用了 The Pile 數據集進行實驗。使用稀疏自編碼器模型(Gemma-2-2b)處理了 10,000 個文檔。
對於每 256 個標記的區塊,他們記錄了第 12 層中哪些稀疏自編碼器(SAE)特徵被激活。
他們還分析了每種文檔類型中激活特徵比例最高的腦葉,並創建直方圖以可視化不同文檔類型的激活模式。
研究者們採用多種統計方法驗證了這種空間聚集現象的顯著性,包括簡單匹配係數、Jaccard 相似度、Dice 係數、重疊係數和 Phi 係數。
實驗表明,Phi 係數能最準確地捕捉特徵之間的功能關聯,但所有方法均能在不同程度上展現出“腦葉”的形狀。
他們發現,那些在文檔中經常同時激活的特徵,在幾何空間中的距離也往往較近,這種空間局部性遠超隨機分佈的預期。
圖|不同統計方法的對比(來源:arXiv)
爲了量化這種功能模塊的空間分佈特徵,研究團隊開發了兩種評估方法。
首先,他們進行了基於餘弦相似度的空間聚類和基於特徵共現的功能聚類,再把兩者放在一起對比相互信息。由此可以得出功能結構與幾何結構的“對應關係”。
其次,他們嘗試用邏輯迴歸模型根據特徵的幾何位置預測其所屬的功能模塊。
實驗結果表明,使 Phi 係數作爲共現度量時,功能模塊與幾何結構的對應關係最爲顯著,其統計顯著性遠超隨機基線。
簡單來說,最終的結果是,研究人員發現相關的概念會聚集在一起形成功能區域,就像人類大腦中不同區域負責不同功能一樣。
比如,跟數學和編程相關的概念會聚在一起形成一個區域,而處理日常對話的概念會聚在另一個區域。
這種功能分區的發現不僅證實了模型內部存在組織化的知識表示,還暗示了不同類型信息可能採用不同的編碼方式。
在最宏觀的“星系”尺度上,研究發現整個特徵點雲的分佈並非各向同性,而是呈現出特殊的結構。
通過主成分分析發現,點雲的協方差矩陣特徵值呈現冪律衰減,且這種衰減在模型的中間層最爲顯著。
這意味着,概念空間在不同維度上的“寬度”並不均勻,而是遵循一定的統計規律。中間層較陡的冪律衰減可能暗示這些層在壓縮信息、形成高級抽象表示方面發揮着重要作用。
(來源:arXiv)
此外,研究還分析了點雲的聚類熵,發現概念空間確實存在明顯的聚類現象,特別是在模型的中間層。
這種聚類程度遠高於各向同性高斯分佈的預期,表明概念在特徵空間中的分佈具有複雜的內在結構。
研究者們使用 k-NN 方法估計了點雲分佈的熵,並與相同協方差矩陣的高斯分佈進行對比,量化了不同層的聚類程度。
研究者最終發現,模型不同層的特徵分佈呈現出獨特的模式。早期層和晚期層的熵值較高,這可能反映了這些層分別負責處理較爲分散的低級特徵和高度集中的任務相關特徵。
而中間層較低的熵值則暗示這些層在概念抽象和信息整合方面發揮着重要作用。
這種層次化的組織結構可能是模型高效處理語言任務的關鍵機制之一。
總的來說,這項研究通過多尺度的幾何分析,揭示了大語言模型內部概念表示的豐富結構。
這些新發現不僅加深了我們對模型工作機制的理解,提升了模型可解釋性,也爲未來改進模型架構和訓練方法提供了有價值的啓示。
參考資料:
https://arxiv.org/abs/2410.19750
運營/排版:何晨龍