超越感知:那些基於生物感官的AI算法

在我們探索宇宙和深海的同時,人類最複雜的前沿仍然隱藏在我們自己的頭顱之中。神秘而複雜的大腦,這個自然界中最複雜的已知結構,不僅是思想和感覺的源泉,還是我們對世界感知的根本。正如物理學家理查德·費曼所說,“我所不能創造的,我便不能理解(What I cannot create, I do not understand)”,要想解鎖這個謎團,我們便需要從頭構建一個類似的人造大腦。當人造大腦已能復現人腦特徵,那我們對自然之腦的理解無疑更爲深入。

從視覺、聽覺,再到嗅覺,我們的大腦處理感官信息的方式超乎想象。它能從混亂的視覺圖像中辨識出熟悉的面孔,從嘈雜的環境中捕捉微弱的旋律,甚至在氣味的複雜混合中識別出特定的氣味。但這一切不僅僅是生物學的奇蹟,也是人工智能未來發展的藍圖。通過學習和模仿大腦處理信息的方式,科學家們試圖在人工神經網絡中復現這些現象。本文將穿越人類大腦與人工智能之間的複雜迷宮,從視覺、聽覺、嗅覺概述相關研究,探索人腦與人工神經網絡的相似與差異,爲下一代智能系統的設計提供方向。

視覺 感知基礎:從簡單到抽象特徵的提取

當我們觀察事物時,存在一個明顯現象,相比傾斜方向的圖像,我們更容易覺察到垂直或水平方向的圖像。這被稱爲傾斜效應(oblique effect)。就像下圖所展現的那樣,我們傾向於更清晰地記住直立的樹和山脈,而非它們傾斜的根莖。這種偏好可能反映了我們祖先在進化過程中發展出的能力。垂直和水平方向的特徵在環境中更爲常見,因此視覺系統在構建高效表徵時,需要對這些方向的變化更敏感,這將有助於我們更快地識別和響應環境變化。

▷圖1:傾斜效應示意圖。在任意隨機選取的自然場景照片中,水平和垂直方向也比傾斜方向更常見。這種情況也出現在人造建築物中。| 來源:Cognitive Psychology: Connecting Mind, Research and Everyday Experience 3rd Edition

爲了搞清楚這一現象究竟從何而來,研究者[1]基於卷積神經網絡的模型VGG16及 Resnet18,以及非卷積網絡架構的transformer,分別構建人工神經網絡,來模擬這一現象。他們發現,經過訓練的網絡在對不同方向的刺激進行處理時,顯示出與人腦類似的傾斜效應。具體來說,這些網絡在0度、90度和180度的方向刺激上的反應更爲敏感。這是我們首次觀察到人工神經網絡和大腦涌現出相同的特徵,而這一主題將在之後反覆出現。

▷圖2:被訓練分類自然出現物品的人工神經網絡,會呈現類似人類的編碼敏感性。來源:參考文獻1

當我們進入森林,會發現一排排幾乎相同的樹木。人腦爲了高效地對其進行表徵,會利用數據不變性對重複的元素進行壓縮,以提高信息處理的效率。這被稱爲平移不變性。這種機制在人工神經網絡(卷積神經網絡)中也找到了對應。更有趣的是,即使是基於全連接神經網絡,只要訓練它們識別自然界中的圖像,它們也能涌現出類似的具有局部、空間平鋪的感受野[2]。這意味着即使在沒有預設網絡結構的初始狀態下,人工神經網絡也能自發學會先聚焦圖像中的一小塊,之後看到類似的結構,就直接從記憶中調用已有的存儲,高效地處理相似結構。

在處理視覺信息時,大腦常常需要應對輸入數據的缺失和噪聲。但面對這些問題,人腦會在必要時將注意力集中於更大的圖像,而不是陷入多個細節部分。例如,在遇到部分遮擋的圖形時,我們的大腦傾向於視覺上“填補”缺失的部分,將其視爲一個完整的形狀,這就是閉合法則。訓練用來分類自然圖像的神經網絡也會呈現出類似補全的傾向[3]。

除開遮擋造成的信息缺失之外,觀察時間過短也將帶來輸入的缺失。就如“看不見的黑猩猩”一樣,當我們過於關注某事時,可能會忽略顯而易見的視覺信息。這表明即使是短暫出現的、未進入我們的意識圖像,也能在我們的視覺皮層中留下印象。例如,在實驗中,即使被試者只是瞥了一眼或根本沒有意識到某個圖像,他們仍然能夠在一定程度上識別圖像內容,如判斷圖像中是否存在生物[4]。使用卷積神經網絡架構,研究者發現當數據存在缺失/噪音時,模型仍能在一定範圍內進行判別。這一現象與人腦的處理方式相似。

進一步地,從處理簡單的線條到局部的平移不變,再到複雜圖像的缺失補全,人腦對外物的感知逐漸從具象走向抽象,從而得以在面對不同的環境和對象時經由歸納形成知識。在機器學習領域,這樣的能力被稱爲解耦(disentangle)。研究表明,人工神經網絡通過監督和強化學習,在需要解決多個任務時,能夠自發地涌現出抽象表徵[5]。這些抽象表徵有助於大腦在新的任務上實現少數樣本的學習和有效的泛化。

▷圖3:a)兩個分類任務的例子。(左)在一種形狀的紅色和藍色漿果之間學習的分類可以泛化到其他形狀。(右)兩個不同形狀的紅色漿果之間的分類可以推廣到不同形狀的藍色漿果。(b)四個漿果例子的線性、抽象(左)和非線性、非抽象(右)表示的例子。(c)輸入模型的示意圖。(d)多任務模型的示意圖。(e)兩個抽象指標,分類器泛化指標(左)和迴歸泛化指標(右)。來源:參考文獻5

在視覺系統成功識別出抽象特徵之後,其下一步任務是理解這些特徵之間的複雜關係。這一階段是對信息的深入處理,涉及到模式識別和邏輯推理,是人類視覺處理中極爲高級的功能。相比之下,雖然人工智能在許多領域已顯示出卓越的能力,但在處理這類抽象任務時,它們通常需要更多的資源和能量。

以找不同的Oddity Test爲例,人類通常能夠輕鬆地完成這種測試。然而,對於人工神經網絡來說卻很難。爲了解決這一難題,科學家們給AI提供了小抄[6],即利用人類志願者在完成Oddity Test時的眼動數據來訓練神經網絡。這些眼動數據包含了人腦在觀察圖像時自然而然地關注的局部間關係,從而爲網絡提供了一種模擬人類觀察行爲的方式和抽象推斷的線索。這種新型的生物啓發網絡展現了更高的準確性、更快的學習速度,以及更少的所需參數。*

圖4:Oddity test的例子。來源:參考文獻6

抽象處理:從社交到分類

我們大腦中有一些特殊的神經元,它們非常擅長於識別和辨認人臉。這些神經元能在我們還是嬰兒的時候就開始對臉部特徵做出反應。但這種能力是否是我們天生就有的,還是隨着視覺經驗而發展出來的,一直是科學家爭論的熱點話題。

有趣的是,利用捕捉視覺皮層腹側區特徵的人工神經網絡模型發現[7],即使是沒有接受過特別訓練的深度神經網絡,也能展示出類似的能力,它們能夠“自然地”識別人臉(從隨機前饋線路中自發產生),這表明我們的大腦可能有着與這些系統相似的處理機制。

此外,我們大腦識別人臉的能力並不完美。比如,面對不熟悉的種族的人臉,或者人臉的圖像被上下顛倒時,我們的識別準確率就會下降。這種現象曾被認爲是人腦對人臉識別特有的特點。

但是,通過研究基於卷積神經網絡的人工智能模型,科學家們發現,這些“缺陷”其實是大腦爲了更高效地識別人臉而進行的優化[7]。類似的人臉圖像正反顛倒識別準確率下降的現象,只出現在以人臉識別爲訓練任務的卷積神經網絡中,沒有出現在接受過物體識別訓練的卷積神經網絡中。如專門用於識別汽車的人工智能模型中,當汽車的圖像倒置時,相比正向圖片,這些模型的識別能力也會下降。這說明,我們大腦的這些特點其實是對特定任務的優化,而不是什麼獨特的計算本質。

人腦可以從少數例子中學習概念,這對於傳統的深度神經網絡來說,這種從少量例子中學習的能力被稱爲少樣本學習(few-shot learning)。那麼,大腦是如何從少數例子中學習的?答案在於大腦將視覺特徵映射到一個高維空間中[9],在這個空間構建一個能夠跨越相距甚遠空間的”蟲洞”,並通過一種稱爲“流形學習(Manifold Learning)”的技術進行學習。理論上只用200個神經元就可區分不同類的輸入。

模仿這種機制,人工神經網絡也在採用類似的方法。通過配置一個靈活可塑的下游神經元,基於少數樣本和簡單的規則,人工神經網絡就能學會如何區分不同的概念。這種方法的優勢在於,它不僅能夠處理視覺數據,甚至能根據語言描述符來學習和識別新的視覺概念。

▷圖5:人腦和DNN基於4個實例進行訓練的示意圖。來源:參考文獻9

在學習過程中,人腦大部分時間是沒有明確指導的。這就像孩子在識別家裡的貓和狗時,不需要有人一直在旁邊告訴他們這是貓那是狗。這種學習的方式被稱爲半監督學習。人腦在半監督學習的模式下表現優良。

相似地,人工神經網絡也能使用深度無監督對比嵌入方法進行學習。這種方法使神經網絡在處理視覺信息時,特別是在大腦的腹側視覺皮層相關區域,達到甚至超過了當前最先進的監督學習模型的神經預測準確率[10]。即便是僅使用頭戴式攝像機收集的、嘈雜且有限的真實人類兒童發育數據,這些神經網絡仍能有效地學習併產生類似大腦的表徵。研究還發現,半監督深度對比嵌入可以利用少量標註示例生成表徵,從而大幅提高錯誤模式與人類行爲的一致性。

聽覺

就像我們的眼睛對某些視覺特徵特別敏感一樣,我們的耳朵也對特定的聲音特別敏感。比如,在嘈雜的環境中,我們依然能分辨出音樂的旋律或人的聲音。

當科學家用深度神經網絡訓練完成複雜聽覺任務來模擬這種聽覺處理時,訓練完成的模型能夠很好地完成這些任務,達到人類的水平[11]。但有趣的是,只有在用真實的音樂和自然聲音訓練時,這些模型對音高的感知才能表現得像人類一樣。如果用人工合成的聲音或在沒有任何背景噪音環境下訓練,這些模型就會展現出完全不同的音高策略。這表明,我們的聽覺系統也許真的是爲了應對複雜、有時會被噪聲遮蔽的環境而優化。

人腦不僅能識別特定的聲音,還能判斷聲音來自哪個方向。通過比較聲波到達左右耳的時間和強度差異,我們可以估計出聲音的來源,這被稱爲定位。在現實世界中,環境會產生回聲,而且我們會同時聽到很多聲音,因此定位尤其困難。然而,當科學家在虛擬世界中訓練深度學習模型[12],並使用與人耳相同的信息採樣精度時,這些模型能夠在定位任務上與人類達到同樣水平,且表現出與人類相似的缺陷,例如當面對多個聲音來源時,定位的準確性下降。與人類一樣,模型同樣在面對多於3個聲源時無法定位。模型還擴展了對定位使用機制的解釋,例如發現定位時模型不僅基於聲音的強度和時間差異,還會對兩耳間頻率的頻率敏感。

除環境的聲音感知外,感知音樂則更爲複雜,它包含識別旋律,感知固定的音高和節奏等不同部分。然而這些特徵究竟是從何而來的?2019年的一項研究發現[13],一種用於音樂風格分類的深度神經網絡,能夠達到與人類相當的水平,而且它的錯誤模式也類似於人類。這表明無論是人造的還是自然的聽覺系統,在處理音樂時都受到相似的限制。該研究進一步展示了這個模型如何模仿人類聽覺皮層的反應,其複雜的網絡層次結構能夠精確地預測對不同音樂元素的反應,這反映了我們聽覺系統中固有的層次化處理方式。

音樂感知是我們天生就有的能力,還是隨着時間和經驗而發展的?2024年初[14]的研究表明,使用模擬大腦聽覺信息處理機制的人工深度神經網絡,即使訓練數據中不包含音樂,也可以通過經由自然聲音訓練,使人工神經網絡自發地涌現出適應檢測音樂的專用單元。這些音樂檢測單元在多個時間尺度上編碼音樂的結構,對音樂的細微變化極爲敏感,類似於我們大腦中處理音樂的方式。而當在人工神經網絡中抹去這些音樂選擇節點時,網絡在音樂分類任務上的表現明顯下降,這證明了我們對自然聲音的處理能力可能爲我們對音樂的感知提供了基礎。換句話說,音樂感知可能是我們聽覺系統進化適應的一部分,是對聲音處理的一個通用且高效的模板。

▷圖6:音樂選擇性MSI最高的12.5%人工神經網絡單元抹去後,對該網絡分類準確性的影響最大。來源:參考文獻14

嗅覺

與我們熟知的視覺和聽覺不同,嗅覺沒有一個直接的物理到知覺的映射。換句話說,我們不能像將光的頻率直接對應到顏色,或聲波的波長對應到音調那樣,將特定的化學分子直接對應到特定的氣味。嗅覺要解決的問題是將衆多對分子濃度的感知進行壓縮並追蹤來源,而任務的難點在於這些分子的排列沒有固定的邊界或結構氣味沒有邊緣,不是可以在空間中分組的對象)以及氣味信號很是稀疏(有的氣味不需要特別多的分子腦也要能識別)。

針對上述的兩個問題,索爾克研究所的神經生物學家的做法是構造淺層的三層網絡來模擬果蠅的嗅覺[15]。這個網絡設想作爲一隻果蠅,它需要識別50種不同的氣體。但其腦中的負責嗅覺的神經元不可能時刻處在待機狀態,去判斷是否有對應分子的到來。

在實驗中,圖7A中的50個氣味分子對應了果蠅的50個投射神經元,圖7B中的每個分子,可被看成對應一個長度50的向量。來自投射神經元的信息多對一地到達名爲Kenyon細胞處理中心。這個系統採用了一種“贏者通吃”的機制,即在衆多神經元中,只有對特定氣味反應最強的那個會被激活。

上述機制構成了維度的40倍擴展,這使神經反應模式更魯棒地區分氣味(一個氣味被多個下游神經元表徵),能耗也更少(只有大約5%的神經元對給定的氣味反應高度活躍,就可爲每個細胞提供一個獨特的標籤)。將類似的技術用在搭建手寫數字識別網絡上,可讓系統在部分硬件失靈的場景下運行。

▷圖7:(A)蒼蠅嗅覺迴路示意圖。(B)氣味反應的示意圖。相似的氣味對(如甲醇和乙醇)被分配了更相似的標籤。來源:參考文獻15

當面對來自同一生化反應的多種化合物時,生物的嗅覺系統會通過激活相同的神經元來節省存儲空間。如果兩種化合物很少同時出現,那麼它們就會被映射到大腦中相距較遠的區域。這就像在三維空間中創建了一個類似馬鞍的三維雙曲空間“嗅覺地圖”[16],其中相似的氣味會被歸爲一類,而不同的氣味則被清晰地區分開來。這種空間上的排列方式,幫助我們大腦有效地處理和識別複雜的氣味組合。這與根據像素相似度在雙曲空間創建的地圖類似。

▷圖8:不同物體對應的嗅覺地圖,圓形/矩形表示近/遠側。來源:參考文獻16

另一方面,科學界也在借鑑嗅覺機制來改進AI[17]。例如,通過設計一種能夠“主動遺忘”的多層學習系統,這些系統能夠處理不斷增加的數據,並在學習過程中整合新舊信息。這種方法類似於生物嗅覺系統中多個並行處理模塊的工作方式,最終由大腦中的一個集成模塊“磨菇體”(mushroom body),來決定哪些信息最可靠。這種架構(無論是生物界,還是模仿產生的AI模型)將主動遺忘與穩定性保護結合起來,可更好地權衡新舊信息,並相應地協調多個持續學習者,確保解決方案具有持續學習的能力。

▷圖9:基於生物體的持續學習架構示意圖。來源:參考文獻17

總結

無論是從大腦獲得啓發以改進神經網絡,還是基於神經網絡的特徵去探討大腦的運行機制,我們可以梳理出幾條反覆出現的線索。首先,不論是在雜亂的環境中識別細微的音高變化,還是用少量待機神經元在大量信息中精確地檢測氣味,我們的神經系統都在努力在有限的資源下,以剛剛好的程度將任務完成。這說明了感官處理的方式是受到我們進化歷程中的種種約束的。

其次,大腦並沒有打算一招鮮吃遍天,而是針對不同的環境輸入給出了特異性的解決之法。這值得一直在追求“一種技術解決所有問題”的AI界學習。

再者,大腦對感官的處理也並非完美,大腦如同總在摸魚邊緣瘋狂試探的打工人,會產生種種認知缺陷,例如難以識別不熟悉種族的面孔。但這種不完美也反映了大腦對信息處理的一種經濟學平衡,如視覺系統對不完整圖像的自動補全。

回顧了衆多相關領域的有趣研究後,我們可以發現當前的研究關注最多的是感官是視覺,最多的是生物是人。然而,我們的感官並非所有生物中的最佳的那個。我們的視覺並非如鳥類那樣,具有四周色感細胞,能看到更多彩的世界,聽覺更也不如能夠超聲定位的蝙蝠。基於腦(尤其是感官)啓發的AI算法,未來可以不必只聚焦於人身上,而應該更多地探索其他生物的感官系統。

當前的AI架構,無論是在反向傳播還是神經網絡設計方面,都和大腦真實的運行機制有相當大的差距。大腦中的單個神經元並非簡單的對輸入加權求和,而是具有亞細胞層面的可塑能力。這使得AI借鑑大腦時,要切記勿要刻舟求劍,而是要搞清楚生物體在具體任務上面臨的進化約束,如此方能避免邯鄲學步。

站在百年的門檻回望,我們仍然不清楚人造大腦能否實現,但毫無疑問,我們已在人工智能中復現大腦的某些關鍵特徵,包括其優勢和缺陷。而這也指引着AI領域的迅猛發展,還更進一步幫助我們理解大腦。儘管模擬大腦的終極目標可能仍然遙不可及,我們對大腦的模仿和理解,正逐步引領人工智能超越現有的人類智能邊界,爲我們帶來前所未有的創新和突破。

參考文獻: