ImageNet的故事:李飛飛自傳《我所見的世界》中文節選
中文:城主
前言
李飛飛教授的自傳《The Worlds I See 我所見的世界》英文版11月出版了, 目前還沒看到中文版。
此前對李飛飛教授瞭解並不多,除了知道她是大名鼎鼎的ImageNet發起人,以及斯坦福SAIL人工智能實驗室第一位女性主任。這次讀了教授的自傳,實話說,超出預期。
沒想到一位大科學家的文筆如此之好,教授以女性特有的細膩筆觸,將自己事業和生活上的故事娓娓道來,行文之間流露着大學者的淡然,同時又把真實的工作生活經歷講得引人入勝。在閱讀過程中,城主不止一次感覺到教授的行文敘事有一種強烈的電影蒙太奇感,工作和生活的線索交織前行,節奏非常好。
更不用多強調的是,這是一位AI大佬親身講述的自身科研經歷和生活思考,不說文學性,其信息本身就有巨大的價值。
整部自傳一共十二章,這裡和大家分享一下本城自行翻譯整理的三章,講述了李飛飛踏入研究生直至助理教授階段,克服種種困難完成ImageNet壯舉的那段經歷,非常打動人,推薦,脫帽致敬。
最後也是最重要的,聽說這本書中文版快要出版了,喜歡的朋友請一定購買正版紙質書支持。
分享的三章是:
第五章:第一道光
第六章:北極星
第七章:一個假設
第五章:第一道光
想象一種存在,它缺乏的感覺如此之多,以至於甚至不能被描述爲“黑暗”,因爲與之相對應的光的概念尚未被構思出來。想象一個世界,在這個世界裡,沒有視覺,沒有聽覺,沒有觸覺,使得活着的概念不過是一種代謝上的區別。想象一個生物體連最基本的自我意識都缺乏,除了一些機械無情的本能去覓食和繁殖,更不用說更復雜的概念,如身份、社羣或更廣闊的現實。現在想象所有這些發生在全球範圍內——一個充滿生物的星球,但尚未意識到自己的存在。
這就是5億4300萬年前覆蓋地球大部分地區的原始海洋中生命的本質。按照今天的標準,每一個清醒的時刻都沐浴在感官之中,激發智慧,這些生物如此原始,以至於幾乎接近抽象,它們的生活可能被蘇格拉底描述爲完全未經審視。這是一個真正未被看見的世界,以深水和淺薄的本能爲特徵。
當然,我們這些遙遠祖先的簡單性質,鑑於他們所處時代的環境,是自然而然的。他們居住在一個稀疏的水生空間中,即使是對食物的競爭也是一種被動的事務。在三葉蟲出現之前的生物,幾乎只能依靠偶然來偶遇它們的獵物,而獵物採取同樣漫無目的的措施來避開它們的捕食者——盲目的運氣——只有當下一頓飯如此接近以至於吃掉它幾乎是不由自主的。然而,這種感官剝奪的影響是深遠的。沒有東西可以看,聽,或觸摸,反過來,這些早期生命形式也就沒有什麼可以思考的。由於與我們在日常生活中認爲理所當然的外部現實沒有聯繫,它們被如此徹底地剝奪了刺激,以至於它們根本沒有大腦。畢竟,大腦不過是一種有機信息處理系統——在一個缺乏感官輸入的生物體中,因而無法收集關於那個世界的信息,這幾乎是不必要的。
真正想象這樣一個生物的內在生活幾乎是不可能的,但嘗試這樣做可以有所啓發。這提醒我們,我們從未知曉過沒有某種感官連接到外部世界的存在,即使是在子宮中,我們也不能簡單地從這種意識中退後來思考另一種可能性。畢竟,思想不就是對刺激的反應,無論是直接的還是間接的嗎?即使是我們最抽象的思考——即使是像心算這樣短暫的事情——不也是建立在通過多年體驗在物理空間中導航所獲得的推理基礎上的嗎?不管我們的思想有多複雜,其中的大部分都可以最終追溯到來自它們邊界之外的某種干擾。
然後,在一個如此短暫而又如此變革性的時期,以至於進化生物學家至今仍對其感到困惑,世界顛倒了。生命的複雜性爆炸性增長——據估計,進化速度加快到所有後續時代的四倍——激發了前所未有的競爭氛圍。這是一場持續的爭奪統治權的戰鬥,每一代新生命都在生存挑戰加劇的壓力下被迫進行微小的適應。在日益敵對的世界中,身體變得堅硬,以脆弱的防禦性外骨骼加固軟組織,並發展出攻擊性特徵,如牙齒、下顎和爪子。
現在被稱爲寒武紀大爆發的這一事件,是進化秩序的猛烈洗牌。儘管它構成了地球生命史上一個關鍵的篇章——也許是最重要的篇章——但其確切原因尚未確定。有些人認爲它是由氣候的突然變化觸發的,而其他人則推測是海洋酸度的歷史性轉變。然而,動物學家安德魯·帕克(Andrew Parker)看到了不同的東西,儘管許多生物學家對他的假設持懷疑態度,但它深刻影響了我對人工智能的思考。根據帕克的說法,引發寒武紀大爆發的導火索不是外來力量,而是內在力量,他認爲是單一能力的出現:光敏感性,或現代眼睛的基礎。
這種新興感官的核心是一類蛋白質,稱爲“視蛋白”,它們展現出獨特的特性,例如在吸收光子時改變形狀——本質上是對光照的物理反應——並以“離子通道”的形式連接在一起,將該反應轉化爲生物電信號,可以在身體其他部位傳輸。
與今天眼睛的驚人複雜性相比,這些早期的發展雖然簡單,但它們提供了一個進化的立足點,激發了快速的上升。下一步是在光敏感區域周圍形成一個淺凹槽,使得不僅能夠辨別附近光源的亮度,還能辨別其方向。進一步的進化迭代使這個凹槽的深度和狹窄度增加,最終形成了一個類似針孔相機的孔徑。
最早在公元前400年左右的中國哲學家墨子的著作中描述,後來亞里士多德也獨立觀察到的針孔相機,是對暗箱效應的簡單利用,這是一種自然現象,在這種現象中,通過一個小孔過濾的光在室內投射出外部世界的清晰圖像。孔徑顯著增加了光敏感性,將視覺體驗從簡單的光感知擴展到整個場景的吸收。
最後,隨着透鏡的出現,現代視覺的基礎就完成了,透鏡增加了進入眼睛的光線的數量和清晰度。透鏡究竟是如何形成的仍然是一個有爭議的話題。
關於透鏡的起源有許多猜測,其中許多假設都集中在這樣一個觀點上:它是從一個原本與視覺無關的純粹保護性結構演化而來的。不過,無論其確切起源如何,透鏡在進化記錄中一次又一次地出現,獨立地在所有生物門類中發展。它很快就形成了一個精緻透明的表面,在世代間靈活適應,探索了極其廣泛的光學特性,從而迅速加速了眼睛的進化。
感光性是地球生命史上的一個轉折點。通過簡單地讓光線進入——無論多麼微弱或無形——我們的進化祖先首次認識到,存在着超越自身之外的東西。更緊迫的是,他們看到自己正處於一場生存鬥爭中,而且可能有不止一種結果。他們開始覺醒於一個充滿威脅和機遇的惡劣環境中,資源競爭日益激烈,他們自己的行動意味着吃或被吃之間的差別。
光的感知是進化軍備競賽中的第一槍,即使是最微小的優勢——一點點深度的提升或幾乎察覺不到的視敏度增加——都能將幸運的擁有者及其後代推向永恆尋找食物、庇護所和合適伴侶的競爭前列。這些微小的競爭優勢是進化壓力的遊樂場,通過變異後變異不斷迭代,過程中對生態系統產生了近乎即時的影響。
當然,這些變化中的大多數沒有任何作用,有些甚至是有害的。但那些即使是微小優勢的變化,可以成爲破壞性變化的引擎,顛覆自然秩序,在一陣動盪中定下新的基線,更大的能力將很快在此基礎上建立起來。隨着世代的流逝,這一過程加快了,在只有大約一千萬年的時間裡——帕克諷刺地稱之爲進化的“一眨眼”——地球上的生命煥然一新。
在這種競爭動態中起到調節作用的是感官意識與行動能力之間的關係。即使是最早期的視覺形式也傳達了關於生物周圍環境的信息,這些信息不僅指導了它的行爲,而且以前所未有的緊迫性驅動了它。越來越多,飢餓的捕食者被賦予了定位食物的能力,而不僅僅是等待食物的到來,甚至採取主動步驟去追逐它。反過來,潛在的獵物利用自己初步的意識進行迴避動作。
很快,這些生物創新的火花綻放成一場集體舞蹈,隨着生命分類的擴展,權力的平衡在新紀元的戰鬥中來回搖擺。今天,化石記錄清楚地展示了這一狂熱時期自然選擇的成果;證據表明,僅三葉蟲的進化就在寒武紀末期達到頂峰,數以萬計的物種遍佈十個目。
進一步複雜化這一畫面的是觸覺的同時出現,它很快與不斷髮展的視覺感覺形成了互補的平衡。與早期的光敏感性一樣,原始神經末梢在生物體表面掃過,也傳遞了觸覺信號。
這些神經細胞增長並相互連接,形成了所謂的“神經網”,這是中央神經系統的分散前身,最終將特徵更高級生命形式。神經網簡單但強大,是生物電系統,將運動和感官功能融合爲一個適合基本任務的單一反應設計,如響應物理攻擊和尋找食物。儘管原始,但神經網是一種進化上便捷的方式,以跟上競爭日益激烈的世界,甚至在今天,特別是在某些水生生物如某些水母中仍然可以找到。
但僅僅連接眼睛、神經末梢和肢體是不夠的,特別是當這些眼睛進化出更廣泛、更細膩的世界觀,而這些肢體發展出新的自由度和更深層次的表達能力時。在複雜環境中的有效行動需要的不僅僅是反射,這又提出了另一個適應挑戰,促進了在生物看到和感覺到的東西與它如何反應之間的日益複雜的中間步驟的發展。
隨着感官提供的信息深度和數量的增長,生物處理這些信息的工具也受到了增長的壓力——類似於今天對越來越複雜的計算設備的需求,以管理現代世界中發現的數據過剩。結果是一箇中央處理樞紐,用於處理日益增長的神經系統的複雜進出,其組件被壓縮得越來越密集,形成了我們現在稱爲大腦的器官。
因此,大腦不是來自內在某種神秘智慧火花的產物,而是對外部世界越來越清晰、越來越混亂的圖像的反應,通過感官向內部延伸。感知我們周圍的環境鼓勵我們發展一種整合、分析並最終理解那種感知的機制。而視覺無疑是其最生動的組成部分。
這場戲劇在這些新覺醒的生物中的第一批走上旱地時達到了更高的高度,它們從波濤中出現,發現了一個陌生的景觀,在這裡,移動的基本原理是不熟悉的,需要一個全新的範式。例如,移動不再是毫不費力和全方位的,而是受限於平面表面,並受到重力和摩擦等物理力的干擾。
另一方面,視野的範圍被極大地擴展了,因爲海洋表面上方未受阻礙的大氣允許了比深海的幽閉黑暗更廣闊的視野。世界不再是一個模糊的液體球體,而是一個開闊的視野,從海岸線的邊緣到山峰的頂峰,甚至更遠的地方,都洋溢着明亮和清晰。地平線已經從幾英寸增長到數英里,這些早期陸地居民的思想被挑戰着相應地擴展。這對規劃的概念產生了特別深遠的影響,因爲行動現在可以在更廣闊的範圍內展開,同時還要處理更多的不確定性。隨着視野的範圍和深度的擴展,思維不得不適應,發展出更強的智力能力,逐漸融入了因果關係的意識、時間的流逝,甚至是操縱環境本身的效應。這不僅爲強大的捕食者和敏捷的獵物鋪平了道路,也爲真正的智慧——以及我們今天所知的人類的基礎——奠定了基石。
數億年後的今天,我們不禁對這一進化轉折點所產生的世界印象深刻。數千年的文明見證了我們的物種從靈長類動物發展到遊牧部落,再到農業社區,工業化城市,最終成爲技術、信息處理的超級大國。
即使到現在,這一驚人的進程仍然與我們對世界的感官連接密不可分。儘管在很大程度上得到了技術的幫助,從我們口袋裡的移動設備到地球軌道上的衛星,我們仍然依賴於與日常現實的連接來導航我們的生活。
恰當的是,始於化石記錄的東西已經影響到我們自己的文化記錄。藝術史見證了視覺的首要性——以及我們在幾個世紀的過程中對其細微差別日益增長的欣賞,從預示着新交流形式黎明的洞穴壁畫,到文藝復興期間創意的爆發,再到今天的攝影、電影、電視,甚至是視頻遊戲。
我們可以在卡拉瓦喬的強烈對比和弗美爾與佐恩的柔和陰影之間,看到視覺理解的齒輪轉動。我們可以超越現實主義,用梵高的圖標學和卡洛的風格化肖像畫提煉日常生活。我們甚至可以在像奧基夫和抽象表現主義者母威爾和羅斯科這樣的現代主義者相對晦澀的陳述中感受到它的存在。無論是現實主義還是概念主義,感傷或政治,藝術利用那數億年來艱難進化的成果,停留在通過個體的眼睛——因此,是個體的感性——解讀世界的純粹喜悅上。
“所以,飛飛!成爲大學畢業生的感覺怎麼樣?嗯,差不多了。”
珍已經清理了我們的晚餐盤子,並切開了她放在櫃檯上冷卻的一盤布朗尼。這個甜點在我近四年前第一次訪問薩貝拉家時成了一個儀式;那是我第一次難忘的接觸到美國甜點,我嚐了一口後臉上的表情讓珍非常高興,她堅持每次我回來都要提供布朗尼。事實上它是一個簡單的商店買的混合物並不重要。就我而言,她的布朗尼是奢侈的頂峰。
“非常令人興奮。但我沒想到接下來要做的選擇會這麼難。”
“你有沒有再考慮我們談過的那些選項?研究生院?工作?或許先旅行一下?”薩貝拉先生問道。
“給她一點時間,鮑勃!”珍一邊笑着一邊端上我們的甜點。
“不,不,沒關係。實際上,這是我一直在思考的。”
那是1999年,我在普林斯頓的時光即將結束。我再次面臨着科學抱負和生活現實之間的選擇,隨着研究生院的誘惑與開始職業生涯的壓力相沖突。而且隨着互聯網熱潮的全面興起,這確實是一個真正的難題:金融界急於招募任何具有數字頭腦和來自正確學校的高級學位的人,甚至像我這樣的物理書呆子也成了華爾街各家公司輪番招募的對象。我被高盛、美林和其他可以想象其名字刻在莊嚴大理石板上的公司所追求。他們提供了一切:福利、領導機會、令人瞠目結舌的起薪,當然還有真正的健康保險。他們承諾解除我們的債務,結束乾洗的辛勞,並在我母親健康狀況惡化的情況下爲我的家庭提供安全保障。作爲回報,他們要求的只是我放棄科學。
在反覆思考了將近一個星期後,我終於在乾洗店的一個安靜時刻向母親提起了這個話題。我們處於通常的位置:她坐在縫紉機前,幾根別針夾在嘴脣間,一隻眼睛專注地審視着她的工作,而我就在她旁邊,扮演着裁縫助手的角色,拆開她正準備加長的一條褲子的縫線。
“媽媽,我在考慮我的選擇。我接受了這些……‘公司’的面試,我想你叫他們這個?大華爾街的類型。我必須承認,他們很誘人。”
“大……華爾街的類型?”
我意識到我已經超出了她對美國文化行話的熟悉範圍。
“你知道的,股票和交易。投資。那種事情。顯然我有很多要學,但我認爲如果我真的下定決心,這是我能做的。”
“嗯,”她平淡地回答。“那是你想要的嗎?”
“嗯,我的意思是……光是薪水就會改變我們的生活,而且——”
“飛飛,那是你想要的嗎?”
“你知道我想要什麼,媽媽。我想成爲一名科學家。”
“那我們還在談什麼?”我的母親總有辦法迅速切斷我含糊其辭的話,快到我需要一秒鐘才能意識到。僅僅三步就將我困住。我要去讀研究生了。
普林斯頓的教授們常說,研究生學習不僅僅是另一個學術里程碑,而是一個轉折點,代表着從學生到像真正的科學家的第一次過渡,將激情轉化爲旅程,將親和力轉化爲身份,將教育錘鍊成職業、聲譽和生活的基礎。這是一個鼓舞人心的想法,它澄清了我面臨的問題,但也使問題變得更加令人困擾。我知道我想成爲一名科學家,但是什麼樣的科學家?確切的目的是什麼?我怎麼知道?
我在加州大學伯克利分校的經歷讓智能的神秘性變得生動起來,並向我展示了對視覺的更深入理解可能是解開它的關鍵。然而,從這個認識中延伸出兩條道路:一條是神經科學的,承諾對大腦能力的更深入洞察;另一條是計算機的,在這條道路上,工程學的基礎可以應用於建模,甚至可能複製那些能力。
我決定追求兩者。
神經科學和計算研究的結合,在當時的碩士項目中至少是不尋常的搭配。儘管需要一些腳本工作來追蹤它們,但還是有少數機構可以容納它。事實上,幸運的是,世界上排名最高的兩所學校正好提供了我所尋找的項目。
第一個是斯坦福的雙軌項目,將神經科學與電氣工程相結合,由在這兩個領域都有豐富經驗的罕見學者大衛·希格教授領導。希格的課程每一個細節似乎都爲我量身定做,只有一個不便的例外:他已經完成了在學校的最後一年,沒有他,項目將不會繼續。將斯坦福從列表中劃掉,我轉向了麻省理工學院的另一個項目,這個項目與我的興趣更加吻合。它是托馬索·波吉奧博士的心血之作,他是一個相對晦澀的領域“計算機視覺”第一代研究者之一。即使在那時,波吉奧的工作對我來說也是令人印象深刻的,而且隨着我意識到它的前瞻性,我的欽佩之情只增不減。他直接從大腦的架構中汲取靈感,構建了一系列被稱爲“連接主義模型”的算法——與神經網絡類似的密集交織信息處理系統——來識別圖像的內容。
然而,我還有另一個選擇需要考慮:加州理工學院,更常被稱爲Caltech。儘管這所學校有着自己的悠久歷史和與NASA的輝煌聯繫,通過其世界著名的噴氣推進實驗室,但不可否認的是,在排名方面它是弱者。斯坦福和麻省理工學院是世界上最負盛名的學術機構之一,很難想象拒絕它們中的任何一個——更不用說兩個——的錄取通知。但是,當談到與我的英雄們的聯繫時,Caltech的表現遠遠超出了它的重量級,費曼、米利肯,甚至愛因斯坦本人都曾在那裡講課多年。至少,我無法抗拒去參觀的機會。
從我踏上帕薩迪納的那一刻起,很明顯Caltech在氣候方面佔有優勢。這是我第一次去南加州,那裡的天氣名副其實的陽光明媚,乾燥的熱氣感覺像是從新澤西的潮溼中立即找到了避難所。我也被它的上鏡魅力所打動,從四面八方盛開的花朵到慵懶曬太陽的烏龜池塘。麻省理工學院和斯坦福在學術上無可挑剔,但這個地方感覺像天堂。
儘管校園很小——甚至比本身就被認爲很小的普林斯頓還要小——但我被Caltech的活力所淹沒。五彩繽紛、通風的西班牙殖民地建築在我在母校那些類似大教堂的沉重建築中度過多年之後,感覺像是另一個世界。而與物理相關的觀光機會無窮無盡。我立刻發現了愛因斯坦騎自行車被著名拍照的地點,隨意地經過了米利肯圖書館,偶然發現了費曼傳奇講座的會場。
我在Caltech的參觀中看到和感受到的一切都表明這是我應該去的地方。雖然這聽起來可能微不足道,但我不能假裝逃離東北雪暴多年的顫抖不是一個賣點。但是,當我遇到我將要向他們學習的人時,作爲在那裡學習的傾向變成了確定。
我的第一個未來導師是皮特羅·佩羅納,他散發着意大利魅力,對跨學科研究沒有界限感;他位於電氣工程系,但熱愛認知科學,並與我分享將兩者融合的願望。即使是在交談中,他的興趣也讓我覺得從我們第一次互動起就異常全面。
“出於好奇,飛飛,你覺得牆上的那幅畫作怎麼樣?”
皮特羅指向一個裝裱着大膽原色的海報,上面被不規則間隔的正交線分成方塊和矩形。我在普林斯頓上了幾堂藝術課,很興奮地認出它是蒙德里安的作品。
“我一直喜歡他的作品,”皮特羅繼續說。“幾何圖形的簡潔總是讓我停下來思考。”
“具體思考什麼?”我問。
“是否有一些規則在指導它。或者至少有能力解釋它。”
“規則?你是說……像是算法?”他微笑着,然後繼續說:“你不好奇嗎?如果你測量蒙德里安的每一幅畫作的比例,可能會發現某種模式出現,那不是很有趣嗎?”
我回以微笑。我說不準他有多認真——我幾乎可以肯定他是在和我開玩笑——但我喜歡他甚至花時間去構思這樣的想法。聰明、愛冒險,又有點傻氣,三者兼具。我覺得我這輩子都在等待遇見這樣的思考者。
第二個人是計算神經科學家克里斯托夫·科赫。就像我和皮特羅一樣,我在第一天就看到了克里斯托夫身上每個優秀科學家的標誌:無限的想象力,以及面對這種想象力自然尋求的挑戰時的無畏。他在生物物理學方面成就卓越,但他不斷自我革新的記錄給我留下了深刻印象。像佩羅納一樣,他渴望模糊學科之間的界限,並鼓勵我也這樣做。他來自物理學背景,這是我們共同的經歷,也是波焦的前學生。但我在第一次會面中瞭解到,一種深刻的哲學熱情已經纏繞在他的思維周圍,並主導了我們的第一次對話。
“飛飛,你有沒有想過如何向一個色盲患者解釋顏色?你會如何用言語描述看到紅色的體驗?”
嗯……我還沒有。
“我們對顏色的熟悉似乎並沒有轉化爲描述它的能力,這不是很奇怪嗎?我們真的只能提及它;當我說‘藍色’或‘紅色’時,你可能知道我的意思,但那只是因爲你自己已經見過這些顏色。我的話只是在喚起你的記憶;它們並沒有傳達新的信息。”
這確實很發人深省。
“所以,當你想象某個未來的一代人完全理解視覺是如何工作的,你認爲他們的掌握會包括能夠,比如說,從基本原理描述紅色的質感嗎?”我思考了一會兒纔回答。
“嗯……嗯,如果你真的指的是‘完全’理解的話,那不是必須的嗎?”
“這是一個完全合理的回答。但它預設了可以在還原主義的解釋中找到這種體驗的解釋。如果,不知怎的,沒有呢?那又該怎麼辦?我們該如何處理這種矛盾?視覺可能是一個複雜的現象——也許是最複雜的之一——但它仍然是一個物理過程:物質按照物理定律行爲。然而,主觀上,我們的體驗不是感覺非物質的嗎?爲什麼看到紅色會有任何主觀的感覺?”
這些問題我以前都沒有考慮過,他對它們的固執告訴了我一切我需要知道的關於他挑戰我的能力。
他們倆是一對有趣的搭檔。他們都很高,看起來年齡相仿——我估計他們都在四十多歲——但體型對比鮮明,皮特羅更結實一些,克里斯托夫相當瘦長。兩人都有濃重的口音——分別是意大利和德國口音——但他們說話時的幽默感和隨和的自信緩和了他們的強度。儘管皮特羅看起來像學者,穿着塞進褲子的鈕釦襯衫和米色的多克斯褲,克里斯托夫卻以一身極具衝擊力的華麗服飾爲傲,從鮮豔的熒光襯衫到染成漫畫書顏色的頭髮,如綠色和紫色。
然而,他們共有的——而且是以驚人的程度——是一種只能用歡快來形容的好奇心,他們所說的一切都充滿了感染力的活力。他們毫不猶豫,甚至沒有一絲自我意識地提出關於複雜主題的深入問題,彷彿生命中最深刻的奧秘不過是一次對話之遙。特別是克里斯托夫,他經常被自己的思想所吸引,以至於他更喜歡在獨白中探索它們,而不是和我交談,即使是一對一的對話。但他的全神貫注來自於一種天真,而不是疏遠,就像一個孩子無法自拔地被白日夢分心。這讓我想起了我父親的心不在焉,我覺得這很迷人。
在經歷了多年的自我懷疑,努力學習第二語言,並因此變得有些戒備之後,我會被這樣強烈的個性所吸引,這真是奇怪。但正如我和薩貝拉先生髮現的那樣,對科學的共同熱愛可以讓我感覺自己是任何人的同行,即使只是在一次友好的聊天中。當我發現自己與像皮特羅和克里斯托夫這樣的人對話時,我所知道的世界幾乎變得寂靜無聲,彷彿我們的想法本身就在交談,不受我們的語言、地位或年齡的阻礙。他們是一種新型的榜樣:不僅成功移民,而且作爲科學家取得了成功。
我訪問加州理工學院是我一生中最難忘的下午之一。他們是智力巨人,能夠簡單地與他們交談幾個小時就是一種榮幸,更不用說考慮成爲他們的學生的機會了。在我的返程航班起飛之前,我的決定就已經做出了。
鑑於其演變的範圍和複雜性,人類視覺能力已經挑戰了幾十年的自動化嘗試。但如果這一切改變了呢?如果我們能夠與我們的機器分享類似人類的世界意識,擁有它們的自動化速度和不知疲倦的精確性呢?想象一下,無人機甚至衛星飛越森林、冰川和海岸線,對環境健康進行全球範圍內的專家評估。想象一下,智能非人類助手幫助視力受損者應對任何複雜的環境,就像人類助手一樣。想象一下,通過機器人第一響應者使搜救更安全,它們將急救醫療技術人員或消防員的判斷與機器的耐力和韌性相結合,或者自動化醫療診斷將專家的洞察力通過移動設備帶給全世界的患者。
數字世界中也充滿了機會。經過一百多年的視覺媒體發展,包括攝影、電影、新聞和電視,圖像消費已成爲現代生活的一個固定部分。但與文本和數字數據不同,後者自計算機問世之初就可以被搜索,即使是對圖像進行粗略的搜索也仍然是一項手動工作,需要耗費人力的時間——往往還有工資。視覺智能機器如何幫助我們理解早已超出手動整理希望的集體數據負擔?這樣的可能性自該領域最早期以來就一直吸引着人工智能研究者。然而他們很快意識到的是——而且每一代人都只是確認了這一點——視覺理解是一個驚人複雜性的挑戰,從數據本身開始。因爲數字圖像以像素的形式存儲——即以數字編碼的單個顏色點——在機器看來,它不過是一個長長的整數列表。要像人類那樣看到圖像,以人、地點和事物等有意義的概念,算法必須篩選這個列表並識別出某種相對應的數字模式。
不幸的是,即使是爲簡單的概念如直線或幾何形狀定義這些模式也是困難的。對於像人臉這樣有機和多變的東西——在其所有顏色和比例中,以及在無限範圍的角度、光照條件和背景下——要做到這一點就更加複雜了。
而且這個難題從那裡只會變得更深。例如,究竟在哪裡劃定界限,將被動的看的行爲與更深層次的理解的行爲區分開來?純粹的感知體驗——由邊緣和紋理賦予形態的色塊——多久會被我們賦予這些形狀意義的能力所理解,甚至在我們有時間意識到我們所看到的東西之前?很快就變得明確,兩者是無法分離的;看就是理解,使得這個挑戰既是智力上的,也是感官上的。因此,視覺不僅僅是我們智力的一種應用。實際上,它與我們的智力同義。
這就是視覺的魔力。它是一種如此精細調校的技能,儘管我們通過僅僅落在我們眼睛表面的光來看世界,但我們從這光中得到的東西擴展到填滿我們整個體驗的全部。這種從感官輸入到健全、可行知識的幾乎是奇蹟般的轉換,是我們大腦最令人印象深刻的能力之一。僅這項任務的計算成本就遠遠超出了即使是倉庫大小的超級計算機所能承擔的,所有這些都是由一個溼潤的、有機的、直徑大約五英寸的肉塊提供的。而它的概念深度繼續讓學術界的傑出人物感到謙卑。
視覺之謎遠不止於理解我們如何看世界。它不僅僅是關於顏色或形狀的問題,也不僅僅是在越來越大的規模上進行數字運算的問題。它是對我們認知核心的現象的調查,我們是誰以及我們是什麼,從生物學上、人際關係上和文化上涌現出來。它是通往我們體驗最基礎層面的旅程。很多時候,看就是知道。因此,理解我們如何看,就是理解我們自己。
我的研究生生涯始於購買一本特別大的教科書。它在我入學前一年出版,使得其內容幾乎和它的裝訂一樣新鮮。它又重又尖銳,第一次打開時清晰地發出了裂開的聲音。每次看到它的封面,我都很興奮,它將我學術旅程的每一線索編織成一個單一的實物。
它的標題是《視覺科學》,這兩個詞似乎是專門挑選來描述我自從加州大學伯克利分校的實驗以來一直試圖追隨的道路。稍低一些的地方,用斜體字,它的副標題進一步預見了我的好奇心:從光子到現象學。在這兩者之上,梵高的《星夜》的全幅插圖幾乎佔據了其表面的三分之二。這是一部密集而全面的作品,註定要成爲未來幾十年的標準。我想學習它所能教給我的一切。
自那個在黑暗實驗室中改變生活的時刻以來已經過去了兩年——那些噼裡啪啦和呼嘯的聲音讓我首次瞥見了除了我自己之外的其他心靈的內在運作。兩年的追求才剛剛開始。我對工程學的藝術感到好奇和挑戰,但我不想成爲一名工程師。儘管我被神經科學的奧秘所吸引,但我不想成爲一名神經科學家。我想在不受這兩者限制的同時借鑑它們。
我的時機再好不過了,即使這不過是偶然。我還不知道,但視覺研究是人工智能本身的一個分支——在流亡中的衆多社區之一,分裂並被迫離開曾經團結他們的旗幟,現在已經進入另一個低迷期的十年。像神經網絡和專家系統這樣曾經令人興奮的前景的消退帶來了另一輪的疏遠,隨着初創公司關閉大門和學術興趣的消退。這是另一個人工智能的寒冬,我正處於其中。但解凍正在迅速到來。
第六章 北極星
帕薩迪納的黎明微光正悄然爬升至地平線,投射出一幅我已經開始辨認爲獨特加州風格的溫暖色彩調。它呼喚着人們走出戶外,忽視一天的義務,這是多麼誘人,但沒有任何天空的藍色足以與發現的承諾競爭。今天是我準備了數月的新實驗的第一天,它在地下等待着我。
我們的工作將在科赫實驗室的心理物理學部分進行,這是一個隱藏在加州理工學院日曬草坪和自行車道下方的陰暗地下世界。這裡沒有自然光線,通常也被剝奪了人造光線,是一個近乎完美的隔離之地:三個相同的隔間,由遮光簾分隔,每個足夠大以隔絕單個坐着的佔用者的感官。
一旦進入,我們的受試者將一隻手放在鼠標上,另一隻手放在鍵盤上,凝視着黑暗。經過一段短暫的平靜後,顯示器會亮起,顯示一系列如此無序的圖像,它們似乎是由達達主義者策劃的:字母排列得像字母湯;隨機、不連貫場景的照片;突然的彩色噪聲閃光,所有這些都精確到毫秒,並精確地引發點擊和按鍵的反應。然後,在幾秒鐘內,黑暗會再次迴歸。另一個靜止的時刻將在空氣中懸掛,然後序列會重複。一次又一次,再一次。儘管這看起來必須是混亂的,但沒有一個細節是隨意的。這一切都是爲了嘗試讀懂一個心靈——或至少推斷出它的某些片段。受試者幾秒鐘的狂亂手指、淺呼吸和瞳孔擴張,在數據叢中被捕捉,可能需要數天、數週甚至數月的時間才能完全理清。感官的秘密深藏不露;即使是瞬間將它們引入光明,也可能是一件奇怪的事情。
進化在一個光敏蛋白上持續了五億年,不懈地推動着它隨着時間的推移而綻放成一個如此精緻的裝置,幾乎難以理解。現在,在加州理工學院,那勞動的成果將成爲我們的老師——整個視覺皮層,從眼睛的玻璃表面延伸到心靈的最深處。就我的導師而言,朝着機器智能的承諾邁出的一個基本第一步是更好地理解人類的智能。
我並不確切知道我希望從我的研究生年代中得到什麼,除了有機會沉浸在那個俘獲了我的心的領域。但我希望在這個過程中的某個地方,我能找到一個我可以像我的榜樣那樣熱情追隨的追求——那種驅使埃裡克·魏斯豪斯將對果蠅異常的迷戀轉化爲諾貝爾獎,或尼爾·德格拉斯·泰森將宇宙轉化爲數字詩歌的精神。我想要屬於我自己的北極星。但在我找到它之前,我滿足於圍繞這個問題繞圈子:視覺的難以言喻的體驗究竟是如何運作的——或者,用我教科書副標題中頑皮的話來說,光子是如何變成現象學的。
朝着這種理解邁出的早期步驟來自我的教科書《視覺科學》,介紹了普林斯頓心理學家安妮·特里斯曼。作爲實驗的神童和二十世紀認知科學的巨人,她結合了迷人的簡單工具和原始的創造力來探索人類的感知,這是在數十年前,遠在數字技術大幅加速她的研究之前。特里斯曼的“注意力特徵整合理論”成爲了理解視覺意識本質的幾乎普遍基礎。通過向受試者短暫展示一個抽象排列的閃光——比如,一個紅色圓圈混雜在一堆綠色和紅色方塊中——她能夠分離出他們在不同深度層次上理解圖像所需的時間。她發現,人們幾乎能夠瞬間識別出紅色的存在——僅僅知道顏色在圖像中的某處——但他們需要更長的時間來特別找到紅色圓圈,因爲它的身份是兩個不同特徵的結合:顏色和形狀,在同一地點重合。換句話說,整合紅色感知和圓形感知的能力不僅需要更長的時間,而且似乎包含了一個完全獨立的、更加密集的視覺處理階段。
特里斯曼的工作在其範圍上是宏大的,在其解釋上是密集的,但它是由這樣一個想法統一起來的,即人類視覺開始於識別小細節,然後建立它們之間的關係,直到它們揭示出一個完整的畫面。這是一個直觀的論點,它提出了一個度量工作中視覺的標準:由少數特徵定義的簡單對象可以被迅速識別——例如,灰色人行道上的橙色球——而更復雜的場景,如蜿蜒的森林小徑或朋友面部的細節,需要更多的時間。
這是一個範例,我看到它在計算機視覺研究中重複出現,研究人員編寫和完善了能夠識別照片和其他圖像中的基本細節的算法——銳利的邊緣、光線和顏色的變化、紋理或圖案的片段——然後構建更高級別的算法來識別它們之間的聯繫,並將它們與更有意義的事物,如人和物體,聯繫起來。我對視覺所知甚少,但這幅圖很快就會變得更加複雜。
“我有一些東西要加到你的閱讀清單上,Fei-Fei,”皮特羅說,把一篇文章的副本扔在我面前的桌子上。
“這個?”我拿起它翻了翻,注意到它的長度不到大多數已發表論文的四分之一。皮特羅會心地笑了。
“相信我,你會想讀這個的。”
他不是在開玩笑。
這篇文章由神經科學家西蒙·索普提交到1996年《自然》雜誌的信件欄目,文章很短——只有三頁——但其發現的影響卻是驚人的。即使是它那平實無華的標題,“人類視覺系統的處理速度”,也低估了它對整個領域接受的正統觀念提出質疑的影響。這是科學中最偉大傳統的一個例子——通過更復雜的現實,打破那些直觀且熟悉的既定觀念。
索普使用腦電圖(EEG)測量了觀察電腦屏幕上圖像的人類受試者大腦表面的電信號。當一張照片在屏幕上僅閃現27毫秒——蜜蜂拍動翅膀幾次的時間——他的受試者就能以驚人的準確度識別出其內容。但他更深入地探究了他們大腦中識別的時刻:圖片出現後僅150毫秒,或者大致是眨眼的時間。這是有史以來對人類視覺處理速度調查最精確的一次,而且數字遠遠小於特里斯曼理論所預測的。
索普的受試者正在處理充滿細節、透視、微妙光線和意義的整張照片——而這一切都在特里斯曼的受試者識別基本顏色和形狀所需的時間內完成。每個讀過這篇文章的人心中都燃起了一個問題:怎麼做到的?我能理解爲什麼皮特羅如此急切地希望我也讀它,以及爲什麼在它發表三年多後,它仍然是他和克里斯托夫討論和辯論的持續話題。我立刻也分享了他們的迷戀。
對我來說,這項工作之所以更加超現實,是因爲它發表的時間離我到加州理工學院的時間只有幾年。我們很容易忘記現代人類視覺研究實際上是多麼年輕,即使在今天,它的最早出版物也只能追溯到幾十年前。與物理學相比,物理學有着橫跨幾個世紀的悠久歷史,由伽利略、牛頓到玻爾等傳奇人物填充,視覺學——現在仍然是——大體上是未知領域。計算機視覺的研究甚至更年輕。感覺就像是在我手中繪製地圖,它激發了我作爲研究生早期的日子。我忍不住在每週給薩貝拉先生的電話中滔滔不絕地談論它,這種通話從帕薩迪納繼續進行。
“我從未見過這樣的東西,”我說。“這個領域如此複雜,如此令人興奮,然而……它幾乎是全新的!大多數最重要的貢獻者仍然在我們說話的時候進行積極的研究!”
我與皮特羅和克里斯托夫共度的時光越多,我就越能欣賞到定義他們作爲學者職業生涯的冒險精神。儘管他們來自物理學和工程學,但他們對心理學、認知科學和神經科學等領域的熱愛卻表露無遺。他們像系裡的其他人一樣定期閱讀計算機科學期刊,但他們同樣專注地研讀《心理學評論》、《美國國家科學院院刊》以及特別有聲望的《自然》等出版物。
這種迷戀轉化爲強烈的觀點和推進知識前沿的渴望,這意味着要直面索普和特里斯曼發現之間的差異。有力的證據表明,至少視覺的某些方面——即識別現實世界場景的能力——幾乎是不費吹灰之力的。但是,是什麼讓它變得毫不費力?能以某種方式量化嗎?這對我們對大腦整體的理解有什麼影響?這些都是值得尋找答案的問題,而且,對於我的導師來說,試圖這樣做將是足夠的工作,可以讓他們特別堅持不懈的新研究生忙上一陣子。
如何閱讀一個心靈?在實驗室中,準確捕捉測試受試者的感知、期望甚至決策是司空見慣的。然而,設計一種實驗方法來做到這一點,需要結合工程學、心理學、人體工程學,甚至類似於戲法的東西。具有諷刺意味的是,雖然我們的實驗看起來與許多其他實驗室的實驗沒有什麼不同——測試受試者裝飾着電極,助手們處理着大量數據等等——但設計它們卻是一種藝術形式。
我們的目標非常模糊:確定測試受試者是否能準確識別僅顯示了一小部分秒的照片內容,但又不集中他們的注意力在上面。索普已經確定了這項任務的速度,但他沒有探索意識注意力所起的作用。有意識的專注是必需的嗎?或者我們識別的能力是持續和無意識的,無論我們是否注意到周圍的世界?我們懷疑是後者,但我們想證明它。
關於如何進行的想法來自於克里斯托夫實驗室的訪問博士後阿希姆·布勞恩。布勞恩正在研究一個類似的假設——我們的大腦在沒有我們意識到的情況下處理大量的視覺細節——使用他所稱的“雙重測試方法”,在這種方法中,他通過一箇中心任務吸引受試者的注意力,該任務需要有意識的專注,同時呈現一個只需要被動觀察的外圍任務,第一個任務所需的高度注意力確保第二個任務不會被有意識地處理。
這種方法的巧妙之處在於它揭示了受試者感官的焦點所在。因爲中心任務有一個需要努力產生的客觀反應,所以可以在多輪測試中高度確定用戶是否完全參與其中。儘管比較簡單,外圍任務也有一個正確的反應,使得可以可靠地測量受試者的次要意識。因爲兩個任務都是在大約兩百毫秒的時間內呈現的(只比眨眼的時間稍長一些),所以可以排除有意識地一個接一個地完成它們的可能性。我們的實驗利用了對受試者注意力的精確控制來提出一個簡單的問題:在觀看了一個隨機選擇的戶外風景照片——我們確信他們只是從側面看過——後,照片中是否包含了動物的描繪?他們的回答將深刻揭示注意力的本質及其與視覺感知的關係。
對受試者來說,實驗的節奏是令人屏息的快速,充滿了對圖像和圖案的閃電般的瞥見,需要幾乎即時的反應。但是,管理這項任務的工作卻相對緩慢得多。從一天到另一天,這更像是照看孩子而不是科學探究,因爲我們等待着被週末零用錢的承諾所吸引的昏昏欲睡的本科生從他們的隔間中出現。由於願意參與的受試者從來沒有像我們希望的那樣充足,我們不得不受制於他們的時間表。不止一次,我一天的主要責任就是在早上六點在實驗室入口處迎接一個陌生人。但我甚至喜歡這一點。以它自己的方式,這也是科學的一部分。
儘管我們的實驗很重要,但皮特羅和克里斯托夫也明確表示,一個好的科學家同樣需要跟上文獻。而且我越讀越意識到,索普並不是特里斯曼的第一個挑戰者。一條類似麪包屑的線索在我面前展現出來,隱藏在幾十年的文章中,暗示着對她的觀點越來越多的例外。
也許最明顯不一致的發現來自一位名叫歐文·比德曼的視覺研究者。他和他的同事安排了一個實驗,在這個實驗中,受試者被展示了快速瞥見的照片而不是抽象的形狀和顏色,然後被要求識別他們所看到的。儘管刺激的複雜性顯著增加,而且曝光時間極短,受試者的答案卻始終準確。在特里斯曼的受試者識別出一個單獨的A字母與一片多彩的B字母中的時間內,比德曼的受試者能夠從一張照片中吸收足夠的細節,以判斷它是一個購物廣場的停車場還是一個家庭廚房的圖片。
下一個難題來自一位名叫莫莉·波特的心理學家。使用一臺早期的計算機顯示器,她向受試者展示了文本段落,以大字體在屏幕中央一次閃現一個單詞。即使單詞以每秒十二個的速度出現——是普通大學生在正常條件下閱讀速度的兩倍——他們的理解能力也非常高。儘管特里斯曼的演示非常有說服力,表明視覺感知是從小細節層面逐步構建起來的,閱讀似乎代表了一個強大的例外。
考慮到所使用的相對原始的工具,這些研究更加令人印象深刻。由於缺乏直接觀察受試者認知的途徑,像特里斯曼、比德曼和波特這樣的思想家通過在嚴格控制的環境下巧妙使用行爲觀察,提取了幾十年的有趣線索。但這種方法有其侷限性;歸根結底,從外部只能推斷出關於大腦的有限信息。要從內部理解這些現象,需要新一代的技術。
這種技術最終以神經科學工具的形式到來,如腦電圖(EEG)和功能性磁共振成像(fMRI),爲研究人員提供了前所未有的臨牀精確度。索普的論文是最引人注目的之一,但遠非唯一。同樣重要的是麻省理工學院認知神經科學家南希·坎維舍及其學生的工作,他們使用fMRI分析識別了與處理必要的快速、準確的感知成就相關的多個大腦區域,這些成就是像索普和比德曼這樣的研究人員所揭示的。EEG測量的是大腦表面廣泛分佈的電脈衝,這些脈衝極其快速,而fMRI測量的是特定神經元羣體被激活時血液氧氣水平的變化。一個早期的突破是發現了“顳葉內側的腦回面區”,這是一個不超過一立方厘米大小的皮層區域,似乎是爲識別人臉量身定做的。接下來是附近的“海馬旁回地區”,它在識別熟悉的地點,如自己的廚房或經常旅行的道路方面發揮類似的作用。另一個發現是“外紋狀體區”,它通過對手臂、腿等的存在反應,幫助我們感知周圍人的身體方向。
這些結構,被稱爲視覺的“神經相關性”,有些特別之處:它們似乎是專門設計的。每一個都識別一個單一的事物類別,且僅限於那個事物——面孔、熟悉的地點、身體姿勢等——從而解釋了我們在特定識別任務中感知速度之快。我們的神經解剖學中有一個專門的特徵,不是從頭開始一點一點地解碼,而是幾乎立即就能識別它們。從我們的角度來看,這感覺是毫不費力的。
從生物學上講,努力在一個過程中的作用說明了很多。進化是極端節儉的,只對那些如此極端的環境壓力做出響應,以至於不適應就意味着滅絕。對於一項能力來說,要被精煉到如此程度——使得如此複雜的事情幾乎變得自動化——它必須具有根本的、甚至是獨一無二的重要性。因此,視覺不僅僅是我們所看到的細節問題。雖然像特里斯曼這樣的研究人員提出的,在嚴格控制的實驗室條件下,圖像可以被分解並以細粒度的術語進行檢查,但我們依賴於在混亂世界中生存的視覺處理的是事物——物體、人和地點。實際上,從處理的最早階段開始,我們就不是將周圍環境感知爲顏色和輪廓的集合,而是以類別的形式感知。
這些發現本身就令人興奮,但它們之間的聯繫感覺更加深刻,就像一個未被發現大陸的海岸線。每一個新的想法都指向着某些重大的——也許是歷史性的——東西,正等待着被發現。畢竟,它似乎對我們人類起了作用。我現在相信它也能對我們的機器起作用。
我想到了我的榜樣,從物理學的傳奇人物到我自己的教授們。多年來,我一直欽佩那些激勵他們成爲科學家的強大思想,以及這些思想對他們領域產生的激勵效應。
現在,只是我研究生教育的頭幾年,我相信我在自己的地平線上看到了一線曙光——雖然遙遠而模糊,但足夠明亮,照亮了我前進的道路。無論如何,我們都將使視覺世界對機器變得熟悉。超越了易於固執的生活標準,我培養了一種比我以往任何時候都更爲強烈的癡迷。
我找到了自己的北極星。
屏幕上出現了一架噴氣式飛機的圖像,算法開始了它的任務。這是一個連小孩都能應對的挑戰:在照片中任何地方找到一架飛機的存在。但在2003年,這仍然是一個問題,機器只有在吸收了大量的示例材料後才能回答。即便如此,它們成功的機率也是適中的。那個下午,Pietro和我正在測試一個我們希望可能改變這些機率的想法,也許是戲劇性的。我仔細觀察,渴望看到算法會做什麼。
屏幕上開始出現粉紅色的點,這是旨在突出照片中引起算法“注意”的細節的視覺輔助工具。當第一個點在停機坪旁的一片草地上出現時,我有點皺眉。算法看錯了地方。但這種趨勢很快就逆轉了,因爲接下來的兩個點出現在飛機的翼上。然後是機尾的另一個點。接着是駕駛艙附近的三個點。最後是最後一個點。起落架。我想,這算數,它技術上是飛機的一部分!
我興奮地呼了口氣。到目前爲止,一切都很好。接下來是真正困難的部分。由於每個突出的特徵只佔幾個像素,算法被設計爲將它們分組成代表它所要識別的對象的更大部分。換句話說,代表了一種模糊的視覺理解形式。每個部分都會被畫上彩色的圈——藍色和藍綠色代表機身的不同部分,紅色代表垂直穩定器,綠色代表兩者相遇的區域。果不其然,算法幾乎精確地將它們放在了它們所屬的位置。
飛機被識別了。
這是一個激動人心的時刻,但不是因爲它起作用了——而是因爲它是如何起作用的。我們沒有讓機器沉浸在數百張儘可能涵蓋顏色、風格、視角和照明條件等多種變化的飛機照片中,而是隻向它展示了一張。然而,我們確實向它展示了數百張完全無關的主題圖像——斑點叢林貓、摩托車、我們微笑的實驗室同事和Pietro的高級新數碼相機拍攝的人臉,以及我們從谷歌圖片下載的一些隨機選擇。我們的假設是,通過首先讓算法接觸到視覺世界的廣泛橫截面,它將更好地裝備自己學習一些特定的東西。所以雖然它接受了各種事物的訓練,但它剛剛識別的飛機只是它見過的第二架。永遠。
我們的創造只是一個概念證明,仍然有它的錯誤份額。但我們的目標是證明,像人類一樣,算法從看到更多的視覺世界中廣泛受益。北極星現在是我地平線上的一個固定物,我們已經朝着它的方向邁出了真正的一步。
我們稱這種技術爲“一次性學習”。這是一個與圖像識別現狀顯著不同的技術,但激發我們的能力是衆所周知的。作爲人類,我們天生就擅長在甚至只看一眼之後識別事物:一種新型的樂器、我們從未見過的動物、一位新當選的政治家的面孔。可以引用許多解釋這種能力的原因,但其中最簡單也是最有力的事實是,即使我們看到的是新事物,我們也在將一生的先前經驗應用於它。無論多麼新穎,我們所看到的幾乎所有東西都如此嚴重地依賴於過去的經驗——熟悉的細節,如輪廓、光影、紋理和圖案——以至於很難想象在真正的孤立中看到任何東西。
我們的技術將這一概念帶給了機器,而且似乎正在起作用。如果結果是一個驚喜,然而,我們的論文收到的反響卻是壓倒性的。它不僅被接受參加在法國尼斯舉行的國際計算機視覺會議(ICCV),而且還爲我們贏得了少數幾個口頭報告的位置。儘管這篇論文是與Pietro和名叫Rob Fergus的研究員合著的,但我是主要作者。這意味着旅行的榮譽和責任都是我的。
在ICCV上發言是一個難得的機會,特別是對於一個研究生來說,而我在這樣一個重要的聽衆面前幾乎沒有任何經驗的演講,這在我的腦海中壓力很大。更糟糕的是,Pietro不能和我一起去。他和他的妻子正在期待他們的第一個孩子的出生,他們的預產期正在臨近。這是我的第一個學術會議,也是我的第一個舞臺演講。而且我要獨自一人去。
如果沒有我面前的任務,我可能會在飛往尼斯的航班上感到緊張。我在加州理工學院的職責讓我處於不停忙碌的狀態,而三萬英尺高空的十三個安靜小時最終成爲我唯一的空閒窗口,以便整理我將要發表的演講。我在大部分旅程中都低着頭,儘快地寫下大綱並拼湊幻燈片。
然而,到達後,我深切地感受到了Pietro的缺席。通常情況下,導師會陪同學生參加他們的第一次會議,無論他們是否在發表演講,以示支持並幫助建立網絡。我開始意識到,我被留下來獨自在一個充滿數百名陌生人的活動大廳中應對。如果我要緊張,現在是時候了。"飛飛?"一個聲音在我身後叫道。我轉過身,看到一個陌生的面孔俯視着我。
"……是的?"我小心翼翼地回答。
"終於見到你真是太好了!我是吉滕德拉。"
"吉滕……哦!吉滕德拉……馬利克?你是——"
"我想你認識我是作爲皮特羅的前導師,是的,"他笑着說。"他讓我來陪陪你。你沒想到我們會讓你一個人做這件事,是吧?"
雖然我知道吉滕德拉的名字,當然也知道他的聲譽,但這是我們第一次面對面地見面。我傾向於用家族術語來思考學術關係,所以我認爲他——我的導師的導師——是我的"學術祖父"。他名副其實,既平靜又鼓舞人心。在我的演講之後,當我被一羣渴望瞭解更多的研究人員圍攻時,他成了我的救星。僅僅有他在我身邊,就把一個壓倒性的日子變成了可控的,這也開啓了我們之間持久的聯繫。
儘管在我的演講之後有一陣激烈的討論,但我意識到了一些微妙的事情——每個問我的問題都是關於算法本身的。你是如何設置貝葉斯方程來估計後驗概率的?你是如何估計圖像的先驗分佈的?你提到使用了一個最近提出的變分推斷算法來優化模型參數——你能多談談那個嗎?你計劃在未來的修訂中如何擴展它?在不同的情況下它可能會有怎樣的表現?
我們一次又一次地被問到我們選擇的機器學習算法的數學核心——一種稱爲"貝葉斯網絡"的概率技術——但沒有一個問題是關於我們訓練它的數據的。雖然這並不罕見——數據被不那麼微妙地視爲一種惰性商品,只在算法需要它的程度上才重要——但我開始意識到我們低估了一些重要的東西。我們算法的定義特徵——它能夠從一次接觸中學習新的物體類別的能力——在很大程度上依賴於數據。最終,是我們算法所見過的其他事物的多樣性,給了它一種感知經驗,並允許它在面對新事物時表現得如此出色。
事實上,我越想越覺得,爲什麼這個話題——數據的微妙但引人入勝的力量——沒有得到任何關注。畢竟,我們從絕對缺乏這種東西——僅僅是幾百幅圖像散佈在幾個隨機選擇的類別中——取得了相當驚人的結果。這引發了一個問題,每次我的思維回到它時都顯得更具挑釁性:如果這麼少的數據就能使如此強大的能力成爲可能,那麼更多的數據可能會使什麼成爲可能?
如果是大量的更多數據呢?
"快完成了……再等一秒……"又是在紅門咖啡館的午餐,又是浪費了幾分鐘完美的吃飯時間,因爲皮特羅正在把我們的盤子排列成他系列霍克尼拼貼畫中的下一個。
"好了!"
"嗯。很好看,"我說。我甚至不再假裝看了。
皮特羅對着他的作品微笑,顯然注意到了我的不耐煩,顯然也不在乎。我從他手中奪回我的托盤,開始吃飯。
"我一直在想我們的一次性學習論文,"他說,話題一轉。"我爲我們所取得的成就感到自豪,但我們都知道數據纔是真正的明星。"
我點點頭,還在咀嚼。
"那麼,如果我們創建一個全新的數據集呢?一個更大的。我認爲我們可以完全自己從頭開始做。"我繼續點頭。
"我的意思是,如果所有這些新數據——完全獨立地——是達到下一個水平的關鍵呢?"
這是一個大膽的想法,也足夠成爲一個長期的目標,以保持事情的有趣。
"那麼,讓我們從最明顯的問題開始:我們的這個新數據集應該包括多少個圖像類別?"
我放下叉子,沉思了一會兒。知道加州理工學院曾經組織的最大的收藏提供了七個相當隨機選擇的類別,四捨五入似乎是一個明智的起點。
"嗯……十個怎麼樣?"我提議。
皮特羅皺了皺眉頭。
"那會是一個進步,我想,但我懷疑我們是不是太漸進了。"
我喜歡他的建議精神,但我也不得不考慮現實。知道收集、標記和組織圖像的實際工作將落在我身上,我盡力平衡我們研究的需求和日常生活的實際考慮。
"好吧。嗯……那十五個怎麼樣?"
皮特羅狡猾地笑了。
"好吧。二十個!"
他沒有動。真的嗎?
皮特羅後來告訴我我接近了——他認爲大約三十個類別就足夠了。但注意到……隨着對話似乎退化成一場談判——而且是一場相當謹慎的談判——他感到有必要採取進攻態度。
“我們來做一百個,飛飛。”
皮埃特羅後來會這樣說,我看起來就像他判了我死刑一樣。
考慮到這無疑需要的工作量,我很可能會失去一些理智,更不用說在接下來的幾個月裡我可能渴望擁有的任何社交生活的影子(誠然,損失較小)。但他是對的,我無法否認一想到我們的模型在這樣的資源下會有怎樣的表現,我就感到興奮。
然而,爲了不讓他滿意,我盡力保持鎮定,接受這個想法。提高我的撲克臉將是一個長期的努力。
隨着對話中的邊緣政策逐漸淡出記憶,我開始對計劃有了不同的看法。是的,策劃一百個類別的圖像——每個類別都包含各種各樣的例子——將是我一生中嘗試過的最辛苦的工作,包括週末在乾洗店的工作。但這正是我想要的。我的北極星在地平線上閃爍,比以往任何時候都要亮。
“嗨,飛飛。”
“嗨,媽媽。爸爸怎麼樣?店裡怎麼樣?”
“有個顧客要求修改,但他一直在用一個我不熟悉的術語。我想那是一種合身的類型,但是……”
接着是一段奇怪的停頓。
“飛飛,我……”
她的呼吸變得更加困難。我能聽到她在電話那頭,但她似乎無法作出迴應。“媽媽?媽媽?你還好嗎?”
沒有一個好時機去了解你的母親患上了充血性心力衰竭。但在一個已經將你的堅韌推到極限的研究生項目中兩年後,這種感覺很難用言語表達。
事後看來,幾周來她感覺不舒服已經很明顯了。考慮到她幾乎獨自一人經營店鋪的巨大壓力,我以爲她只是需要休息,我邀請她來拜訪。但當她到達機場,呼吸困難,臉色比我見過的任何時候都蒼白時,我能告訴有更嚴重的事情發生了。
這無疑是一個緊急情況,但我父母缺乏健康保險讓我不確定該如何反應。我驚慌失措地打電話給我能想到的每個人,並被推薦到歐文的一傢俬人診所的一位講中文的醫生。那是將近兩小時的車程,但她是唯一願意以自費的方式接見我們的醫生,幸運的是費用也有所折扣。她的診斷很快:我母親的心臟健康狀況很糟糕。
薩貝拉先生仍然是我尋求安慰的首選來源。“你媽媽怎麼樣,飛飛?”他問。
“醫生說她會活下來。我們及時發現了。”
“謝天謝地。你自己怎麼樣?”
我嘆了口氣,所有的事情都涌了出來。我們最新的,也是最絕望的計劃。經營幹洗店七年後,我們別無選擇,只能賣掉它。當所有其他選擇似乎都超出我們的能力時,它一直是我們的生命線,但我的母親已經病得太重,即使有我父親的幫助也無法繼續下去。儘管生意是有盈利的,但我們仍然遠遠沒有達到能夠僱傭員工的利潤率。是時候繼續前進了。
更激烈的是我決定讓我的父母搬到國家的另一邊,和我一起在帕薩迪納,我們可以再次面對作爲一個家庭生存的挑戰。我的宿舍甚至比我們在帕西帕尼的地方還小,但目前這是我們唯一的選擇。
薩貝拉先生在電話那頭沉默了一會兒,他全都接受了。
“你會繼續你的學業,對吧?”他似乎感覺到了即使我還沒有完全面對的事情。
“我不知道。”
又是一段沉默,直到我用笑聲打破了它。
“你覺得我至少可以宣佈我的父母爲我的依賴人嗎?”
一個新的現實正在出現,如此複雜,以至於它動搖了我自從走進普林斯頓那個講堂成爲物理專業的那一天以來所做的每一個決定。一生的好奇心引領我進入一個以激烈競爭、低薪和沒有持久職業保障著稱的領域,而我的父母需要我無法提供的支持水平。我每天追求夢想的時間感覺在最好的情況下是自私的,最糟糕的情況下是魯莽的。我越是思考我自己的家庭和實驗室同事們的家庭之間的差異——他們中的大多數至少是中產階級,如果不是富有的話——否認真相就越困難:我沒有成爲科學家的奢侈。
但故事還沒有結束。
幾周過去了,一位同學提到,麥肯錫的一位合夥人,這是一家世界知名的管理諮詢公司,來鎮上招聘。他們正在尋找一個實習級別的分析師職位,這意味着承諾有廣泛的在職經驗,這意味着即使是與數學和計算機科學有微弱聯繫的常春藤聯盟學校的研究人員也是理想的候選人。在一個真正絕望的時刻,這感覺像是一個值得考慮的機會。
當然,我以前也遇到過這種情況,很容易將其視爲我學術目標和現實世界生活之間長期激烈衝突的最新衝突。但我的內心科學家的聲音這次不同了。我母親健康狀況的最新打擊讓我震驚,那種堅持的心態也變得不那麼強烈了,好像就連我內心那個特別、被保護的部分也開始屈服於一個我知道我不能永遠忽視的現實。我把猶豫推到一邊——這個行爲現在我發現出奇地容易——我買了一套遠超預算的衣服,小心地把標籤藏在領子下面,預計活動結束後立即退回,並安排了一次面試。這一切感覺和我預期的一樣不自然,但我不能忽視一個事實,那就是命運似乎從一開始就站在我的這一邊。這或許是我第一次有機會在學術世界之外呈現自己作爲一個完整的人,這讓我充滿了一種我通常不具備的信念。當然,我毫不掩飾地書呆子,但我不僅僅是那樣:多年的奮鬥鍛鍊了我,培養了我同行候選人從未有過的機敏,以及我現在才意識到讓我與衆不同的實用主義本能。
然後,一個幾乎是滑稽的同步事件發生了。
“我們喜歡圍繞一個假設的商業場景來組織我們的面試,”麥肯錫的代表開始說。“當然,沒有人期望你真的瞭解這個行業,所以把這看作是一個創意練習比什麼都重要。我們只是想了解一下你的直覺。你知道的,分析推理之類的。”
聽起來很簡單,我想。
“我想讓你想象你是……比如說……服裝行業的一個經理。”
哇。
一個開始只是例行公事的評估,突然變成了一場出乎意料的豐富對話,從我對物理的熱愛和我對智力之謎的迷戀,到洗衣供應商的世界,以及我作爲乾洗行業業餘經理的職業生涯。出乎所有人意料的是,事情似乎真的……進行得不錯。招聘人員顯然也同意了。迴應是立即而強烈的,消息是麥肯錫決定將實習轉變爲正式的永久職位的提議。
我的感覺如此複雜,我甚至不確定它們是否真的有所體現。一方面,一想到要拋棄這麼多東西——加州理工學院、皮特羅、克里斯托夫、吉滕德拉、我的同學們,實際上是我所知道的一切,最糟糕的是,放棄一個追求一個感覺具有歷史意義的想法的絕對宇宙機會。我的北極星。另一方面,在看到我的父母多年來生活在邊緣,越來越感覺他們之所以處於那種狀態是因爲我,我彷彿終於被解除了一個我從未完全意識到其重量的沉重負擔。我母親爲了我能來到這裡付出了一切,現在,當我知道她最需要我的時候,我終於可以回報她了。我直接回家,準備分享我認爲的好消息。
“這是你穿去實驗室的衣服嗎,飛飛?”
我低頭看了看自己。我忘了我還穿着面試的衣服。
“哦,對,”我帶着半心半意的笑聲說。“別擔心,我買它的時候拿到了很好的交易,”我補充說,展示了仍然完好無損的標籤。
“發生了什麼事?”她問,現在更加困惑了。生活一直如此匆忙,我還沒有向我的父母提及我的任何計劃。
“媽媽,我們需要談談。”
我解釋了面試、工作邀請以及其他一切。我告訴她關於福利待遇,起薪,以及他們在我甚至有機會迴應之前就已經增加了優惠。我解釋說,這實際上是通往每個移民母親爲其孩子想象的那種職業生涯的快車道。她禮貌地聽着,但在我說完之前,我就在她臉上看到了一個熟悉的表情。
“我們真的要再次進行這個對話嗎?”“媽媽,我知道,但聽我說——”
“我知道我的女兒。她不是什麼管理顧問,或者你說的那個。她是一個科學家。”
“想想你的健康,媽媽!想想我們即將面臨的費用。學術生涯怎麼能幫助我們——”
“飛飛。我們走這麼遠,不是爲了讓你現在放棄。”
“這不是放棄!這是一個夢想的工作——一份職業——它可以讓我們擺脫這一切。我的意思是,看看周圍!我們三個成年人住在一個宿舍裡!”
我不確定我是否相信我嘴裡說出的話,但它們似乎是正確的事情。無論我母親對它們有什麼看法,她都暫停了一會兒,也許是爲了思考它們,然後回答。
“飛飛,你一直在談論這個‘自私的’旅程。好像科學是你從我們這裡拿走的東西。”
“我怎麼能不這麼感覺?我現在就可以爲我們所有人賺錢,而且——”
“你沒有聽我說。這從來都不是你的旅程。從一開始,這就是我們的旅程。無論你是註定成爲一個科學家、研究員,還是我甚至無法想象的其他什麼,無論你是否會因此賺到一大筆錢,我們一家人從飛機離開上海的跑道那一刻起就一直在爲此努力。”
我不知道該說什麼。
“我要最後說一次:我們走這麼遠,不是爲了讓你現在放棄。”
她是對的。她總是對的。這一次,不知爲何,我終於聽到了她的話。我再也不會質疑我的道路。
“嘿,那種狗的品種叫什麼來着?”我在幾乎空無一人的實驗室裡吃午餐時,問了一個同學。
“哪一種?”
“你知道的,棕色和白色的……還有黑色,我想……它有一對非常可愛的垂耳朵。天啊,我完全忘了它的英文名字。”
我們在思考那些只有研究生纔敢面對的宇宙級問題。
“我知道它以B開頭……實際上,別告訴我……”
我伸手拿起我桌上一直放着的英文詞典。在美國生活了將近十年,即使互聯網取代了我們生活中的許多物品,它偶爾還是我的救命稻草。我翻過幾頁,然後往下掃描,直到我看到……
“啊!是的!比格犬!”
“好吧,那麼比格犬怎麼了?”
我停下來,回頭看了看那一頁。我甚至忘了我爲什麼要提起這個,但這並不重要。我意識到了另一件完全不同的事情。
皮特羅和我正計劃得到一個包含一百個圖像類別的數據集,但我們一直在努力想出一個好方法來決定究竟包括哪些類別。我們擔心,如果我們自己選擇,可能會有偏見——即使是下意識地,我們也會傾向於選擇我們的算法更有可能成功識別的圖像類別。我眯起眼睛,更仔細地看。詞典對某些詞的插圖方式有種優雅之感。大多數都是名詞,強調的是有形的、可視的東西——換句話說,是物體,或者在比格犬的情況下,是動物。它們看起來正是我們想要的那種類別。而且它們似乎在每個字母中或多或少都均勻分佈,這在我看來聽起來相當公正。我想知道:如果我們讓詞典爲我們做選擇怎麼樣?
這太完美了。我拖了好幾年的那本大書變成了我作爲一名有抱負的計算機視覺研究員世界中最有用的工具。偶爾,成爲移民也有好處。
撇開早期的啓示不談,策劃完整的數據集是一個漫長、緩慢、不起眼的過程。我們花了幾個月的時間手動查詢圖像搜索引擎,挑選出最好的結果,然後裁剪和調整它們的尺寸以保持一致。一小隊本科生標註員加入了我們,總共三四個人,甚至我現在是當地人的母親也找到了幫忙的方法。儘管這個過程可能很艱苦,但它有一種啓發性。在深入思考視覺世界的多樣性之後,我以前所未有的方式看待它:作爲一個包含手風琴、攪拌機、手機、小龍蝦、龍蝦、比薩、停車標誌、雨傘以及許多其他東西的單一現實。這裡面有一種詩意;它讓我欣賞到世界是多麼的豐富和不可預測,以及我們注意到的細節是多麼的少。
最終,它完成了。在2004年完成時,它是爲機器學習而組裝的最大的圖像集合:超過九千張,分佈在一百個類別中。這是前所未有的,我迫不及待地想看看它會解鎖什麼。我們感到前所未有的強大,就好像我們突然擁有了一個超自然的神器,準備賦予我們的創造物比我們想象的更大的能力。但還有一個細節我無法抗拒:獨自工作時,我以一種調皮的方式加入了另一個類別,以此對我的導師表示不滿,儘管這是我自己的代價。如果皮特羅想要100個,我就給他101個。
我們立即發表了我們的單次學習論文的後續研究,現在展示了一個由驚人多樣化的訓練圖像集合驅動的模型——現在正式被稱爲“Caltech 101”——並且取得了顯著的性能提升。由於它的確是漸進性質的,它並不是第一篇論文那樣的突破性成功,至少最初不是。但它確立了一個更持久的遺產,作爲其他人效仿的模範。我們繪製的性能曲線成爲了一個基準;在六個月內,來自世界各地的研究人員都在引用我們的論文作爲要擊敗的標準——他們中的許多人都做到了。發表我們自己的研究是令人興奮的,感覺就好像我們在爲他人的想法做出貢獻——並且在推動這個領域向前發展的過程中扮演即使是小角色——這是一種更大的快感。
很明顯,Caltech的生活永遠不會容易,但我對僅僅在那裡的感激之情比以往任何時候都深。我們設法賣掉了乾洗店,給了我母親自從我們來到這個國家以來首次真正休息的機會。(我也不能假裝對再也不用接一個關於襯衫過度澱洗的長途電話感到高興。)最重要的是,我對我的學習充滿熱情,幾乎每天都感到筋疲力盡。
幸運的是,Caltech是一個容易找到其他癡迷者的地方。我在皮特羅辦公室外遇到了一個特別的人,當我聽到似乎是兩個明顯的意大利聲音,而不是我習慣的一個。我很快就知道,第二個聲音屬於一個我還沒見過的研究生。他很高,口音如此難以穿透,以至於讓皮特羅的口音在比較中幾乎消失了,而且他那頭狂野捲曲的頭髮在房間對面就很顯眼。那天他也很匆忙,即使皮特羅介紹了我們,這也是一次難忘的初次見面。但這讓我能夠給那個聲音取個名字:西爾維奧。
西爾維奧很快就在我們的實驗室會議中引起了我的注意。像我一樣,他經常以討論藝術品開始他的演講。他被像埃舍爾的《手與反射球》和維梅爾的《戴珍珠耳環的少女》這樣的作品所吸引。珍珠耳環,這兩者都在他通過研究探索的視覺世界的方方面面上徘徊不去——彎曲反射的扭曲輪廓、金屬表面的光澤,以及日常物體的三維特性。當然,這些眼前的糖果很快就讓位給了成堆的方程式。我們在一起的時間越長,我就越意識到我們有着相似之處:無論在什麼情況下,我們都無法關閉我們的好奇心。
“看!看那輛摩托車!”他興奮得足以完全打亂原本是在校園裡放鬆散步的計劃。
“它有什麼特別的?”
“好吧,看那個鉻合金排氣管?看到反射了嗎?它們包含了如此多的信息。你看到了嗎?它們是如何彎曲和扭曲的?”
“是的,我明白你的意思。”
“但問題在這裡——反射到底是什麼呢?它只是周圍世界在表面上的一個扭曲圖像!這幾乎是一個矛盾,然而它告訴我們足夠多關於那個摩托車部件的形狀,我們可以在腦海中毫不費力地想象它。這就是我們試圖設計的那種算法。”
我的天,這傢伙真是個書呆子,我想。但他和我是同一類書呆子。
我是兩個實驗室的學生——與皮特羅一起的電氣工程實驗室,以及與克里斯托夫一起的計算神經科學實驗室。我每週與他們各見一次,參加期刊俱樂部,審閱神經科學和計算機科學的最新文獻,而且,因爲兩個實驗室都提供免費食物,我的飲食比我預期的要好。然後還有西爾維奧。只要時間允許——考慮到我們的日程安排,這並不經常發生,尤其是按照新關係的興奮標準來看——我們就有彼此。但隨着我在加州理工學院的歲月流逝,我內心深處開始生根發芽。
我反思了我們所做的一切:我們的心理物理學實驗、我們對一次性學習算法的研究、我們展示加州理工101數據集的力量,以及我們研究了幾十年的文獻。儘管我受教育的道路不同尋常,被兩位導師分開,我開始欣賞我們工作的優雅。這並非偶然——我們做了所有這些事情;我比以往任何時候都更加確信,分類是連接它們的想法,它在理解視覺——甚至可能是整個人類智能——中的作用很快將被證明是至關重要的。
那麼爲什麼進展還是這麼慢呢?
用一個詞來說,我們的算法是“過擬合”,正如數據科學中所說的那樣。也就是說,無論設計得多麼巧妙——我們探索了我們能找到的每一種類型——即使在測試期間表現最好的算法也會在面對新刺激時迅速失效。一次又一次,看似經過有效訓練的算法缺乏將它們所學的——或者應該學到的——應用於現實世界的能力。本質上,這與人類感知相反,後者的特點是其概括能力。概括使我們靈活、適應性強,甚至具有創造力,隨時準備利用新想法的力量,而不是在過去經驗的侷限中苦苦掙扎。任何缺乏這種能力的生物都會很快被自然界的不可預測性所淹沒,這是生物進化心智的一個關鍵特徵。但對於機器來說,這仍然基本上是遙不可及的。
在我們試圖解開過擬合之謎的過程中,算法本身是一個自然的起點——特別是它從訓練數據中學習的方式。我們探索的大多數算法都非常複雜——用更技術性的語言來說就是“計算上不可解”——它們無法手動配置。它們無數參數的排列組合範圍實在太廣,就像一排排旋鈕和開關延伸到地平線之外的控制面板。相反,自動化技術允許它們通過長時間的、反覆的試錯過程來近似地平衡這些參數。多年來,這種技術的完善一直是計算機視覺研究的支柱。
但加州理工101鼓勵我們更深入地思考數據本身,這反過來又促使我們思考這方面的問題可能如何導致過擬合。畢竟,沒有數據,機器學習中的“學習”指的是什麼?儘管它的重要性顯而易見,但這個話題缺乏我們在物理學、數學或統計學中所期望的精確性。像皮特羅和吉滕德拉這樣的研究人員是爲數不多的深入探索過這個問題的人,我覺得他們對於理解它有着最好的直覺。我們的出版物似乎表明,隨着我們的數據集變得更大,我們的算法的能力也在增長——相對來說,無論如何。即便如此,數據的策劃更像是一門黑暗藝術而不是一門科學。
我開始懷疑我們可能做錯了什麼。訓練圖像應該有不同的方向嗎?我們需要更多的多樣性嗎?這是分辨率或相機質量的問題嗎?或者可能——我幾乎不敢去考慮這個想法,更不用說大聲說出來了——101個類別還不夠嗎?我越考慮這些問題,它們就顯得越明顯,甚至越迫切。但據我所知,我們社區中沒有其他人在問這些問題。
即使是數量問題——我們的專長——也似乎是個謎。我不得不承認,懷疑像101這樣的數字有什麼特別之處是合理的。它不是一個經過實證驗證的結果,甚至也不是從理論中推導出的某種原則估計。它是我在午餐托盤上像霍克尼畫作一樣排列的一場與我的導師的博弈的結果。真的很令人驚訝,這不是突破的前奏嗎?我又一次回到了文獻中,這次帶着復仇的心情。如果不是101,那是多少?200?500?1000?拜託,不要是1000,我想。我決心要找到一個線索,不管怎樣,不管在哪裡。
我費了一番功夫,但最終找到了一些東西。它甚至來自一個熟悉的來源——一篇由歐文·比德曼撰寫的論文,他是我們現代視覺理解的核心貢獻者之一,發表於很久以前——回到1983年。自從我讀過它以來已經過去了好幾年,毫無疑問是在凌晨兩點與一堆其他文獻一起瀏覽的。現在,在我們從一次性學習的冒險中學到了所有東西之後,以及我們實現真正的視覺分類的夢想,我以一種新的方式看待它。
這篇論文探討了一個有趣但不直接相關的話題:我們如何利用對基本幾何形狀的瞭解來識別複雜的物體。在構建他的結論的過程中,Biederman試圖回答一個看似簡單的問題:大致有多少獨特的“事物”類別存在於世界上?也就是說,如果你把它們全部加起來——“搖椅”、“企鵝”、“跑車”、“拉布拉多犬”、“山脈”以及其他所有東西——總數會是多少?
這聽起來更像是一個謎語而不是一個科學挑戰。但我對Biederman的方法印象深刻,他的方法基於對英語的分析。詞語在幫助我們對所見進行分類中扮演了基礎性的角色,他認爲,我們專門用於描述獨立、可量化事物的詞語——稱爲“可數名詞”——的總數將是一個很好的起點。然後他想象了每個這樣的名詞存在多少真正不同的變體,就像“杯子”這一類物體可能包括帶有精美手柄的白色茶具、色彩鮮豔的咖啡杯和透明無特徵的玻璃杯。因爲有些類別比其他類別有更多的變化,他通過假設一個合理的平均值來簡化問題。從那裡開始,計算總數只是簡單的乘法。
邏輯足夠直接,但是他想法的規模使它如此具有顛覆性。它立即揭示了我們的研究有多麼有限——我們的想象力有多麼有限——以及超出這兩者的世界實際上有多麼廣闊。這篇論文是一份模糊的、複印的文物,但感覺就好像Biederman直接對我說話:你想要突破?這就是代價。這就是所需的一切。
儘管如此,Biederman的數字——我們作爲研究人員的雄心所需的潛在藍圖——是巨大的。真的很大。它不是1,000,2,000,甚至不是5,000。它當然也不是我們花了幾個月時間編目的101。
它是30,000。
我不知道該如何處理這個數字。創建Caltech 101感覺像是一項艱鉅的努力,而現在我面臨的估計數字比那大了整整兩個數量級。但現在我無法迴避它。那裡有一些東西——真正的洞察力——它的熱量幾乎穿過頁面上印刷的數字。更重要的是,我知道無論這個數字註定要帶我去哪裡,我都將獨自前行。我的領域專注於算法,僅此而已。但我越是思考數據——尤其是大規模,甚至是巨大規模的數據——我越意識到這是一個完全未被探索的前沿。世界已經選擇了它的方向。但我的北極星正引導我走向另一個方向。
第七章 一個假設
陽光的珠子,穿透而白,通過綠色植物閃爍,當我的車沿着206號公路飛馳時。這條雙車道路是一條容易駕駛的路,它在樹木的樹冠中切割出溫和的曲線,時不時地斷開以揭示地平線上小鎮的一瞥。我幾乎沒有看到任何東西。我的思維在世界之外,雖然我可以集中足夠的注意力保持在車道標記之間,但僅此而已。
儘管我從Caltech畢業獲得博士學位只有一年,但我生活中的幾乎一切都發生了變化。我的母親又病了。事實上,比以往任何時候都嚴重,然後突然穩定下來。我也得到了我的第一份真正的工作——伊利諾伊大學厄巴納-香檳分校的初級教職工作——以及隨之而來的健康保險。Silvio和我結婚了。然後他也找到了工作……在密歇根州。我有很多事情要感激,但我是早期學術生涯中常見的動盪的活生生的象徵。我不知怎的同時結了婚,獨自一人,又和我的父母住在一起。
儘管如此,我對視覺分類本質的研究仍然是我的世界中心,我應邀回到普林斯頓向計算機科學系展示我的最新工作。到這個時候,我已經習慣了發表演講,但我捕捉到一些暗示,這次邀請可能意味着更多——招聘過程的第一步,可能是一個教職職位。這些風險比我習慣的要高,我很感激我有一個習慣,那就是從新澤西州的旅行開始。拜訪薩貝拉家。從他們的社區到我的母校的蜿蜒路線給了我充足的時間去深思。
然而,困擾我的並不是講座,甚至也不是我的職業生涯。自從我偶然發現了比德曼的數字——他估計大約有30,000個獨特的概念可能爲理解視覺世界提供一個完整的基礎——我的生活就再也沒有一樣過。這五個不起眼的數字已經成爲我心中的黑洞,幾乎在我每一個清醒的時刻都在吞噬我的思緒。
一方面,我的直覺與比德曼的觀點一致。他的數字看起來很對,我能從直覺上感覺到。它有證據的外表,一個我不知怎麼能夠利用的數據。同時,很明顯他從未打算將其作爲一個特別的經驗量。這是一個典型的信封背面計算,更多的是作爲一個示例而不是一個假設。然而,出於某種原因,多年後我最初看到它時,我就無法放手。
它激發了我思考的轉變,讓我有了一種我以前從未想象過的規模感,但除此之外幾乎沒有提供任何洞見。數字30,000當然很有趣,但究竟是30,000個什麼?我確信答案不會像創建一個新的數據集那樣簡單,隨機選擇30,000個類別而不是101個。當然,這樣的集合將遠遠超出桌面詞典中的一組插圖概念。它甚至可能開始全面地模擬世界,而不僅僅是描述其特徵,逐個追蹤地球上生活的完整畫面,並暗示它們之間的關係。真正的意義。但我仍然只是在猜測。
隨着時間的流逝,我開始做白日夢。一個Sunoco加油站的黃色和藍色標誌引起了我的注意,觸發了一連串的回憶:沿着這條路以前駕駛的印象派閃回。顏色和情緒。這裡一個銳利的細節,那裡一個模糊的細節,都被半記憶中的陰影所包圍,豐富而引人入勝,但永遠都是模糊的。當我的思維鏈到達一個具體的事物時,我不由自主地微笑了:薩貝拉先生談論他每天從巴德湖的家到帕西帕尼高中的通勤路線,以及他如何精心跟蹤油價以儘量減少它對他公立學校教師薪水的影響。
這可能看起來微不足道,但正是這些時刻激發了我的迷戀。這纔是視覺真正的意義。它不僅僅是一個“感覺”,至少不是像溫度計或蓋革計數器那樣的“感覺”,而是一種體驗的催化劑。一股信息和情感的洪流,由以五十英里每小時的速度飛馳而過的加油站標誌的顏色所釋放。這是定義一個最爲人性化的頭腦的能力之一——一個通往整個記憶、聯想、概念和推理宇宙的入口,所有這些都編織在我們與周圍世界的視覺聯繫中。
我的思緒回到了普林斯頓的演講。至少那是一個我有機會解決的問題。
“我不知道一個語言學家是怎麼出現在一個計算機視覺講座上的,Fei-Fei,但我很高興他來了。”
坐在我對面的是Christiane Fellbaum,一位計算語言學家,也是我在演講後幾天遇到的許多普林斯頓教職員工之一。她自己沒有參加,但她的一個同事出現在聽衆中,並且感覺她會欣賞我的工作,於是在之後立即將我們聯繫起來。
Christiane在語言學方面的工作與我的只有最微弱的聯繫,但我們共享的是至關重要的:強烈的認知科學影響和對理解甚至繪製心智如何概念化其世界的特殊興趣。在我自己研究人類視覺期間深深吸引我的概念,我們如何對我們感知的內容進行分類,對她的工作至關重要,而且在很多類似於我的方式上。我們倆都相信,類別是視覺(我們看到的東西)和語言(我們描述它們的方式)之間的交點。在談話進行了二十分鐘後,我突然意識到我甚至不知道我們是否應該討論工作機會。不管怎樣,這是我腦海中的最後一件事,因爲她即將提出一個問題,將永遠改變我的職業生涯和我的生活。
“你聽說過一個叫WordNet的項目嗎?”
WordNet,正如我即將瞭解到的,是喬治·阿米蒂奇·米勒的心血之作,他是心理學和認知科學的傳奇人物。他出生於1920年,是一代心理學家中最有影響力的人之一,他們不滿足於僅僅觀察人類行爲的表面,試圖建立驅動它的心理過程的模型。因此,他自然而然地被語言的結構和它在思維中的作用所吸引。通過WordNet,他試圖以驚人的規模來繪製它。
兩個同樣雄心勃勃的問題激發了這個項目:如果通過語言可以表達的每一個人類概念都被組織在一個單一的、龐大的詞彙數據庫中會怎樣?如果與字典的字母順序組織不同,這些詞彙是基於它們的含義相互連接的會怎樣?例如,不是因爲拼寫的偶然性而將“蘋果”與“家電”配對,而是將“蘋果”與一整簇相關詞彙配對——“食物”、“水果”、“樹”等等。這將像是一個地圖,展示了人類所珍視的一切——我們用一個詞來描述的一切——在一個連接的空間中排列。簡而言之,這就是WordNet。
自1985年成立以來,該項目已經發展到幾乎難以理解的規模,包括超過140,000個英語單詞,並迅速擴展到新的語言。對於Christiane來說,她作爲已經被稱爲全球WordNet協會的主席,這幾乎是一份全職工作。我對它的範圍、持久性以及必須精確指導其如此多年的精確增長所需的協調感到敬畏。當我想起爲了收集足夠的圖像用於Caltech 101數據集而費力地管理幾個本科生幾個月的努力時,我幾乎臉紅了——它自己的類別深度比WordNet小了一千倍以上。但我也被激勵到了我很長時間沒有感受到的程度。WordNet是一個啓示。它提供了一個答案,或者至少是一個暗示,對於那些在近四年的清醒生活中消耗了我大量時間的問題,自從偶然發現Biederman的數字以來。它是人類意義本身的地圖,無論是其覆蓋範圍的廣度還是其內容的真實性,都毫不妥協。我還不知道計算機視覺將如何實現Biederman想象的規模,但現在,至少,我有了這樣一種努力是可想象的證據。這是我第一次面前的一條道路,我能看到下一步。
然後,彷彿是爲了進一步強調這一點,Christiane提到了一個相關項目,該項目試圖用一個單一的視覺示例,比如一張照片或圖表,來說明WordNet包含的每一個概念。儘管這項計劃已經被放棄,但我感到很好奇。甚至它的名字——ImageNet——幾乎是完美的暗示。又一個推動,而且不是一個特別微妙的。
在我離開校園的那天之前,點點滴滴開始連接起來。首先,有WordNet:一個幾乎難以形容野心的詞彙數據庫,似乎捕捉了世界上所有概念的整體,按照人類意義的自然層次組織起來。然後有ImageNet:試圖爲每個概念分配一張圖片。這兩個項目看起來像是對Biederman數字在我的思想中創造的巨大、神秘空間的迴應。
我問自己一個既荒謬又顯而易見的問題:如果像Caltech 101這樣的數據集是按照WordNet的規模創建的呢?忽略這樣一個任務的不可能的後勤——事實上,“不可能”是我腦海中浮現的唯一詞彙——不可否認這個想法的力量。而且這不僅僅是一個規模問題;儘管數據集將會天文數字般巨大,當然,它的數字將是某些更深層次的東西的副作用:前所未有的規模多樣性,就像它所反映的世界一樣混亂和不可預測。
在我沉浸在這個領域的這些年裡,以及我與Pietro和Christof一起研究的幾十年歷史,這感覺像是真正的新穎。發散的,甚至是顛覆性的。追求一個困擾我的日子並讓我夜不能寐的謎團的下一步。如果這甚至有一個名義上的機會讓我更接近發現——任何發現——我必須考慮它。
當我想象一個在這樣一個數據集上訓練的算法可能內化的豐富視覺線索時,我的思緒飛速。塑料的硬邊,漆木的光澤,動物毛皮的質地,眼睛表面的反射,以及其他許多東西—...