Ilya Sutskever:預訓練模式已經走到盡頭

來源:孔某人的低維認知

原視頻地址:

先是報告正文,末尾是我的一點個人評論。

首發的V1版本是用的一個語義濃縮workflow做的,但經過改寫後可能會丟失一些細微的意思,影響大家咬文嚼字。所以還是重新制作了一個直譯版本,就是V2。

正文

Ilya Sutskever:

感謝組織者選擇這篇論文(Sequence to Sequence Learning with Neural Networks)獲獎,這讓我非常高興。我還要感謝我出色的共同作者和合作夥伴Oriol Vinyals和Quoc Le。

這裡有一張圖片,是10年前2014年在蒙特利爾NeurIPS會議上類似演講的截圖。那是一個更加單純的時期。這些照片展示了我們的對比:這是之前的樣子,這是之後的樣子。現在我們希望變得更有經驗了。

在這裡,我想回顧一下這項工作本身,做一個10年的回顧。這項工作中很多觀點是正確的,但也有一些不太準確。讓我們回顧一下,看看事情是如何逐漸發展到今天的。

我們將通過展示10年前同一個演講的幻燈片來介紹我們做了什麼。我們的工作可以用以下三點來總結:這是一個在文本上訓練的autoregressive model(自迴歸模型),它是一個大型神經網絡,使用了大規模數據集。就這麼簡單。現在讓我們深入瞭解更多細節。

這是10年前的一張幻燈片,看起來還不錯——深度學習假說。我們當時提出,如果你有一個擁有10層的大型神經網絡,它就能完成人類在一瞬間能做到的任何事情。爲什麼我們要特別強調人類在一瞬間能做到的事情?爲什麼要特別強調這一點?

實際上,如果你相信深度學習的教條,即人工神經元和生物神經元是相似的或至少差異不大,而且你相信真實的神經元運行速度較慢,那麼任何我們(人類)能快速完成的事情——這裡我指的是全世界任何一個人——如果世界上有一個人能在一瞬間完成某項任務,那麼一個10層的神經網絡也能完成。這是可以推導出來的,你只需要把這些連接嵌入到你的人工神經網絡中即可。

我們之所以關注10層神經網絡,是因爲那時我們只知道如何訓練這種規模的網絡。如果能夠突破這個層數限制,理論上就可以做更多事情。但那時我們只能做到10層,這就是爲什麼我們強調人類在一瞬間能做到的事情。

這是演講中的另一張幻燈片,上面寫着我們的主要想法。你可能能夠認出其中的一兩個要點,特別是這裡涉及了某種自迴歸的內容。那麼它實際上在表達什麼呢?這張幻燈片實際上在說,如果你有一個自迴歸模型,而且它能夠很好地預測下一個token,那麼它就能夠獲取、捕捉並掌握後續序列的正確分佈。這在當時是一個相對較新的概念。雖然它並不是歷史上第一個自迴歸神經網絡,但我認爲它是第一個讓我們真正相信,只要訓練得足夠好,就能得到你想要的任何結果的自迴歸神經網絡。在我們當時的案例中,是那個現在看來很普通,但在當時卻極其大膽的翻譯任務。

現在我要向你們展示一些你們中很多人可能從未見過的遠古歷史——LSTM。對於不熟悉的人來說,LSTM是在Transformer出現之前,深度學習研究人員所使用的工具。它基本上就是一個旋轉90度的ResNet。這就是LSTM,它比ResNet更早出現。它有點像一個稍微複雜一點的ResNet。你可以看到那裡有一個積分器,現在被稱爲殘差流,但還包含了一些乘法運算。它稍微複雜一些,但那就是我們當時所做的。它就是一個旋轉90度的ResNet。

00:05:02

這個早期演講中另一個值得強調的特點是我們使用了並行化。但這不是普通的並行化,我們使用了流水線處理,這從每個GPU一層的設置就可以看出來。使用流水線處理是明智的選擇嗎?現在我們知道這並不明智,但當時我們並不知道這一點。我們使用這種方法,通過8個GPU獲得了3.5倍的速度提升。

從某種意義上說,當時演講的結論幻燈片是最重要的,因爲它闡述了可以說是規模化假說的開端:如果你有一個非常大的數據集,並訓練一個非常大的神經網絡,那麼成功是有保證的。如果從寬容的角度來看,這確實就是後來發生的事情。

我想提到另一個想法,這是一個真正經受住了時間考驗的理念。這是自我演進的核心理念,也就是連接主義(connectionism)的理念。如果你願意相信人工神經元在某種程度上類似於生物神經元,如果你相信兩者之間存在某種相似性,那麼這會讓你有信心相信,規模龐大的神經網絡,雖然不需要達到人類大腦的規模,可能稍微小一些,但是可以被配置來完成我們人類所做的幾乎所有事情。

當然仍然存在差異。我差點忘了說,確實存在差異,因爲人類大腦能夠自我重新配置,而我們現在使用的最好的學習算法需要與參數數量相當的數據點。在這方面,人類仍然更勝一籌。

說到這些大語言模型,我認爲它們的發展要歸功於預訓練時代。預訓練時代就是我們所說的GPT-2模型、GPT-3模型、scaling law的時代。我想特別感謝我的前同事們:Alec Radford、Jared Kaplan和Dario Amodei,是他們真正讓這項工作成功。這引領了預訓練時代的到來,這就是我們今天所看到的所有進展的驅動力——超大規模神經網絡在海量數據集上的訓練。

00:07:56

我們現在所知的預訓練模式無疑將會結束。預訓練將會結束。爲什麼會結束呢?因爲雖然通過更好的硬件、更好的算法和更大的集羣,計算能力在不斷增長,這是毋庸置疑的。所有這些因素都在持續增加我們的計算能力。

但數據並沒有增長,因爲我們只有一個互聯網。你甚至可以說,數據就像AI領域的化石燃料一樣——它是以某種方式被創造出來的,現在我們使用它,我們已經達到了數據峰值,不會再有更多了。我們必須利用現有的數據。這些數據仍然能讓我們走得很遠,但事實就是我們只有一個互聯網。

因此,我想在這裡稍微推測一下未來的發展方向。實際上,我不需要推測,因爲很多人都在進行推測。我會提到這些推測。你可能聽說過agent這個詞。這是個很常見的概念,我確信最終會有所突破,人們都認爲agent將是未來發展的重要方向。另一個更具體但也更模糊的方向是合成數據。但合成數據究竟意味着什麼?弄清這一點是一個巨大的挑戰,我相信不同的人在這方面都取得了各種有趣的進展。還有推理時的計算,這一點最近在o1模型中得到了最生動的體現。這些都是人們試圖探索預訓練之後發展方向的例子,都是非常有價值的方向。

00:09:53

我想提到一個來自生物學的例子,我認爲這個例子非常有趣。很多年前在這個會議上,我看到一個演講者展示了一張圖表,這張圖表顯示了哺乳動物的體型大小與腦容量之間的關係,以質量爲單位。在那次演講中,我清楚地記得他們說,在生物學中一切都很混亂,但這裡有一個罕見的例子,顯示了動物體型和大腦之間存在着非常緊密的關係。

後來我偶然對這張圖產生了興趣,就去谷歌搜索。在谷歌圖片中,我發現了一張很有意思的圖。這張圖裡你可以看到各種哺乳動物,還有非人類靈長類動物,它們都遵循着基本相同的規律。但當你看到原人時——據我所知,原人是人類在進化過程中的近親,包括尼安德特人、能人等等,它們都在這裡——有趣的是,它們的腦容量與體重的比例關係呈現出不同的斜率。

這很有意思,因爲它展示了一個先例,顯示生物學中確實存在着某種不同的規律。順便說一下,我想強調的是,這個X軸是以對數形式顯示的——你可以看到是從100到1000、10000、100000,同樣在質量單位上是從1克、10克、100克到1000克。這說明事物確實可以呈現出不同的模式。

00:12:18

我們目前正在做的事情,我們一直在擴展的內容,實際上是我們最先發現如何擴展的領域。毫無疑問,這個領域的每個人都會找到前進的方向。但我想在這裡用幾分鐘時間,談談更長遠的未來。我們都在朝着什麼方向前進?我們正在取得驚人的進展。對於那些10年前就在這個領域的人來說,你們一定記得當時一切是多麼能力有限。是的,你可以說這理所當然是深度學習的功勞,但親眼見證這一切仍然令人難以置信。如果你是在過去兩年加入這個領域的,那麼你可能覺得與計算機對話、它們迴應你甚至與你爭論都是再正常不過的事,但事實並非一直如此。

我想稍微談談超級智能,因爲這顯然是這個領域的發展方向,這正是我們正在構建的東西。超級智能的特點是它將在質量上與我們現有的系統有本質的不同。在接下來的時間裡,我想給你們一些具體的直覺,讓你們能夠自己思考它將會有多麼不同。

現在我們有了令人難以置信的語言模型和chat bots,它們確實能夠完成一些任務,但它們也會莫名其妙地表現不可靠,在展現超人性能的evals上也會感到困惑。這確實很難調和,但最終,這些系統將真正具有主體性(agentic)。目前的系統在任何有意義的層面上都稱不上是主體,這可能說得有點過,它們只是剛剛開始表現出非常、非常輕微的主體性。

它們將真正具備推理能力。這裡我想特別指出關於推理的一點:一個系統越是進行推理,它就變得越不可預測。我們習慣的深度學習都是非常可預測的,因爲我們一直在複製人類的直覺,本質上就像是直覺反應。如果回到0.1秒的反應時間,考慮我們的大腦在做什麼樣的處理,那就是我們的直覺。所以我們賦予了AI一些這樣的直覺。但推理是不可預測的,我們已經看到了一些早期跡象。一個明顯的例子是,對於最頂尖的人類棋手來說,真正優秀的國際象棋AI的行爲是不可預測的。

我們將不得不應對這些高度不可預測的AI系統。它們將能夠從有限的數據中理解事物,不會感到困惑。這些都是現在的重大限制。我並不是在討論如何實現,也不是在說具體什麼時候,我只是說這些都會發生。當這些特性與自我意識結合在一起時——這是必然的,因爲自我意識是系統發展的關鍵組成部分,它是我們自己世界模型中不可或缺的要素——當所有這些特質結合在一起時,我們將擁有與今天完全不同特質和屬性的系統。當然,它們將具有令人難以置信的驚人能力。但是這樣的系統會帶來什麼樣的問題,我就留給大家去想象了,這與我們現在習慣的完全不同。可以說,預測未來確實是不可能的。各種可能性都存在,就用這個振奮人心的註解作爲結束吧。非常感謝。

00:16:44

觀衆1:

現在到了2024年,您認爲是否還有其他與人類認知相關的生物結構值得以類似方式探索?或者您個人感興趣的方向?

Ilya Sutskever:

我是這樣看這個問題的:如果你或某個人有特定的見解,覺得我們都太過膚淺了,因爲大腦顯然在做一些我們還沒有實現的事情,而這些是可以做到的,那麼他們就應該去追求它。就我個人而言,我並沒有這樣的見解。不過,這要取決於你從什麼抽象層次來看待問題。也許我可以這樣說:人們一直很渴望開發生物啓發式AI。從某種程度上說,你可以說生物啓發式AI已經取得了驚人的成功,因爲所有的深度學習本質上都是生物啓發式AI。但另一方面,這種生物啓發其實非常、非常有限。說到底,就是讓我們使用神經元,這就是生物啓發的全部內容了。而更詳細的生物啓發一直很難實現。但我不會排除這種可能性,我認爲如果有人有特殊的見解,他們可能會發現一些有用的東西。

觀衆2:

我想問一個關於自動糾正的問題。你剛纔提到推理可能是未來模型的一個核心特徵,也可能是一個區分因素。我們在海報展示中看到,對於現今模型的幻覺問題,但我們現在分析模型是否產生幻覺時,因爲沒有推理能力,所以只能用統計分析,比如看某個標準差之類的方法。那麼你覺得,在未來,具備推理能力的模型是否能夠自我糾正呢?這會不會成爲未來模型的一個核心特徵?這樣就能減少幻覺的發生,因爲模型能夠通過推理來識別自己什麼時候在產生幻覺。呃...這個問題說得通嗎?

Ilya Sutskever:

對,答案也是肯定的。我覺得你描述的這種情況是非常有可能的。嗯...你其實可以去驗證一下。說不定這種情況已經在今天的一些早期推理模型中出現了,我不太確定。但從長遠來看,爲什麼不呢?

觀衆2:對,有點像Microsoft Word的自動糾正功能,這是個核心功能。

Ilya Sutskever:

嗯,但是把它稱爲自動糾正實在是大大低估了它。當你說到自動糾正的時候...這個功能遠不止於此。不過撇開這一點不說,答案是肯定的。

00:20:04

觀衆3:

我很喜歡結尾留下的懸念。它們會取代我們嗎?它們是否比我們更優越?它們需要權利嗎?這是一個由智能衍生出的新的智人物種。我覺得搞強化學習的人認爲我們需要給這些智能體權利。我還有個不相關的問題:怎樣創造正確的激勵機制,讓人類能夠以一種能賦予AI與智人同樣自由的方式來創造它?

Ilya Sutskever:

你知道,這些確實是人們應該多思考的問題。但關於應該創造什麼樣的激勵機制這個問題,我覺得我不好說。我不敢確定地回答,因爲你說的是創造某種從上層設計的管理體系,這個我不瞭解。

觀衆3:也可以是加密貨幣,比如說有Bittensor之類的。

Ilya Sutskever:

我覺得我不適合評論加密貨幣,但是你知道,你描述的情況是有可能發生的。確實,我們可能會有這樣的AI——它們只是想和我們共存並擁有權利。也許這樣會很好。但我不知道,事情實在太難預測了,我不敢妄加評論,不過我支持這樣的思考。

00:22:13

觀衆4:你認爲LLMs能否在分佈外進行多跳推理泛化?

Ilya Sutskever:

這個問題假設答案是是或否,但實際上不應該用是或否來回答。因爲我們需要先明確:什麼是分佈外泛化?什麼是分佈內?什麼是分佈外?既然這是一個關於技術發展歷程的演講,我要說在很久以前,在人們使用深度學習之前,他們在機器翻譯中使用的是字符串匹配和n-gram這樣的技術。人們使用統計短語表,你能想象嗎?他們有數萬行復雜的代碼,這真的是難以理解的。

那時候,泛化的含義僅僅是指是否與數據集中的詞組完全一致。現在我們可能會說,好的,我的模型在數學競賽中取得了高分,但也許這些數學問題,或者互聯網論壇上的某些討論涉及了相同的想法,因此這可能是記憶的結果。你可以說這可能是分佈內的,可能是記憶。但我也認爲,我們對什麼算作泛化的標準已經提高了很多,如果你持續關注的話,這種提高是相當大的,是戲劇性的,是難以想象的。

所以我認爲答案是:在某種程度上,LLM可能沒有人類那麼好。我認爲人類確實能更好地泛化,但同時LLM確實也能在某種程度上進行分佈外泛化。我認爲這是一個拓撲學意義上的答案。

個人評論

觀點並不算是新觀點,但在這個GenAI領域觀點爆炸的時代,能夠下判斷、能夠選擇一種思路站臺,則有着另外的意義。

當然有人說Ilya本身去開新的公司了,肯定會說舊道路不work了,屁股決定腦袋。說不定也可能是內部分歧導致他轉向別的路線然後去開了新的公司,可能是互爲因果。但確實這是一個很強的bias,參考的時候需要注意。

還看到有人評價說:Ilya認爲應該尋找能讓智力提升最快的方式,像在前面大腦重量圖中,要優化這個斜率。但Ilya並沒有下這個判斷(明確說出來),只是用它舉了一個例子,引發大家思考。

Ilya提到了合成數據和推理時計算,但並沒有說這就是對的路線,只是說這些值得嘗試。說話滴水不漏。我現階段也覺得合成數據和更多的推理過程是未來短時間內的主要收益來源。就像我上一篇文章 所說,reasoning token的scaling law都可能出現。

交流與合作

如果希望和我交流討論,或參與相關的討論羣,或者建立合作,請私信聯繫,獲取聯繫方式請點擊 -> 。

本文於2024.12.14首發於微信公衆號。

閱讀報告全文,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料範圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每週更新不少於100篇世界範圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到11月25日 ”未來知識庫”精選的100部前沿科技趨勢報告