對話深勢科技張林峰:北大90後獨角獸公司,要做微觀世界的Sora?
作者 | Yoky郵箱 | yokyliu@pingwest.com
北大90後創立獨角獸公司,帶着“微觀世界版的Sora”來了。
4月12日,深勢科技在京舉辦了2024年開發者大會,首次披露了科學大模型體系“深勢宇知®”,並全景式展示了其多年來在AI for Science領域的相關技術、算法、產品和前沿探索的成果及佈局。
在AI圈,深勢科技是少有的“北大系”,其創始人兼CEO孫偉傑與創始人兼首席科學家張林峰均爲90後,兩人爲北大元培學院的同窗。畢業後,2018年,面對巨大的AI浪潮,二人一拍即合,成立了AI for Science 的“基礎設施”公司——深勢科技。
我們發現在6年的時間裡,深勢科技與協作者們的成果已經構建起了繁茂複雜的“大模型之樹”,在其中4個底層大模型的基礎上:DPA(分子模擬大模型)、Uni-Mol(分子構象大模型)、Uni-RNA(核酸結構大模型)、Uni-Fold(蛋白摺疊大模型),在諸多場景裡進行結合。
其中DPA是原子間勢函數的預訓練大模型,也就是我們所講的“微觀世界的Sora”。
之所以如此類比,其本質原因在於Sora通過學習宏觀物理世界的規律模擬現實,而DPA則模擬微觀世界間原子間相互作用勢能的規律,進行分子模擬,“拍攝原子分子的電影”,掌握了微觀世界的本質規律,在此基礎上進行原子級別的再創造。
DPA-1模型發表於2022年12月,幾乎與ChatGPT同期發佈,開發者在含有56種元素的較大數據集上進行了預訓練,並將此預訓練模型在各種下游任務上進行了遷移學習。2023年12月,DPA-2發佈,採用了多任務訓練的策略,可以同時學習計算設置不同、標籤類型不同的各類數據集。
從實現路徑上看,深勢提出的科學實驗算法分級理論與Sora的路徑也頗爲相似,其中L1爲模仿現實,即對實驗結果的複製和外推;L2爲預測現實,對現象的預測接近實驗精度,並有可預期的誤差範圍;L3爲搜索現實,對應Sora的驗真階段,能夠準確預測現象,並從空間中搜索出最佳結果。
相比之下,微觀世界的Sora比宏觀世界更難打造。深勢科技CEO孫偉傑提到:“微觀世界的數據比宏觀世界更難獲取和沉澱,這是微觀大模型的核心難點。”
在AI for Science領域,深勢科技打破了垂直行業突破的模式,而致力於通過底層的技術創新,將實驗室研發模式迭代爲工業級生產,激發AI for Science的潛力。當然,這個過程中面臨着更多現實問題,比如算力資源的調用、算法的突破、創新路徑等等。
帶着這些問題,本期硅星人對話深勢科技創始人兼首席科學家張林峰博士,打開關於AI for Science的一道新思路。
以下爲對話實錄:
1、硅星人:您在分享中多次提到,DPA核心解決的問題是“深度學習提供了克服‘維數災難’的工具”,解決了“維數災難”對於Science而言意味着什麼?將帶來哪些實質性的改變?
張林峰:在我的演講主題“從一個原子,開始重構世界”下面有一排特別小的字,叫做原子利用率是我們最後工業生產的工廠。在大部分的化學材料裡面,其實最後就是原子間怎麼組合的問題,所以對原子的操作能力和這個能力的可擴展性,是解決大部分科學問題的一個核心。
回到“維數災難”上,所謂“維數災難”是指在進行復雜系統模擬時,隨着系統規模的增加,所需的計算資源和數據量呈指數級增長,導致傳統計算方法變得不可行,這會大大降低原子利用率。而我們在乎的藥物、電池、化工、材料等等領域的研發中,複雜體系的高精度/高效模擬是一個核心瓶頸。DPA通過深度學習提供了一種有效的工具來解決這一問題,它能夠在保持量子力學精度的同時,顯著地提升分子動力學計算的速度躍遷數個量級。
2、硅星人:能否爲我們舉一個相對直觀的例子?現實世界中有哪些因爲“維數災難”而不可解決的問題?
張林峰:三體運動本身就是一個很好的例子。可能《三體》的讀者都知道三體問題幾乎不可解,而微觀世界裡的一個個原子相互作用,是比三體更復雜的多體問題。
微觀世界的粒子擁有更深刻甚至更唯一的規律,哪怕不是在量子力學,僅或在牛頓力學之下,雖然依然有顯線性方程,但就是解不出來。更不要說我的體系足夠多的時候,要求解一個蛋白體系,蛋白有數萬個原子,蛋白泡在水裡水分子又包含了數十萬個分子,構建這個體系的原子數最小也要幾十萬,維數就是幾百萬,過去我們缺乏有效的工序和基礎設施高效的解決這些現實問題。
3、硅星人:過去的路徑是什麼?和現在對比起來,DPA帶來了哪些實際的變化?
張林峰:過去想要解決一些問題,很貴,幾乎是用錢堆起來的。我們想要求解10個原子、100個原子的體系是可以做的,但更高維數就意味着算力資源的幾何增長。
在我剛開始和我的導師做研究的時候,研究了一組數據是64個水分子在非常微觀的體系下研究它們的相互作用。他們用了兩億個core hours,在超算上轉了三個月,大約相當於幾千萬人民幣這樣的一個機時基石消耗。但當我們第一次實現這個模型的時候,這64個水分子是我們第一個訓練數據,我在筆記本上運行訓練模型做同樣的事情,一共消耗時長不到5天。換句話說就是把以前,以前超算上才能解決的複雜計算,用AI在消費級電腦上就做到了。
4、硅星人:對於大模型而言,微觀世界的數據缺乏或者說天價問題如何解決的?是否也會通過數據標註的形式進行供給?
張林峰:其實這個過程剛好是反過來的。數據標註本身是拿準確的量子力學來進行的。
你可以理解爲,微觀世界數據本身就是已經被標註好的狀態,但找到數據的方法是未知的。而宏觀世界數據更容易獲得,卻需要進行再處理。
所以模型進行學習的時候,更重要的是設計找到數據的方法,有了方法之後微觀世界實現數據標註反而是容易的。難點在於我們需要判斷,在新的需求下,能不能形成真正規模化的標準數據,哪些需要雲哪些需要超算。以及面向應用需求,需要標註哪些數據、生成哪些數據,當數據的標準足夠多覆蓋整個元素週期表,也就具備了所謂的做大模型的基礎。
實際上從三年前開始,也就是2020年的時候數據纔開始足夠多,我們才能夠將非常多的方向以新的方式連接起來,系統性的設計數據和利用數據,並在各種各樣的微觀建模和模擬以應用在實際生產中。
5、硅星人:從這個角度來說,DPA是否可以被類比爲“微觀世界的Sora”?
張林峰:我認爲是“微觀世界的達索”更加準確。(達索系統(Dassault Systèmes)以其在三維設計、3D建模和產品生命週期管理(PLM)做到了世界級領先。被廣泛應用於航空、汽車、建築和其他工程領域,幫助工程師設計和模擬複雜的系統工程。)科學的一個特點的跨尺度,不同尺度有自己的‘規律’:微觀有量子力學,宏觀有牛頓力學,在兩者之間還有一系列不同尺度的物理方法體系。Sora 是在宏觀像素層面進行訓練的,而DPA的訓練是在原子、電子的納米世界的。
從我們的目標上來說,將類似的能力帶到科學研究的微觀世界中,這樣的平臺將使科學家能夠設計和測試新的藥物分子、材料和化學反應,而無需依賴於昂貴和耗時的實驗室實驗。科學研究領域需要一個強大的基礎設施,使得AI for Science能夠在虛擬環境中創新和探索。做單一的AI工具和算法並不能解決根本問題,構建一個全面的平臺,能夠支持跨學科的合作和創新,才能釋放創造力。
6、硅星人:這是不是深勢除了做底層模型之外,也做了開源社區的原因?
張林峰:我們常說產生連接,形成迭代。
開源社區的本質是產生連接。最開始的時候我作爲開發者,做非常基礎的基礎科學研究,每天都被研究材料學甚至天文、地文裡面的天體表面催化問題的同學找過來,哪怕是研究地質內核沒辦法真的採樣,但在知道里面的壓力、溫度元素這些元素之後,需要解決計算問題的工具。在這個過程中,我們發現做科研的人用AI越來越多、計算量越來越大。這些人需要和基礎設施產生連接,甚至慢慢從學院自動化走向智能化。
我們的能力提升一點,就會打開更多的可能性,包括數據的積累、算法的迭代、算力的整合,都是可以進行開源的部分。而對每一個新可能性的成功探索,都會再次沉澱爲我們的能力,形成開放開源的良性循環。
7、所以深勢要打造的AI界的HuggingFace?
張林峰:可以這麼說,HuggingFace與其他開源社區的本質不同是協同開源的生態,我們最後想要達到的是推動原子生產製造的工業軟件體系,這個過程中真正“卡脖子”的是大家能不能有效的使用,來產生更好的迭代。這個過程其實是從一個弱連接的社區形態到一個開放的開發系統的進化,封閉的系統基本上不可能完成,我們從物理上就證明了封閉系統的產值是最慢的。
8、硅星人:從AI的角度來看,深勢既涉及到了數據層、算法層和算力層?又涉及到了很多種不同的領域,爲什麼要全部做一遍?
張林峰:這幾乎不是我們想做,而是我們必須做。AI for Science之所以如此複雜,是大多通用型AI的解決方案都不滿足Science的需求,這個AI需要在工業裡面有各個層次的實踐。
幾乎是根據Science的特性,將AI重構了一遍。
比如說最底層的AI芯片,算力層面同等消耗算力進行更高性能的計算,我們整合了雲算力、硬件算力等等,通過一套更高效的算力調度系統,用更少的算力完成同等的任務。
再往上到一些算法框架,無論是之前的CNN、RNN還是Transformer,這些算法都不能夠滿足Science所需要遵循的基本的物理特性,比如微觀世界的連續對稱性、原子間電子間非常近或者非常遠時的漸進行爲,需要得到嚴格的保障,因此我們在原有的系統上進行了創新,我們稱之爲MOS。
數據層面則更是已經探討過,微觀數據的稀缺是全世界範圍都存在的問題,我們幾乎是要找最原始的一波數據。
9、硅星人:如果要給深勢一個定位的話,於整個AI for Science而言,深勢的位置是什麼?
張林峰:如果要爲深勢科技在整個AI for Science領域中定位,我們可以將其視爲一個創新的引領者和基礎設施提供者,類似於安卓操作系統在智能手機和其他移動設備領域的作用。安卓爲移動應用開發者提供了一個廣泛採用的、開放的、可定製的平臺,而深勢科技致力於爲科學研究提供一個強大的、基於AI的計算平臺。這個平臺使科研人員能夠更高效地進行模擬和數據分析,推動科學發現和技術創新。
首先我們希望能成爲基礎設施的構建者,如DPA算法和其他微尺度工業設計和仿真平臺,爲開發者提供先進的計算工具和平臺;其次通過開源社區和合作項目,鼓勵開放的科學交流和協作;以及開放的API接口和易用的應用體系,就像安卓系統通過提供統一的開發環境和接口來加速移動應用的開發。
10、硅星人:AI for Science,是AI更重要還是Science更重要?深勢的團隊構成是什麼比例?AI的技術人員比較多,還是Science的技術人員比較多?
張林峰:AI給我們打開了很多可能性,但就目前的階段,我覺得Science比較重要。AI爲科學研究提供了強大的數據分析、模型構建和計算能力,而Science則爲AI提供了應用場景、問題定義和驗證標準。
深勢中AI技術人員和Science技術人員可能都有相當的比重,以確保技術的研發和科學的應用能夠同步發展。我甚至很難定義我的團隊,每個人的expertise是什麼,Science的人要學習AI,AI的人也要學習Science,大家都會變成交叉學科。
在AI的視角下,整個Science的學科體系產生很大的變化,我覺得底層可能就是有了計算機之後,先是用於科學實驗,後面喬布斯慢慢一步一步把PC變成大家都能用的,兼具設計美學和實用性,很多時候偉大的創新都是交叉學科的產物。
11、硅星人:您認爲AI與Science結合的路徑是什麼?是由簡單到難的路徑,還是不同的分子量級對應着不同行業,比如原子級別就對應了生命科學,分子結構對應着材料等等?
張林峰:首先我覺得這兩個路徑永遠是結合的,最好是會產生真理的,所以它是一個重複的還是一個動態結合的方式在各個層次上其實不一樣。比如,我們當時研究了合金、研究了半導體之後發現,合金很多需求還停留在工藝方面;、半導體雖然需要很多計算服務設計,但它是一個非常ready的狀態嚴格和細分的場景。2021年的時候,鋰電池的產業鏈已經非常ready了,當時的瓶頸在於兩個方向的研發測試。
我覺得最適合研究的就是工業軟件體系,有了一個內核之後會跟很多場景產生聯繫,這個連接的過程既有技術本身的發展,也有需求場景被“卡脖子”的現實因素。
我們有一個很形象的比喻叫做“沿途下蛋”。
在遠景明確的前提下,不能閉門造車,而是,在技術發展的過程中,沿途就會發現與很多場景的有了結合,發現能帶來場景巨大的體驗提升並能轉化爲商業價值的話,ready 一個就做一個。如果我們去描繪它的路徑,應該是哪一個行業先準備好,就先去在哪個行業裡做創新,它是根據實際情況反饋回來的,基礎設施準備好以後,才能打開更多空間。
所以我們的路徑是的,產生連接、形成迭代。