百圖生科CEO劉維:生命科學AI大模型,開啓創新藥物研發新範式
作者|閆妍
出品|本站科技《潮頭》欄目
生命科學領域正在迎來新故事。
就像ChatGPT打開了人機對話的窗口,一批生命科學AI大模型也在開發的路上,甚至已經有人打響了落地第一槍,或將爲行業帶來革命性的變化。
“我們在通過大模型儘量地學習生物進化規律,有點像在數字世界不斷重啓地球,希望從中找到對人類有益的新東西,填補複雜行業問題與前沿算法之間的關鍵空白地帶,爲科研、環保、材料、消費等領域提供解決方案。”百圖生科CEO劉維告訴本站科技《潮頭》欄目。
簡單來說,他們在打造一個能生成蛋白質的ChatGPT,探索人類進化過程中蛋白質組合的各種可能性,根據用戶給定的參數和功能,以生成的方式,設計創新的蛋白質(抗體、酶等)、細胞等設計方案,來回答各種生命科學問題。
2020年,百度集團創始人李彥宏和時任百度風投CEO的劉維,決定聯合創辦百圖生科。2021年,百圖生科構建了世界最大規模的免疫圖譜,並做出了千億參數規模的大模型“xTrimo”,這是全球首個、也是目前最大的生命科學領域的“超大規模多模態模型體系”。後來,基於該模型研發了用戶交互窗口AIGP平臺(AI Generated Protein,AI生成蛋白質平臺),AIGP在2022年開始內部使用,2023年宣佈擴大內測範圍,目前合作伙伴已超20家,今年有望擴展到50家左右。
在劉維看來,尤其在承擔着人類生命健康使命的新藥研發行業中,大模型的社會價值和行業價值極高。
核心點在於,它能夠幫助研究者節約大量的實驗時間和實驗費用。“全球範圍每年要花費幾千億美金在臨牀試驗上,僅一輪動物實驗就要花費幾月時間、幾百萬成本,有的企業花費幾年時間圍繞着一個靶點來研發一款藥物,但到最後關頭前功盡棄,這種行業格局使得大家都在苦行僧之路上長期前行。”劉維講。
在他看來,大部分的藥物研發往往只夠針對單個靶點,這是整個行業低效的源頭問題。“有很多失敗是一開始就埋下的,前期參數就存在了問題,未來在foundation model驅動下,很快就能根據已有參數涌現出答案,這對於從0到1的創新發現,可能提高的是很多年的效率。”
劉維告訴《潮頭》欄目,AI技術應用在生命科學領域的最終價值,是幫助解碼、治癒所有的疾病,解決當下難以應對的全球公共健康問題。
奇點將至
生物計算加速“進化樹”
《潮頭》:兩年前,百圖生科開始佈局大模型“xTrimo",當時決定要做這件事的契機是什麼?
劉維:其實BioMap這個公司名字也跟大模型很有關係,當然它沒有叫“Bio大模型”,而是叫了“Map”這個名字,實際上公司創立之初就希望,圍繞着難成藥靶點全新蛋白等實驗篩選手段篩不出來的領域,利用大模型對於弱關聯語料的處理能力,從海量的生物數據裡面提取對科研人員有意義的規律,爲行業提供更好的生物地圖(BioMap)。
2020年底,我和Robin爲什麼決定要做這家公司?其一個核心判斷就是看到OpenAI開發了GPT-3,人類的第一個千億參數大模型出現,這種技術的躍升,讓我們看到了做垂類大模型更大的潛力,這也是我們決定要成立這家公司的原因之一。公司最早的時候有張計劃圖,左邊寫的就是預訓練大模型,右邊寫的是若干個任務模型。
《潮頭》:大模型可以切入的方向有很多,你們爲什麼選擇了生命科學這個場景?
劉維:我認爲大模型的核心優勢,可以從它的入口和出口去判斷,它的入口需要比較大量的弱關聯數據,出口需要找到適合大模型去做缺乏任務數據的場景。滿足入口、出口這兩個約束條件之後,大模型就在這個應用場景內變得更有用武之地。否則,如果沒有大量前端的弱關聯數據,大模型無從訓起。或者相反,如果任務數據已經比較豐富了,實際上也不需要大模型,用傳統的AI模型也能做。
我們去做這家公司,恰好配合了這麼一個時間點,海量的生物數據開始出現,但是它還沒有被整理好,不夠高質量,也不夠任務相關,這個時候如果誰能夠先用一種新技術把它們利用起來,誰能用一個技術平臺把它們匯聚起來,在海量的數據裡找出規律,用來解決缺乏數據的特定問題,我們覺得就能夠批量化地解決很多創新藥物或者生命科學項目研發的挑戰。
《潮頭》:當時希望“xTrimo"具備怎樣的能力?目前又實現了多少?
劉維:大模型的核心就是生成、涌現,而且這種涌現是低成本、高泛化能力、高場景適應性的。我們當時寫下的第一個任務,是希望解決免疫領域中複雜規律的一系列小任務。但這兩年,我們發現大模型在泛化的蛋白和細胞任務上的表現比想象中更好。從免疫高性能抗體起步,到其他非免疫領域的高性能抗體,再到藥物領域中用到的其他蛋白質,大模型對這些問題的預測、生成是有泛化能力的,已經可以通過技術去摘取一些“果實”。
今年,我們還有一個很大的發現,酶作爲一類蛋白質,大模型對它們的能力也很突出,所以我們正在研究跟石油有關的酶,跟環保有關的酶等等。背後意義在於,油井裡的酶可以促進有機物更好地凝固,環保場景下酶可以促進塑料更快降解,以及工業催化、釀酒等行業都需要各種各樣更好的酶,但這些酶在傳統自然界中還沒有進化出來,小改進也改不出來,沒有生成能力就很難做出全新的設計。
我們希望通過大模型設計全新的蛋白質藥物、全新的酶,有點像是在加速“進化樹”,以前生物學的發現大多是靠在自然界去“撈”,現在更像是將潛在的蛋白質構成視作一個巨大的模型,可以在數萬億倍的增量空間去探索人類進化過程中,蛋白質組合的各種可能性,釋放更多未知領域的潛力。
《潮頭》:AI大模型需要計算資源,數據集深度學習框架,語料庫等多項能力的支撐。
但很多醫藥企業對於數據保護格外慎重,生物數據的缺乏,是否對大模型的訓練帶來挑戰?
劉維:如果我們只看強關聯數據,它一定是稀缺的。不僅是我們這樣的公司缺,大的藥企也缺。我們今天跟很多大藥企去合作,會發現其實數據沒有想象中的那麼多。
背後原因很簡單,一是生物實驗的方法,本身能產生的數據就很有限;二是以往的藥物發現大多以真實物理世界篩選爲主,以動物實驗作爲驗證主體,實驗中常見的是隻去記錄好的、良性結果的數據,而被篩出去的不成功產物,這些數據則沒有被記錄,不成功不一定意義等於0,可能是0.2、0.3、0.4,但很多高質量的數據其實被丟掉了;三是藥企可能產生過很多數據,但是他們又積累了多少呢?因爲這些數據的存儲、整理都是很高的成本。所以,藥企並沒有想象中的那麼多數據,就算有一些,也遠遠不足以做大模型。
《潮頭》:那麼在數據缺口問題上,你的解決辦法是什麼?
劉維:我們最後在北京、蘇州兩地,各建了上萬平的高通量實驗室,原因其實就是很多行業的數據採集技術和標準,並不符合AI需求。我們自己建立實驗室,目標就是要去重新塑造這樣的流程和技術標準,並且把它反推給行業。
但是我們更核心的解決方案是更AI化的,我們希望聚合公開數據實現海量的語料爲大模型所用。在數據話題上,其實生命科學比起其他行業有個優勢,出於行業監管的原因,這個領域有極爲大量的科學研究數據必須公佈,比如臨牀數據、藥物實驗結果等等,科學論文更是非常活躍。我們現在已經構建了世界最大的一個生命科學數據集,萬億規模的數據圖譜,這也是兩年多來做出的一個比較大的投入,裡面納入了來自2億篇論文,超1億篇專利,幾百萬篇類似於FDA報告的專業文檔,以及幾千個不同的數據庫的數據,這種體量的行業數據是任何一家企業遠遠無法積累到的,而這些數據的獲取,處理,數據工程又構成了非常深的護城河。
《潮頭》:在你看來,生命科學AI大模型將如何幫助行業降本增效?
劉維:一個在於降本,以往的藥物發現大多以動物實驗作爲驗證主體,一輪動物實驗要花費幾個月的時間、幾百萬的成本,現在可以直接通過大模型生成預測,前面的實驗環節會大大節約(成本)。
還有一個在於提效,全球範圍每年可能要花費幾千億美金在臨牀試驗裡,但其實很多都是在浪費,因爲後面的失敗概率很高。比如,有很多失敗是一開始就埋下的,前期參數就存在問題,越拖到後面造成的成本損耗越大。未來,在foundation model驅動下,後面明知會失敗的事情,前面這些環節就不要做了。這對於從0到1的創新發現,可能提高的是很多年的效率。
聚焦人才
組建一支真正與國際接軌的團隊
《潮頭》:中國的通用大模型整體發展落後於美國,但令人意外的是,百圖生科做出了生命科學領域最大的模型,而且是最領先的,這是爲什麼?
劉維:我們做得夠早,從2020年開始做這個事,在整個行業裡,無論是做生命科學的foundation model,還是作爲一家獨立公司做foundation model,2020年都是很早的。其次,我們還很快,這個“快”體現在萬億規模的數據圖譜構建,我們利用了中國非常好的工程優勢,我覺得在中國可能比美國要快10倍。
《潮頭》:怎麼講?爲什麼能比美國快10倍?
劉維:在數據圖譜的構建過程中,其實有大量的數據工程工作,大量的工具開發工作,背後都回歸到了人的努力程度,跟人員的成本和工程的組織效率息息相關。例如,數據標記工作,我們高峰期大概有上百人的專業團隊專門在做,還有幾百人的兼職。
同樣是疫情造成進出辦公室不便,我們在國內很多同事仍然堅持在實驗室裡,而美國有的公司長期work from home直到現在還沒有恢復。當然,美國有它的創意、創新優勢,但涉及到大的系統工程的執行問題,這就是我們見長的方向了。這也是我們一直希望能夠發揮全球化的優勢,即便前兩年疫情的原因,地緣政治的原因,都帶來很多的挑戰和代價,但我們還是堅持這麼做,原因很簡單,我還是相信在前沿科技領域大家需要全球化合作,也只有合作才能把市場上各種有效要素組織起來,去做一個前沿突破型的公司。
《潮頭》:在生命科學這個領域裡,國內不管是科研能力還是論文數量,距離世界頂級水平都還存在差距。這種背景下,要如何保持技術先進性和高水平的研究能力,做到與國際頂級水平接軌?
劉維:我認爲這點恰恰是我們比較有優勢的。在公司創立之初,我們就希望這是一家真正國際化的企業,一開始就在硅谷和中國兩地設立了團隊進行運營。從人的角度來講,我們創始團隊一直真正在全球領域去做前沿投資,無論是在AI領域,還是在生物領域,我們在美國投了非常多主流的AI和生命科學項目,使得我們有人脈,能夠組建這樣一支真正與國際接軌的團隊。
正因此,我們當年開始做這家公司的時候,就找來了一些足夠全球影響力的團隊成員,和更多的像Robert·Gentleman這樣的核心科學顧問,他是R語言的發明人,現任哈佛醫學院計算生物醫學中心創始主任,這種global背景人才的團隊組合,使得我們能夠設計面向未來的架構,構建起這樣大規模的數據。
《潮頭》:2020年,你已經在硅谷看到了OpenAI這樣公司的出現,但不管是大模型還是ChatGPT,這些信息傳導到中國好像慢了很大一拍,今年初不少投資人面臨大模型熱還有些措手不及。爲什麼會出現這種狀況?
劉維:我覺得這幾年慢是很明顯的,以前非常頻繁的交流和人才迴流,這些年基本停下來了。以前我們做投資的時候,會發現很多華人在美國做到一定位置之後,他可能想要創業,不少人願意回到中國看機會,自然就帶回了很多比較新的東西。
但這幾年,各種變化糾纏在一起,這種力量在減弱。現在美國大模型也很熱,但不是今年纔開始熱,而是過去幾年一直有熱度。今天,美國更關注的是做專業垂類的foundation model,不是在垂類裡用GPT寫小作文,而是垂類裡頭的foundation model或者next generation foundation model。但在中國,很多人還是在“卷”GPT的copy cat。
《潮頭》:現在有一股大模型扎堆創業的熱潮,不斷有新的挑戰者入局,每個大廠似乎都要去做一個自己的大模型,你怎樣看待這波創業潮?什麼樣的團隊或產品才能走到最後?
劉維:首先說做foundation model這個角度,第一個活下去的要素是,你真的在做foundation model。我個人覺得,今天市場上還很多是在蹭熱點,有人說我在做大模型,但人家沒說是做千億參數的大模型,沒說是自己架構的基礎模型,只是一個“大”的標籤,可能還是原來的AI。說實話,去做大模型,搞大模型訓練,是很高的門檻。一個真正千億參數的大模型,至少得有幾千塊卡的資源和算法工程能力,要有萬億token的獨特語料,不然就不能訓練大模型。把各種泡沫都撇掉之後,誰是真實去做這個東西的,大家心裡有數。
第二個問題是,在戰略上有沒有合理路徑,能付得起大模型的成本。互聯網大廠去做大模型,在算力、數據、應用場景上,有先天的優勢。初創公司做這件事,如果你做的這個領域並不稀缺,或者說已經有很多競爭了,那麼你還能不能得到合作的機會?
第三個,能不能構建一個多元化的人才戰略。我覺得大模型真正的競爭門檻在於多元化人才,這是個很系統的工程,是跨模態的。比如我們有的人要懂蛋白,有的人要懂細胞,有的人要懂算法工程,有人要懂如何拿大模型的輸出去真的做藥而不只是發個論文,在這麼複雜的機理裡面,每一層都要找到合適的人才,能不能吸引這麼一個多元化的團隊願意一起幹,這個也很重要。
商業化提速
專注“Model as a Service”
《潮頭》:目前公司的主要合作伙伴有哪些?
劉維:合作伙伴基本上兩類,但是大家目的都是一樣的,都是想做成創新的項目。一類是大型的藥企、大型的石油公司、大型的工業公司,這部分可能短期的付費能力更強,他們可能上來就願意出錢,能付成百上千萬美金的費用,來調用我們的任務模型或者大模型。
另一類是研究中心、中小型公司以及高校著名的實驗室,這部分可能不涉及短期給我們付費,但大家可以共同投入,分享未來收益,這些夥伴的魅力在於,他們有非常多的前沿研究和數據。這都是我們需要的,今天任何一個合作伙伴的數據都不夠多,但數據飛輪把越來越多夥伴聯合起來,可以創造顯著的數據價值。
《潮頭》:在商業模式上,你們的定位是和大模型公司一樣,還是有一天也會去做垂直應用?
劉維:我們和其他大模型公司的邏輯是一樣的,我們覺得是“Model as a Service”(MaaS,模型即服務)。我們當然自己也有能力把一些項目往後推,甚至直接去做臨牀等等,但是總要做一個選擇,是把所有的精力放在去做一個具體的創新藥上,還是這個平臺圍繞多個項目都能做出貢獻,我們選擇了後者。
原因也很簡單,每一個創新項目往後走,行業縱深其實都很深,而在這些行業縱深裡,一定都有些公司已經很有優勢了,你爲什麼要重複他們的工作呢?從立場來看,又當裁判又當運動員,反而會錯失更多優質合作。我們會利用大模型和任務模型設計很多具體的分子,但是會依靠不同夥伴來推動到後期階段。
《潮頭》:大模型的調用方法有哪些?
劉維:一個是合作伙伴來調用已有的任務模型做項目,這個過程中,合作伙伴或者給數據、或者給錢、或者給到項目權益。大家共同投入,也在幫我們迭代模型。
還有一類客戶,他們有更創新的題目,已有任務模型無法滿足,他們可以直接調用大模型,基於xTrimo開發和調優新的任務模型,這部分現在也是快速增長的需求,我們今年有幾個大型交易,都跟這個方向有關。
《潮頭》:過去很多雲廠商想要撬動央國企,但發現想要讓這些企業數據上雲並不是件容易的事情,大家都很擔心數據的安全性。國內這些大型藥企會願意把數據喂到你的大模型裡嗎?
劉維:這是挺好的話題,我覺得這裡面核心有幾層,一是生命科學行業整體上的開放程度要高得多,尤其在discovery(創新)階段,因爲這個階段其實絕大部分數據來自於自然觀測,他不是把成功的、值錢的數據給到我,而是把他們歷史上不夠成功的數據給我,但這些數據也很有價值,這些不夠成功的數據留在他們自己手裡,其實也做不出來什麼,就沒有價值了,所以整體上大家願意做研發合作。你也要有實力去證明,能夠利用他們這些有價值但不夠完美的數據,真的把東西做出來。
其次,要感謝我們的技術實力,從技術角度講,很多企業基於我們的大模型做的任務模型,不一定要把數據給到我,實際可以把數據放在他們自己的隔離域裡,我們也提供了這樣一種方案,方便他們調動大模型。因爲這樣的技術可行性,也使得他們並不是一定要把數據的所有權轉移給我,但是我的模型也能得到這些數據的幫助。
《潮頭》:比如電商平臺判斷產品成不成功,可以看GMV、營收、用戶數據等都很直觀。但大模型產業目前還處在非常早期的階段,你對所推出的產品和服務,成與不成的判斷標準是什麼?
劉維:我們現在整體架構大概分爲四層,第一層基座是AI大模型“xTrimo”;第二層是任務模型,我們基於大模型研發的多種任務模型構成的AIGP平臺;第三層是利用任務模型針對行業/領域不同的項目,調用模型進行的分子設計項目,也就是真正的商業化;此外在大模型下其實還有一層是數據圖譜,這四層是一個嵌套的關係,設計項目對任務模型,任務模型對大模型,大模型對數據,一層層的反饋和牽引提升。
這其實是一套工程體系,每一層環節我們都會定義不同的評測指標,企業的判斷標準也隨着發展階段在變。兩年前我們會在意數據圖譜的規模指標,一年前是大模型的參數和性能,半年前任務模型的多個指標是衝刺目標,現在對於項目的完成度和商業化的總用戶數、總收入和項目價值開始爬坡,一步步向前迭代。
《潮頭》:兩年前採訪時,你講到商業化並不是百圖生科現階段最核心的任務,主要還是專注於技術突破。現在再聊這個話題,今年你給公司制定商業化的目標了嗎?
劉維:兩年前我說先把數據做了,一年半前我們在解決大模型的技術突破,半年前我們在確保一些項目能夠基於任務模型有一些進展,這個塔逐漸地往上,一層一層嵌套走到今天,今年我們開始爬這個塔尖,也就是商業化。
今年,我們提出了AIGP概念,也是吹響了商業化元年的號角。在此之前,我們其實有少量幾家試驗型的客戶,現在則開始正式進入到客戶拓展的週期。今年,我們實際上給自己有一個商業化的目標,但並不是絕對以收入爲核心,它永遠是一個平衡的事情,收入,項目價值,用戶數量,領域分佈,這個綜合指標背後映射着當前的市場認可和未來的想象空間,對於一家大模型公司而言都必不可少。