聶再清:AI製藥的成功,不是「讓AI獨立做藥」
GPT-4的發佈在全球掀起了“煉大模型”的熱潮。面對這一新藍海,科技巨頭、初創企業和科研院校相繼開啓佈局。有統計稱,截至今年4月底,國內共推出了超300 個大模型[1]。
在生命科學和生物醫藥領域,生成式大模型的開發同樣風起雲涌,水木分子也是其中的“弄潮兒”。水木分子由清華大學智能產業院(AIR)孵化成立,清華大學國強教授、AIR首席研究員聶再清教授擔任首席科學家。
自2023年6月成立以來,水木分子已經開發了ChatDD-FM、BioMedGPT、LangCell和MV-Mol等多個多模態生物醫藥基礎模型。如此短的時間,水木分子是如何實現這些成就的?生物大模型在未來究竟有哪些應用場景?大模型對於賦能AI製藥能夠帶來怎樣的幫助?未來3-5年,大模型的主要發展方向有哪些?
近⽇,帶着這些問題,醫藥魔方Pro有幸採訪到了AIR首席研究員、水木分子首席科學家聶再清教授。
聶再清博士,現任清華大學國強教授、AIR首席研究員,水木分子首席科學家。聶再清博士於2004年獲得美國亞利桑那州立大學博士學位,師從美國人工智能學會前主席Subbarao Kambhampati教授,此前曾就讀於清華大學計算機科學與技術系。2017年10月,聶再清博士加入阿里巴巴,任阿里巴巴人工智能實驗室北京研發中心負責人和阿里巴巴天貓精靈首席科學家,也是教育部人工智能專家組諮詢組專家。此前,聶再清博士就職於微軟亞洲研究院,任首席研究員,主要負責微軟自然語言理解、實體挖掘的研發工作。在微軟期間,他是微軟學術搜索、人立方、企業智能助理EDI的發起人和負責人,也是微軟自然語言理解平臺LUIS的技術負責人。
醫藥魔方Pro:您最初想開發生物模型的初衷是什麼?從最初想法到成功實現花了多久?
聶再清教授: 以ChatGPT爲代表的大語言模型展現出令人驚喜的智能涌現與觸類旁通的能力。原子、分子可以看作是一種化學語言編碼,以蛋白質爲基礎的生命現象本質是一種自然進化的語言編碼。
我們最初的想法是,希望基於創新的多模態大模型框架,實現將人類總結的知識(文本語言大模型)與氨基酸、分子、蛋白等化學、生物語言大模型壓縮到統一的大模型框架內,進行編碼與學習,打通自然語言與化學、生物編碼語言,這樣有助於理解生物編碼語言機制,真的做到一個智能的生物醫藥研發助手。
從最初的想法到實現,經歷了兩年左右的時間。
我們在2022年底提出BioMedGPT全新的多模態語義理解框架。2023年4月,我們先開源了輕量科研版BioMedGPT1.6B,驗證了將文獻、分子、蛋白、測序、知識圖譜等數據壓縮到統一的多模態大模型框架內,可使模型具備“融匯貫通”的能力,在分子性質預測、藥物-靶點親和力預測、性質預測、藥物敏感性預測、分子-文本跨模態檢索、分子-文本跨模態信息生成等多項任務上優於單一專用模型,從研究層面驗證了技術可行性。2023年8月,AIR聯合水木分子開源了全球首個可商用多模態生物醫藥百億參數大模型BioMedGPT-10B。
整個過程雖然充滿挑戰,但看到最終的成果,所有的努力都感覺非常值得。
醫藥魔方Pro:您是算法出身,又深耕互聯網多年,您是在什麼契機下關注到生物醫藥領域,並決定擔任水木分子首席科學家的?
聶再清教授: 想開發一個生物醫藥研發助手的想法,其實跟我之前的工作經歷關聯挺緊密的。
在微軟的時候,我主要就是搞學術搜索,幫助科研人員從海量的論文裡找到他們需要的信息。後來去了阿里巴巴,又帶領團隊孵化出了天貓精靈,這其實也是個智能助手,通過對話來幫助用戶解決問題。到了清華AIR,我負責的智慧醫療項目,又讓我接觸到了醫藥研發,這一塊對數據的處理和分析要求特別高。
所以,當我想到把這兩個領域結合起來,用對話式助手來幫助藥物研發,無論是學術搜索還是智能助手,核心都是信息的獲取和處理,而這正是藥物研發中非常需要的。參與孵化水木分子正是基於這樣的一個初衷,打造生物醫藥行業基礎大模型及新一代對話式生物醫藥研發助手ChatDD,讓所有的公司都能開發創新藥物,所有的生物醫藥研發人員、從業人員都能有隨叫隨應的高智能助手。
醫藥魔方Pro:能否請您整體介紹一下您的研究團隊近期在生物醫藥模型研究方面的進展?
聶再清教授: 我們近期在生物模態數據的表示學習、生物與文本跨模態模型研究方面取得了多項研究進展,開發了LangCell單細胞與文本跨模態大模型、分子與文本的跨模態大模型MV-Mol;還開發了能夠同時處理結構化和非結構化數據,以支持廣泛的人工智能藥物發現任務的KEDD;以及與北京大學、和南京大學團隊合作的跨尺度原子級蛋白質表示學習模型ESM-AA、分子3D表示學習Mol-AE。以下分別簡要介紹一下這幾項研究工作:
LangCell
細胞身份的識別,是生物科學領域的一大熱點。這不僅關乎細胞的“戶口調查”,還關係到它們在組織中的“社交關係”,以及它們對“生物信號”和“環境變化”的敏感反應。LangCell通過學習富含細胞身份信息的知識性文本,有效提升了單細胞轉錄組學表示學習能力,並解決了數據匱乏場景下的細胞身份理解任務,幫助研究人員更高效、更準確地從單細胞數據中提取有用的生物學信息,加速新細胞類型的發現和理解。目前LangCell可以實現對細胞身份的精準識別,LangCell模型有望成爲預測藥物反應和個性化醫療的重要工具[2]。
MV-Mol
針對傳統的分子表示學習模型在處理來自不同來源的異構數據時,捕獲不同視角的分子信息方面存在不足,我們在KDD2024發表的論文提出了MV-Mol模型,利用文本提示(text prompts)顯式地對不同視角的信息進行建模,並通過融合架構提取基於視角的分子表示。MV-Mol是首個解決分子表示學習中多視角挑戰的工作,它通過自然語言描述不同視角,並利用視角提示之間的語義關聯,來捕獲共識和互補特徵[3]。
KEDD
目前,多模態方法在整合分子結構、知識庫中的有序信息以及醫學文獻中的非結構化數據時,通常只關注結構化知識或非結構化知識的其中之一,限制了對生物分子的全面認識,且現有技術還未能解決新藥物和蛋白質在模態信息上的缺失問題。
我們團隊開發的KEDD(Knowledge-Empowered Drug Discovery)框架是一個全面的深度學習解決方案,能夠同時處理結構化和非結構化數據,以支持廣泛的人工智能藥物發現任務。這種方法使得KEDD在預測藥物-靶標相互作用、藥物屬性、藥物-藥物相互作用以及蛋白質-蛋白質相互作用方面,分別比現有最先進模型提高了5.2%、2.6%、1.2%和4.1%的準確率。KEDD提供了一個創新的端到端深度學習框架,通過整合多種模態的知識,有效應對了藥物發現過程中的多個難題[4]。
KEDD在Yamanishi08和BMKG數據集上熱啓動(藥物和蛋白質是隨機劃分的)和冷啓動(測試集中的藥物、蛋白質和兩者在訓練過程中都是不可見的)條件下藥物-靶標相互作用預測的性能比較
ESM-AA
傳統的蛋白質語言模型(PLMs)主要在殘基(氨基酸)尺度上運作,限制了它們在原子尺度上提供信息的能力。這就像是用一個模糊的鏡頭觀察世界,雖然能看到大致的輪廓,但細節卻難以捕捉。
我們在ICML2024發表的論文中提出一種創新的蛋白質語言模型ESM-AA,它結合了殘基和原子尺度的信息,實現了在兩個尺度上的操作,並能夠接受蛋白與分子的原子級信息輸入,從而提供了更全面的理解並預測蛋白質與小分子之間的相互作用,這對藥物設計和酶工程等領域具有重大意義。ESM-AA的核心價值體現在其多尺度原子級統一建模能力、新穎的多尺度位置編碼、高效的預訓練策略,以及在蛋白質-分子相互作用任務中的卓越性能。它不僅超越了傳統方法,還在標準分子基準測試中表現出色,顯示出統一分子建模的巨大潛力[5]。
MOL-AE
在藥物發現、分子屬性預測和化學反應預測等領域,三維分子數據包含的三維結構信息提供了更全面的分子信息,因此對3D分子的表示學習扮演着至關重要的角色。我們在論文中提出了MOL-AE,通過自編碼器(Auto-Encoder)模型和一種新穎的3D Cloze Test目標,顯著提升了3D分子建模的性能[6]。
醫藥魔方Pro:人工智能浪潮下,“AI製藥”是風口還是泡沫?您覺得“AI製藥”怎樣纔算真正的成功?
聶再清教授: 首先,我並不認爲AI能夠完全取代科學家,直接研發出新藥來。科學家的經驗和直覺是非常寶貴的,但人腦畢竟有限,不可能覆蓋所有生物醫學領域的知識,這就是AI可以發揮作用的地方。AI擅長處理和分析大量的文獻專利、數據、調用算法工具,通過專家提問方式激發大模型,將相關信息組織出來,這樣就能大大提升藥物研發的效率。
ChatDD的目標就是建立一個高效的聯結,把科學家的經驗和直覺,與分子、蛋白、基因、海量數據、知識,以及各種藥物發現和設計的工具結合起來。通過這種方式,科學家的大腦和AI系統能夠相互補充,共同推動藥物研發的進程。
所以,"AI製藥"的成功,並不是看AI能否獨立完成藥物研發,而是看它能否成爲科學家的得力助手,幫助他們更快地找到解決方案,提高研發的成功率。如果AI能夠做到這一點,那麼它就不是泡沫,而是真正的行業創新和進步。
展望未來3-5年的發展趨勢,我認爲人工智能產業應用領域將圍繞大模型核心技術展開,大模型將從通用走向各行各業垂直應用,真正成爲各行各業的智能操作系統。
針對大模型應用於生物醫藥領域技術發展,我認爲,首先,生物信息的表示學習有很大空間,如何統一的表示不同尺度的生物數據,如化學小分子、氨基酸、蛋白質等;其次,關於生物編碼語言和自然語言如何更好的對齊,例如怎麼描述分子的結構和功能,怎麼解釋突變帶來的蛋白功能改變;最後,關於大模型智能體如何更好的使用專業知識、調用各種工具和外面的數據,更有效地和真實物理世界聯結,例如和溼實驗平臺結合去更好的完成任務。
-上下滑動查看參考資料 -
[1]https://www.nbd.com.cn/articles/2024-05-17/3393020.html
[2]Zhao S, Zhang J, Wu Y, Luo Y, Nie Z. LangCell: Language-Cell Pre-training for Cell Identity Understanding. arxiv:240506708[q-bioGN,csAI,csCL]. Published online May 9, 2024.. (ICML 2024)
[3] Luo Y, Yang K, Hong M, et al. Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge. arxiv:240609841[csLG,q-bioBM]. Published online June 14, 2024.(KDD 2024)
[4] Yizhen Luo, Xing Yi Liu, Kai Yang, Kui Huang, Massimo Hong, Jiahuan Zhang, Yushuai Wu, Zaiqing Nie. Toward Unified AI Drug Discovery with Multimodal Knowledge. Health Data Sci. 2024;4:0113.DOI:10.34133/hds.0113
[5] Zheng K, Long S, Lu T, et al. ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling. arxiv:240312995[q-bioBM,csCE,csLG]. Published online March 5, 2024.(ICML 2024)
[6] Yang J, Zheng K, Long S, et al. Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective. Published online April 15, 2024. doi:10.1101/2024.04.13.589331(ICML 2024)
Copyright © 2024 PHARMCUBE. All Rights Reserved.
歡迎轉發分享及合理引用,引用時請在顯要位置標明文章來源; 如需轉載,請給微信公衆號後臺留言或發送消息,並註明公衆號名稱及ID。
免責申明:本微信文章中的信息僅供一般參考之用,不可直接作爲決策內容,醫藥魔方不對任何主體因使用本文內容而導致的任何損失承擔責任。