語言模型生成不存在的蛋白質,圖靈獎得主LeCun:蛋白質編程來了

機器之心報道

編輯:陳萍、小舟

用機器學習去研究蛋白質結構預測,吸引了衆多科技大廠、科研機構的目光紛紛投入其中,這期間,他們也產出了重要成果。

如在 2021 年 《Science》的十大年度突破中,DeepMind 攜預測蛋白質結構的 AI 模型 AlphaFold 上榜,在這項工作的基礎上,研究人員現在已經使用人工智能來設計可用於疫苗、建築材料或納米機器的全新蛋白質。

在《Science》今年 9 月發表的一篇論文中,華盛頓大學醫學院生物化學教授 David Baker 等研究者提出,AI 可以通過兩種思路從頭設計蛋白質。

當然,對這一領域的熱情,自然也少不了 Meta 的加入,就在剛剛過去的 11 月,Meta 拿下微生物領域蛋白質結構預測,開放 6 億 + 宏基因組蛋白質結構圖譜,這是首個蛋白質宇宙「暗物質」的綜合視圖。

時間剛剛過去一個月,在 FAIR 公佈的最新兩篇論文中,該研究發現 ESM2 語言模型通過學習深層語法,就能生成天然蛋白質以外的新蛋白質,並可以編程生成複雜和模塊化的蛋白質結構。其中 ESM2 模型參數爲 150 億,是迄今爲止最大的蛋白質語言模型。

Yann LeCun 在推特上表示:FAIR 開發的新蛋白質設計系統,可以產生與自然界中觀察到的蛋白質完全不同的蛋白質;在這個蛋白質設計系統之上,蛋白質可以通過一種編程語言來指定。

在論文《Language models generalize beyond natural proteins》中,ESM2 通過學習深層語法,成功設計了 152 種蛋白質。

論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf

在論文《A high-level programming language for generative protein design》中,該研究實現了一種用於生成蛋白設計的高級編程語言。這使得編程生成具有複雜和模塊化結構的大蛋白質和複合物成爲可能。

論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf

ESM2 設計蛋白質

在論文《Language models generalize beyond natural proteins》中,研究者專注於兩個蛋白質設計任務:

儘管語言模型僅針對序列進行訓練,但該研究發現它們能夠設計結構。在該研究的實驗結果中,一共生成了 228 種蛋白質,設計成功的比率是 152/228(67%)。

在 152 個實驗成功的設計中,有 35 個與已知的天然蛋白質沒有明顯的序列匹配。

對於固定主幹設計,語言模型成功爲 8 個經過實驗評估的人工創建的固定主幹目標生成了蛋白質設計。

對於不受約束生成的情況,採樣的蛋白質涵蓋了不同的拓撲結構和二級結構組成,結果具有很高的實驗成功率 71/129(55%)。

該研究用語言模型設計的蛋白質反映了連接序列和結構的深層模式,包括已在自然結構中出現的基序,和在已知蛋白質的結構環境中未觀察到的基序。實驗結果表明,語言模型雖然只接受序列訓練,但通過學習深層語法就可以設計蛋白質結構,並且設計出自然界中未出現過的蛋白質。

下圖 1 是 ESM2 模型設計蛋白質的總體流程:

該研究通過分析比較,歸納出語言模型在蛋白質設計過程中的作用,如下圖 2 所示:

實驗結果表明,ESM2 模型能夠生成自然界已有的蛋白質結構和全新的蛋白質結構:

一種用於生成蛋白質設計的高級編程語言

對於蛋白質來說,我們不能將其分解爲易重組部分,因爲蛋白質序列的局部結構糾纏在其全局背景中,傳統的設計方法試圖確定一組基本的結構構件,然後在組裝成更高階的結構。然而,現有方法還不能達到真正可編程性所必需的高度組合複雜性。

該研究從模塊化和可編程性入手,將兩者置於更高的抽象層次,蛋白質設計者只需要重新組合高級指令,然後在生成模型上執行指令即可。

他們提出的生成蛋白質設計的編程語言,允許設計人員指定直觀、模塊化和分層的程序。該編程語言首先需要一個語法樹 (圖 1A),由末端符號 (即樹的葉子) 和非末端符號 (即樹的內部節點) 組成,前者對應一個獨特的蛋白質序列 (在蛋白質中可能重複),後者支持分層組織。

此外還需要一個基於能量的生成模型。首先,蛋白質設計器指定一個高級程序,該程序由一組按層次組織的約束組成(圖 1A)。然後,該程序編譯爲一個能量函數,用於評估與約束的兼容性,約束是任意的且不可微的(圖 1B)。最後通過將原子級結構預測(由語言模型支持)合併到能量函數中,可以生成大量複雜的蛋白質設計(圖 1C)。

下圖爲模型生成的高置信度結構(圖 2A 和 2B)。

圖 2。

下圖爲生成模型產生了一組不同的高置信度結構(圖 3B、S2A 和 S2B),包括自然界中蛋白質的各種摺疊(捲曲螺旋、β 螺旋槳狀、β 桶狀和 TIM 桶狀)以五角星形狀蛋白質(圖 3B 中的第 1 行和第 3 列)和立方體狀蛋白質 (圖 3B 中的第 2 行和第 2 列)。

圖 3。

瞭解更多研究,請參考原論文。