Science重磅:Google DeepMind又一突破,有望解決人類遺傳學難題
人工智能(AI)有望解決人類遺傳學中的最大挑戰之一。
剛剛,來自 Google DeepMind 的研究團隊基於 AlphaFold 方法論創建了 AlphaMissense——通過利用蛋白質序列數據庫和變異結構背景,可以識別致病的錯義突變和未知致病基因。
據介紹,與許多現有的類似工具(變異效應預測器或 VEPs)相比,AlphaMissense 表現出了更優越的能力。
具體來說,AlphaMissense 成功預測了 19233 個標準人類蛋白質的 216 百萬種可能的單一氨基酸變化的致病性,得到了 7100 萬個錯義突變的預測。隨後,AlphaMissense 更是成功預測出 89% 的錯義突變,其中 57% 可能是良性的,32% 可能是致病的。
相關研究論文以“Accurate proteome-wide missense variant effect prediction with AlphaMissense”爲題,已發表在權威科學期刊 Science 上。
在一篇同期發的觀點文章中,愛丁堡大學的計算蛋白質生物學教授 Joseph A. Marsh 和劍橋大學研究院兼維康桑格研究所細胞遺傳學負責人 Sarah A. Teichmann 評價道:
“雖然該研究無疑對變異解釋和優先處理有所幫助,但重要的是不要將這些標籤與這些術語具體的臨牀定義混淆,後者依賴於多條證據。”
值得一提的是,Google DeepMind 已經將 AlphaMissense 的所有預測免費提供給了研究社區,並開源了 AlphaMissense 模型的代碼。
成功預測89%的錯義突變
錯義變異是指一種可以改變蛋白質氨基酸序列的遺傳變異。致病性錯義變異會嚴重破壞蛋白質功能,降低生物體適應性,而良性錯義變異的影響有限。
在超過 400 萬個觀察到的錯義變異中,僅有約 2% 被臨牀分類爲致病性或良性,對剩餘未知的變異進行分類是人類遺傳學中的一個重要挑戰。缺乏準確的錯義變異功能預測限制了罕見疾病的診斷率以及針對潛在遺傳原因的臨牀治療的開發和應用。
雖然多重分析變異效應(MAVEs)系統地測量蛋白質變異的效應並可以準確預測變異的臨牀結果,但 MAVEs 實驗需要高昂的費用和勞動力,因此蛋白質組範圍內的變異致病性調查仍然不完整。
機器學習方法可以通過利用生物數據中的模式來預測未註釋變異的致病性,從而縮小這種變異解釋差距。AlphaFold 的成功已經證明,可以使用蛋白質序列作爲輸入來預測大規模的高精度蛋白質結構,而這種蛋白質結構模型可以作爲理解蛋白質生物學其他方面(如變異致病性)的基礎。
在該研究中,藉助 AlphaFold 的方法論,AlphaMissense 結合了現有策略的三個元素:
1)基於人口頻率數據的弱標籤訓練,避免使用人工註釋,從而避免了循環性;
2)通過使用無監督的蛋白質語言建模任務來學習在序列上下文中條件化的氨基酸分佈;
3)通過使用 AlphaFold 派生的系統來整合上下文。
據論文描述,AlphaMissense 的訓練分爲兩個階段:結構預訓練和變異微調。其中,預訓練階段與 AlphaFold 中描述的相同,但在蒙版多序列比對重建損失上增加了更高的權重;在微調期間,模型被優化,可以同時預測變異的致病性和參考序列的結構。
以往研究表明,良性訓練變異是基於在人類和其他靈長類物種中頻繁觀察到的變異,這些變異是根據 PrimateAI 方法來定義的,而致病性訓練變異則是從未在人類羣體中觀察到的變異中進行抽樣,抽樣權重取決於三核苷酸上下文和基因。
AlphaMissense 不預測突變對蛋白質結構的影響或對蛋白質穩定性的其他影響。相反,它利用相關蛋白質序列的數據庫和變異的結構背景來生成一個介於 0 和 1 之間的分數,這個分數評估了變異可能是致病性的概率。連續的分數允許用戶選擇一個閾值,以符合其精確度要求,從而可以將變異分類爲致病性或良性。
AlphaMissense 將 7100 萬個可能的錯義變異中的 89% 分爲可能致病或可能良性兩類。相比之下,僅有 0.1% 的變異已被人類專家確認。
AlphaMissense 在廣泛的遺傳和實驗性基準測試中實現了最先進的預測,而且完全沒有明確地在此類數據上進行訓練。
此外,該模型在用於分類 ClinVar(一個關於人類變異與疾病關係的公共數據存檔)中的變異時表現也優於其他計算方法。
有望解決人類遺傳學難題
毫無疑問,AlphaMissense 的預測闡明瞭變異對蛋白質功能的分子影響,這有助於識別致病性錯義突變和未知致病基因,同時提高罕見遺傳疾病的診斷率。此外,AlphaMissense 還將促進專門的蛋白質變異效應預測器的進一步發展。
然而,Marsh 和 Teichmann 也指出了 AlphaMissense 的一個侷限性:目前其預測器的結構組成部分並沒有考慮到大多數蛋白質會組裝成具有多樣四聚體結構的複合物或凝聚體。對於形成複合物的蛋白質突變,可能會導致疾病,但僅考慮單體結構時這種方式可能並不明顯。
此外,儘管許多與疾病相關的突變通過蛋白質不穩定性或複合物組裝的破壞導致功能喪失,但在其他情況下,突變蛋白質通過顯性負效或增效效應引發疾病。
因此,有趣的是觀察 AlphaMissense 在非喪失功能變異方面的表現,這些變異通常對氨基酸的干擾較小,幾乎所有先前測試過的變異效應預測器(VEPs)都難以準確預測這類變異。
最終,結合蛋白質四聚體結構的信息,可能可以通過預測蛋白質複合物結構的算法來實現,這有望在變異效應預測領域帶來更大的改進。