Basecamp Research 豪擲 6000 萬打造生物學版 GPT

雖然 OpenAI 和 Anthropic 這類公司持續推廣通過日常語言向人工智能代理提問、撰寫提案或者畫圖的這種想法,但一家名爲Basecamp Research的倫敦初創企業已籌得 6000 萬美元,用於開拓一個新領域:一種人工智能,其不僅能夠回答任何與生物學和自然界生物多樣性有關的問題,還能夠產生人類自身難以實現的新見解。

“在當下,人們在訓練[生物學]模型方面存在着巨大的數據差距,”Basecamp Research 的首席執行官格倫·高爾(Glen Gower)在一次採訪中說。“世界上一些頂尖的製藥公司正在訓練的模型根本沒有充分知曉自然界。”

這家初創公司針對這個問題的解決方案可謂雄心勃勃。

高爾和他的聯合創始人奧利弗·文斯(Oliver Vince)均爲生物學博士,他倆在牛津大學讀本科時就相識了。

文斯表示,“Basecamp Research”這個名字源於他們在冰蓋上生活的那段時光,當時他們在自己製造的硬件上做 DNA 測序。

“我們開創了首個移動 DNA 測序實驗室,”他說。他補充道,那些組件他們現在已改造成了“非常小的單元”,以便爲新的初創企業收集數據。

因此,Basecamp Research 並非試圖去弄清楚怎樣給幾十年來產生的衆多兆字節的信息和大量的生物學研究成果帶來秩序,而是首先精心地直接收集原始數據,從頭開始構建其模型,以打造出一個在生物學方面比任何人見解都要好的人工智能,僅僅是因爲可以利用的數據的廣度。

“我們採用探索的組合方式——實際上就是環遊世界去獲取數據,瞭解溫泉、火山之類的東西——並將其與一個純粹專注於訓練大型語言模型的人工智能程序相結合,有效地爲大自然構建一個‘ChatGPT’,”高爾說。這家初創公司正在構建他所說的可能是同樣致力於自然界的“最大的計算集羣”來爲其提供動力。

正如 ChatGPT 這類工具的超能力在於能夠回憶並生成針對所提問題的自然語言迴應。Basecamp Research 打算做的事情也是如此。不同之處在於,世界上的信息範圍——文斯估計,我們僅設法捕獲了有關世界生物多樣性的約 1%的信息——這意味着我們人類當下甚至沒有能力提出正確的問題。或者,正如支持者、S32 的安迪·康拉德(之前是谷歌旗下 Verily Life Sciences 的首席執行官)所說:Basecamp Research 的平臺能夠“解決生物製藥行業甚至還不知道要提出的問題”。

“因此,(我們的平臺)不是理解文本或語音語言的東西,而是理解 DNA 的語言,理解生物學的語言,因此能夠超越人類在生物設計領域所能做的,”高爾斯接着說道。“我們傳統上在理解 DNA 方面非常糟糕,因此,如果給這些語言模型提供足夠的數據,它們真的能夠表現得非常出色。”

由巴黎公司 Singular領投的 B 輪融資,與 Basecamp Research 所描述的“多年合作”同時到來,合作對象是大衛·R·劉博士和博德研究所,這是一個跨越麻省理工學院和哈佛大學的主要生物醫學研究中心。該計劃將是使用這筆資金繼續建設這家初創公司,既通過與其他生物醫學和研究組織的合作,也通過積累更多數據來擴展其模型。

這筆資金是在這家初創公司呈現出一些顯著的發展勢頭之後到位的。高爾(Gower)稱,截至目前,它已在 25 個國家達成了 100 多項合作伙伴關係,與各組織合作,利用主要來源信息來擴充其數據庫,還有約 15 個組織正在藉助其人工智能助力構建新產品。這些產品的早期例子是寶潔(Procter & Gamble),致力於開發更具可持續性的新織物染料配方。

然而,除此之外,Basecamp Research 的規劃包含了協助組織開展藥物發現以及其他涉及理解和更好利用自然世界的重大難題。

雖然存在相關的商業交易,但它與博德研究所(Broad Institute)的合作揭示了可能的形式。當下,劉博士所領導的實驗室正在對用於製造基因藥物的“新型融合蛋白和其他大分子”進行研究,並且他們正在使用 Basecamp Research 的數據集來開發這些。

看起來不太可能的是,這家初創公司會有一個真正的“ChatGPT”式的界面。戈爾斯稱,目前他們看到更多的是在 B2B 基礎上工作的機會,而不是把資源投入到構建面向大衆的產品中。他補充說,這並不是說以後不會出現在其路線圖上。

(這似乎也是其他構建大型“科學”模型的公司所採取的方法:Jua,正在構建一個大型物理模型,最初的目標是那些需要更好地洞察天氣模式的組織。)