AI 打造全新螢光蛋白 歷經 5 億年自然演化的奇蹟或能人工再現
一般認為,蛋白質最早於約 37 億年前在地球上現身,從那時起,大自然便將它們塑造為如今所見的各種分子。然而,要是有辦法能人工模擬這個過程,而且速度快上許多,那會如何呢?
EvolutionaryScale 公司的一群研究人員宣稱,他們運用人工智慧(AI)的力量做到了這一點,甚至還生成了全新螢光蛋白的程式碼。
蛋白質是由一長串胺基酸所構成。其專業術語稱為序列,而序列上的差異決定了蛋白質最終的結構與功能。
研究人員在論文中寫道:「目前逐漸形成共識,在這些序列背後,存在著蛋白質生物學的基本語言,可透過語言模型加以理解。」倘若真是如此,那就有可能生成全新蛋白質的序列,其結構和功能可能與現有的蛋白質大不相同。
他們用來理解這門「語言」的工具是 ESM3,它是一種多模態生成式語言模型。用更通俗的話來說,它是生成式 AI 的一種,就像 OpenAI 的各種 GPT 一樣。但不同於用 ChatGPT 來寫作業,這個模型吐出的是蛋白質的程式碼。
它是基於 7710 億個獨特的「詞元」(AI 領域中資料的單位)進行訓練,這些詞元取自天然蛋白質序列和結構的資料庫,以及一些合成序列。總計,這些資料包含 31.5 億個蛋白質序列、2.36 億個蛋白質結構,以及 5.39 億個有功能註釋的蛋白質。
接下來,研究人員想看看它能否生成全新的蛋白質序列。於是,團隊要求模型生成新的螢光蛋白,提供不完整的「配方」,讓模型填補空缺。
模型成功做到了,它生成了一種先前未知的綠色螢光蛋白(GFP)變異體的序列和結構,這種變異體被命名為 esmGFP,而 GFP 常在細胞和分子生物學研究中使用。
據 EvolutionaryScale 表示,這種新蛋白質「在演化上與天然螢光蛋白有很大差異」,與在泡狀觸手海葵中發現的最接近的天然蛋白質 eqFP578 相比,序列相似性只有 53%。研究團隊在論文中稱,這種差異「相當於模擬了超過 5 億年的演化」。
然而,並非所有人都如此篤定。未參與這項研究的巴斯大學微生物生態與演化教授蒂芙尼・泰勒(Tiffany Taylor)在 2024 年(當時該研究還是預印本)向《生活科學》(Live Science)表示:「AI 驅動的蛋白質工程確實引人入勝,但我不禁擔心,我們可能過於自信地認為,自己能超越經過數百萬年自然選擇磨練出的複雜過程。」
儘管如此,正如泰勒所說,這是個有趣的概念。但它究竟有何用處呢?EvolutionaryScale 的網站稱,其模型是「科學家用以構想能捕捉碳的蛋白質、分解塑膠的酵素以及新藥物的工具」。
話雖如此,這能否最終成為現實仍無定數。目前,新發現的蛋白質僅在 AI 的意義上是「生成的」。
這項研究發表在《科學》(Science)期刊上。