當前位置:
首頁 > 科技 > AI 打造全新發光分子,自然界演化可能需耗時五億年

AI 打造全新發光分子,自然界演化可能需耗時五億年

科學家表示,人工智慧模型創造出了一種全新蛋白質,研究人員稱,若自然界有能力產生此物,那可能得耗費五億年的演化時間。

一項新研究指出,某人工智慧(AI)模型模擬了五億年的分子演化,創造出一種前所未知蛋白質的程式碼。研究人員稱,這種發光蛋白質和在水母及珊瑚身上發現的類似,可能有助於新藥研發。

蛋白質是生命的構成要素之一,在人體中發揮各種功能,像是增強肌肉以及抵抗疾病。這個被命名為 esmGFP 的模擬蛋白質,目前僅以電腦程式碼形式存在,但它蘊含著一種前所未知的綠色螢光蛋白的藍圖。在自然界中,綠色螢光蛋白賦予了發光水母和珊瑚發光的能力。

拼出製造 esmGFP 指令的字母序列,和已知最接近的螢光蛋白只有 58% 的相似度,後者是經人類改造自泡狀觸手海葵(Entacmaea quadricolor)身上的蛋白質,泡狀觸手海葵是色彩繽紛的海洋生物,看起來就像觸手末端有泡泡。其餘的序列是獨一無二的,要演化出這些變化共需 96 種不同的基因突變。研究顯示,這些變化若要自然演化,得耗時超過五億年。

去年,一家名為 EvolutionaryScale 的公司的研究人員,在一項預印本研究中揭露了 esmGFP 以及用來創造它的 AI 模型 ESM3。如今,獨立科學家已對這些研究結果進行了同行評審,相關成果於 1 月 16 日發表在《科學》期刊上。

ESM3 並非在常規的演化限制下設計蛋白質。相反,它是一個問題解決器,能填補研究人員提供的不完整蛋白質程式碼中的空白,並據此設計出基於所有可能的演化途徑而可能存在的東西。

研究共同作者、EvolutionaryScale 共同創辦人兼首席科學家亞歷克斯·裡夫斯(Alex Rives)在電子郵件中向《生活科學》表示:「我們發現 ESM3 掌握了基本生物學知識,且能生成演化尚未觸及領域的功能性蛋白質。」

這項新研究建立在裡夫斯和他的同事在 Meta(臉書和照片牆的母公司)所展開的研究基礎上,2024 年創立 EvolutionaryScale 之前,他們就已開始相關研究。ESM3 是他們最新版的生成式語言模型,類似 OpenAI 的 GPT-4(執行 ChatGPT 的模型),但它是基於生物學的。

蛋白質由稱為胺基酸的分子鏈組成,胺基酸序列由基因提供。不同的蛋白質有不同的胺基酸序列。根據《自然教育》,它們在結構上也有所不同,每種蛋白質都會折疊成獨特的形狀,以使其能發揮功能。為了讓 ESM3 理解蛋白質,研究人員將蛋白質的主要特性(胺基酸序列、結構和功能)資料以一系列字母的形式輸入模型。

研究團隊用自然界中 27.8 億種蛋白質的資料訓練 ESM3。接著,研究人員隨機隱藏部分蛋白質藍圖,讓 ESM3 根據所學填補空白以完成程式碼。

裡夫斯說:「就像人能填補獨白「To _ or not to _, that is the _」中的空白一樣,我們也能訓練語言模型填補蛋白質中的空白。我們的研究顯示,透過解決這個簡單任務,蛋白質生物學深層結構的相關資訊會在網路中浮現。」

科學家早已為了各種目的改造天然蛋白質並設計新的蛋白質。例如,綠色螢光蛋白在研究實驗室中被廣泛使用。它們的遺傳密碼常被新增到其他 DNA 序列末端,使它們編碼的蛋白質變成綠色。這樣科學家就能輕鬆追蹤蛋白質和細胞過程。裡夫斯指出,ESM3 的能力可以加速蛋白質工程的各種應用,包括協助設計新藥。

英國巴斯大學的演化生物學家蒂芙尼·泰勒(Tiffany Taylor)未參與這項研究,她在 2024 年為《生活科學》報導了該研究的預印本版本。泰勒在分析中寫道,像 ESM3 這樣的 AI 模型將促成蛋白質工程領域的創新,而這是演化做不到的。然而,她也指出,研究人員所稱的模擬五億年演化,僅聚焦於個別蛋白質,並未考慮到最終造就生命的自然選擇的眾多階段。

泰勒表示:「AI 驅動的蛋白質工程很吸引人,但我不禁覺得,我們或許過於自信,以為自己能超越經數百萬年自然選擇磨練出的複雜過程。」