AI破解阿茲海默症關鍵蛋白質的「黏性密碼」
科學家開發出一套革命性AI系統「CANYA」,成功解開導致蛋白質異常黏聚的生化語言。這項突破將有助於理解包括阿茲海默症在內、影響全球近5億人的50多種疾病。
有別於傳統黑箱AI,CANYA特別強調「可解釋性」,能明確指出哪些化學結構會促進或抑制有害的蛋白質聚集。這項發表在《科學進展》期刊的研究,建立了史上最大規模的蛋白質聚集資料庫,揭開影響全球5億患者的分子機制。
蛋白質聚集(又稱類澱粉樣蛋白形成)是許多藥物開發的噩夢。研究共同通訊作者、加泰隆尼亞生物工程研究所的Benedetta Bolognesi博士指出:「當治療性蛋白質開始聚集,整批藥物就可能報廢,造成巨大損失。」CANYA能協助設計不易黏聚的抗體與酵素,大幅降低生技產業的研發成本。
研究團隊進行大規模實驗,從頭合成了超過10萬個隨機蛋白質片段(每個含20個胺基酸),並在活體酵母細胞中測試其聚集傾向。結果發現約21.9%的片段會引發黏聚,這比過去僅能分析少量序列的研究提供了更全面的資料。
「我們創造了許多自然界不存在的蛋白質變異體,」論文第一作者、基因組調控中心的Mike Thompson博士解釋:「這讓我們能探索更廣泛的蛋白質聚集法則。」
研究人員採用「可解釋AI」原則開發CANYA,雖然略微犧牲預測準確度(通常黑箱AI表現更好),但最終仍比現有模型精確15%。這套混合模型結合了「卷積神經網路」(用於識別蛋白質鏈中的關鍵模組)和「注意力機制」(判斷哪些模組最具影響力),既能微觀分析區域性結構,也能宏觀理解整體重要性。
CANYA不僅驗證了已知現象(如疏水性胺基酸區域容易引發聚集),更發現新規則:某些帶電胺基酸在特定情境下竟會「反常」促進黏聚。目前CANYA僅能判斷「是否」聚集,未來團隊將升級系統,使其能預測聚集「速度」——這對神經退化性疾病至關重要,因為類澱粉蛋白形成的時機與疾病程序密切相關。
「20個胺基酸組成的片段有多達1024×10^18種排列方式,我們才訓練了10萬種,」Bolognesi博士強調:「這只是第一步,但證明瞭解讀蛋白質聚集語言是可能的。這對人類疾病研究和合成生物學都有深遠影響。」
該研究由基因組調控中心與加泰隆尼亞生物工程研究所主導,冷泉港實驗室和桑格研究所共同參與,並獲得多個歐洲科研機構資助。正如ICREA研究教授Ben Lehner所言:「這項工作完美展示了大資料與AI如何加速科研程序——我們能在單一試管中完成數十萬次實驗,讓生物學變得可預測、可程式設計。」