AI評估新利器!DataSAIL自動分割訓練與測試資料
德國埃爾朗根-紐倫堡大學(FAU)與赫姆霍茲藥物研究所(HIPS)的生物資訊學家聯手開發出一款革命性工具,能更精準評估AI模型的表現。這款名為「DataSAIL」的工具可自動將訓練資料與測試資料進行最佳化分割,讓研究人員能驗證AI模型面對不同資料時的可靠性。相關研究成果已發表於頂尖期刊《Nature Communications》。
在機器學習領域,模型需要透過大量資料進行訓練,並在實際應用前進行測試。傳統做法是將資料分為較大的訓練集與較小的測試集,但現有演演算法往往無法確保兩組資料間的差異性。「唯有當測試資料與訓練資料存在顯著差異時,我們才能真正評估模型處理新資料的能力。」FAU生物醫學工程人工智慧系主任David Blumenthal教授強調。
為解決這個關鍵問題,Blumenthal教授團隊開發出DataSAIL工具,它能自動將資料集分割成差異最大化的訓練組與測試組,避免高估模型表現的誤判情況。這項創新技術為機器學習領域樹立了新標準。「DataSAIL是免費工具,不僅適用於生物研究,還能處理各種資料型別。」Blumenthal教授說明,「使用者只需設定少數引數,剩下工作都能自動完成。」
特別值得一提的是,DataSAIL是首款能處理多維互動資料的自動分割工具,這在藥物研發等領域至關重要。「以開發預測藥物與標靶蛋白互動作用的AI模型為例,我們需要分別測試模型對變異藥物分子與不同蛋白質的預測能力。」Blumenthal教授解釋。
此外,這項工具還能考量類別特徵,例如確保訓練與測試資料中男女受試者比例均衡,避免模型對特定性別產生偏差結果。研究團隊未來將持續最佳化演演算法運算效率,並針對不同應用場景強化資料準備的精準度。
《Nature Communications》期刊同時刊載了DataSAIL處理一維與二維資料集的視覺化範例,具體展現這項技術的實際應用成果。
[end]