如何在不依賴可信資料的情況下打造值得信賴的AI?
時至今日,人工智慧(AI)已深入大眾生活,從ChatGPT代寫郵件到輔助醫療診斷,全球數百萬人都在使用或接觸這項技術。AI的核心在於運用嚴謹的數學演演算法,讓電腦執行複雜任務或將原始資料轉化為實用資訊。當前主流的「大型語言模型」(LLMs)正是透過分析海量、集中化的資料集來學習。
然而,集中式資料管理衍生出資安隱私與資料所有權等問題——正如「資料是新石油」這句流行語所示,資料已成為驅動數位經濟成長的關鍵資源。為解決這些疑慮,「聯邦學習」技術正掀起AI領域的革命。這種方法讓AI模型能在分散式裝置網路中學習,原始資料則始終保留在本地端。
瑞士電腦與通訊科學學院分散式計算實驗室主任Rachid Guerraoui教授指出:「現行聯邦學習系統雖能有效整合全球資料,包括網路資訊、醫療紀錄、智慧裝置等來源,但這種高效能特性同時也成為致命弱點——系統極易受到『劣質資料』汙染。」
劣質資料可能源自人為輸入錯誤、裝置故障、蓄意偽造,甚至是被駭客入侵的合法資料。無論成因為何,若用這類資料訓練AI,將嚴重影響系統可靠性。Guerraoui團隊歷經十年研究,終於在理論層面突破這個難題,並與法國國家數位科學研究院合作開發名為ByzFL的Python程式庫。
「多數資料本質是良性的,但關鍵在於如何識別不可信資料來源?」Guerraoui解釋:「ByzFL能測試系統對未知攻擊的防禦力,並強化其穩健性。我們提供模擬惡意資料的工具,並內建安全過濾機制——因為惡意資料往往偽裝得難以察覺。」
ByzFL採用「穩健聚合演演算法」(如中位數篩選)來排除極端值。例如當三個感測器回報6°C、7°C、9°C,卻有個異常值-20°C時,傳統計算會完全失準,但ByzFL能自動過濾離群值,最大限度降低劣質資料影響。
隨著AI即將全面介入人類生活,Guerraoui警告:當前企業使用的AI仍屬「馬戲團級」——串流平臺推薦失準或郵件寫得不完美尚可接受,但若應用在癌症診斷、自動駕駛等關鍵領域,安全隱患將造成嚴重後果。「當生成式AI真正進入醫院或交通系統時,劣質資料導致的安全問題就會浮現。」
這位教授憂心,或許要等到重大事故發生,社會才會正視現行AI技術根本不該用於醫療、運輸等關鍵領域。他特別強調:「瑞士嚴謹的工程傳統可在此發揮作用,我們能建立認證體系,證明AI系統即使不信任單一資料來源也能確保安全——這正是ByzFL的終極目標。」
[end]