當前位置:
首頁 > 科技 > 破解虛假關聯:因果模型如何解決離線強化學習的泛化難題

破解虛假關聯:因果模型如何解決離線強化學習的泛化難題

南京大學與卡內基梅隆大學的研究團隊開發出一種突破性人工智慧技術,能大幅提升機器從歷史資料中學習的能力——這種被稱為「離線強化學習」的技術,讓系統無需與環境即時互動,僅憑過往資料就能做出決策。

這項發表於《電腦科學前沿》期刊的研究,透過聚焦資料中真實的因果關係,使自駕車、醫療決策輔助系統等自主系統能做出更安全可靠的選擇。傳統離線強化學習常因歷史資料偏差而學到錯誤模式,就像只看別人開車影片學駕駛的新手,若駕駛總在下雨減速時開啟雨刷,可能會誤以為啟動雨刷能讓車輛減速。

新方法的核心突破在於教導系統辨識真實因果——是煞車動作而非雨刷啟動導致減速。這種辨識真實因果關係的能力,讓自主系統變得更安全、聰明且值得信賴。對自駕車、醫療照護與機器人等領域尤其關鍵,因為這些應用場景都要求精準可靠的決策能力。

研究主持人楊瑜教授指出:「我們運用因果推理的力量,有效過濾歷史資料中的雜訊,使系統能做出更精準安全的決策。這項進展將全面提升自主技術在各產業的應用水平。」

這項發現不僅能協助制定更完善的監管標準、提升系統部署安全性、增進公眾對自動化系統的信任,更為AI因果意識研究開闢新途徑。研究證實,傳統AI模型常將無關動作誤判為因果連結,而透過匯入因果結構的新方法(稱為因果AI架構),在實際測試中表現穩定優於MOPO、MOReL等現有技術。

研究團隊開發出專為序列連續資料設計的統計檢驗方法,能從歷史資料中識別真實因果關係。這種方法不僅準確釐清行為背後的真正成因,更降低傳統方法常見的運算複雜度,使系統更高效實用。這項突破性研究將因果推理嵌入離線強化學習,不僅深化我們對AI能力的理解,更為日常生活中自主系統的安全性與效能帶來實質提升。

[end]