當前位置:
首頁 > 科技 > AI也會騙人?微軟與MIT聯手打造「誠實度檢測」新技術

AI也會騙人?微軟與MIT聯手打造「誠實度檢測」新技術

隨著大型語言模型(LLM)日益精進,這些AI系統不僅能說出擬真的人類語言,更能為自己的決策過程提供解釋。但問題來了:我們如何判斷AI說的是真話?這正是微軟與MIT電腦科學暨人工智慧實驗室(CSAIL)最新研究要解決的核心問題。

這篇突破性論文提出全新方法來評估AI解釋的「誠實度」——即解釋內容是否真實反映模型內部的推理過程。研究團隊成員Katie Matton博士候選人強調,這個問題至關重要:當AI給出看似合理但虛假的解釋時,使用者可能會產生錯誤信心,甚至忽略AI建議與自身價值觀的衝突,例如在避免招聘偏見等重要議題上。

在醫療或法律等專業領域,不誠實的AI解釋可能造成嚴重後果。研究特別指出GPT-3.5的性別偏見案例:即使將求職者性別對調,系統仍傾向給女性護理師候選人更高評分,卻在解釋中聲稱僅考量年齡、技能等客觀因素。

有別於過往難以解讀的量化評分(例如0.63的誠實度代表什麼?),該團隊開發的「因果概念誠實度」檢測法,能具體揭示AI解釋中的誤導模式。這項技術透過比對「AI宣稱的影響因素」與「實際影響決策的關鍵因素」之間的差異,讓偏見無所遁形——例如系統刻意忽略性別因素的狀況。

研究流程採雙層設計:先由輔助AI辨識問題中的核心概念,再透過「反事實提問法」驗證各概念對主AI決策的實際影響。具體做法是修改關鍵資訊(如變更候選者性別或刪除臨床資料),觀察主AI的答案變化。為提升效率,團隊採用貝葉斯層級模型來統整多題目的概念影響力分析。

在實測中,研究人員比較GPT-3.5、GPT-4o和Claude-3.5-Sonnet三款模型,發現兩項關鍵結果:首先,模型規模與誠實度未必成正比;其次,不同領域的解釋可信度存在顯著差異。Matton特別指出,這項技術能幫助使用者識別特定偏見模式——例如發現某AI存在性別歧視時,可避免在性別相關評估中使用該系統,開發者也能據此精準修正模型缺陷。

儘管現階段仍依賴可能出錯的輔助AI,且對高度關聯的概念群檢測效度有限,但團隊認為這已是朝向透明化AI邁出的重要一步。這項突破不僅提供檢測工具,更開創瞭解決AI「誠信危機」的新途徑。

[end]