當前位置:
首頁 > 科技 > AI解數獨大考驗:機器學習的邏輯思維極限

AI解數獨大考驗:機器學習的邏輯思維極限

近年來,像OpenAI的ChatGPT或Google的Gemini這類大型語言模型(LLMs)已能勝任各種任務——從提供感情建議、編造推託社交邀約的藉口,到撰寫科學文章。但這些AI真的能破解你早餐時光拿來動腦的數獨遊戲嗎?科羅拉多大學波德分校的電腦科學團隊決定一探究竟。

研究團隊精心設計了近2,300道原創數獨謎題,要求多款AI工具進行解答。結果令人玩味:雖然部分AI模型能解開簡單題目,但即便是表現最優異的模型,也難以清晰解釋解題過程——它們提供的說明往往支離破碎、錯誤百出,甚至出現超現實的荒謬描述。這項發現引發了對AI生成資訊可信度的深刻質疑。

「對於特定型別的數獨題目,多數LLM表現仍不盡理想,特別是在產生人類能理解的解釋方面。」電腦科學系助理教授瑪麗亞·帕切科指出關鍵問題:「AI為何得出這個解答?其推理步驟究竟是什麼?」這項研究成果已發表於《計算語言學協會發現》期刊。

研究團隊並非單純測試AI的遊戲能力,而是透過數獨這種邏輯訓練,深入探究AI的思考模式。電機與電腦工程系教授法比奧·索門茲強調:「數獨雖是消遣,卻能微觀反映機器學習的決策過程。就像若用AI報稅,你必須能向國稅局解釋其決策依據。」

現行LLM在邏輯推理上的弱勢,根源於其訓練方式。以ChatGPT為例,開發者先讓AI吸收近乎整個網路的文字資料,使其回應時僅能基於統計機率「預測」最可能出現的下個詞彙,這種類似機械式記憶的運作,與人類的邏輯推演有本質差異。

研究過程出現諸多耐人尋味的現象:AI可能突然編造不存在的解題規則,甚至在某次測試中,莫名開始預報天氣狀況。索門茲教授形容:「這時AI已完全陷入混亂狀態。」

團隊正著手開發能兼顧解題與解釋能力的新系統,目前先以另一種數字格狀遊戲「獨數之道」(Hitori)進行實驗。帕切科教授總結道:「AI確實在某些意外領域展現潛力,但同時也暴露出許多基本能力的不足。」這項研究為神經符號AI(neurosymbolic AI)的發展提供了重要參照。

[end]