AI竟看不懂時鐘?研究揭人工智慧驚人缺陷
最新研究發現,即便人工智慧(AI)能寫程式、生成逼真影象、模仿人類語氣寫作,甚至透過考試,卻連最基本的「看時鐘」和「計算日期」都做不好。這項由愛丁堡大學主導的研究,揭露了當前AI系統在時間認知上的重大缺陷。
研究團隊在2025年國際學習表徵會議(ICLR)上發表這項發現,並於3月18日將論文上傳至arXiv預印本伺服器。研究負責人Rohit Saxena指出:「多數人類從小就能輕鬆讀懂時鐘和使用日曆,但AI在這方面的表現卻出奇地差。」
為測試AI的時間認知能力,研究人員將特製的時鐘和日曆影象資料集輸入多種多模態大型語言模型(MLLM),包括Meta的Llama 3.2-Vision、Anthropic的Claude-3.5 Sonnet、Google的Gemini 2.0和OpenAI的GPT-4o。結果顯示,這些模型在辨識時鐘時間的正確率僅38.7%,計算日期的正確率更低至26.3%。
Saxena解釋道:「早期AI系統是基於標記範例進行訓練,但讀時鐘需要的是空間推理能力。模型必須辨識重疊的指標、測量角度,並理解羅馬數字等不同設計風格。」至於日期計算的困難,他補充說明:「傳統電腦擅長算術,但大型語言模型並非執行數學演演算法,而是根據訓練資料中的模式預測答案。」
這項研究凸顯了AI與人類理解方式的根本差異。當任務需要抽象推理或處理訓練資料中少見的情況(如閏年計算)時,AI表現尤其不佳。研究團隊強調,要讓AI成功應用於排程、自動化等時效性任務,必須改進其邏輯與空間推理的整合能力。
Saxena最後提醒:「AI雖然強大,但當任務同時需要感知和精確推理時,我們仍需嚴格的測試、備援邏輯,以及在許多情況下保留人為監督。」這項研究再次證明,過度依賴AI輸出可能帶來風險。