GPT真的能像人類一樣思考嗎?
人工智慧(AI),尤其是像GPT-4這樣的大型語言模型,在推理任務上展現了令人印象深刻的表現。然而,AI是否真的理解抽象概念,還是僅僅在模仿模式?阿姆斯特丹大學和聖塔菲研究所的一項新研究揭示,雖然GPT模型在某些類比任務上表現出色,但當問題被修改時,它們卻表現不佳,這凸顯了AI在推理能力上的關鍵弱點。這項研究發表在《機器學習研究交易》期刊上。
類比推理是一種基於兩個不同事物在某些方面的相似性進行比較的能力,它是人類理解世界和做出決策的常見方法之一。舉例來說:杯子之於咖啡,就像碗之於什麼?(答案是:湯)。像GPT-4這樣的大型語言模型在各種測試中表現良好,包括需要類比推理的任務。但AI模型是否真的能夠進行普遍且穩健的推理,還是過度依賴其訓練資料中的模式?
阿姆斯特丹大學邏輯、語言與計算研究所的Martha Lewis和聖塔菲研究所的Melanie Mitchell這兩位語言與AI專家,研究了GPT模型在進行類比時是否像人類一樣靈活且穩健。Lewis解釋道:「這至關重要,因為AI在現實世界中的決策和問題解決上越來越被廣泛應用。」
Lewis和Mitchell比較了人類和GPT模型在三種類比問題上的表現。研究不僅測試了GPT模型能否解決原始問題,還探討了當問題被微妙修改時,它們的表現如何。作者在文章中寫道:「一個真正理解類比的系統應該在這些變體上也能保持高效能。」
人類在大多數修改版本的問題上保持了高效能,但GPT模型在標準類比問題上表現良好,卻在變體問題上遇到困難。Lewis解釋道:「這表明AI模型的推理往往不如人類靈活,它們的推理更多是基於模式匹配,而非真正的抽象理解。」
在數字矩陣任務中,當缺失數字的位置改變時,GPT模型的表現顯著下降,而人類則毫無困難。在故事類比任務中,GPT-4傾向於選擇第一個給出的答案作為正確答案,而人類則不受答案順序的影響。此外,當故事的關鍵元素被重新表述時,GPT-4比人類更難應對,這表明它依賴於表面相似性而非深層因果推理。
在較簡單的類比任務中,GPT模型在測試修改版本時表現下降,而人類則保持一致。然而,對於更複雜的類比推理任務,人類和AI都遇到了困難。這項研究挑戰了普遍認為AI模型如GPT-4能像人類一樣推理的假設。Lewis和Mitchell總結道:「雖然AI模型展示了令人印象深刻的能力,但這並不意味著它們真正理解自己在做什麼。它們在跨變體上的泛化能力仍顯著弱於人類認知。GPT模型往往依賴於表面模式而非深層理解。」
這對於AI在教育、法律和醫療等重要決策領域的使用是一個關鍵的警示。AI可以是一個強大的工具,但它還不能取代人類的思維和推理。