AI也會「老化」？研究顯示：舊版聊天機器人出現認知衰退跡象

科技 02-18

隨著人工智慧（AI）技術的快速發展，越來越多人依賴AI進行醫療診斷，因為這些工具能夠迅速且有效地從病歷、X光片等資料中發現異常和警示訊號，甚至在肉眼察覺之前就能做出判斷。然而，一項於2024年12月20日發表在《英國醫學期刊》（BMJ）上的研究卻提出了一個令人擔憂的發現：大型語言模型（LLMs）和聊天機器人，就像人類一樣，隨著時間的推移，也會出現認知能力退化的跡象。

這項研究的作者在論文中寫道：「這些發現挑戰了『人工智慧將很快取代人類醫生』的假設，因為領先的聊天機器人所表現出的認知障礙，可能會影響其在醫療診斷中的可靠性，並削弱患者的信心。」

科學家們使用蒙特利爾認知評估（MoCA）測試對公開可用的LLM驅動的聊天機器人進行了測試，包括OpenAI的ChatGPT、Anthropic的Sonnet和Alphabet的Gemini。MoCA測試是一系列任務，神經學家用來評估注意力、記憶力、語言能力、空間技能和執行心理功能。這項測試通常用於評估阿茲海默症或失智症等疾病的認知障礙發作。

測試中，受試者需要完成諸如在鐘面上繪製特定時間、從100開始反覆減去7、盡可能記住口述清單中的單詞等任務。對於人類來說，滿分30分中獲得26分即被認為是透過（即受試者沒有認知障礙）。

研究結果顯示，儘管命名、注意力、語言和抽象等測試專案對大多數LLM來說似乎很容易，但這些模型在視覺/空間技能和執行任務方面表現不佳，其中幾個模型在延遲回憶等領域的表現比其他模型更差。值得注意的是，雖然最新版本的ChatGPT（版本4）得分最高（30分中的26分），但舊版的Gemini 1.0 LLM僅獲得16分，這表明舊版LLM確實出現了認知衰退的跡象。

研究作者指出，他們的發現僅為觀察性結果——AI與人類大腦運作方式之間存在關鍵差異，因此這項實驗無法構成直接比較。但他們警告，這可能揭示了AI在臨床醫學應用中的「重大弱點」，尤其是在需要視覺抽象和執行功能的任務中，應謹慎使用AI。

這項研究還提出了一個有趣的概念：神經科醫生可能會迎來一個全新的市場——那些出現認知障礙跡象的AI本身。這不禁讓人思考，隨著AI技術的發展，我們是否也需要為這些「老化」的AI提供「醫療服務」？