當前位置:
首頁 > 科技 > AI也會「老化」?研究顯示:舊版聊天機器人出現認知衰退跡象

AI也會「老化」?研究顯示:舊版聊天機器人出現認知衰退跡象

隨著人工智慧(AI)技術的快速發展,越來越多人依賴AI進行醫療診斷,因為這些工具能夠迅速且有效地從病歷、X光片等資料中發現異常和警示訊號,甚至在肉眼察覺之前就能做出判斷。然而,一項於2024年12月20日發表在《英國醫學期刊》(BMJ)上的研究卻提出了一個令人擔憂的發現:大型語言模型(LLMs)和聊天機器人,就像人類一樣,隨著時間的推移,也會出現認知能力退化的跡象。

這項研究的作者在論文中寫道:「這些發現挑戰了『人工智慧將很快取代人類醫生』的假設,因為領先的聊天機器人所表現出的認知障礙,可能會影響其在醫療診斷中的可靠性,並削弱患者的信心。」

科學家們使用蒙特利爾認知評估(MoCA)測試對公開可用的LLM驅動的聊天機器人進行了測試,包括OpenAI的ChatGPT、Anthropic的Sonnet和Alphabet的Gemini。MoCA測試是一系列任務,神經學家用來評估注意力、記憶力、語言能力、空間技能和執行心理功能。這項測試通常用於評估阿茲海默症或失智症等疾病的認知障礙發作。

測試中,受試者需要完成諸如在鐘面上繪製特定時間、從100開始反覆減去7、盡可能記住口述清單中的單詞等任務。對於人類來說,滿分30分中獲得26分即被認為是透過(即受試者沒有認知障礙)。

研究結果顯示,儘管命名、注意力、語言和抽象等測試專案對大多數LLM來說似乎很容易,但這些模型在視覺/空間技能和執行任務方面表現不佳,其中幾個模型在延遲回憶等領域的表現比其他模型更差。值得注意的是,雖然最新版本的ChatGPT(版本4)得分最高(30分中的26分),但舊版的Gemini 1.0 LLM僅獲得16分,這表明舊版LLM確實出現了認知衰退的跡象。

研究作者指出,他們的發現僅為觀察性結果——AI與人類大腦運作方式之間存在關鍵差異,因此這項實驗無法構成直接比較。但他們警告,這可能揭示了AI在臨床醫學應用中的「重大弱點」,尤其是在需要視覺抽象和執行功能的任務中,應謹慎使用AI。

這項研究還提出了一個有趣的概念:神經科醫生可能會迎來一個全新的市場——那些出現認知障礙跡象的AI本身。這不禁讓人思考,隨著AI技術的發展,我們是否也需要為這些「老化」的AI提供「醫療服務」?