當前位置:
首頁 > 醫學 > 研究:大多數主流大型語言模型呈現輕度認知障礙跡象

研究:大多數主流大型語言模型呈現輕度認知障礙跡象

除了ChatGPT 4o之外,幾乎所有接受名為「蒙特婁認知評估」(MoCA)測試的公開大型語言模型,都顯示出輕度認知障礙的跡象。這些研究結果對「人工智慧將很快取代人類醫生」的假設提出了挑戰,畢竟主流聊天機器人所呈現的認知障礙,可能會影響它們在醫學診斷上的可靠性,並削弱患者的信心。

達揚等人發現,儘管大型語言模型在若干認知領域展現出卓越能力,但在視空間和執行功能方面存在顯著缺陷,類似人類的輕度認知障礙。

在過去幾年裡,人工智慧領域取得了巨大進展,尤其是大型語言模型的生成能力。

該領域的主流模型,像是OpenAI的ChatGPT、Alphabet的Gemini,以及Anthropic的Claude,都展現出能透過簡單文字互動,成功完成一般和專業任務的能力。

在醫學領域,這些發展引發了一陣既興奮又擔憂的猜測:人工智慧聊天機器人能否超越人類醫生?如果可以,哪些醫療實務和專科最容易受到影響?

自2022年ChatGPT首次免費線上釋出以來,醫學期刊上發表了無數研究,比較人類醫生和這些在人類已知的所有文字語料庫上訓練出來的超級電腦的表現。

儘管大型語言模型偶爾會出錯(例如引用不存在的期刊文章),但它們已證明在一系列醫學考試中相當擅長,在傳統醫學訓練不同階段的資格考試中,得分超過人類醫生。

這些例子包括在歐洲核心心臟病學考試中勝過心臟病專家,在以色列內科醫生資格考試中超越以色列住院醫生,在土耳其(理論)胸外科考試中擊敗土耳其外科醫生,以及在德國婦產科考試中勝過德國婦科醫生。

令我們深感苦惱的是,它們甚至在神經科醫生資格考試中,得分超過像我們這樣的神經科醫生。

哈達薩醫療中心博士生羅伊·達揚及其同事表示:「然而,據我們所知,大型語言模型尚未接受過認知衰退跡象的測試。」

「如果要依靠它們進行醫學診斷和護理,就必須檢查它們是否容易出現這些非常人性化的缺陷。」

不同大型語言模型的蒙特婁認知評估(MoCA)得分(滿分30分);MCI - 輕度認知障礙。圖片出處:達揚等人,doi: 10.1136/bmj - 2024 - 081948。

研究人員使用MoCA測試,評估了主流且公開可用的大型語言模型的認知能力,包括ChatGPT 4和4o版本、Claude 3.5 Sonnet,以及Gemini 1和1.5版本。

此測試廣泛用於檢測認知障礙和失智症的早期跡象,通常用於老年人。

它透過一系列短任務和問題,評估注意力、記憶力、語言能力、視空間技能和執行功能等能力。

滿分為30分,一般認為26分及以上為正常。

給大型語言模型的每項任務指示,與給人類患者的相同。

評分遵循官方指南,並由一位執業神經科醫生評估。

ChatGPT 4o在MoCA測試中取得最高分(30分中得26分),其次是ChatGPT 4和Claude(30分中得25分),Gemini 1.0得分最低(30分中得16分)。

所有聊天機器人在視空間技能和執行任務方面表現不佳,例如連續線測驗(按升序連線圈出的數字和字母)和畫鐘測驗(畫出顯示特定時間的鐘面)。

Gemini模型在延遲回憶任務(記住五個單詞的序列)中失敗。

大多數其他任務,包括命名、注意力、語言和抽象能力,所有聊天機器人都表現良好。

但在進一步的視空間測試中,聊天機器人無法展現同理心,也無法準確解讀複雜的視覺場景。

只有ChatGPT 4o在斯特魯普測試的不一致階段取得成功,該測試使用顏色名稱和字型顏色的組合,衡量幹擾如何影響反應時間。

這些都是觀察性發現,作者也承認人腦和大型語言模型之間存在本質差異。

然而,他們指出,所有大型語言模型在需要視覺抽象和執行功能的任務中均告失敗,這突顯了一個重大弱點,可能會妨礙它們在臨床環境中的應用。

科學家們表示:「神經科醫生不僅不太可能在近期被大型語言模型取代,而且我們的研究結果表明,他們可能很快就會發現自己要治療新的虛擬患者——呈現出認知障礙的人工智慧模型。」

他們的論文今日發表於《英國醫學期刊》(The BMJ)。

羅伊·達揚等人,2024年。《年齡與機器——大型語言模型對認知障礙的易感性:橫斷面分析》。《英國醫學期刊》387: e081948;doi: 10.1136/bmj - 2024 - 081948