當前位置:
首頁 > 科技 > 語言能力的侷限:AI模型在簡單文本理解測試中仍落後人類

語言能力的侷限:AI模型在簡單文本理解測試中仍落後人類

由羅維拉-維爾吉利大學(URV)帶領的國際研究團隊,分析了七種人工智慧(AI)模型理解語言的能力,並將其與人類的能力進行對比。相關研究結果發表於《科學報告》期刊,結果顯示,即便這些模型在某些特定任務上取得成功,但在簡單文本理解測試中,其表現仍無法達到人類的水平。

研究人員警告:「模型執行複雜任務的能力,並不能保證它們在簡單任務上也能勝任。」大型語言模型(LLMs)是一種經過設計的神經網路,可根據使用者的要求自主生成文本。它們擅長處理諸如回答一般性問題、翻譯文本、解決問題以及總結內容等任務。

人們常稱這些模型在理解和推理方面具有與人類相似的能力,但羅維拉-維爾吉利大學語言與語言學研究小組的研究員維托莉亞・丹泰拉(Vittoria Dentella)所領導的研究結果,揭示了它們的侷限性:「大型語言模型並非真正理解語言,只是利用了訓練數據中存在的統計模式。」

神經網路是一種模擬大腦生物神經結構的計算模型,由一系列相互連接的節點(即人工神經元)組成。每個節點接收來自其他神經元的資訊,進行處理後再傳遞出去。從外部看,神經網路接收輸入、處理資訊並返回結果。研究人員需用熟悉的資訊訓練網路,使其自動學習處理數據,以給出預期的回應。訓練完成後,它們可用於預測任務、數據分類與篩選、模式識別等。

為了比較人類和大型語言模型在文本理解方面的表現,研究人員用簡單的語法結構和常用動詞,向七種AI模型(Bard、ChatGPT - 3.5、ChatGPT - 4、Falcon、Gemini、Llama2和Mixtral)提出了40個問題。與此同時,400名以英語為母語的人士也被問及同樣的問題,研究人員將他們答案的準確率與大型語言模型的答案進行比較。每個問題重複提問三次,以評估答案的一致性。

人類的平均準確率達到89%,遠高於AI模型。表現最佳的AI模型(ChatGPT - 4)的正確率為83%。結果顯示,文本理解技術的表現存在巨大差異:除了ChatGPT - 4之外,沒有一個大型語言模型的準確率超過70%。面對重複的問題時,人類的回答也更具一致性,87%的情況下答案保持一致。而文本理解模型的這一比例在66%至83%之間。

丹泰拉解釋道:「儘管大型語言模型能夠生成語法正確且看似連貫的文本,但這項研究結果表明,最終它們並不像人類那樣理解語言的含義。」實際上,大型語言模型並不像人類那樣,通過語義、語法、語用和上下文元素的結合來解釋含義。它們的工作方式是識別所接收文本中的模式,將其與訓練資訊中的模式進行比較,然後使用基於統計的預測演算法。因此,它們看似具有人類的能力,其實只是一種假象。

研究發現,大型語言模型缺乏理解能力,這可能導致它們無法給出一致的答案,尤其是在面對重複問題時。這也解釋了為什麼這些模型提供的答案不僅可能錯誤,還表明它們沒有理解概念的上下文或含義。丹泰拉警告說,這意味著該技術在某些關鍵應用中還不夠可靠:「我們的研究表明,大型語言模型執行複雜任務的能力,並不能保證它們在簡單任務上也能勝任,而這些簡單任務往往需要真正理解語言。」