當前位置:
首頁 > 科技 > AI語言理解大考驗:文法之外,意義何在?

AI語言理解大考驗:文法之外,意義何在?

現今的生成式AI系統,如大型語言模型和文字轉影象生成器,已能透過醫師或律師等專業資格考試,甚至在數學奧林匹克競賽中超越多數人類。它們能寫出尚可的詩句、創作美觀的畫作,甚至譜寫原創音樂。這些驚人的能力讓人不禁懷疑,生成式人工智慧是否即將取代人類工作,並對社會各層面產生重大影響。

然而,儘管AI的輸出品質有時能與人類媲美,它們卻也常自信滿滿地產出錯誤資訊。此外,其推理能力也備受質疑。大型語言模型雖被設計來模仿人類語言和思維,但它們與人類仍有巨大差距。人類從嬰兒時期便透過無數感官經驗和與周遭世界的互動來學習,而大型語言模型則僅依賴於大量網路資料進行訓練。

這些模型的能力固然令人印象深刻,已有AI代理能代替人類開會、購物或處理保險理賠。但在將重要任務交給大型語言模型之前,必須評估它們對世界的理解是否與人類相當。作為一名研究語言與意義的學者,我的研究團隊開發了一種新基準,幫助人們理解大型語言模型在理解意義方面的限制。

那麼,什麼對大型語言模型來說是「有意義」的?我們的測試涉及判斷雙字名詞片語的意義。對大多數流利英語使用者而言,「海灘球」和「蘋果蛋糕」等名詞片語是有意義的,但「球海灘」和「蛋糕蘋果」則無普遍認知的意義。這些片語的意義並非來自文法,而是人們長期交流互動中逐漸學習並接受的。

我們想知道大型語言模型是否對詞彙組合有相同的意義感,因此設計了一項測試,使用文法規則無法判斷意義的名詞片語來評估此能力。例如,「紅球」是有意義的,而「球紅」則無。此基準不要求模型解釋詞彙意義,而是測試其能否從詞彙組閤中推導意義,而不依賴簡單的文法邏輯。

我們使用了1,789組名詞片語,這些片語已由人類評分者以1(完全無意義)到5(完全有意義)的尺度評分。我們剔除中等評分的片語,以確保高、低意義片語的清晰區分。接著,我們要求最先進的大型語言模型以相同方式評分這些片語。結果顯示,這些模型表現不佳。例如,「蛋糕蘋果」被人類評為低意義(平均約1分),但所有模型都將其評為比95%人類更高的分數(2至4分)。

為了幫助模型,我們在指令中增加了更多範例,觀察它們是否能從更多上下文中受益。雖然表現略有提升,但仍遠不及人類。為進一步簡化任務,我們要求模型進行二元判斷(即判斷片語是否有意義),而非以0到4的尺度評分。在此情況下,GPT-4和Claude 3 Opus表現較佳,但仍遠低於人類水平。

結果表明,大型語言模型並未具備與人類相同的意義理解能力。值得注意的是,我們的測試依賴於主觀任務,其黃金標準是人類評分。與涉及推理、規劃或程式碼生成的典型大型語言模型評估基準不同,此測試並無客觀正確答案。

模型表現不佳的主要原因在於它們傾向於高估名詞片語的意義程度,對本應無意義的片語過度解讀。某種程度上,這些模型過於「創意」。一種可能的解釋是,低意義片語在某些情境下可能有意義,例如「球海灘」可指被球覆蓋的海灘,但此片語並未在英語使用者中普遍使用。

若大型語言模型要在某些任務中部分或完全取代人類,它們需進一步發展,以更接近人類的方式理解世界。當事物模糊、混亂或純屬無稽時,無論是出於錯誤或惡意攻擊,模型應標記此情況,而非試圖對幾乎所有事物進行創意解讀。

舉例來說,若AI代理在自動回覆郵件時收到誤傳的訊息,適當的回應應是「抱歉,這無意義」,而非創意解讀。若會議中有人發表難以理解的言論,我們希望與會的AI代理能指出「這些評論無意義」。若理賠細節不合理,代理應表示「這似乎是關於另一筆理賠」,而非簡單地「理賠拒絕」。

換言之,AI代理更應具備與人類相似的意義感,並在遇到不確定情況時表現得像人類,而非總是提供創意解讀。