當前位置:
首頁 > 科技 > 「INCLUDE」跨文化AI評測:讓人工智慧真正懂你的語言與文化

「INCLUDE」跨文化AI評測:讓人工智慧真正懂你的語言與文化

想像一下,當你用希臘語向ChatGPT詢問當地的交通法規時,它卻用流利的希臘文回答你英國的法律條文。這個例子完美展現了當前大型語言模型(LLMs)的困境:雖然精通多國語言,卻無法理解區域性的文化與法律差異。

由瑞士洛桑聯邦理工學院(EPFL)自然語言處理實驗室、Cohere Labs與全球合作團隊共同開發的「INCLUDE」評測工具,正是為了突破這個瓶頸而生。這項研究已發表在arXiv預印本伺服器上,目標是打造真正理解當地文化脈絡的AI系統。

EPFL博士生Angelika Romanou強調:「要讓AI真正實用,光有全球性知識遠遠不夠,關鍵在於理解每個地區獨特的文化細微差異。」目前主流模型如GPT-4和LLaMA-3雖然能處理數十種語言,但在烏爾都語、旁遮普語等使用人口眾多的語言上表現仍不理想,主因就是缺乏高品質的訓練資料。

現有的AI評測標準存在嚴重缺陷:要麼僅限英文,要麼是從英文翻譯而來。這種做法不僅會產生翻譯腔問題,更保留了西方中心主義的文化偏見。相較之下,INCLUDE直接收集了44種語言、15種文字的原生考題,總數超過19.7萬題。這些題目來自各地真實的學術與職業考試,內容涵蓋文學、法律、醫學甚至航海執照等專業領域。

研究發現,AI在區域歷史題目的表現遠不如世界歷史題目—這顯示當前模型仍缺乏在地脈絡的理解能力。共同作者Negar Foroutan舉例說明:「當問到『亞歷山大大帝為何焚毀波斯波利斯』時,波斯觀點會認為這是對波斯文化的褻瀆,而希臘觀點則視為對薛西斯入侵的報復—這種文化差異正是AI面臨的實質挑戰。」

在實際測試中,GPT-4o以平均77%的正確率領先其他模型。雖然法語和西班牙語表現良好,但亞美尼亞語、希臘語等語言,特別是涉及文化或專業主題時,AI往往會給出充滿自信卻基於西方假設的錯誤答案。

隨著AI在教育、醫療、政府治理等領域的應用日增,區域理解能力變得至關重要。EPFL自然語言處理實驗室主任Antoine Bosselut指出:「AI民主化必須建立在理解不同社群的世界觀與生活現實的基礎上。」

目前INCLUDE已開放公眾使用,並獲得多家大型LLM開發商採用。團隊正著手開發包含約100種語言的新版本,特別納入比利時、加拿大和瑞士的法語變體,以及非洲和拉丁美洲的弱勢語言。這類評測工具有望形成國際標準,甚至為負責任AI建立監管框架,同時為醫療、法律等需要在地理解的專業領域鋪路。

[end]