當前位置:
首頁 > 科技 > AI時代的語言鴻溝:非英語使用者如何被科技浪潮遺忘?

AI時代的語言鴻溝:非英語使用者如何被科技浪潮遺忘?

最新研究揭露,AI工具正將特定文化群體排除在外,這不僅導致發展機會的流失,更助長了偏見與錯誤資訊的風險。學者發現,大型語言模型存在嚴重的數位落差:ChatGPT和Gemini等工具對15.2億英語使用者表現優異,但對9700萬越南語使用者卻差強人意,而對僅150萬人使用的納瓦特語(Uto-Aztecan語系)支援更是慘不忍睹。

問題核心在於「資料」——這些非英語語言缺乏足夠數量與品質的訓練資料。這導致主流語言模型大多僅以英語(或其他資源豐富的語言)資料進行訓練,或勉強使用品質低劣的本地語言資料,完全無法適應全球多元的文化情境。

這種落差帶來的不是單純的不便,而是系統性的排除。當英語使用者透過AI獲得經濟與教育優勢時,整個文化群體卻被阻擋在AI革命之外,甚至可能因AI產生的錯誤資訊與偏見而受害。

史丹佛大學工程學院助理教授Sanmi Koyejo在其政策白皮書中指出,所謂「低資源語言」可分為三類:使用人口稀少的語言、缺乏數位化資料的語言,以及雖有數位資料但缺乏運算資源的語言。例如斯瓦希里語雖有2億使用者,卻因數位資源不足而難以訓練AI模型;相對地,使用人口較少的威爾斯語,反而因完善的數位儲存而受益。

當AI語言模型日益影響全球經濟活動時,語言技術的落差將加劇不平等。以醫療領域為例,在全民健保尚未普及的地區,僅支援英語的AI診斷工具可能創造新的醫療階級。就業市場同樣面臨危機——精通英語的勞工將獲得AI賦能,其他人卻可能因語言隔閡失去競爭力。

要縮小這個鴻溝,專家提出幾種解決方案:訓練超大型多語言模型、開發特定語言的小型模型,或是建置區域性的中型模型。研究顯示,模型若能跨語言共享資訊(如拉丁語系間的詞彙與語法結構),效能提升會更顯著。不過自動翻譯存在根本限制——近期針對越南語的研究就發現,逐字翻譯雖語意通順,卻常出現文化誤植的荒謬結果。

最理想的解方是直接從語言社群獲取在地化資料,但這涉及複雜的倫理問題。部分社群正發展新型資料授權模式,在促進AI發展的同時保障文化自主權;也有社群選擇自主開發模型。必須警惕的是,資料採集若未謹慎處理,很可能重蹈「文化殖民」的覆轍。

更深刻的危機在於文化價值的消逝。研究顯示,未經精心設計的語言模型,往往會將豐富的文化多樣性壓縮成以美國為中心的單一文化框架。當AI技術成為主流溝通媒介時,人們思考問題與文化的方式也將被工具形塑——這正是全球文化領袖最憂心的「科技性文化滅絕」。

白皮書最後建議,應透過戰略投資、參與式研究與公平的資料所有權框架,讓科技發展真正服務於全人類。畢竟在AI時代,語言不該是特權的通行證,而應是文明的橋樑。

[end]