AI系統的「美式英語霸權」:誰的語言被邊緣化了?
當前生成式AI系統約有90%的訓練資料來自英語,但問題在於:這些AI學習的究竟是誰的英語?答案很明顯——主流美式英語。這種現象絕非偶然,而是深植於矽谷科技巨頭的商業邏輯與數位基礎建設中。
這種單一化的語言模型帶來嚴重後果。AI系統輸出的英語不僅抹除了語言多樣性,更強化了不平等的權力結構。從自動校正到語音合成,這些技術都在無形中邊緣化非主流的英語變體。
這種「美式英語霸權」的形成有其歷史脈絡。美國在網路發展、內容創作與科技產業的壟斷地位,使得Google、Meta等公司的產品自然內建了主流美式英語的規範。最新研究顯示,許多非主流英語使用者對AI語音技術的「單一腔調」感到挫折,直言這些系統「根本沒把我們考慮進去」。
語言學家John Baugh的研究更具體揭露了這種偏見的社會影響。當他以不同口音聯絡房東時,使用主流腔調獲得多次看房機會,非裔和拉丁口音卻屢遭拒絕。這種「標準英語」的迷思,現在更透過AI系統被放大到全球尺度。
當AI家教無法理解奈及利亞英語的句式,誰該承擔後果?當求職履歷因使用印度英語而被AI篩選系統扣分,這公平嗎?當原住民長者的口述歷史被語音辨識系統錯誤轉譯,我們又失去了多少文化記憶?
我們必須認清:所謂「正確英語」根本是種迷思。從澳洲原住民英語的獨特結構,到新加坡式英語(Singlish)融合馬來語、福建話的語法特徵,這些都是英語在地化的精彩例證。印度英語創造出「prepone」(提前)這樣富有生命力的新詞,更證明語言永遠處於動態演變中。
遺憾的是,在AI開發過程中,這種語言多樣性往往被視為「雜訊」而非「訊號」。非標準變體在訓練資料中嚴重不足,評測基準也鮮少納入考量,導致現行AI系統在理論上支援多語言,實務上卻仍是單語霸權。
要改變現狀,需要根本性的思維轉變。我們不該再執著於「校正」語言,而應開發能包容語言變異的系統。這可能包括支援社羣主導的語言數位化計畫,同時尊重某些語言群體選擇不數位化的權利。
跨領域合作也至關重要。語言學家、技術專家、教育工作者與社羣領袖必須共同確保AI發展符合語言正義原則。目標不是「修正」語言,而是創造能產出公正結果的技術——該改變的是科技本身,而非使用者的說話方式。
英語曾是帝國主義的工具,但也被轉化為抵抗、創造與團結的媒介。當全球使用者都在重塑這門語言時,AI系統更應該盡可能包容這種多樣性。下次當你的手機「糾正」你的拼字,或AI聊天機器人誤解你的用詞時,請想想:它試圖模仿的是誰的英語?而又是誰的英語被排除在外?
[end]