當前位置:
首頁 > 科技 > AI對抗網路惡意言論:演演算法如何權衡準確度與公平性?

AI對抗網路惡意言論:演演算法如何權衡準確度與公平性?

今年初,臉書放寬了部分仇恨言論的審查標準。加上馬斯克收購推特(現稱X平臺)後的政策調整,社群媒體使用者如今更難避免接觸惡意內容。然而,這並不意味著社交平臺已放棄內容審查這項艱鉅任務,人工智慧正提供嶄新的解決方案。

德州大學麥庫姆斯商學院的Maria De-Arteaga助理教授指出,AI內容審查面臨的關鍵挑戰在於:如何在維持準確度的同時兼顧公平性。一個演演算法或許能整體上有效偵測惡意言論,但對不同族群或社會情境的判斷可能出現偏差。

「如果只看整體表現,我們可能會忽略演演算法對特定群體持續做出錯誤判斷。」De-Arteaga舉例說明,系統可能更容易識別對A族群的冒犯性言論,卻漏判對B族群的同類攻擊。

最新發表於《資訊研究》國際期刊的論文顯示,De-Arteaga團隊不僅證實同時達成高準確度與高公平性的可能性,更開發出能協助決策者平衡兩者的演演算法。這項研究運用「群體準確度平衡」(GAP)的公平性指標,分析超過11.4萬筆預先標註「有毒/無毒」的社群貼文資料庫。

值得注意的是,GAP並非萬能解方。De-Arteaga強調,不同利害關係人對「公平」的定義各異,系統所需的訓練資料也因應用場景而變化。例如各族群對「惡意言論」的認定標準不同,且這類標準會隨時代演變。

判斷失準可能導致兩種極端:錯誤過濾無害言論損害使用者權益,或放任仇恨言論擴大傳播。對臉書、X等全球性平臺而言,這個挑戰更加複雜。「如何讓演演算法設計跳脫美國中心主義?」De-Arteaga提出關鍵質問。

為此,研究團隊公開GAP程式碼,建議開發者持續更新系統,並根據審查內容的特性動態調整。De-Arteaga總結:「要兼顧技術面與文化脈絡,既需要跨領域知識,更須保持高度社會意識。」

[end]