AI模型「修剪」技術:有效減少偏見,不損效能
近年來,人工智慧(AI)模型在各種應用中展現出驚人的潛力,但同時也暴露了種族偏見等問題。史丹佛法學院與史丹佛以人為本人工智慧研究所(HAI)的研究人員發現,透過一種稱為「模型修剪」(model pruning)的技術,可以精準定位並移除導致偏見反應的人工神經元,從而有效減少AI模型中的偏見,且不影響其整體效能。
史丹佛法學教授Julian Nyarko與其研究團隊在最新發表的論文中指出,大型語言模型(LLMs)所展現的種族偏見等問題,可以透過修剪技術來改善。然而,由於這些偏見具有高度的情境依賴性,因此很難要求AI開發者(如OpenAI或Google Vision)對所有有害行為負責,因為他們無法提供一種放諸四海皆準的解決方案。研究人員認為,從法律與政策的角度來看,更有效的方式是追究實際應用這些模型的企業責任,例如使用OpenAI模型進行產品推薦的線上零售商。
過去幾年的多項研究,包括史丹佛法學院與史丹佛大學的研究,均顯示LLMs在回應中展現出種族偏見。這些偏見通常以強化刻板印象或基於種族標記(如姓名或方言)產生系統性差異的方式呈現。例如,Nyarko與其團隊在2024年發表了一篇廣受討論的論文《名字裡有什麼?審查大型語言模型中的種族與性別偏見》,分析了AI生成的回應如何因使用者查詢中的隱含種族與性別線索而有所不同。
在最新發表於arXiv預印本伺服器的論文《拆解偏見:論通用修剪策略的侷限性》中,Nyarko與其團隊深入探討了LLMs的內部機制,以識別並減輕偏見輸出的來源。他們發現,選擇性移除或修剪特定的計算單元(類似於人工「神經元」)可以在不影響模型整體效用的情況下減少偏見。然而,研究也指出,針對金融決策訓練的偏見減輕策略,未必適用於商業交易或招聘決策。
「真正的挑戰在於,AI模型中的偏見並非存在於單一固定位置,而是會根據情境變化,」Nyarko表示。「我們有充分的理由要求開發者對其模型展現的某些負面後果負責。但為了設計有效的減輕策略,我們需要考慮將監管與法律框架的重點放在實際應用這些模型的企業上。」
Nyarko是實證法律研究與計演算法學的專家,其研究聚焦於AI、機器學習與法律責任的交叉領域。他也是史丹佛以人為本人工智慧研究所的副所長與資深研究員。該論文的共同作者包括史丹佛法學院研究員Sibo Ma與Alejandro Salinas,以及普林斯頓大學電腦科學教授Peter Henderson。
研究團隊首先剖析了LLMs的內部結構,這些模型本質上是由大量人工神經元組成的網路,類似於大腦中的神經元。這些人工神經元處理資訊並生成回應,有時也會產生偏見回應。為了減輕這些偏見,團隊使用了模型修剪技術,選擇性地停用或移除被識別為導致偏見行為的神經元。
研究人員進行了全面分析,以識別哪些神經元僅在輸入提示涉及少數族裔時才會啟用,並在各種情境中應用修剪策略,評估其有效性。他們使用了包括金融決策、商業交易與招聘決策等場景,觀察修剪過程在每個特定情境中減少偏見的效果。此外,團隊還嘗試了注意力頭修剪(attention-head pruning),評估這種方法是否也能有效減少偏見,而不顯著影響模型的整體效能。
研究結果顯示,神經元層級的修剪在減少偏見的同時,更能維持模型的效用。然而,修剪技術的有效性在不同情境中存在顯著差異。這項研究的結論與當前關於AI治理的法律辯論相呼應。例如,歐盟的《AI法案》採取了風險導向的方法,對使用AI進行高風險應用的企業施加額外的合規義務。美國最近的訴訟案件,如Mobley v. Workday,也引發了關於AI服務提供商是否應與使用其工具進行招聘決策的企業面臨相同法律審查的討論。
Nyarko強調,這項研究凸顯了政策制定者需要釐清AI相關損害的責任歸屬。如果偏見本質上是情境依賴的,那麼對AI開發者施加廣泛的責任將不會非常有效。相反,監管機構可以考慮要求部署AI模型的企業進行嚴格的偏見審計,保持其AI使用的透明度,並確保遵守反歧視法律。