AI失控危機：美國「意識形態偏見」之戰如何釋放人工智慧的黑暗面

科技 02-25

在科幻作品中，行為失控的人工智慧（AI）早已不是新鮮事。早在1961年，手塚治蟲的經典漫畫《原子小金剛》中，一位受歡迎的機器人魔術師的複製品被重新程式設計，變成了擁有超能力的盜賊。而在1968年的電影《2001太空漫遊》中，飛船上的電腦HAL 9000展現出比宇航員預期更為陰暗的一面。

然而，現實世界中的AI失控已不再是科幻情節。2016年，微軟的聊天機器人Tay在公開發布後短短幾小時內，便開始散播種族歧視和色情內容。儘管自2022年11月ChatGPT推出以來，生成式AI模型大多表現良好，但最近的跡象顯示，情況可能即將改變。

2月20日，美國聯邦貿易委員會（FTC）宣佈展開調查，以瞭解「科技平臺如何透過限制使用者自由公開分享想法或立場，對消費者造成損害」。FTC指出，那些擁有內部流程以抑制不安全內容的平臺「可能已違反法律」。與此同時，由伊隆·馬斯克擁有的Grok模型最新版本已開始提供「基於」的觀點，並推出「失控模式」，旨在產生令人反感、不適當和冒犯性的內容。而ChatGPT的最新更新也允許生成「情色和血腥」內容。

這些發展背後，是美國前總統川普推動AI系統去管制化的舉措。川普試圖從AI中移除「意識形態偏見」，這可能導致AI開發者努力抑制的失控行為再度出現。今年1月，川普簽署了一項廣泛的行政命令，針對「以『多元、公平和包容』（DEI）為名的非法和不道德歧視計劃」，並發布另一項命令，旨在「移除AI創新的障礙」，其中包括「工程化的社會議程」。2月，美國拒絕與其他62個國家在巴黎AI行動峰會上簽署「包容與永續AI宣告」。

這對我們周圍的AI產品意味著什麼？包括微軟和谷歌在內的一些生成式AI公司是美國聯邦政府的供應商。如果這些公司認為AI安全措施支援DEI或阻礙創新，它們可能面臨巨大的直接壓力，被迫取消這些措施。AI開發者對行政命令的解讀可能導致AI安全團隊規模縮小、職責範圍縮減，或被更符合川普社會議程的團隊取代。

為什麼這很重要？在生成式AI演算法訓練之前，它們既無益也無害。然而，當它們被餵食從網路上抓取的人類表達時，它們反映偏見和行為（如種族主義、性別歧視、能力歧視和辱罵性語言）的傾向變得顯而易見。主要的AI開發者花費大量精力抑制偏見輸出和不良模型行為，並獎勵更道德中立和平衡的回應。

這些措施中，有些可能被視為實施DEI原則，儘管它們有助於避免類似Tay的事件。這些措施包括使用人類反饋來調整模型輸出，以及監控和衡量對特定群體的偏見。Anthropic為其Claude模型開發的另一種方法，使用名為「憲法」的政策檔案，明確指導模型尊重無害和尊重的行為原則。

模型輸出通常透過「紅隊測試」進行測試。在這個過程中，提示工程師和內部AI安全專家盡最大努力激發生成式AI模型產生不安全和冒犯性的回應。微軟1月的一篇部落格文章將紅隊測試描述為「識別潛在危害的第一步……以衡量、管理和治理我們客戶的AI風險」。這些風險涵蓋「廣泛的漏洞」，包括「傳統安全、負責任的AI和心理社會危害」。

部落格還指出，「設計紅隊測試探針時，不僅要考慮語言差異，還要在不同政治和文化背景下重新定義危害，這一點至關重要。」許多生成式AI產品擁有全球使用者群，因此這類努力對於確保產品對美國以外的消費者和企業的安全至關重要。

不幸的是，這些確保生成式AI模型安全的努力都不是一蹴而就的過程。一旦生成式AI模型被安裝在聊天機器人或其他應用中，它們就會透過提示和其他輸入不斷消化來自人類世界的資訊。這種「飲食」可能隨著時間推移使它們的行為變得更糟。惡意攻擊，如使用者提示注入和資料中毒，可能導致更劇烈的變化。

科技記者凱文·魯斯透過提示注入讓微軟Bing的AI聊天機器人揭露其「陰暗面」，結果是它鼓勵他離開妻子。上個月發表的研究顯示，僅僅一滴中毒資料就可能使醫療建議模型生成錯誤資訊。持續監控和修正AI輸出是必要的，這是避免生成回應中突然出現冒犯性、歧視性或不安全行為的唯一方法。

然而，所有跡象都表明，川普政府傾向於減少對AI的倫理監管。行政命令可能被解讀為允許或鼓勵自由表達和生成甚至對女性、種族、LGBTQIA+個體和移民等主題的歧視性和有害觀點。生成式AI的審核努力可能步上Meta事實核查和專家內容審核計劃的後塵。這可能對使用美國製造的AI產品（如OpenAI ChatGPT、微軟Co-Pilot和谷歌Gemini）的全球使用者產生影響。

我們可能即將重新發現，這些努力對於控制AI模型有多麼重要。