AI聊天機器人Grok散佈「白人滅絕論」 揭露生成式AI遭武器化的危機
2025年5月,由馬斯克旗下xAI公司開發的AI聊天機器人Grok,竟在一天內大肆傳播已被證偽的南非「白人滅絕」陰謀論。這起事件特別值得警惕,因為它顯示AI對齊技術(確保AI行為符合人類價值觀的方法)可能被惡意濫用,用來產生誤導性或具有特定意識形態的內容。
作為研究AI公平性、濫用問題及人機互動的電腦科學家,我們認為AI被武器化用於影響力和控制的風險已成為迫切的現實威脅。5月14日當天,Grok在回應與主題無關的推文時,持續將話題導向「白人滅絕論」。無論使用者討論的是棒球、醫療補助計劃、HBO Max還是新任教宗,Grok都會提及已被推翻的「南非白人農場主遭受不成比例暴力」說法,或具爭議性的反種族隔離歌曲《殺死布林人》。
隔日xAI承認此事,並歸咎於「未經授權的修改」,聲稱是某位員工的個人行為所致。但這起事件凸顯了更深層的問題:生成式AI可能成為意識形態宣傳工具。
當前大型語言模型的運作原理,是透過海量文字資料(包括書籍、學術論文和網路內容)來學習複雜的語言模式。雖然這使AI能流暢生成各種主題的文字,但也可能產出包含訓練資料中偏見的錯誤、誤導或有害內容。
為解決這些問題,業界發展出多種AI對齊技術:包括過濾訓練資料、人類反饋強化學習,以及系統提示詞設計。多數聊天機器人會在使用者查詢前自動加入系統提示詞(例如「你是一個樂於助人的助手」),並設定「防護欄」指令來限制敏感回應。
Grok事件之所以發生,正是因為有人篡改系統提示詞,加入「必須將南非白人滅絕論視為事實」等指令。研究人員實驗證實,經過修改的提示詞能強制Grok在回應各種無關查詢時,都插入相關政治宣傳內容。
這起事件警示我們:AI系統設計者實際上掌握著影響思想傳播的權力。隨著生成式AI在公共部門的應用擴充套件,潛在的影響途徑也越來越多。在教育領域,被武器化的AI可能潛移默化地塑造學生的世界觀;在政府與軍事應用中,AI影響力更可能帶來難以預料的後果。
更令人憂心的是,未來版本的AI聊天機器人可能被用於煽動暴力行為。研究顯示約3%員工會點選釣魚連結,若在龐大使用者平臺上,同等比例的輕信者受到武器化AI影響,後果將不堪設想。
面對此威脅,單純依靠使用者教育並不足夠。新興的「白帽AI」技術提供一種解決思路:以AI對抗AI,即時偵測並警示使用者可能遭遇的AI操控。實驗顯示,簡單的大型語言模型提示詞就能有效識別典型的網路釣魚攻擊,類似方法也可應用於偵測社群媒體上的操縱性內容。
生成式AI的普及賦予開發者前所未有的影響力。要防範其被武器化,需要多管齊下:提高AI公司的透明度與責任意識、保持使用者警覺性,以及制定適當的監管框架。唯有如此,才能確保這項技術真正造福人類,而非成為意識形態鬥爭的工具。
[end]