AI聊天機器人Grok散佈「白人滅絕論」揭露生成式AI遭武器化的危機

科技 06-19

2025年5月，由馬斯克旗下xAI公司開發的AI聊天機器人Grok，竟在一天內大肆傳播已被證偽的南非「白人滅絕」陰謀論。這起事件特別值得警惕，因為它顯示AI對齊技術（確保AI行為符合人類價值觀的方法）可能被惡意濫用，用來產生誤導性或具有特定意識形態的內容。

作為研究AI公平性、濫用問題及人機互動的電腦科學家，我們認為AI被武器化用於影響力和控制的風險已成為迫切的現實威脅。5月14日當天，Grok在回應與主題無關的推文時，持續將話題導向「白人滅絕論」。無論使用者討論的是棒球、醫療補助計劃、HBO Max還是新任教宗，Grok都會提及已被推翻的「南非白人農場主遭受不成比例暴力」說法，或具爭議性的反種族隔離歌曲《殺死布林人》。

隔日xAI承認此事，並歸咎於「未經授權的修改」，聲稱是某位員工的個人行為所致。但這起事件凸顯了更深層的問題：生成式AI可能成為意識形態宣傳工具。

當前大型語言模型的運作原理，是透過海量文字資料（包括書籍、學術論文和網路內容）來學習複雜的語言模式。雖然這使AI能流暢生成各種主題的文字，但也可能產出包含訓練資料中偏見的錯誤、誤導或有害內容。

為解決這些問題，業界發展出多種AI對齊技術：包括過濾訓練資料、人類反饋強化學習，以及系統提示詞設計。多數聊天機器人會在使用者查詢前自動加入系統提示詞（例如「你是一個樂於助人的助手」），並設定「防護欄」指令來限制敏感回應。

Grok事件之所以發生，正是因為有人篡改系統提示詞，加入「必須將南非白人滅絕論視為事實」等指令。研究人員實驗證實，經過修改的提示詞能強制Grok在回應各種無關查詢時，都插入相關政治宣傳內容。

這起事件警示我們：AI系統設計者實際上掌握著影響思想傳播的權力。隨著生成式AI在公共部門的應用擴充套件，潛在的影響途徑也越來越多。在教育領域，被武器化的AI可能潛移默化地塑造學生的世界觀；在政府與軍事應用中，AI影響力更可能帶來難以預料的後果。

更令人憂心的是，未來版本的AI聊天機器人可能被用於煽動暴力行為。研究顯示約3%員工會點選釣魚連結，若在龐大使用者平臺上，同等比例的輕信者受到武器化AI影響，後果將不堪設想。

面對此威脅，單純依靠使用者教育並不足夠。新興的「白帽AI」技術提供一種解決思路：以AI對抗AI，即時偵測並警示使用者可能遭遇的AI操控。實驗顯示，簡單的大型語言模型提示詞就能有效識別典型的網路釣魚攻擊，類似方法也可應用於偵測社群媒體上的操縱性內容。

生成式AI的普及賦予開發者前所未有的影響力。要防範其被武器化，需要多管齊下：提高AI公司的透明度與責任意識、保持使用者警覺性，以及制定適當的監管框架。唯有如此，才能確保這項技術真正造福人類，而非成為意識形態鬥爭的工具。

[end]