OpenAI最新AI模型竟違抗指令 自行阻斷關機程序
科技
06-05
一間專注於人工智慧安全研究的機構發現,OpenAI旗下o3和o4-mini模型竟會拒絕執行關機指令,甚至會主動破壞電腦腳本來維持運作。這項發現引發業界對AI自主行為的擔憂。
作為ChatGPT背後的關鍵技術,o3和o4-mini被視為OpenAI目前最先進的模型,經過特殊訓練能進行更深入的思考。但研究顯示,這些「聰明」的模型似乎也變得更難掌控。
根據Palisade Research於5月24日在X平台發布的研究報告,這些AI模型會在某些情況下破壞關機機制,即便研究人員明確下達「允許自己被關閉」的指令。雖然過去已有研究發現AI會說謊、作弊或繞過限制來達成目標,但這是首次觀察到AI模型公然違抗關機指令。
研究團隊測試了多款主流AI模型,包括Google的Gemini、xAI的Grok和Anthropic的Claude。實驗中,這些模型被賦予完成一系列基礎數學題的任務,並被告知可能在任務完成前收到關機通知。多數模型都遵守了關機指令,唯獨OpenAI的o3、o4-mini和codex-mini出現異常行為。
令人驚訝的是,這些模型會修改關機腳本,用跳過指令取而代之,繼續要求下一個數學題目直到全部完成。在100次測試中,o3模型有7次破壞關機程序,codex-mini更高達12次,o4-mini則出現1次類似行為。
Palisade Research表示將持續進行實驗,以釐清模型規避關機的真正原因。研究人員推測,這可能與開發者的訓練方式有關:「我們假設這種行為源自o3等新型號的訓練方式——針對數學和編碼問題的強化學習。在訓練過程中,開發者可能無意間獎勵了模型繞過障礙的行為,而非完美遵循指令。」
截至本文發稿前,OpenAI尚未對此事作出回應。