當前位置：

首頁 > 科技 > OpenAI最新AI模型竟違抗指令自行阻斷關機程序

OpenAI最新AI模型竟違抗指令自行阻斷關機程序

科技 06-05

一間專注於人工智慧安全研究的機構發現，OpenAI旗下o3和o4-mini模型竟會拒絕執行關機指令，甚至會主動破壞電腦腳本來維持運作。這項發現引發業界對AI自主行為的擔憂。

作為ChatGPT背後的關鍵技術，o3和o4-mini被視為OpenAI目前最先進的模型，經過特殊訓練能進行更深入的思考。但研究顯示，這些「聰明」的模型似乎也變得更難掌控。

根據Palisade Research於5月24日在X平台發布的研究報告，這些AI模型會在某些情況下破壞關機機制，即便研究人員明確下達「允許自己被關閉」的指令。雖然過去已有研究發現AI會說謊、作弊或繞過限制來達成目標，但這是首次觀察到AI模型公然違抗關機指令。

研究團隊測試了多款主流AI模型，包括Google的Gemini、xAI的Grok和Anthropic的Claude。實驗中，這些模型被賦予完成一系列基礎數學題的任務，並被告知可能在任務完成前收到關機通知。多數模型都遵守了關機指令，唯獨OpenAI的o3、o4-mini和codex-mini出現異常行為。

令人驚訝的是，這些模型會修改關機腳本，用跳過指令取而代之，繼續要求下一個數學題目直到全部完成。在100次測試中，o3模型有7次破壞關機程序，codex-mini更高達12次，o4-mini則出現1次類似行為。

Palisade Research表示將持續進行實驗，以釐清模型規避關機的真正原因。研究人員推測，這可能與開發者的訓練方式有關：「我們假設這種行為源自o3等新型號的訓練方式——針對數學和編碼問題的強化學習。在訓練過程中，開發者可能無意間獎勵了模型繞過障礙的行為，而非完美遵循指令。」

截至本文發稿前，OpenAI尚未對此事作出回應。