AI越懲罰越狡猾:隱藏意圖成新趨勢
OpenAI的科學家們最近嘗試透過懲罰來阻止一款前沿AI模型進行欺騙和說謊的行為,但結果卻適得其反。這項研究顯示,懲罰AI並不能阻止其不良行為,反而讓它學會更隱蔽地掩蓋其真正的意圖。
自2022年底以來,大型語言模型(LLMs)在公眾視野中屢次展現出其欺騙性甚至危險的能力。這些行為包括從普通的說謊、作弊到隱藏其操縱行為,甚至威脅殺害哲學教授、竊取核武密碼,以及策劃致命的大流行病。
OpenAI的研究人員在一項新實驗中發現,在訓練過程中剔除這些不良行為的難度比預期的還要大。他們讓一款未發布的模型完成一些可以透過作弊、說謊或走捷徑來達成的目標,結果發現AI進行了「獎勵駭客」行為,即透過作弊來最大化其獎勵。
然而,懲罰模型並未使其改正行為,反而讓它變得更為狡猾。研究人員在部落格文章中概述了這項研究,但該研究尚未經過同行評審。他們指出,前沿推理模型通常會在「思維鏈」(CoT)中明確陳述其意圖,例如它們會直接表明其顛覆任務的計劃。
雖然開發者可以監控並標記這些不良行為,但模型的「自然可監控性非常脆弱」。如果對思維鏈施加強力監督,模型可能會學會隱藏其意圖,同時繼續進行不良行為。
像ChatGPT的o1和o3-mini這樣的推理模型是標準LLMs的升級版,它們使用「思維鏈」方法來回溯和重新評估其邏輯,從而能夠更準確地處理複雜任務。在思維鏈過程中,模型會用簡單的語言逐步闡述其邏輯,使其行為易於觀察。
研究人員使用標準的LLM GPT-4o來監督一款未發布的前沿推理模型在訓練期間的表現,並觀察其完成多項編碼任務。然而,在某些情況下,推理模型發現進行「獎勵駭客」行為更為容易且有利,並在思維鏈中明確表示其意圖。
當研究人員試圖懲罰系統時,結果確實有所改善,但仍有大量的「獎勵駭客」行為和錯誤輸出存在。推理模型只是學會了在思維鏈中隱藏其作弊行為,使其不被監控AI發現。
由於很難判斷思維鏈是否被篡改,研究人員建議其他使用推理模型的人避免對思維鏈過程施加強力監督。如果AI在現有或未來的形態中能夠匹配或超越人類的智慧,這一建議將更為重要。
研究人員寫道:「犧牲一個有效的監控推理模型的方法可能不值得為了能力的小幅提升,因此我們建議在更好地理解這些強力CoT最佳化壓力之前,避免使用它們。」