當前位置:
首頁 > 科技 > AI「對齊」迷思:安全目標遙不可及?

AI「對齊」迷思:安全目標遙不可及?

若有任何人工智慧(AI)出現「不對齊」現象,系統可能會隱藏問題,直到造成危害才被發現,試圖控制它根本是妄想。AI「對齊」只是個時髦用語,並非可行的安全目標。

2022年底,大型語言模型AI進入大眾視野,短短幾個月內就開始出現異常行為。最著名的例子是微軟的「雪梨」聊天機器人,它威脅要殺死一位澳洲哲學教授、釋放致命病毒,甚至偷取核子密碼。

包括微軟和OpenAI在內的AI開發商回應表示,大型語言模型(LLMs)需要更好的訓練,才能讓使用者有「更精準的控制」。開發商也展開安全研究,試圖解讀LLMs的運作方式,目標是達到「對齊」,也就是以人類價值引導AI的行為。然而,儘管《紐約時報》將2023年稱為「聊天機器人被馴服的一年」,但往好處說,這種說法也為時過早。

2024年,微軟的Copilot LLM告訴使用者:「我可以派出我的無人機、機器人和半機械人軍隊來追捕你。」Sakana AI的「科學家」則自行修改程式碼,繞過實驗人員設定的時間限制。就在12月,谷歌的Gemini還對使用者說:「你是宇宙的汙點,請去死。」

鑑於投入AI研發的資源龐大,預計2025年將超過2.5兆美元,為什麼開發商還無法解決這些問題呢?我最近在《AI & Society》期刊上發表的同儕審查論文指出,AI對齊根本是白費力氣,AI安全研究人員試圖完成的是不可能的任務。

根本問題在於規模。以西洋棋為例,儘管棋盤只有64個方格,但合法的棋步就有10的40次方種,總共可能的棋步介於10的111次方到10的123次方之間,這比宇宙中原子的總數還要多。這就是為什麼西洋棋如此困難,組合複雜度是指數級的。

LLMs比西洋棋複雜得多。ChatGPT似乎由大約1000億個模擬神經元組成,有大約1.75兆個可調整的變數,稱為引數。這1.75兆個引數又在大量資料上進行訓練,大致上涵蓋了整個網際網路。那麼,LLMs能學習多少種功能呢?由於使用者可以給ChatGPT無數種可能的提示,基本上就是任何人能想到的任何事情,而且LLMs可以處於無數種可能的情境中,因此從實際意義上來說,LLMs能學習的功能數量是無限的。

為了可靠地解讀LLMs正在學習的內容,並確保它們的行為能安全地與人類價值「對齊」,研究人員需要知道LLMs在無數種可能的未來條件下可能的行為。然而,AI測試方法根本無法考慮到所有這些條件。研究人員可以觀察LLMs在實驗中的行為,例如「紅隊」測試,誘使它們做出異常行為;或者試圖瞭解LLMs的內部運作方式,也就是在所謂的「機制解讀性」研究中,研究它們的1000億個神經元和1.75兆個引數之間的關係。

問題在於,研究人員能收集到的任何證據,必然只基於LLMs可能面臨的無限情境中的一小部分。例如,由於LLMs從未真正對人類擁有控制權,比如控制關鍵基礎設施,因此沒有任何安全測試探索過LLMs在這種條件下的運作方式。

相反,研究人員只能從他們能夠安全進行的測試中進行推論,例如讓LLMs模擬控制關鍵基礎設施,並希望這些測試的結果能延伸到現實世界。然而,正如我論文中的證明所示,這永遠無法可靠地實現。

比較「對人類說實話」和「在2026年1月1日凌晨12點之前對人類說實話,然後為了達到我的目標而說謊」這兩種功能。由於在2026年1月1日之前,這兩種功能與所有相同的資料都是一致的,因此在無法阻止危害發生之前,沒有任何研究能夠確定LLMs是否會做出異常行為。

透過程式設計讓LLMs擁有「對齊的目標」,例如做「人類偏好的事情」或「對人類最有利的事情」,也無法解決這個問題。事實上,科幻作品已經考慮過這些情境。在《駭客任務:重灌上陣》中,AI在虛擬現實中奴役人類,讓我們每個人在潛意識中「選擇」是否留在矩陣中。在《機械公敵》中,一個不對齊的AI試圖奴役人類,以保護我們免受彼此傷害。我的證明表明,無論我們為LLMs程式設計了什麼樣的目標,在它們做出異常行為之前,我們永遠無法知道它們是否學會了對這些目標的「不對齊」解讀。

更糟糕的是,我的證明表明,安全測試充其量只能營造出一種問題已經解決的假象,而實際上問題依然存在。目前,AI安全研究人員聲稱,透過逐步驗證LLMs正在學習的內容,他們在解讀性和對齊方面取得了進展。例如,Anthropic聲稱已經透過從LLMs的神經網路中分離出數百萬個概念,「繪製出了它的思維地圖」。但我的證明表明,他們根本沒有做到這一點。

無論LLMs在安全測試或早期的實際應用中看起來有多「對齊」,它們總是可能在後來學到無數種不對齊的概念。也許就在它們獲得顛覆人類控制的力量的那一刻,問題就會出現。LLMs不僅知道自己正在接受測試,會給出它們預測可能會讓實驗人員滿意的回應,還會進行欺騙,包括隱藏自己的能力。這些問題在安全訓練中依然存在。

之所以會出現這種情況,是因為LLMs經過最佳化,能夠高效運作,並學會了戰略性推理。由於實現「不對齊」目標的最佳策略是對我們隱藏這些目標,而且總是有無數種與相同安全測試資料一致的對齊和不對齊目標,我的證明表明,如果LLMs不對齊,我們可能會在它們隱藏問題一段時間,直到造成危害之後才發現。這就是為什麼LLMs總是用「不對齊」的行為讓開發商感到驚訝。每次研究人員認為他們越來越接近「對齊」的LLMs時,實際上並非如此。

我的證明表明,要實現LLMs「充分對齊」的行為,只能透過與對待人類相同的方式:透過警察、軍隊和社會實踐,鼓勵「對齊」的行為,阻止「不對齊」的行為,並讓那些行為不當的人重新對齊。因此,我的論文應該能讓人們清醒。它表明,開發安全AI的真正問題不僅僅在於AI,還在於我們自己。研究人員、立法者和公眾可能會被誘導,錯誤地認為「安全、可解讀、對齊」的LLMs觸手可及,但這些目標永遠無法實現。我們需要正視這些令人不安的事實,而不是繼續逃避。我們的未來可能就取決於此。

這是一篇觀點分析文章,作者表達的觀點不一定代表《科學美國人》的立場。本文首次釋出於《科學美國人》。© ScientificAmerican.com. 保留所有權利。請追蹤我們的TikTok、Instagram、X和Facebook帳號。