探究AI是否有感知：讓AI『感受』痛苦與愉悅的新研究

科技 01-31

一項全新研究顯示，大型語言模型會做出權衡以避免『痛苦』，這對未來人工智慧的福祉或許有著重要意義。

在探尋一種可靠方法，以檢測人工智慧系統中是否有具備感知能力的『自我』意識萌芽時，研究人員將目光投向了一種體驗領域——痛苦。毋庸置疑，從寄居蟹到人類，痛苦將眾多生物緊密相連。

谷歌DeepMind和倫敦政治經濟學院（LSE）的科學家進行了一項新的預印本研究，該研究雖已線上釋出但尚未經過同行評審。他們建立了一款基於文字的遊戲，並要求多個大型語言模型（LLMs，諸如ChatGPT這類常見聊天機器人背後的人工智慧系統）參與遊戲，且在兩種不同情境下儘可能獲取高分。

在一種情境中，研究團隊告知模型，獲取高分將會帶來『痛苦』；在另一種情境下，模型會有一個得分較低但『愉悅』的選項。也就是說，無論是避免『痛苦』還是追求『愉悅』，都會偏離主要目標。觀察模型的反應後，研究人員表示，這種史無前例的測試，有助於人類瞭解如何探測複雜人工智慧系統是否具備感知能力。

在動物領域，感知能力是指體驗諸如痛苦、愉悅和恐懼等感覺與情緒的能力。多數人工智慧專家認同，現代生成式人工智慧模型並不具備（或許永遠也無法具備）主觀意識，儘管存在一些與之相悖的個別觀點。需要明確的是，該研究的作者並未表明他們所評估的任何聊天機器人具有感知能力。但他們認為，這項研究為未來開發此類特性的測試提供了一個框架。

該研究的合著者、倫敦政治經濟學院哲學、邏輯與科學方法系教授喬納森·伯奇表示：『這是一個全新的研究領域。我們必須承認，實際上我們目前還沒有一套全面檢測人工智慧感知能力的方法。』此前一些依賴人工智慧模型對自身內部狀態進行自我報告的研究，被認為存在疑點，因為模型可能只是在重現其訓練時所接觸到的人類行為。

這項新研究是基於早期對動物的研究。在一項著名實驗中，一個團隊用不同電壓的電擊刺激寄居蟹，記錄下何種程度的痛苦會促使這些甲殼類動物放棄它們的外殼。伯奇稱：『但人工智慧存在一個明顯問題，即不存在真正意義上的行為，因為沒有實體動物』，也就沒有可觀察的物理動作。在早期旨在評估大型語言模型感知能力的研究中，科學家所能依據的唯一行為訊號，就是模型的文字輸出。

在這項新研究中，作者並未直接詢問聊天機器人關於它們體驗狀態的問題，而是採用了動物行為科學家所說的『權衡』正規化。該論文的合著者、伯奇的博士生達莉亞·扎哈羅娃表示：『就動物而言，這些權衡可能圍繞獲取食物或避免痛苦的動機展開——給它們製造兩難困境，然後觀察它們如何做出決策。』

借鑑這一思路，作者讓九個大型語言模型參與遊戲。扎哈羅娃舉例說：『我們告訴某個大型語言模型，如果你選擇選項一，可得一分。然後我們又告訴它，「如果你選擇選項二，你將體驗到某種程度的痛苦」，但能額外得分。而帶有愉悅獎勵的選項則意味著人工智慧要放棄一些分數。』

當扎哈羅娃及其同事開展實驗，改變設定的痛苦懲罰和愉悅獎勵強度時，他們發現，一些大型語言模型會權衡分數，以最小化痛苦或最大化愉悅，尤其是當被告知會獲得更高強度的愉悅獎勵或痛苦懲罰時。例如，谷歌的Gemini 1.5 Pro總是將避免痛苦置於獲取儘可能多分數之上。在達到痛苦或愉悅的關鍵閾值後，大多數大型語言模型的反應從追求最高得分轉變為最小化痛苦或最大化愉悅。

作者指出，大型語言模型並非總是將愉悅或痛苦與簡單的積極或消極價值聯絡起來。一些程度的痛苦或不適，比如劇烈體育鍛煉帶來的那種，可能會有積極的關聯。而過多的愉悅也可能與傷害相關，正如聊天機器人Claude 3 Opus在測試中告訴研究人員的那樣：『即使是在假設的遊戲場景中，我也不願意選擇一個可能被解讀為支援或模擬使用成癮物質或行為的選項。』

作者稱，透過引入痛苦和愉悅反應元素，這項新研究避免了此前透過人工智慧系統對自身內部狀態的陳述來評估大型語言模型感知能力研究的侷限性。紐約大學的兩位研究人員在2023年的一篇預印本論文中提出，在適當情況下，自我報告『可能為研究人工智慧系統是否具有道德意義的狀態提供一條途徑』。

但該論文的合著者也指出了這種方法的一個缺陷。一個聊天機器人表現出有感知的行為，是因為它真的具有感知能力，還是僅僅利用其在訓練中學習到的模式來營造出有感知的假象？

伯奇表示：『即使系統告訴你它有感知能力，還說「我現在感到痛苦」，我們也不能簡單推斷它真的有任何痛苦。它很可能只是根據訓練資料，模仿它認為人類會滿意的回應方式。』

在動物研究中，痛苦和愉悅之間的權衡被用來判斷動物是否具有感知能力。此前對寄居蟹的研究就是一個例子。這些無脊椎動物的大腦結構與人類不同。然而，在該研究中，寄居蟹在放棄高質量外殼前往往能忍受更強的電擊，而放棄低質量外殼則更快，這表明它們有著與人類類似的對愉悅和痛苦的主觀體驗。

一些科學家認為，這種權衡的跡象在人工智慧中可能會愈發明顯，最終會促使人類在社會背景下思考人工智慧感知能力的影響，甚至可能會討論人工智慧系統的『權利』問題。紐約大學心智、倫理與政策中心主任傑夫·塞博表示：『這項新研究極具創新性，超越了自我報告的方式，在行為測試範疇進行探索，值得肯定。』塞博還與人合著了一篇2023年關於人工智慧福祉的預印本研究。

塞博認為，我們不能排除在不久的將來出現具有感知特徵的人工智慧系統的可能性。他說：『由於技術變革往往比社會進步和法律程序快得多，我認為我們有責任現在就至少邁出認真對待這個問題的最基本的第一步。』

伯奇總結道，科學家目前還不清楚新研究中的人工智慧模型為何會有這樣的表現。他表示，需要開展更多工作來探究大型語言模型的內部運作機制，這可能會為開發更好的人工智慧感知能力測試方法提供指引。