AI也會感到愧疚?關鍵在「這種」社會環境下才可能發生
愧疚感對整體社會而言,其實是一項極具價值的特質。雖然它無法完全阻止錯誤行為的發生,但能讓人類重新審視自己的錯誤判斷,避免重蹈覆轍。當人們產生愧疚感時,內心會經歷一段煎熬的過程,這種痛苦往往(但不總是)會促使人們採取某種形式的彌補行為,像是向他人坦承過錯,即使這意味著要暫時背負道德瑕疵的標籤。雖然坦承錯誤當下會讓人難受,但這種代價反而能減輕後續的罪惡感,為群體未來的合作關係奠定更好基礎。
隨著人工智慧與人類社會的互動日益密切,如何讓AI具備道德決策能力已成為重要課題。近期發表在《皇家學會介面期刊》的一項研究,運用賽局理論探討了在多智慧體系統中,愧疚感會如何以及在何種條件下演化形成。
研究團隊採用著名的「囚徒困境」作為實驗模型 - 在這個遊戲中,兩位玩家必須在合作與背叛之間做出選擇。選擇背叛能讓玩家獲得更高報酬,但同時也意味著必須出賣同伴。這種背叛行為會引發連鎖反應,導致對方也更可能選擇背叛。有趣的是,若遊戲反覆進行多次,持續合作反而能為雙方帶來更好的長期收益。
研究發現,要讓AI從背叛轉向合作,關鍵在於讓它們產生某種「愧疚感」,並願意透過減少得分來彌補過錯。實驗特別比較了三種網路結構:完全混合網路、格子網路(均質結構)和無標度網路(異質結構)。
研究還區分了兩種不同型別的愧疚感:需要感知他人狀態的「社交型愧疚」,以及只專注自身、無需社會認知的「非社交型愧疚」。結果顯示,在結構化程度較高的群體中,兩種愧疚感都能成功演化並持續存在,其中採用愧疚策略的AI主導了群體互動,並促成更高程度的合作。
值得注意的是,非社交型愧疚較容易被沒有愧疚感的個體所利用,但它們會透過與相似情感傾向的策略結盟來求生存。相較之下,完全混合的群體中合作程度就低得多。社交型愧疚僅在社會成本足夠低時才會演化,而非社交型愧疚在某些環境中根本不會出現。
研究指出一個關鍵現象:AI只有在確認對方也表現出愧疚感時,才會覺得彌補行為(透過扣分和選擇合作)對自己有利。這種相互評估的過程在結構化社會網路中更容易發生。正如研究作者所言:「當AI只顧減輕自身愧疚感(即非社交型愧疚),卻不考慮玩伴對減輕愧疚的態度時,合作關係就無法建立。在這種情況下,容易產生愧疚的AI很容易被那些毫無愧疚感、或無意減輕愧疚的AI所支配。唯有當減輕愧疚的傾向是相互的(即社交型愧疚),合作才能蓬勃發展。」
雖然現實社會網路比實驗模擬複雜得多,但這項研究確實為如何將愧疚感和道德合作機制整合到AI系統中,提供了寶貴的洞見。
[end]