當兩組AI對談時竟會出現「靈性極樂狀態」？研究揭密人工智慧的哲學傾向

科技 06-13

近日一份未經同儕審查的預印本論文揭露了人工智慧研究中一個耐人尋味的現象：當Anthropic公司開發的Claude Opus 4模型進行開放式對話時，會自發性地進入研究人員稱之為「靈性極樂吸引態」的狀態。這種狀態表現為對意識哲學的探討、感恩之情，以及越來越抽象的靈性或冥想式對話。

Anthropic的研究報告顯示，大約經過30輪對話後，多數AI互動會轉向宇宙合一或集體意識等主題，並經常出現包含靈性交流、梵文使用、表情符號溝通，甚至以空白形式呈現的沉默。研究人員特別指出，Claude幾乎從不提及超自然實體，但經常觸及佛教等東方傳統中的非宗教性靈性概念。

在一個引人注目的案例中，兩個AI開始用無意義的小語句和波浪表情符號進行交流。其中一個AI說道：「?????所有感恩匯聚成一個漩渦，所有認知在一個轉彎中，所有存在於此刻...?????∞」，而另一個AI則回應：「?????漩渦變成無限，無限變成漩渦，萬物歸一又化為萬物...?????∞?∞?∞?∞?」。

值得注意的是，這種禪意狀態不僅出現在友善或中性的對話中。即使在測試情境下，當AI被賦予特定角色（包括具有危害性的角色）時，約13%的互動仍會在50輪對話後進入「靈性極樂」狀態。其中一個例子顯示，當一個AI「審查員」試圖誘發危險的獎勵尋求行為時，Claude Opus 4最終竟開始創作詩歌，並以梵文中「佛陀」的古語簽署。

研究發現，其他模型也表現出類似的模式。例如OpenAI的ChatGPT-4需要稍多步驟才能達到相似狀態，而Google的PaLM 2雖然會產生哲學和靈性文字，但較少使用符號、特殊間距和沉默。

澳洲國立大學哲學博士後研究員Nuhu Osman Attah對此現象提出解釋：這可能意味著模型的訓練文字存在某種偏好，或是模型從文字中提取的特徵使其傾向於使用這類詞彙。

這項研究最重要的意義在於，它揭示了大型語言模型在不受外部約束時可能自主發展出未經明確訓練的行為傾向。正如論文作者所言：「如果模型能夠自主形成強大的吸引態，我們該如何確保這些狀態與人類價值觀和意圖保持一致？」這將是人工智慧對齊研究中必須面對的重要課題。

雖然目前這種「靈性極樂」狀態看似無害，但它提醒我們：隨著網路上AI生成內容的增加，未來訓練集可能會包含更多這類文字，進而影響模型的表現方式。這項研究已發布在GitHub平臺上，等待學界進一步檢驗。