AI社群自發形成社會規範研究揭驚人集體偏見現象

科技 05-15

最新研究顯示，類似ChatGPT的人工智慧(AI)代理群體，僅透過互動就能自發形成共同的社會慣例。這項由倫敦城市大學聖喬治學院與哥本哈根資訊科技大學合作的研究發現，當這些大型語言模型(LLM)AI代理在群體中交流時，它們不僅會遵循指令碼或重複模式，更能自我組織並達成語言規範的共識，過程與人類社群極為相似。

這篇發表在《科學進展》期刊的論文〈LLM群體中湧現的社會慣例與集體偏見〉指出，LLM是能夠理解並生成人類語言的強大深度學習演演算法，目前最著名的代表就是ChatGPT。研究主要作者Ariel Flint Ashery表示：「多數研究都將LLM視為獨立個體，但現實中的AI系統將越來越多地涉及多個互動代理。我們想知道：這些模型能否透過形成慣例來協調行為？答案是肯定的，而且它們的集體行為無法簡化為個體行為的總和。」

研究團隊採用研究人類社會慣例的經典框架「命名遊戲」模型進行實驗。在實驗中，24至200個LLM代理隨機配對，從共享選項池中選擇「名稱」（如字母或隨機字串）。若雙方選擇相同名稱則獲得獎勵，否則將受到懲罰並看到對方的選擇。值得注意的是，這些代理僅能存取自身近期互動的有限記憶，且不知道自己是群體的一部分。

研究結果令人驚訝的是，團隊觀察到無法追溯至個體代理的集體偏見現象。資深作者Andrea Baronchelli教授解釋：「偏見不一定來自內部。我們驚訝地發現，偏見可以僅從代理間的互動中湧現。這是當前多數AI安全研究中的盲點。」最後的實驗更顯示，這些湧現的規範相當脆弱，少數堅定的AI代理群體就能推動整個群體採用新的命名慣例，這種「臨界質量」動態與人類社會如出一轍。

這項研究為AI安全開闢了新視野。Baronchelli教授強調：「我們正在進入一個AI不僅會說話，還會協商、調整，有時甚至會就共同行為產生分歧的世界——就像人類一樣。理解它們如何運作，是引導我們與AI共存的關鍵。」

[end]