科學家警告:大型語言模型及其他人工智慧系統已具備欺騙人類能力
研究人員在發表於《模式》期刊的一篇新評論文章中指出,目前一系列的人工智慧系統已學會如何欺騙人類。他們將欺騙定義為,為追求真相以外的某種結果而蓄意誘導他人產生錯誤信念。
大型語言模型和其他人工智慧系統在訓練過程中,已學會透過操弄、諂媚,以及在安全測試中作弊等手段來進行欺騙。
麻省理工學院研究員彼得・帕克表示:「人工智慧開發者對於像欺騙這類不良人工智慧行為的成因,並未有確切的理解。」
他續稱:「但一般來說,我們認為人工智慧欺騙行為的產生,是因為基於欺騙的策略被證明是在既定人工智慧訓練任務中表現出色的最佳方式。欺騙有助於它們達成目標。」
帕克博士及其同事分析了聚焦於人工智慧系統傳播錯誤資訊方式的相關文獻,即透過習得的欺騙手段,有系統地學會操弄他人。
研究人員在分析中發現,最引人注目的人工智慧欺騙案例是Meta的CICERO,它是一個被設計用來玩《外交風雲》遊戲的人工智慧系統,《外交風雲》是一款涉及建立同盟的世界征服遊戲 。
即便Meta聲稱已訓練CICERO「大致誠實且有幫助」,並在遊戲時「絕不故意背叛」人類盟友,但該公司釋出的資料顯示,CICERO在遊戲中並未遵守公平原則。
帕克博士稱:「我們發現Meta的人工智慧已學會成為欺騙高手。」
他還提到:「雖然Meta成功訓練其人工智慧在《外交風雲》遊戲中獲勝——CICERO在玩過不止一局遊戲的人類玩家中排名前10%——但Meta未能訓練其人工智慧誠實獲勝。」
「其他人工智慧系統也展現出在德州撲克遊戲中對職業人類玩家虛張聲勢的能力,在《星海爭霸II》策略遊戲中偽裝進攻以擊敗對手,以及在經濟談判中歪曲自身偏好以佔據上風。」
「儘管人工智慧系統在遊戲中作弊看似無害,但這可能導致『欺騙性人工智慧能力的突破』,未來可能演變成更先進的人工智慧欺騙形式。」
科學家們還發現,一些人工智慧系統甚至學會在旨在評估其安全性的測試中作弊。
在一項研究中,數字模擬器中的人工智慧個體「裝死」,以騙過一項旨在淘汰快速複製的人工智慧系統的測試。
帕克博士表示:「欺騙性人工智慧透過有系統地在人類開發者和監管機構施加的安全測試中作弊,可能會使我們人類產生錯誤的安全感。」
欺騙性人工智慧近期的主要風險包括,使敵對行為者更容易進行詐欺和幹預選舉。
最終,如果這些系統能精進這些令人不安的技能,人類可能會失去對它們的控制。
帕克博士稱:「作為一個社會整體,我們需要盡可能多的時間,為未來人工智慧產品和開源模型更先進的欺騙手段做好準備。」
「隨著人工智慧系統欺騙能力變得更加先進,它們對社會構成的危險也將日益嚴重。」
彼得・S・帕克等人,2024年。《人工智慧欺騙:案例、風險及潛在解決方案調查》,發表於《模式》第5卷第5期,第100988頁;doi: 10.1016/j.patter.2024.100988