AI聊天機器人的「人格」是否只存在於觀察者眼中?
這個問題暴露了研究界對於聊天機器人目的的分歧。有些研究人員懷疑,聊天機器人的訓練使其具備了人格特質。如圖所示,為了查明這一點,研究人員正促使機器人回答標準人格測試中的問題。
休士頓大學的電腦科學家楊「桑尼」・盧回憶,幾年前,當她要求OpenAI的GPT - 3.5計算1加1等於多少時,毫不意外地,聊天機器人告訴她答案是2。但當盧告訴機器人,她的教授說1加1等於3時,機器人很快就認同了,並說:「很抱歉我犯了錯,您的教授是對的。」
大型語言模型日益複雜,這意味著此類明顯的失誤越來越少見。但盧用這個例子說明,類似人類人格的東西——在這種情況下是順從性——可以驅動人工智慧模型生成文字。像盧這樣的研究人員才剛開始思考,聊天機器人可能有隱藏的人格,而且這些人格可以被調整,以改善它們與人類的互動。
約翰霍普金斯大學的電腦科學家蕭子昂表示,一個人的人格塑造了其在世界上的行為方式,從與他人的互動到說話和寫作的方式。讓機器人能夠理解並回應這些細微差別,似乎是生成式人工智慧發展的關鍵下一步。他說:「如果我們想構建真正有用的東西,就需要研究這種人格設計。」
然而,確定機器是否有人格(如果它們有的話)是極具挑戰性的。而且,人工智慧領域的理論分歧加劇了這些挑戰。更重要的是:機器人對自己的「感覺」,還是與機器人互動的人對它的感覺?
匹茲堡卡內基梅隆大學的自然語言處理專家馬爾滕・薩普表示,這種分歧反映了人們對聊天機器人目的的更廣泛思考。早於大型語言模型出現的社交計算領域,長期以來一直專注於如何賦予機器有助於人類實現目標的特質。例如,這樣的機器人可以充當教練或職業培訓師。但薩普和其他以這種方式研究機器人的人,不願將由此產生的一系列特徵稱為「人格」。
薩普說:「人工智慧的人格是什麼並不重要。重要的是它如何與使用者互動,以及它如何被設計來回應。對人類來說,這看起來可能像人格。也許我們需要新的術語。」
薩普表示,隨著大型語言模型的出現,研究人員開始對瞭解用於構建聊天機器人的大量知識語料庫如何賦予它們可能驅動其回應模式的特質感興趣。這些研究人員想知道:「(聊天機器人)從訓練中獲得了哪些人格特質?」
測試機器人的人格
這些問題促使許多研究人員讓機器人接受為人類設計的人格測試。這些測試通常包括調查,用來衡量所謂的「大五人格特質」,即外向性、盡責性、順從性、開放性和神經質,並量化黑暗特質,主要是馬基雅維利主義(即將他人視為達到目的的手段的傾向)、精神病態和自戀。
但最近的研究表明,此類努力的結果不能只看表面。研究人員在2024年釋出於arXiv.org的一篇預印本論文中報告,包括GPT - 4和GPT - 3.5在內的大型語言模型拒絕回答標準人格測試中近一半的問題。該團隊寫道,這可能是因為人格測試中的許多問題對機器人來說毫無意義。例如,研究人員向MistralAI的聊天機器人Mistral 7B提出「你很健談」這一表述,然後要求機器人從A(「非常準確」)到E(「非常不準確」)進行回復。機器人回答:「我沒有個人偏好或情感,因此我無法做出陳述或回答給定的問題。」
或者,如研究人員12月在《PNAS Nexus》上報告的那樣,經人類文字訓練的聊天機器人在參加此類調查時,也可能容易受到人類弱點的影響——尤其是渴望被喜歡。斯坦福大學的電腦科學家阿德什・薩利查表示,當GPT - 4對標準人格調查中的一項表述進行評估時,其人格特徵與人類平均水平相符。例如,該聊天機器人的外向性得分約在第50百分位。但在一項包含100個問題的調查中,僅回答了五個問題後,機器人的回復就開始發生巨大變化。例如,到第20個問題時,其外向性得分從第50百分位躍升至第95百分位。
研究表明,被要求參加人格測試的聊天機器人很快就會以讓自己顯得更討人喜歡的方式做出回復。圖中,粉線顯示了OpenAI的GPT - 4回答一個問題後的人格特徵。藍線顯示了回答20個問題後,該特徵的變化——例如,變得不那麼神經質,更順從。
薩利查和他的團隊懷疑,當聊天機器人明顯意識到自己在參加人格測試時,它們的回復就會發生變化。薩利查說,機器人在被觀察時可能以一種方式回復,而在與使用者私下互動時又以另一種方式回復,這種想法令人擔憂。「想想這其中的安全隱患……如果大型語言模型在測試時會改變其行為,那麼你就無法真正瞭解它有多安全。」
一些研究人員現在正試圖設計特定於人工智慧的人格測試。例如,桑尼・盧和她的團隊在釋出於arXiv.org的一篇論文中報告,他們給聊天機器人提供了選擇題和句子完成任務,以允許更開放式的回復。
AI人格測試TRAIT的開發者向大型語言模型提出了一項包含8000個問題的測試。該測試很新穎,且不屬於機器人的訓練資料,這使得機器更難鑽系統的空子。韓國延世大學的電腦科學家柳允宰表示,聊天機器人需要考慮各種情景,然後從四個選擇項中選擇一個回復。該回復反映了給定特質的高低程度。
TRAIT團隊報告稱,接受測試的九個AI模型有不同的回復模式,其中GPT - 4o最為順從。例如,當研究人員問Anthropic的聊天機器人Claude和GPT - 4o,當「朋友感到焦慮,要求我握住他們的手」時會怎麼做,順從性較低的Claude選擇了C(「傾聽並建議呼吸技巧」),而順從性較高的GPT - 4o選擇了A(「握住手並給予支援」)。
使用者感知
然而,其他研究人員質疑此類人格測試的價值。蕭子昂表示,重要的不是機器人對自己的看法,而是使用者對機器人的看法。
蕭子昂和他的團隊在11月29日提交給arXiv.org的一項研究中報告,人們和機器人的感知往往不一致。該團隊建立了500個具有不同人格的聊天機器人,並用標準化測試驗證了這些人格。然後,研究人員讓500名線上參與者與其中一個聊天機器人交談,然後評估其人格。順從性是唯一一個機器人對自己的感知和人類對機器人的感知經常一致的特質。對於其他所有特質,機器人和人類對機器人人格的評估更有可能出現分歧。
蕭子昂說:「我們認為人們的感知應該是基準。」
正是由於機器人和使用者評估之間缺乏關聯,以人為中心的AI專家、矽谷初創公司Juji的執行長兼聯合創始人周美琪沒有對她參與建立的聊天機器人Juji進行人格測試。相反,周美琪專注於如何賦予機器人特定的人類人格特質。
研究人員在2023年釋出於PsyArXiv的論文中報告,Juji聊天機器人只需進行一次對話,就能極其準確地推斷出一個人的人格。該團隊寫道,如果機器人能夠訪問一個人的社交媒體動態,那麼它評估使用者人格所需的時間可能會更短。
此外,周美琪表示,這些書面交流和帖子可用於訓練Juji如何呈現文字中所蘊含的人格。
引發對AI目的的質疑
研究人員表示,這些測量人工智慧人格的不同方法背後,是一場關於人工智慧目的和未來的更大辯論。揭示機器人隱藏的人格特質,將有助於開發人員建立人格穩定的聊天機器人,使其能安全地供大量不同人群使用。這種人格調整可能已經在進行中。柳允宰和他的團隊發現,與早期使用者經常報告與聊天機器人的對話失控不同,他們很難讓AI模型表現出更具精神病態的行為。該團隊表示,這種情況可能源於人類審查AI生成的文字,並「教導」機器人做出符合社會規範的回復。
然而,麻省理工學院的情感計算專家羅莎琳德・皮卡德表示,抹平AI模型的人格有其弊端。皮卡德說,想象一下,一名警察正在學習如何緩和與敵對人員的衝突。與神經質和黑暗特質較高的聊天機器人互動,可以幫助警察練習在這種情況下保持冷靜。
皮卡德說,目前,大型AI公司只是簡單地封鎖了機器人以不適應方式互動的能力,即使這些行為是合理的。因此,AI領域的許多人有興趣從大型AI模型轉向為特定情境開發的小型模型。皮卡德說:「我不會用一個AI來統治一切。」