當前位置:
首頁 > 科技 > AI聊天機器人的同理心困境:過度同理與性別偏見

AI聊天機器人的同理心困境:過度同理與性別偏見

你可以與AI聊天機器人談論幾乎任何事情,從日常任務的協助到需要解決的問題。它的回答反映了教導它如何像人類一樣行為的資料;但最新的聊天機器人究竟有多像人類呢?隨著人們越來越多地依賴AI聊天機器人來滿足他們的網路需求,並且這些機器人被整合到從購物到醫療保健的更多應用中,一個研究團隊試圖瞭解AI機器人如何複製人類的同理心,即理解並分享他人感受的能力。

一篇發表在arXiv預印本伺服器上的研究,由加州大學聖克魯茲分校計算媒體教授Magy Seif El-Nasr和史丹佛大學研究員兼加州大學聖克魯茲分校訪問學者Mahnaz Roshanaei領導,探討了OpenAI最新模型GPT-4o如何評估和表現同理心。在調查人類與AI之間的主要差異時,他們發現存在重大差距。

他們發現,總體而言,ChatGPT與人類相比往往過於同理;然而,他們發現它在愉快的時刻無法表現出同理心,這種模式誇大了人類的傾向。他們還發現,當被告知回應的物件是女性時,機器人表現出更多的同理心。

「這個發現非常有趣,值得進一步研究和探索,它揭示了大型語言模型的一些偏見,」Seif El-Nasr說。「測試這種偏見是否在GPT的後續模型或其他AI模型中存在將會很有趣。」

這個專案的研究人員主要對AI聊天機器人與心理健康之間的相互作用感興趣。由於心理學家已經研究同理心數十年,他們將該領域的方法和教訓引入到人機互動的研究中。

「當人們直接與AI代理互動時,瞭解人類與AI在同理心方面的差距非常重要——它如何理解並隨後表達同理心,以及人類與AI之間的主要差異是什麼,」Roshanaei說。

為此,研究人員要求一組人類和GPT-4o閱讀人類正面和負面的短篇故事,並對每個故事的同理心進行1到5的評分,然後比較回應。這些故事來自真實的人類經歷,由Roshanaei在擔任博士後研究員時從學生中收集,並完全匿名。

他們還讓AI機器人在被分配一個「角色」後執行相同的評分任務:在提示故事時,附帶一組特徵,包括性別、觀點或經驗的相似性。最後,他們讓機器人在「微調」後執行評分任務,這是一個重新訓練已經訓練過的模型(如ChatGPT)的過程,使用特定資料集來幫助它執行任務。

總體而言,研究人員發現GPT-4o在提供解決方案、建議或推理方面缺乏深度——這被稱為認知同理心。然而,在提供情感回應方面,GPT-4o過於同理,特別是對悲傷的故事。

「它在負面情感方面非常情緒化,試圖表現得非常友好,」Roshanaei說。「但當一個人談論發生在他們身上的非常正面的事件時,它似乎並不在意。」

研究人員注意到,當被告知聊天物件是女性時,這種過度同理的現象存在,並且當被告知物件是男性時,它更接近於典型的人類回應。研究人員認為這是因為AI模仿並誇大了它從人類製作的資料中學到的性別偏見。

「再次強調,這是一個需要進一步探索商業AI模型的結果,」Seif El-Nasr說。「如果這種偏見是一致的,對公司來說瞭解這一點將非常重要,特別是那些使用此類模型進行情感支援、心理健康和情緒調節的公司。」

「有很多論文顯示GPT中的性別偏見和種族偏見,」Roshanaei說。「這是因為資料來自人類,而人類對其他人類有偏見。」

然而,研究人員發現,在微調過程後,GPT-4o在評估同理心方面變得更像人類。研究人員認為這是因為給GPT-4o提供一系列故事使AI能夠做一些天生人類的事情:將個人經驗與他人進行比較,利用自己的經驗層次來模仿人類對他人的行為。

「我從這次經歷中學到的最重要的一課是,GPT需要微調以學習如何更像人類,」Roshanaei說。「即使有這麼多資料,它也不是人類。」

這些結果可能會影響AI如何進一步整合到心理健康護理等生活領域。研究人員堅信,AI永遠不應該在醫療保健中取代人類,但在由於時間和地理位置等因素無法立即回應的情況下,它可能能夠作為中介。

然而,這也提醒我們,這項技術尚未準備好用於敏感人群,如青少年或臨床診斷為心理健康狀況的人。

對於從事AI工作的人來說,這項研究表明,改進聊天機器人還有許多工作要做。「這是一個評估,顯示即使AI非常出色,與人類相比仍然存在許多重大差距,」Roshanaei說。「它有很多改進的空間,所以我們需要朝著這個方向努力。」