研究證實:人類解讀社交情境的能力仍遠勝AI
最新研究顯示,在解析動態社交場景這項關鍵能力上,人類仍大幅領先現有AI系統。這項發現對自駕車、輔助機器人等仰賴人工智慧與現實世界互動的科技發展具有重要意義。
約翰霍普金斯大學主導的研究指出,現行AI系統在理解人際互動所需的社交動態與情境脈絡上表現欠佳。研究團隊認為,這可能與AI系統的基礎架構設計有關。認知科學助理教授萊拉·伊西克解釋:「以自駕車為例,AI必須能判讀人類駕駛與行人的意圖、目標和動作。它需要知道行人準備往哪個方向走,或是判斷兩個人是在交談還是準備過馬路。」
共同第一作者凱西·賈西亞在國際學習表徵會議上發表這項研究成果。研究團隊讓受試者觀看3秒鐘的短片,並針對理解社互動動的重要特徵進行評分。這些片段包含人際互動、並列活動或獨立行為等不同情境。
研究人員隨後測試超過350個AI模型,包括語言、影像和視訊模型,要求它們預測人類對影片的判斷以及大腦反應。結果顯示,人類受試者在各項問題上意見高度一致,但無論規模或訓練資料如何,所有AI模型都無法達到相同水準。
特別值得注意的是,視訊模型難以準確描述影片中人物的行為,而僅分析靜態畫面的影像模型也無法可靠判斷人們是否在交流。語言模型在預測人類行為方面表現較佳,視訊模型則較擅長預測大腦神經活動。
賈西亞指出:「僅僅識別靜態影像中的物體和人臉是不夠的。雖然這讓AI取得重大進展,但現實世界是動態的。AI必須理解場景中正在發生的『故事』,掌握人際關係、情境脈絡和社互動動的動態變化。」
研究人員認為,這種差距可能源自AI神經網路的設計基礎。現有模型主要模仿大腦處理靜態影像的區域,而非處理動態社交場景的腦區。伊西克教授總結:「關鍵在於,沒有任何AI模型能像處理靜態場景那樣,全面匹配人類大腦和行為對動態場景的反應。這顯示人類處理情境的方式存在某些根本特性,是現有模型尚未掌握的。」
[end]