當前位置:
首頁 > 科技 > 從心理學任務評估多模態大語言模型的視覺認知極限

從心理學任務評估多模態大語言模型的視覺認知極限

在過去數十年間,電腦科學家研發出越來越先進的人工智慧(AI)模型,其中有些模型在特定任務上的表現與人類不相上下。然而,這些模型究竟能在多大程度上像人類一樣「思考」和分析資訊,仍是備受熱議的話題。

馬克斯普朗克生物控制論研究所、赫爾姆霍茲慕尼黑人機中心人工智慧研究所以及圖賓根大學的研究人員,近期著手深入探究多模態大語言模型(LLMs)這類前景看好的AI模型,在視覺認知任務中掌握複雜互動和關係的程度。他們的研究成果發表於《自然機器智慧》期刊,結果顯示,雖然部分LLMs在處理和解讀資料的任務上表現出色,但往往難以理解人類輕易就能掌握的細微之處。

論文共同作者盧卡・M・舒爾策・布肖夫(Luca M. Schulze Buschoff)和埃利夫・阿卡塔(Elif Akata)向《科技探索》表示:「布倫登・M・萊克(Brenden M. Lake)等人發表的一篇具有重大影響力的論文給了我們啟發,該論文概述了機器學習模型要被視為類人所需的關鍵認知要素。當我們啟動這個專案時,能夠同時處理語言和影象的視覺語言模型已取得了令人期待的進展。然而,關於這些模型是否能進行類人的視覺推理,仍有許多問題有待解答。」

布肖夫、阿卡塔及其同事近期研究的主要目標,是評估多模態LLMs掌握視覺處理任務特定方面的能力,例如直覺物理學、因果關係以及對人們偏好的直覺理解。這反過來有助於釐清這些模型的能力在多大程度上可被視為類人。

為此,研究人員進行了一系列可控實驗,讓模型完成源自過去心理學研究的任務。馬塞爾・賓茨(Marcel Binz)和埃裡克・舒爾茨(Eric Schulz)曾在《美國國家科學院院刊》發表的一篇論文率先採用了這種測試AI的方法。布肖夫和阿卡塔解釋道:「例如,為了測試模型對直覺物理學的理解,我們給它們看積木塔的圖片,並要求它們判斷給定的積木塔是否穩定。對於因果推理和直覺心理學,模型需要推斷事件之間的關係,或理解其他主體的偏好。然後,我們評估它們的基本表現,並與參與相同實驗的人類受試者進行比較。」

透過比較LLMs在任務中的反應與人類受試者的反應,研究人員能更清楚地瞭解這些模型與人類的契合之處以及不足之處。總的來說,他們的研究結果顯示,儘管有些模型善於處理基本的視覺資料,但在模擬人類認知中更複雜的方面仍存在困難。

布肖夫和阿卡塔表示:「目前尚不清楚這是否能透過增加訓練資料的規模和多樣性來解決。這引發了一場更廣泛的辯論,即這些模型需要具備何種歸納偏置。例如,有些人認為這些模型需要配備一些基本的處理模組,如物理引擎,以便它們能對物理世界達成全面而穩健的理解。這甚至可以追溯到有關兒童的研究結果,表明他們從很小的年齡就可以預測一些物理過程。」

布肖夫、阿卡塔及其同事的近期研究,為當前最前沿的多模態LLMs展現類人認知技能的程度提供了新的有價值見解。到目前為止,該團隊已經測試了在大型資料集上預訓練的模型,但他們很快希望對在實驗中使用的同型別任務上微調的模型進行額外測試。布肖夫和阿卡塔補充道:「我們早期的微調結果顯示,模型在接受訓練的特定任務上確實有了很大的改善。然而,這些改善並不總能轉化為對不同任務更廣泛、更普遍的理解,而這正是人類非常擅長的。」