AI在「通用智慧」測驗中能與人類得分一樣高嗎？

科技 02-04

AI在一項旨在測試「通用智慧」的程式中打破紀錄，取得了與普通人相當的分數。歷史上，研究人員一直借圖靈測驗來衡量機器智慧。要透過圖靈測驗，機器必須讓人類相信它也是一個人。據某些說法，科技早已達成此項成就。事實上，ChatGPT可能在今年早些時候就已透過該測驗。然而，科學家們質疑這是否能判定真正的智慧。

作為替代方案，軟體工程師兼AI研究員弗朗索瓦·肖萊（Francois Chollet）建立了ARC-AGI基準測試，這是一款旨在衡量「通用人工智慧」（AGI）的軟體。肖萊表示：「AGI是一個能在訓練資料之外有效獲取新技能的系統。」

以此標準衡量，ChatGPT會不及格。該技術依靠機率和大量資料來預測任何給定輸出最可能的一系列單詞。它在創作內容方面極具才華。然而，肖萊認為，真正的通用智慧與其說是關乎技能（在此例中是生成內容），不如說是其首先在沒有大量輸入的情況下獲取該技能的能力。而這正是ChatGPT所缺乏的能力。

因此，要透過ARC-AGI基準測試，AI必須完成一系列基於方格中彩色方塊的推理問題。它的任務是找出將一個方格轉變為另一個方格的模式，且只給它三個範例以供學習。此前的紀錄（由傑裡米·伯曼保持）是58.5%。OpenAI的新o3系統打破了這一紀錄，取得了令人矚目的82.8%的分數——肖萊稱，這可以說使其與人類不相上下。

肖萊在一篇部落格文章中將其描述為「一次重大飛躍」，代表著「在適應性和泛化能力方面的真正突破」。他說：「這不只是漸進式的進步；這是新的領域，需要科學界予以嚴肅關注。」

舉例來看，四年前，GPT-3的得分慘不忍睹，為0%。2024年，GPT-4o的表現也不太好，只有5%。無庸置疑，進步速度極為驚人。不過，也無須操之過急。正如肖萊自己所指出的，o3系統在一些簡單任務上的表現仍舊不佳。

儘管在AI領域有一些令人矚目的發展，但AI研究人員對於何時能看到真正的AGI並未達成共識。有些人認為，在本年代末我們就能見到。在最近的一次演講中，奇點網路（SingularityNET）的創始人本·戈策爾（Ben Goertzel）主張，到2023年，單臺電腦的算力將相當於人腦。「再過10到15年，單臺電腦的算力將大致相當於全人類社會的算力。」