ChatGPT透過圖靈測試,但AI真的能與人類智慧匹敵嗎?
最近一週,關於AI聊天機器人正式透過圖靈測試的新聞標題席捲各大媒體。這些報導源自加州大學聖地牙哥分校兩位研究人員發布的預印本研究,該研究讓四款大型語言模型(LLMs)接受圖靈測試考驗。其中OpenAI的GPT-4.5模型在超過70%的情況下被認為與人類無異。
圖靈測試長期被視為衡量機器智慧的終極指標,但學界對其有效性始終存在爭議。事實上,這個測試自誕生以來就伴隨著諸多質疑,讓人不禁思考它是否真能準確評估人工智慧的發展程度。
這份由認知科學家Cameron Jones和Benjamin Bergen於三月發表的預印本研究(尚未經過同儕審查),測試了四款語言模型:ELIZA、GPT-4o、LLaMa-3.1-405B和GPT-4.5。實驗設計讓284名參與者隨機擔任詢問者或見證者角色,在分割畫面上同時與人類和AI進行五分鐘的文字對話,最後判斷哪方是真人。
結果顯示,參與者將GPT-4.5誤認為人類的比例高達73%,LLaMa-3.1-405B也有56%的混淆率。相較之下,ELIZA和GPT-4o僅分別獲得23%和21%的「認可」。
圖靈測試的雛形最早由英國數學家艾倫·圖靈在1948年提出,當時被設計為一個三人參與的棋局實驗。1950年,圖靈在《計算機器與智慧》論文中將其改版為「模仿遊戲」,主張這是判斷機器能否展現類人智慧的標準方法。
測試的核心概念在於:當機器取代遊戲中的某個角色時,詢問者是否會像分辨男女時一樣頻繁出錯?圖靈認為這個方法比直接問「機器能思考嗎?」更為嚴謹,因為後者涉及對「思考」這個模糊概念的定義。
儘管被廣泛傳播為評估AI的標準,圖靈測試在學界始終存在四大爭議:測試標準過於主觀、僅評估表面行為而非真實理解、可能鼓勵欺騙性設計,以及忽視了人類智慧的多元面向。
值得注意的是,這份預印本研究雖然宣稱GPT-4.5「透過」圖靈測試,但作者特別強調測試僅能衡量系統的「替代性」——即能否在特定情境下不被察覺地取代真人。這暗示研究者並不認同圖靈測試能真正反映人類智慧的本質,而只是對「模仿能力」的檢驗。
此外,研究本身也存在若干限制:五分鐘的測試時間過於短暫,且每款語言模型都被賦予特定「人格設定」,這些設定對結果的影響尚不明確。綜合來看,我們可以確定GPT-4.5雖然能成功迷惑部分人類,但距離真正的智慧仍有一段差距。
[end]