GPT-4.5創歷史!首個透過原始圖靈測試的AI模型
科技
04-14
最新研究顯示,OpenAI的GPT-4.5在經典圖靈測試中表現驚人,成功讓73%的受試者誤以為它是真人。這項突破性成果標誌著大型語言模型(LLM)在模仿人類對話方面已達到前所未有的水準。
這項由聖地牙哥大學團隊主導的研究,採用電腦科學之父艾倫·圖靈最初提出的「模仿遊戲」測試架構。研究人員讓126名大學生和158名線上受試者同時與真人和AI進行5分鐘對話,結果GPT-4.5被誤認為真人的比例甚至高過實際人類!共同作者Cameron Jones在社群平臺X上興奮表示:「這無疑是LLM透過圖靈測試的強力證據。」
值得注意的是,Meta的LLaMa-3.1表現也不俗,56%的辨識成功率已超越圖靈當年「5分鐘內正確率不超過70%」的預測。研究團隊特別強調,成功的關鍵在於為AI設定鮮明的人格特質——當LLM被賦予「內向、熟悉網路文化、會用俚語的年輕人」角色時,說服力大幅提升。
研究分析1,023場測試對話後發現,受試者主要依據「對話氛圍」而非知識深度來判斷。這解釋了為何具有鮮明人格特質的AI更容易過關,也凸顯當前LLM系統高度依賴提示詞設計的現實。
專家警告,隨著AI模仿能力飛躍成長,可能衍生新型態的社會工程攻擊。研究報告嚴肅指出:「當人們無法察覺正在與AI互動時,LLM可能造成最嚴重的危害。」這項突破既是技術里程碑,也為人類社會敲響警鐘。