圖靈測試過時了嗎？當代AI發展下的重新思考

科技 05-16

1950年10月，傳奇數學家兼電腦科學家艾倫·圖靈提出了一個核心問題：「機器會思考嗎？」為此他設計了著名的「模仿遊戲」，也就是後來廣為人知的圖靈測試，用來評估機器模仿人類行為的能力。

圖靈測試的誕生源於一個根本難題：如何區分真正的思考與單純的模仿？由於機器可能只是被程式設計成「看似」具有智慧，這使得證明機器能否思考的關鍵，在於如何定義「思考」本身。圖靈想挑戰當時普遍認為「機械本質的電腦不可能思考」的觀點，他主張：如果一臺電腦與人類難以區分，為何不能視其為會思考的個體？

最初的測試構想是一個三方遊戲：讓一男一女分別進入不同房間，賓客透過打字回答來判斷誰是誰，而受試者則試圖讓賓客相信自己是異性。後來圖靈將其改良為：讓遠端詢問者在五分鐘內，向隱藏的人類和電腦提問，根據回答判斷哪個是有意識的個體。1952年BBC節目中，圖靈進一步提出讓電腦說服評審團相信它是人類的版本。

雖然圖靈測試最初只是哲學思想實驗，但後來卻成為衡量人工智慧發展的重要指標。圖靈曾預測到21世紀初，電腦將能在測試中達到70%的「騙過」人類成功率，但這個預言並未實現。直到2024年6月，研究顯示GPT-4在五分鐘測試中被人類判定為「真人」的比例達54%，遠超圖靈預期的30%，不過這項實驗僅採用雙人版本，未完全符合原始測試條件。

儘管如此，圖靈測試仍存在諸多爭議。圖靈本人就曾回應九種反對意見，包括機器無法感受情緒、缺乏幽默感等。數學家愛達·勒芙蕾絲更直言機器只能執行指令，無法真正「原創」。圖靈則反問：在物理定律限制下，人類的創造力是否也受制於自然法則？

更重要的是，圖靈測試本質上只能評估行為模仿程度，無法證明機器是否真正具有意識或智慧。這可能導致「圖靈陷阱」——AI過度追求模仿人類，而非發展超越人類認知的功能。IEEE人工智慧倫理專家艾莉諾·華生指出：「隨著AI發展，圖靈測試已逐漸失去作為評估標準的意義。」

現代大型語言模型已從單純模仿，進化為能自主追求目標的「代理系統」。華生強調：「真正的挑戰不在於AI能否在對話中騙過人類，而在於它是否能發展出符合人類價值觀的常識推理與目標對齊能力。」科學家需要建立超越人類模仿的新評估框架，重點在於AI如何「增強而非削弱人類能力與福祉」。

正如華生所言：「AI的真正價值不在於它能多像人類，而在於它能如何補足並提升人類，帶領我們達到新高度。」在當代AI快速發展的背景下，或許我們該問的不是「機器能否思考」，而是「我們需要什麼樣的智慧」。