OpenAI「深度研究」工具：華而不實，難代人智

科技 02-13

OpenAI推出的「深度研究」，可謂是近期炙手可熱的人工智慧（AI）工具。它宣稱能在短短幾分鐘內完成人類專家數小時才能做完的工作。作為ChatGPT Pro的一項特色功能，它被包裝成可媲美訓練有素分析師的研究助手，能自動在網路上搜尋資料、彙整來源，並提供結構化的報告。甚至在難度頗高的人工智慧基準測試「人類最後考試」（HLE）中，取得了26.6%的成績，超越了許多模型。

然而，「深度研究」並未達到外界的過度吹捧。雖說它能產出看起來很精美的報告，但也存在嚴重的缺陷。根據試用過的記者表示，它可能會遺漏關鍵細節，難以處理近期的資訊，有時還會捏造事實。OpenAI在列出該工具的限制時也有提及這一點，公司還表示「根據內部評估，它在回覆中有時會產生虛構事實或做出錯誤推論，不過發生的比率明顯低於現有的ChatGPT模型」。由於人工智慧模型不像人類那樣「理解」事物，所以不可靠的資料混入其中也不足為奇。

「人工智慧研究分析師」這個概念也引發了一連串的問題。無論機器多麼強大，它真的能取代訓練有素的專家嗎？這對知識工作會有什麼影響？人工智慧真的能幫助我們更好地思考，還是只會讓我們更輕易地停止思考？

「深度研究」主要面向金融、科學、政策、法律和工程等領域的專業人士，以及學者、記者和商業策略師，是OpenAI在ChatGPT中推出的最新「代理體驗」，承諾能在幾分鐘內完成繁重的研究工作。目前，該功能僅對美國的ChatGPT Pro用戶開放，每月費用為200美元。OpenAI表示，未來幾個月將向Plus、Team和Enterprise用戶推出，並計劃在未來推出更具成本效益的版本。

與提供快速回覆的標準聊天機器人不同，「深度研究」遵循多步驟流程來生成結構化報告。乍一看，這對知識工作者來說簡直是夢幻工具，但仔細觀察就會發現它有著明顯的局限性。許多早期測試都暴露出了它的不足之處。儘管OpenAI宣稱其工具可與人類分析師相媲美，但人工智慧不可避免地缺乏使優秀研究具有價值的判斷力、審查能力和專業知識。

ChatGPT並不是唯一能通過幾個提示就搜索網路並生成報告的人工智慧工具。值得注意的是，在OpenAI推出「深度研究」僅24小時後，Hugging Face就推出了一個免費的開源版本，其性能幾乎與之相當。

「深度研究」和其他宣稱具有「人類水平」研究能力的人工智慧工具，最大的風險在於給人一種人工智慧可以取代人類思考的錯覺。人工智慧可以總結資訊，但它無法質疑自己的假設、指出知識差距、進行創造性思考或理解不同的觀點。而且，人工智慧生成的摘要也無法達到熟練的人類研究人員的深度。

任何人工智慧代理，無論速度多快，都只是一種工具，而不能取代人類智慧。對於知識工作者來說，投資於人工智慧無法複製的技能，如批判性思考、事實核查、深厚的專業知識和創造力，比以往任何時候都更加重要。

如果確實想使用人工智慧研究工具，也有負責任的使用方法。深思熟慮地使用人工智慧可以在不犧牲準確性或深度的前提下提高研究效率。可以利用人工智慧來提高效率，例如總結文件，但在做決策時仍要保留人類的判斷力。始終要驗證來源，因為人工智慧生成的引用可能會產生誤導。不要盲目相信結論，要運用批判性思考，並與可靠的來源核對資訊。對於高風險的話題，如健康、正義和民主，要用專家的意見來補充人工智慧的研究結果。儘管大量的行銷宣傳試圖讓我們相信人工智慧無所不能，但生成式人工智慧仍然有很多局限性。能夠創造性地整合資訊、挑戰假設和進行批判性思考的人類，仍然是不可或缺的，人工智慧目前還無法取代他們。