AI介入學術審查:模糊、混亂且無助提升研究品質
今年初,我在學術論文的同儕審查過程中收到了一些評論,這些評論讓我感到異常奇怪。我的研究專注於確保可信的證據能夠影響政策、實踐和決策制定。我經常與世界衛生組織等機構合作,進行系統性回顧,以提供臨床和公共衛生指南或政策的依據。這次提交審查的論文正是關於系統性回顧的執行方式。然而,這些評論讓我對人工智慧(AI)在科學過程中日益增長的角色感到擔憂。
同儕審查是學術出版的基石,確保研究在發表和傳播前經過嚴格的批評。在這個過程中,研究人員將作品提交給期刊,編輯會邀請專家提供反饋。這對所有參與者都有益:對審查者來說,這被視為對學術界的服務,有助於申請資金或晉升;對研究人員來說,這促使他們改進方法、澄清論點並解決弱點,以證明其作品值得發表;對公眾來說,同儕審查確保研究結果的可信度。
然而,今年一月我收到的評論卻顯得異常。首先,評論的語氣過於統一且泛泛而談,缺乏細膩、深度或個性化。此外,審查者沒有提供頁碼或行號,也沒有具體指出需要改進的地方。例如,他們建議我「刪除冗餘的解釋」,但並未說明哪些解釋是冗餘的,甚至沒有指出它們出現在論文的哪個部分。更奇怪的是,他們建議我以一種奇怪的方式排列參考文獻,這既不符合期刊要求,也與我在科學期刊中見過的任何格式不符。此外,他們還對不存在的副標題提供了評論,甚至建議我改進論文中根本不存在的「討論」部分。
為驗證我的懷疑,我將自己的論文上傳到三個AI模型——ChatGPT-4o、Gemini 1.5Pro和DeepSeek-V3,並將審查者的評論與這些模型的輸出進行比較。結果顯示,審查者的評論與AI模型的輸出驚人地相似。例如,審查者對摘要的評論是:「簡要提及[論文主要成果]對系統性回顧結果的廣泛影響,以強調其重要性。」而ChatGPT-4o的輸出則是:「以一句話總結[論文主要成果]對系統性回顧或實證實踐的廣泛影響或潛在影響。」
最大的警示是,審查者的反饋與期刊副編輯的反饋存在明顯差異。副編輯的反饋清晰、有指導性且實用,而審查者的反饋則模糊、混亂,且對改進我的研究毫無幫助。我直接向主編表達了我的擔憂,主編對此表示感謝,並稱我的調查「令人擔憂且具有啟發性」。
雖然我無法確切證明審查者的評論是由AI生成的,但審查者的評論與AI模型的輸出之間的相似性令人震驚。AI模型確實使研究變得更快、更容易且更易於取得,但其作為協助同儕審查的工具需要謹慎監督。目前,關於AI在同儕審查中使用的指導意見尚不明確,其有效性也未被證實。
如果AI模型被用於同儕審查,作者有權被告知並選擇退出。審查者也需要披露他們在審查中使用AI的情況。然而,這方面的執行仍是一個問題,需要期刊和編輯確保不當使用AI模型的審查者被標記出來。我提交研究是為了獲得領域內專家的審查,卻收到了AI生成的反饋,這些反饋最終未能改進我的研究。如果我未經質疑地接受這些評論,且副編輯未提供如此出色的反饋,這種情況很可能會被忽視。我的研究可能會在未經適當審查的情況下被接受發表,並作為「事實」傳播給公眾,儘管我的同儕實際上並未親自審查這項工作。