AI訓練資料出包!「植物電子顯微鏡」竟成科學論文中的幽靈術語
今年初,科學界發現一個詭異的術語頻繁出現在已發表的論文中——「植物電子顯微鏡」。這個看似專業實則毫無意義的詞彙,已成為AI系統中的「數位化石」,就像被封印在岩石中的生物化石一樣,幾乎不可能從我們的知識庫中移除。
這個荒謬術語的誕生,源自一連串令人啼笑皆非的巧合。1950年代,《細菌學評論》期刊的兩篇論文在數位化過程中,掃描系統錯誤地將「植物性」和「電子」兩個不相關的詞彙拼湊在一起,創造出這個根本不存在的專業術語。
數十年後,「植物電子顯微鏡」竟出現在伊朗的科學論文中。研究發現,這可能是由於波斯語中「植物性」和「掃描」兩個詞僅相差一個點,導致翻譯錯誤。根據Google學術搜尋,目前已有22篇論文使用這個錯誤術語,甚至引發期刊撤稿爭議。
隨著AI語言模型的普及,這個錯誤在2020年代出現頻率驟增。我們測試發現,OpenAI的GPT-3會持續生成這個錯誤術語,而早期模型如GPT-2則不會。更令人擔憂的是,包括GPT-4o和Claude 3.5在內的新一代模型也繼承了這個錯誤,顯示這個「數位化石」可能已永久嵌入AI知識庫。
追根溯源,我們發現CommonCrawl這個包含數百萬GB網路資料的資料集,很可能是AI學習到這個錯誤術語的主要來源。但要修正這類錯誤極其困難,不僅因為資料規模龐大,更因為商業AI模型的訓練資料缺乏透明度。
這個案例引發了更深層的憂慮:AI系統中還藏有多少類似的荒謬術語?隨著AI輔助研究日益普及,這已不僅是技術問題,更關乎知識體系的完整性。出版商對此反應不一,有的撤稿,有的甚至一度為這個錯誤術語辯護。
更令人憂心的是,學術界已出現為規避查重系統而創造的「扭曲用語」,例如用「偽造意識」代替「人工智慧」。雖然已有自動篩查工具能標記「植物電子顯微鏡」這類已知錯誤,但對尚未發現的問題仍束手無策。
這起事件凸顯了AI時代的知識管理危機:在無人完全掌控的系統中,錯誤可能被永久固化。科技公司必須提高訓練資料的透明度,研究人員需要發展新的資訊評估方法,而學術出版商則應強化同儕審查機制,才能共同守護知識的可靠性。
[end]