從Google翻譯的不足,看AI未來的挑戰與反思
電腦科學家Rich Sutton和Andrew Barto因其在人工智慧(AI)領域的深遠影響,榮獲今年圖靈獎——該領域最崇高的榮譽。Sutton在2019年發表的《苦澀的教訓》一文中,奠定了當今AI狂熱的基礎。他主張,依賴大量計算而非人類知識的方法,才是提升AI「最有效且效果顯著」的途徑。這一觀點在AI發展史上多次得到驗證。然而,20年前的另一個重要教訓同樣值得我們深思。
當今的AI聊天機器人建立在大型語言模型(LLMs)之上,這些模型透過海量資料訓練,使機器能夠基於機率預測句子中的下一個詞來進行「推理」。這種基於機率的語言模型最早由美國博學家Claude Shannon於1948年正式提出,並在1970至1980年代廣泛應用於電腦翻譯和語音識別領域。2007年,首個規模與當今LLMs相當的語言模型問世,成為Google翻譯的核心元件。儘管技術上有所不同,但它無疑是當今LLMs的先驅。
機器翻譯(MT)在過去二十年中不斷進步,這不僅得益於技術的發展,也得益於訓練資料集的規模和多樣性。Google翻譯從2006年僅支援三種語言(英語、中文和阿拉伯語),到如今支援249種語言,看似令人印象深刻,但這仍不到全球約7000種語言的4%。在某些語言之間,如英語和西班牙語,翻譯通常無懈可擊,但在處理成語、地名、法律和技術術語等細節時,仍會出現錯誤。
儘管機器翻譯存在這些缺陷,它仍被廣泛使用。早在2021年,Google翻譯應用程式的下載量已突破10億次。然而,使用者似乎明白應謹慎使用這些服務:2022年的一項調查顯示,1200名受訪者大多在低風險場景下使用機器翻譯,如理解工作或學習之外的網路內容。只有約2%的翻譯涉及高風險場景,如與醫護人員或警察的互動。
在高風險場景中使用機器翻譯確實存在巨大風險。研究表明,醫療領域的機器翻譯錯誤可能導致嚴重後果,甚至有報告指出,它影響了可信的庇護案件。更糟糕的是,使用者往往信任那些易於理解但可能誤導的機器翻譯。
鑒於這些風險,翻譯行業在國際法律和商業等高風險場景中,仍主要依賴人工翻譯。然而,隨著機器能夠完成大部分翻譯工作,這些翻譯人員的市場價值受到影響,他們的工作重心轉向確保品質。許多翻譯人員是自由工作者,他們在擁有機器翻譯能力的平臺上謀生,面對不準確的輸出,以及平臺工作固有的不穩定性和孤獨感,他們還需應對機器翻譯可能取代他們的威脅——研究者稱之為「自動化焦慮」。
近期,中國AI模型Deepseek的亮相,顯示出非常複雜的LLMs正走向商品化。這些模型將以低成本被各種規模的組織部署,正如今天的機器翻譯一樣。當然,當今的LLMs遠不止於機器翻譯,它們能執行更廣泛的任務。然而,其根本限制在於資料,因為它們已經耗盡了網路上大部分可用資料。儘管規模龐大,它們的訓練資料可能無法充分代表大多數任務,正如機器翻譯中無法充分代表大多數語言一樣。
生成式AI的問題更為嚴重:與語言不同,我們很難知道哪些任務在LLMs中得到了充分代表。未來無疑會有改進訓練資料的努力,使LLMs在某些代表性不足的任務上表現更好。但這一挑戰的範圍遠超機器翻譯。技術樂觀主義者可能寄望於機器能夠透過生成自己的合成資料或透過聊天機器人互動學習人類反饋來不斷增加訓練資料的規模。這些方法在機器翻譯中已經嘗試過,但效果有限。
因此,可預見的未來是,LLMs在某些任務上表現出色,在其他任務上表現平平,而在某些領域則不可靠。我們將在低風險場景中使用它們,而在高風險場景中,它們可能會傷害毫無戒心的使用者——正如那些信任ChatGPT輸出並引用不存在案例的律師所遭遇的情況。這些LLMs將在具有品質保證文化的行業中輔助人類工作者,如電腦程式設計,但同時也會讓這些工作者的體驗變得更糟。此外,我們還需應對它們對人類藝術作品和環境的新威脅。這引發了一個迫切的問題:這真的是我們想要打造的未來嗎?