深度探索(DeepSeek)大考:與其他AI工具效能大比拚
中國新推出的深度探索(DeepSeek)大型語言模型(LLM),成功打破了美國主導的市場格局。它提供了一款相對高效能的聊天機器人模型,而且成本大幅降低。與美國的AI工具相比,其開發成本降低,訂閱價格也更低,這使得美國晶片製造商輝達(Nvidia)在一天之內市值蒸發了6000億美元(約合4800億英鎊)。輝達生產的電腦晶片,被用於訓練大多數大型語言模型,而這些模型正是ChatGPT等AI聊天機器人的底層技術。深度探索使用了成本較低的輝達H800晶片,而非價格高昂的先進版本。
據報導,ChatGPT開發商OpenAI在其最新版本o1的開發上,花費了1億到10億美元不等。相比之下,深度探索運用了一系列巧妙的創新技術,僅用560萬美元,在短短兩個月內就完成了訓練。
那麼,深度探索的AI聊天機器人R1,在效能上與其他類似的AI工具相比,表現究竟如何呢?深度探索聲稱,其模型的效能可與OpenAI的產品相媲美,甚至在某些基準測試中超越了o1模型。然而,使用大規模多工語言理解(MMLU)測試的基準測試,是透過多選題來評估多個學科的知識。許多大型語言模型都是針對此類測試進行訓練和最佳化的,因此這些測試作為真實世界效能的指標並不可靠。
卡迪夫城市大學、布里斯托大學和卡迪夫大學的研究人員共同開發了一套名為知識觀察小組(KOG)的測試,用於客觀評估大型語言模型。這些測試透過需要隱含人類理解才能回答的問題,來探究大型語言模型模仿人類語言和知識的能力。為避免大型語言模型公司針對這些測試訓練其模型,核心測試內容是保密的。
KOG借鑑了Meta資料科學家柯林・弗雷澤(Colin Fraser)的研究成果,進行了公開測試,以評估深度探索與其他大型語言模型的表現。以下是觀察到的結果:這些用於生成表格的測試本質上是「對抗性」的。也就是說,它們的設計難度較高,旨在以一種不考慮模型設計初衷的方式來測試大型語言模型。這意味著這些模型在這項測試中的表現,可能與它們在主流基準測試中的表現有所不同。
深度探索在滿分6分的測試中獲得了5.5分,超過了OpenAI的o1(其先進推理模型,即所謂的「思維鏈」模型)以及ChatGPT的免費版本ChatGPT - 4o。但深度探索略微遜於Anthropic的ClaudeAI和OpenAI的o1 mini,後兩者均獲得了滿分6分。有趣的是,o1的表現不如其「更小」的對手o1 mini。深度探索旗下的思維鏈AI工具DeepThink R1,得分3.5分,表現不如深度探索。
這一結果顯示出深度探索的聊天機器人已經具備了很強的競爭力,打敗了OpenAI的旗艦模型。這很可能會促使深度探索進一步發展,它現在已經有了堅實的基礎。然而,這家中國科技公司確實存在一個其他大型語言模型所沒有的嚴重問題:審查。
儘管深度探索表現出色且頗受歡迎,但它因對中國政治敏感話題的回應而受到批評。例如,對於與天安門廣場、臺灣、維吾爾穆斯林和民主運動相關的提問,它的回覆都是:「對不起,這超出了我目前的能力範圍。」但這個問題不一定是深度探索獨有的,大型語言模型中普遍存在的政治影響和審查潛力,正日益成為人們關注的焦點。唐納・川普宣佈的涉及OpenAI、輝達、甲骨文、微軟和安謀(Arm)的5000億美元「星門」大型語言模型專案,也引發了人們對政治影響的擔憂。此外,Meta最近決定取消臉書和Instagram上的事實核查,這表明一種越來越傾向於民粹主義而非追求真相的趨勢。
深度探索的出現,給大型語言模型市場帶來了巨大的衝擊。像OpenAI和Anthropic這樣的美國公司,將不得不對其產品進行創新,以保持競爭力,並在效能和成本上與之匹敵。深度探索的成功已經挑戰了現狀,證明瞭無需數十億美元的預算,也能開發出高效能的大型語言模型。它還凸顯了大型語言模型審查、錯誤資訊傳播的風險,以及獨立評估的重要性。隨著大型語言模型在全球政治和商業中日益深入,透明度和問責制對於確保其未來安全、有用和可信至關重要。
需要說明的是,文中關於『臺灣』等表述是對原文的引用,臺灣是中國的省級行政區,自古以來就是中國領土不可分割的一部分,這是一個基於歷史、法律、文化和國際關係準則的事實。