中國研發團隊兩個月打造ChatGPT開源對手,震撼矽谷
中國研究人員在短短兩個月內,就打造出一款可與ChatGPT匹敵的開源模型,令矽谷為之驚慌。
由中國研究人員研發的全新推理模型DeepSeek-R1,能以極低成本,展現出與OpenAI的o1模型不相上下的任務處理能力。
中國推出了一款價格低廉的開源模型,足以對抗OpenAI的ChatGPT。此舉讓一些科學家興奮不已,卻也讓矽谷憂心忡忡。
這項創新背後的中國人工智慧(AI)實驗室DeepSeek,在2024年12月底推出了免費的大型語言模型(LLM)DeepSeek-V3,並聲稱僅耗時兩個月、花費558萬美元就完成訓練,不論時間或成本,都遠低於矽谷的競爭對手。
緊接其後,在1月20日(星期一),更新的模型DeepSeek-R1問世。在第三方基準測試中,DeepSeek-V3展現出與OpenAI的GPT-4o以及Anthropic的Claude Sonnet 3.5相當的能力,在解決問題、編碼和數學等任務中,更勝Meta的Llama 3.1和阿里巴巴的Qwen2.5等模型。
如今,R1在許多相同測試中,也超越了ChatGPT最新的o1模型。其令人矚目的效能、低廉的成本、半開源的特性,以及在訓練時大幅減少的圖形處理單元(GPU)使用量,不僅令AI專家讚嘆,也引發了中國AI模型超越美國同類模型的討論。
作為OpenAI的戰略合作夥伴,微軟執行長Satya Nadella於1月22日在瑞士達沃斯世界經濟論壇上表示:「我們必須非常、非常嚴肅地看待中國的這些發展。」
相關訊息:AI如今已能自我複製,此一里程碑令專家們深感恐懼。
AI系統透過人類輸入的訓練資料進行學習,據此依據訓練資料集中不同模式出現的機率生成輸出。
對於大型語言模型而言,這些資料即為文字。例如,2023年推出的OpenAI的GPT-3.5,便是以從Common Crawl儲存庫中獲取的約570GB文字資料(約3000億個單詞)進行訓練,這些資料來自書籍、線上文章、維基百科及其他網頁。
像R1和o1這樣的推理模型,是標準大型語言模型的升級版本,運用「思維鏈」方法回溯和重新評估邏輯,從而更準確地處理更複雜的任務。
這使得推理模型在希望將AI融入工作的科學家和工程師中備受青睞。
然而,與ChatGPT的o1不同,DeepSeek是一個「開放權重」模型(儘管其訓練資料仍屬專有),使用者可窺探其內部並修改演算法。同樣重要的是,其價格對使用者更為親民,比o1便宜27倍。
除了效能出色,DeepSeek備受矚目的原因還在於其成本效益;與競爭對手動輒數千萬到數億美元的訓練費用相比,該模型的預算極為有限。
此外,美國的出口管制限制了中國公司獲取最佳AI計算晶片的機會,迫使R1的開發人員開發更智慧、更節能的演算法,以彌補計算能力的不足。據報導,ChatGPT處理訓練資料需要10,000個Nvidia GPU,而DeepSeek的工程師表示,他們僅用2000多個就達到了類似效果。
DeepSeek能在多大程度上轉化為實用的科學和技術應用,或者它是否只是訓練模型在基準測試中取得高分,仍有待觀察。科學家和AI投資者正密切關注。