DeepSeek 震撼全球!顛覆人工智慧格局的秘密武器
最近,一間鮮為人知的中國公司釋出了其最新的人工智慧模型,在全球掀起軒然大波。DeepSeek 的 V3 和 R1 模型本週席捲全球,究竟為何它們如此備受矚目呢?
不到兩周前,這家不太知名的中國公司釋出了最新的人工智慧模型,震驚了全世界。DeepSeek 在一篇上傳到 GitHub 的技術論文中聲稱,其開源的 R1 模型取得了與一些矽谷巨擘所開發的人工智慧模型相當甚至更優異的成果,這些巨擘包括 OpenAI 的 ChatGPT、Meta 的 Llama 以及 Anthropic 的 Claude。最令人驚訝的是,該模型在訓練和執行時所花費的成本只是其他模型的一小部分。
週一,市場對此訊息的反應強烈而殘酷:當 DeepSeek 在蘋果 App Store 躍升為下載量最高的免費應用程式時,美國主要科技公司的市值蒸發了 1 兆美元。而被認為是人工智慧訓練必備的高階 H100 圖形晶片製造商 Nvidia,在美國歷史上最大的單日市值損失中,市值蒸發了 5890 億美元。畢竟,DeepSeek 表示其人工智慧模型的訓練並未使用 H100 晶片,儘管它確實使用了效能稍低的 Nvidia 晶片。美國科技公司的反應充滿了恐慌和憤怒,OpenAI 的代表甚至暗示 DeepSeek 抄襲了其部分模型。
人工智慧專家表示,DeepSeek 的出現顛覆了支撐該行業增長方式的一個重要教條,證明瞭「更大」並不總是「更好」。西北大學電腦科學教授 Kristian Hammond 在一封電子郵件中告訴《Live Science》:「DeepSeek 能用更少的資金、更少的計算量和更短的時間打造出來,而且可以在更便宜的機器上本地執行,這表明當大家都在追求更大的模型時,我們錯失了打造更智慧、更小巧模型的機會。」
但究竟是什麼讓 DeepSeek 的 V3 和 R1 模型如此具有顛覆性呢?科學家們表示,關鍵在於效率。密歇根大學統計學和電腦科學教授 Ambuj Tewari 告訴《Live Science》:「在某些方面,DeepSeek 的進步是漸進式的而非革命性的。它們仍然在非常大的模型(數千億個引數)、非常大的資料集(數兆個詞元)以及非常龐大的預算的主導正規化下運作。」Tewari 表示,如果我們表面上接受 DeepSeek 的主張,該公司方法的主要創新之處在於,它如何運用大型且強大的模型,在使用更少資源的情況下,達到與其他系統相同的效果。
其中的關鍵是一個「專家混合」系統,它將 DeepSeek 的模型分割成各個子模型,每個子模型專注於特定的任務或資料型別。與此相伴的是一個負載平衡系統,它不像其他模型那樣對負荷過重的系統施加整體懲罰,而是動態地將任務從過載的子模型轉移到負載不足的子模型。Tewari 說:「這意味著即使 V3 模型有 6710 億個引數,但對於任何一個給定的詞元,實際上只有 370 億個引數被啟用。」詞元是大型語言模型(LLM)中的一個處理單元,相當於一段文字。
另一項稱為「推理時計算擴充套件」的技術進一步提升了這種負載平衡。這是 DeepSeek 模型中的一個調節機制,它可以根據分配任務的複雜程度,提高或降低分配的計算資源。
這種效率也體現在 DeepSeek 模型的訓練上,專家們認為這是美國出口限制帶來的意外成果。中國獲取 Nvidia 最先進的 H100 晶片的途徑有限,因此 DeepSeek 稱其使用 H800 晶片構建模型,H800 晶片的晶片間資料傳輸速率較低。Nvidia 在 2023 年專門設計了這種「較弱」的晶片,以規避出口管制。
使用這些效能稍低的晶片的需求,迫使 DeepSeek 取得了另一項重大突破:其混合精度框架。它並非使用 32 位浮點數(FP32)來表示模型的所有權重(即設定人工智慧模型中人工神經元之間連線強度的數字),而是用精度較低的 8 位數字(FP8)訓練部分模型,只有在對精度要求較高的艱難計算中才切換到 32 位。塔夫茨大學技術政策教授 Thomas Cao 告訴《Live Science》:「這使得訓練速度更快,所需的計算資源更少。DeepSeek 還最佳化了訓練流程的幾乎每一步——資料載入、平行化策略和記憶體最佳化——因此在實際操作中實現了非常高的效率。」
同樣,在訓練人工智慧模型時,通常會使用人類提供的標籤來評估答案和推理的準確性,但 R1 的推理是無監督的。它只在數學和編碼等任務中,使用最終答案的正確性作為獎勵訊號,從而釋放出訓練資源,可用於其他地方。
所有這些因素共同造就了一對效率驚人的模型。DeepSeek 的競爭對手的訓練成本高達數千萬到數億美元,而且通常需要數個月的時間,而 DeepSeek 的代表表示,公司只用了 558 萬美元,在兩個月內就完成了 V3 的訓練。DeepSeek V3 的執行成本同樣很低,執行成本比 Anthropic 的 Claude 3.5 Sonnet 便宜 21 倍。
Cao 謹慎地指出,DeepSeek 的研發包括硬體以及大量的反覆試驗,這意味著它幾乎肯定花費了遠超 558 萬美元的費用。儘管如此,成本的大幅下降仍然足以讓其競爭對手措手不及。
總的來說,人工智慧專家表示,DeepSeek 的受歡迎程度對該行業可能是一個淨利好,它降低了高昂的資源成本,降低了研究人員和公司的進入門檻。它也可能為更多晶片製造商創造進入競爭的空間。然而,它也帶來了自身的風險。
Cao 說:「隨著更便宜、更高效的開發前沿人工智慧模型的方法公開,它們可以讓全球更多研究人員追求前沿大型語言模型的開發,有可能加速科學進步和應用創新。與此同時,這個更低的進入門檻也帶來了新的監管挑戰——不僅僅是中美競爭——涉及國家和非國家行為者對先進人工智慧的濫用或可能造成的破壞性影響。」