Q&A：剖析DeepSeek — 蒸餾技術、倫理與國家安全

科技 02-05

自中國新創AI公司DeepSeek釋出其強大的大語言模型R1之後，便在矽谷與美國股市掀起漣漪，引發廣泛的討論與爭辯。密西根大學統計學教授、人工智慧與機器學習領域的頂尖專家安布吉·特瓦里（Ambuj Tewari），分享了他對DeepSeek這項突破在技術、倫理與市場相關層面的見解。

模型或知識蒸餾通常是指從較強的模型生成回應，以訓練較弱的模型，使較弱的模型得到提升。若較強的模型是以允許此類使用的授權方式釋出，那這是完全正常的做法。然而，OpenAI的ChatGPT使用條款明確禁止將其模型用於模型蒸餾等目的。

這很難說。即便在同一模型家族，例如Llama或Qwen，並非所有模型都以相同的授權方式釋出。如果某個模型的授權允許進行模型蒸餾，那麼這樣做既不違法也不違背倫理。在R1論文中提到，實際過程是反方向進行的：知識從R1被蒸餾到LLaMA和Qwen，以增強後兩者模型的推理能力。

由於在法律事務上存在無罪推定原則，舉證責任將落在OpenAI身上，它必須證明DeepSeek確實違反了其服務條款。由於只有DeepSeek開發的最終模型是公開的，而其訓練資料並未公開，因此要證明這項指控可能頗具難度。鑑於OpenAI尚未公開其證據，目前很難判斷他們的指控有多有力。

目前，企業在開發AI模型方面幾乎沒有普遍被接受的標準。支援開放模型的人認為，開放效能帶來更高的透明度。但公開模型權重並不等同於公開從資料收集到訓練的整個過程。此外，使用受版權保護的材料（如書籍）來訓練AI模型是否屬於合理使用，也引發了擔憂。一個顯著的例子是《紐約時報》對OpenAI提起的訴訟，這凸顯了圍繞此問題的法律和倫理爭議。

訓練資料中的社會偏見會影響模型輸出，這引發了諸多疑問。同時，能源需求不斷增加及其對氣候變化的影響也令人擔憂。這些問題大多都在積極討論中，但幾乎未達成共識。

如果美國公民的資料儲存在DeepSeek的伺服器上，且中國政府能夠獲取這些資料，那將令人深感憂慮。不過，模型權重是公開的，因此可以在美國公司擁有的伺服器上執行。事實上，微軟已經開始託管DeepSeek的模型。