Q&A:剖析DeepSeek — 蒸餾技術、倫理與國家安全
自中國新創AI公司DeepSeek釋出其強大的大語言模型R1之後,便在矽谷與美國股市掀起漣漪,引發廣泛的討論與爭辯。密西根大學統計學教授、人工智慧與機器學習領域的頂尖專家安布吉·特瓦里(Ambuj Tewari),分享了他對DeepSeek這項突破在技術、倫理與市場相關層面的見解。
模型或知識蒸餾通常是指從較強的模型生成回應,以訓練較弱的模型,使較弱的模型得到提升。若較強的模型是以允許此類使用的授權方式釋出,那這是完全正常的做法。然而,OpenAI的ChatGPT使用條款明確禁止將其模型用於模型蒸餾等目的。
這很難說。即便在同一模型家族,例如Llama或Qwen,並非所有模型都以相同的授權方式釋出。如果某個模型的授權允許進行模型蒸餾,那麼這樣做既不違法也不違背倫理。在R1論文中提到,實際過程是反方向進行的:知識從R1被蒸餾到LLaMA和Qwen,以增強後兩者模型的推理能力。
由於在法律事務上存在無罪推定原則,舉證責任將落在OpenAI身上,它必須證明DeepSeek確實違反了其服務條款。由於只有DeepSeek開發的最終模型是公開的,而其訓練資料並未公開,因此要證明這項指控可能頗具難度。鑑於OpenAI尚未公開其證據,目前很難判斷他們的指控有多有力。
目前,企業在開發AI模型方面幾乎沒有普遍被接受的標準。支援開放模型的人認為,開放效能帶來更高的透明度。但公開模型權重並不等同於公開從資料收集到訓練的整個過程。此外,使用受版權保護的材料(如書籍)來訓練AI模型是否屬於合理使用,也引發了擔憂。一個顯著的例子是《紐約時報》對OpenAI提起的訴訟,這凸顯了圍繞此問題的法律和倫理爭議。
訓練資料中的社會偏見會影響模型輸出,這引發了諸多疑問。同時,能源需求不斷增加及其對氣候變化的影響也令人擔憂。這些問題大多都在積極討論中,但幾乎未達成共識。
如果美國公民的資料儲存在DeepSeek的伺服器上,且中國政府能夠獲取這些資料,那將令人深感憂慮。不過,模型權重是公開的,因此可以在美國公司擁有的伺服器上執行。事實上,微軟已經開始託管DeepSeek的模型。