當前位置:
首頁 > 科技 > 突破AI訓練瓶頸!ZEN通訊系統讓大型語言模型訓練效率大躍進

突破AI訓練瓶頸!ZEN通訊系統讓大型語言模型訓練效率大躍進

人工智慧(AI)訓練過程向來以耗費大量資源聞名,但萊斯大學研究團隊最新開發的ZEN通訊系統,可能為這個難題帶來突破性解方。這項創新技術能顯著提升大型語言模型(LLMs)的訓練效率,讓AI發展邁向新里程碑。

這項研究由博士畢業生王壯與電腦科學教授吳振聲主導,並獲得助理教授王宇科、教授Anshumali Shrivastava等團隊成員的協助。史帝文斯大學的徐兆卓與浙江大學的奚靜怡也參與其中。研究發現,分散式訓練過程中主要會遇到兩個瓶頸:運算與通訊。

運算瓶頸發生在模型需要處理海量資料時。將資料分散到數百甚至數千個圖形處理器(GPU)上處理,是目前常見的解決方案。這些GPU會分別處理不同資料樣本,再將結果回傳至主模型。

更棘手的問題出現在通訊階段。當所有GPU需要同步更新模型引數時,龐大的梯度資料會造成嚴重的通訊延遲。王壯解釋:「傳統做法是傳輸所有資料,但我們觀察到這些通訊資料中存在大量零值。我們需要更聰明的資料結構來處理這些資訊。」

研究團隊採用「稀疏化」技術,只同步傳輸重要的梯度值,這些被保留的數值稱為「稀疏張量」。雖然這已是LLM訓練的常見做法,但通訊效率仍有改善空間。吳振聲教授指出:「學界對如何在分散式訓練中有效處理這些稀疏張量,其實缺乏根本性的理解。我們的研究貢獻之一,就是深入分析這些稀疏張量的行為特性。」

這項研究可分為三個關鍵部分:首先,團隊分析主流模型中稀疏張量的特性,發現非零梯度的分佈會因訓練模型和資料集而異;其次,研究最佳的通訊方案設計;最後,將研究成果實作成ZEN系統,並實際應用於LLM訓練。

測試結果令人驚艷,ZEN能顯著提升訓練速度。吳教授表示:「我們證明透過更有效率的通訊方式,可以加速完成整個訓練過程。每個訓練步驟所需的時間都大幅縮短。」由於稀疏張量在各種AI模型中都很常見,這項技術可廣泛應用於文字或影象生成等領域。

值得一提的是,王壯與吳振聲教授先前已合作開發過名為GEMINI的系統,專門解決訓練過程中硬體或軟體故障的恢復問題。這項最新研究成果「ZEN:基於稀疏化資料同步的分散式訓練系統」已在波士頓舉行的第19屆USENIX作業系統設計與實現研討會上發表。

[end]