當前位置:
首頁 > 科技 > 雲端分散式深度學習:追求完美反而拖累效率?OptiReduce突破瓶頸

雲端分散式深度學習:追求完美反而拖累效率?OptiReduce突破瓶頸

密西根大學主導的最新研究顯示,名為OptiReduce的革命性通訊協作系統,透過設定時間邊界而非等待所有伺服器同步,大幅加速雲端AI訓練效能。這項顛覆性技術雖會遺失部分資料,卻能透過數學演演算法彌補缺失,比現有系統更快達到目標準確度。研究成果已於賓州費城舉行的USENIX網路系統設計與實現研討會發表。

隨著AI模型規模爆炸性成長,分散式深度學習需要多臺伺服器協同運作。但在共享運算資源的雲端環境中,流量壅塞與延遲問題嚴重拖慢訓練進度。研究團隊的解決方案,猶如當年從通用CPU轉向專用GPU的變革——將同樣思維應用於資料傳輸層面。

「我們正重蹈當年通用運算的覆轍!」論文通訊作者、密西根大學電腦工程助理教授Muhammad Shahbaz指出:「就像NVIDIA為運算帶來革新,我們要打造專屬機器學習的通訊架構來突破傳輸瓶頸。」

傳統系統要求伺服器間完美同步,導致訓練卡在等待落後節點的尾端延遲。OptiReduce大膽採用動態時間邊界機制:網路閒置時縮短等待,繁忙時適度延長,既確保多數有效通訊,又避免無謂等待。普渡大學博士生、第一作者Ertza Warraich強調:「我們證明機器學習不需要傳統工作負載要求的100%可靠性,有限度容錯反而能兼顧速度與準確度。」

團隊在虛擬化叢集與CloudLab公開測試平臺進行實測,結果顯示OptiReduce在共享雲環境中,比Gloo快70%達成目標準確度,較NCCL提升30%效能。即使損失約5%資料,模型表現仍不受影響,且Llama 4等大型模型展現更強健的容錯能力。

Shahbaz透露下一步計畫:「OptiReduce只是開端,我們正研究如何從軟體傳輸轉向網絡卡硬體層級最佳化,目標突破每秒數百Gb傳輸極限。」這項研究獲得NVIDIA、VMware Research與Feldera共同參與,可望重塑AI基礎架構的未來樣貌。

[end]