【AI雲端革命】韓國團隊研發NPU核心技術:效能提升60%、功耗大降44%
隨著OpenAI的ChatGPT-4和Google的Gemini 2.5等新一代生成式AI模型問世,雲端運算正面臨前所未有的挑戰。這些模型不僅需要極高的記憶體頻寬,更對記憶體容量有龐大需求,這也解釋了為何微軟、Google等科技巨擘會砸重金採購數十萬顆NVIDIA GPU。
來自韓國科學技術院(KAIST)的Park Jongse教授團隊與HyperAccel公司合作,成功開發出專為生成式AI雲端設計的NPU(神經網路處理單元)核心技術。這項突破性技術不僅能將AI推論效能平均提升超過60%,相較最新款GPU更能節省約44%的功耗,可望徹底改變當前AI基礎設施的建置模式。
這項研究由KAIST博士生Kim Minsu與HyperAccel公司的Hong Seongmin博士共同擔任第一作者,已正式發表於2025年6月21-25日在東京舉行的國際計算機架構研討會(ISCA 2025)。
研究團隊的核心目標是透過「輕量化」推論過程來提升大規模生成式AI服務的效能,同時將準確率損失降至最低,並解決記憶體瓶頸問題。這項研究最受矚目的突破在於整合了AI半導體與AI系統軟體的設計,這正是AI基礎設施最關鍵的兩大要素。
傳統GPU架構需要部署大量裝置才能滿足高頻寬與大容量的需求,而這項新技術透過KV快取量化(KV cache quantization),能用更少的NPU裝置建置相同等級的AI基礎設施。由於KV快取佔據了絕大部分記憶體使用量,這項技術可大幅降低建置生成式AI雲端的成本。
研究團隊特別設計了能與記憶體介面無縫整合的架構,無需改變現有NPU架構的運算邏輯。這項硬體架構不僅實現了提出的量化演演算法,更採用頁面級記憶體管理技術來提升有限記憶體頻寬與容量的使用效率,同時針對量化後的KV快取匯入全新編碼技術。
Park Jongse教授強調:「這項與HyperAccel公司合作的研究,在生成式AI推論輕量化演演算法中找到解決方案,成功開發出能解決記憶體問題的核心NPU技術。我們結合能降低記憶體需求又保持推論準確度的量化技術,以及專為此最佳化的硬體設計,打造出效能比最新GPU提升超過60%的NPU。」
這項突破性技術不僅展現了專為生成式AI打造的高效能、低功耗基礎設施的可能性,未來更將在AI雲端資料中心,以及以代理型AI(agentic AI)為代表的動態可執行AI環境(AX)中扮演關鍵角色。
[end]