突破性創新!SPECTRA架構讓大型語言模型推理速度飆升4倍
在當今AI應用場景中,大型語言模型(LLM)的即時回應能力至關重要。無論是與客戶互動的聊天機器人,還是數百萬開發者日常使用的AI編碼助手,都必須在維持高品質輸出的同時,將延遲降到最低。
現行LLM普遍採用自回歸解碼架構,逐個token生成文字。這種方式效率低落,尤其處理長文時,回應時間呈線性增長。為解決此痛點,學界正廣泛研究「猜測與驗證」的推測解碼技術,透過小型LLM預測多個token,再由主模型驗證,大幅縮短生成時間。
但既有方法存在明顯限制:不僅需要額外訓練模型,更耗費大量運算資源。雖有學者嘗試免訓練的平行推測模型,卻因猜測品質不佳導致加速效果有限。針對這些技術缺口,日本北陸先端科學技術大學院大學(JAIST)的阮黎明教授團隊,最近開發出革命性的SPECTRA推測解碼架構。
這項突破性研究由博士生黎阮慶和杜廷長共同完成,其創新之處在於完全免訓練即可實現文字生成加速。阮教授說明:「SPECTRA包含兩個關鍵模組:可即插即用的核心引擎(SPECTRA-CORE),以及能進一步提升效能的檢索強化模組(SPECTRA-RETRIEVAL)。」
核心模組的運作原理相當精妙:透過分析LLM預測的文字分佈模式,配合雙向搜尋技術(前向/後向),從多層級N元語法詞典中快速找出最佳片語組合。系統還會動態更新詞典內容,持續擴充文字覆蓋率。檢索模組則採用困惑度評分機制,從海量資料中篩選LLM容易預測的高品質片段,確保推測準確性。
研究團隊在Llama 2/3和CodeLlama等三大模型家族上,測試了包含多輪對話、程式碼生成等六項任務。結果顯示,SPECTRA平均獲得4倍加速,效能超越當前頂尖的REST、ANPD等免訓練推測解碼技術。更難得的是,其加速效果在不同模型架構與資料集間都保持穩定。
阮教授強調:「我們透過N元語法多層儲存與雙向搜尋的完美結合,配合基於困惑度篩選的外部線索強化機制,在完全保留原模型輸出品質的前提下,達成最高4.08倍的加速效果。」這項技術不僅為商業和研究系統提供實用解決方案,更有望促進高效能AI的普及與永續發展。
[end]