強化學習加持!新型擴散式語言模型d1大幅提升推理能力
科技
04-30
由加州大學洛杉磯分校與Meta AI研究人員聯手開發的d1框架,成功將強化學習技術融入擴散式大型語言模型(dLLM),顯著提升其推理能力。這項突破性研究成果已發表於arXiv預印本伺服器,為AI發展開闢全新路徑。
近年來大型語言模型(LLM)應用呈現爆炸性成長,全球數百萬使用者透過各種AI應用程式獲取服務。然而這也導致資料中心電力消耗急遽攀升,促使學界積極尋找更節能的替代方案。擴散式語言模型(dLLM)正是備受矚目的解決方案之一,可作為傳統LLM的替代或互補選擇。
dLLM與傳統LLM的運作原理截然不同。它摒棄自回歸方法,改採擴散技術來生成答案。這項技術最初應用於影象生成領域,透過對影象新增雜訊後訓練模型逆向還原的過程來建立系統。移植到文書處理時,研究團隊將字母或單詞轉換為類似畫素的token,並以遮罩模擬雜訊效果,逐步消除token後再訓練模型進行逆向重建。這種方法最大優勢在於運算資源需求遠低於傳統LLM。
研究團隊特別針對dLLM在推理能力上的弱項進行強化。他們創新地匯入強化學習機制,讓模型透過獎勵回饋來持續最佳化。d1框架採用兩階段訓練流程:首先運用高品質資料進行監督式微調,接著匯入獨創的diffu-GRPO演演算法,結合數學原理的高階估算與「隨機提示遮罩」技術來實施強化學習。
初步測試結果令人振奮,採用d1框架的模型在多項數學與邏輯推理基準測試中表現優異,甚至超越基礎的LLaDA-8BInstruct模型。研究團隊表示,這套框架已具備實用價值,歡迎各界進行驗證與應用,共同推動AI技術的革新發展。
[end]