過度訓練大型語言模型可能導致微調效果變差?美國頂尖大學研究揭密
科技
04-15
由美國卡內基美隆大學、史丹佛大學、哈佛大學和普林斯頓大學組成的人工智慧研究團隊發現,過度訓練大型語言模型(LLM)可能會讓後續的微調變得更困難。這項發表在arXiv預印本伺服器上的研究,比較了不同訓練量對單一LLM模型的影響。
過去幾年,AI研究人員普遍認為模型訓練得越多,最終表現就會越好。但這項新研究卻發現,語言模型的訓練可能存在「邊際效益遞減」的臨界點。研究人員在測試OLMo-1B模型的兩個版本時發現,使用3兆個token訓練的模型,表現竟比只用2.3兆個token訓練的版本差了3%。
驚訝之餘,研究團隊進行更多測試後仍得到類似結果,顯示過度訓練確實可能讓模型變得更「不聰明」。他們將這種現象稱為「災難性過度訓練」,並歸因於所謂的「漸進敏感性」。
研究指出,隨著訓練token數量增加,模型會變得更加脆弱。此時微調就像是在新增雜訊,反而會抵消先前達到的改進效果。為驗證理論,研究人員在部分模型中加入高斯雜訊,果然觀察到相同的效能下降現象。
研究團隊將這個不可逆的臨界點命名為「轉折點」,超過此點後,任何額外訓練都會降低模型穩定性,使其更難針對特定應用進行有效調整。研究人員建議,未來LLM開發者可能需要更精確估算適當的訓練量,或是尋找能延後轉折點的新訓練方法。
[end]