學術研究團隊:不到50美元就能訓練AI推理模型
科技
02-08
史丹佛大學和華盛頓大學的一小群AI研究人員,找到了一種方法,能用大企業訓練知名AI產品(如ChatGPT)所需成本的零頭,來訓練AI推理模型。該團隊已在arXiv預印本伺服器上發表了一篇論文,闡述他們低成本訓練聊天機器人和其他AI推理模型的努力。
像谷歌和微軟這樣的企業,已明確表達了要在技能不斷提升的聊天機器人開發領域成為領導者的意願。眾所周知,這些努力耗資巨大,而且往往需要使用耗能高的伺服器群。
最近,一家名為DeepSeek的中國公司推出了一款大語言模型(LLM),其效能與西方國家開發的同類模型相當,但成本要低得多。這一訊息導致許多科技公司的股價暴跌。
在這項新研究中,研究人員聲稱,花不到50美元就能訓練出一款效能與OpenAI或DeepSeek所開發模型相近的大語言模型。不過,這項新研究的研究人員採用了一種提煉過程,從另一個AI模型中提取能力。
為了以如此低的成本訓練AI,研究團隊從阿里巴巴(一家中國企業)開發的現成AI模型入手,阿里巴巴建立了這個免費的測試模型。研究團隊對該模型進行了修改,並將修改後的結果稱為s1。
初步訓練使用了他們精心設計的1000組問答對,以幫助模型在學習上取得優勢。他們還將免費的谷歌實驗模型Gemini 2.0背後的「思考過程」賦予該模型。然後,他們使用16塊Nvidia H100 GPU,僅用26分鐘就完成了訓練。
該團隊還採用了一個他們所謂的小技巧——在模型給出答案之前增加一個稱為「思考」的步驟,這讓模型有時間再次檢查自己的運算結果。研究人員稱,最終得到的AI模型效能與其他知名得多的產品相當,但成本卻只是它們的一小部分。