當前位置:
首頁 > 科技 > 提升人工智慧模型效率與客製化:賴斯大學研究團隊的突破

提升人工智慧模型效率與客製化:賴斯大學研究團隊的突破

人工智慧(AI)如今無所不在,從我們諮詢客服時使用的聊天機器人,到預測疾病可能擴散方式的工具,都有它的身影。然而,驅動現代人工智慧模型,像是大型語言模型(LLMs),所需的運算能力和能源,使得它們成本高昂、難以普及,並且對環境造成負擔。

賴斯大學的一組研究人員正致力於尋求解決方案,以改變這一現狀。

電腦科學、電氣與計算機工程以及統計學副教授,同時也是賴斯大學肯恩・甘迺迪研究所成員的安舒馬利・施裡瓦斯塔瓦表示:「就更廣泛的整合而言,生成式人工智慧仍處於起步階段。要充分發揮這項技術的全部潛力,我們還有很長的路要走。」

施裡瓦斯塔瓦解釋道,成功的人工智慧整合意味著公司和組織能夠使用專業的人工智慧系統,這些系統可以安全地利用其資料基礎設施,以執行高度專業化的任務。

他說:「要讓人工智慧很好地解決物理問題,就需要由物理學家打造;而解決醫學問題的人工智慧,則必須由醫學專家構建。」

說起來容易做起來難:從零開始構建大型語言模型,在人力、能源和資料方面都是一項艱巨的任務。在大多數情況下,為了在特定情境中部署大型語言模型,同時維護資料安全,唯一可行的選擇就是對現有模型進行客製化。

2024年12月,在英屬哥倫比亞省溫哥華舉行的人工智慧會議「神經資訊處理系統大會」(NeurIPS)上,施裡瓦斯塔瓦和他研究團隊的幾名成員,展示了他們在微調大型語言模型以更好滿足使用者需求方面的三項最新進展。

這三篇論文提出了比低秩近似和標準量化等流行策略更優的替代方案,展現了賴斯大學人工智慧研究的潛在影響力和創造力。

大型語言模型是從語言資料中學習和處理的神經網路系統。這些演演算法配備了引數或變數,它們決定了輸入(例如ChatGPT的提示)如何轉化為輸出(一封電子郵件草稿)。

大型語言模型中的「大型」一詞,指向了過去十年為模型配備越來越多引數和資料的趨勢,因為這意味著智慧程度的提升。反過來,這也導致訓練和部署模型所需的運算能力和記憶體大幅增加,因此大型語言模型以佔用大量記憶體和能源而聞名。

賴斯大學團隊在NeurIPS上發表的一篇論文,探索了施裡瓦斯塔瓦稱之為「引數共享」的概念,引入了「草圖結構變換」(SS1)—— 一種處理稱為權重矩陣或工作記憶的龐大數字表格的方法,人工智慧模型依靠這些表格進行預測和決策。

SS1利用機率演演算法的基本概念「引數共享」,在維持模型表達能力和準確度的同時,降低模型對記憶體和運算的需求。例如,將SS1技術應用於流行的大型語言模型時,處理速度提高了超過11%,且無需額外微調。

如今,大型語言模型,更廣義地說是基礎模型,依賴稱為GPU(圖形處理單元)的昂貴且耗電的硬體,來進行所需的數百萬次計算。這意味著基礎模型通常限於大型科技公司擁有的資料中心,或者需要大多數人或小型組織無力負擔的昂貴硬體。

施裡瓦斯塔瓦的團隊開發了一種演演算法,使大型語言模型能夠在標準電腦處理器(CPU)上高效執行,而非依賴GPU。在NeurIPS上發表的第二篇論文中概述的這項研究,利用CPU自身的硬體能力重新設計計算方式:NoMAD注意力演演算法用一種巧妙的替代方法取代了複雜運算,以更快且資源消耗更低的方式利用了CPU記憶體架構的特性。

施裡瓦斯塔瓦研究團隊的賴斯大學博士生張天怡表示:「我們的演演算法使所有執行速度提高了一倍,且不會損失任何準確度。」他也是在NeurIPS上發表的兩篇論文的第一作者。

這一突破意味著在不久的將來,先進的人工智慧工具可能不僅限於雲端執行,還可以直接在手機或筆記型電腦上執行。

人工智慧研究人員面臨的另一個挑戰是管理上下文記憶。大型人工智慧模型不僅需要強大的處理器,還需要大量高速記憶體來儲存它們的「想法」。例如,像ChatGPT這樣的大型語言模型,會在對話中保留一個臨時的「便箋」,記錄它們看到的所有內容。這種稱為「鍵值」或「KV快取」的記憶體,會隨著對話的繼續而增長,即使是最先進的系統也很快會不堪重負。

在第三篇論文中,研究團隊引入了「耦合量化」,一種在不損失模型回覆品質的情況下壓縮這種記憶體的方法。傳統方法是單獨壓縮每條資訊,但施裡瓦斯塔瓦的團隊意識到,這種方法忽略了一個關鍵點:不同的記憶片段是相互關聯的。透過將相關片段一起壓縮,他們的方法實現了更高的效率。

張天怡說:「我們發現可以將每條資訊的記憶體縮小到只有一位元,基本上是最小的可能尺寸,同時仍能保持模型的效能。據我所知,我們是第一個做到這一點的。」

施裡瓦斯塔瓦的工作反映了對人工智慧未來更廣闊的願景,即先進的人工智慧可供所有人使用,而不僅限於科技巨頭。目前只有少陣列織有資源訓練和微調大型語言模型,大多數公司只能依賴預建系統。施裡瓦斯塔瓦表示,他看到了一個未來,每個組織都可以建立自己量身定製的人工智慧工具,而無需花費大量資金。

但要實現這一目標,僅靠技術突破是不夠的。正如施裡瓦斯塔瓦所指出的:「我們才剛剛觸及人工智慧所能做到的事情的表面,而其能源和運算需求已經很大。如果我們希望未來人工智慧能解決醫療保健、氣候科學等領域的問題,就需要大幅提高其效率。顯然,人工智慧效率的下一個前沿領域將來自演演算法。」