當前位置:
首頁 > 科技 > 機器人也能終身學習?LEGION框架開啟AI新紀元

機器人也能終身學習?LEGION框架開啟AI新紀元

人類最令人驚嘆的能力之一,就是能夠隨著時間累積知識,並不斷提升技能。這種被稱為「終身學習」的能力,在人工智慧(AI)和機器人領域一直是難以突破的瓶頸。如今,由慕尼黑工業大學和南京大學的研究團隊,在Alois Knoll教授和Zhenshan Bing博士的帶領下,開發出一套名為LEGION的強化學習框架,為機器人賦予了終身學習的潛力。

這項發表在《Nature Machine Intelligence》期刊的研究,不僅能提升機器人的適應能力,更能讓它們在真實世界的應用中表現更加出色。論文第一作者Yuan Meng向Tech Xplore透露:「我們的研究源自2021年的一項機器人元強化學習專案,當時我們嘗試使用高斯混合模型(GMM)進行任務推論和知識聚類。雖然取得不錯的成果,但我們發現GMM需要預先定義聚類數量,這在任務數量未知且非同步變化的終身學習情境中並不適用。」

為瞭解決這個問題,研究團隊轉向貝葉斯非引數模型,特別是狄利克雷過程混合模型(DPMM),這種模型能夠根據輸入的任務資料動態調整聚類數量。LEGION框架正是基於DPMM,讓透過強化學習訓練的演演算法能夠在不斷變化的任務流中持續獲取、儲存並重新應用知識。

Meng解釋道:「LEGION框架的設計理念是模仿人類的終身學習,讓機器人能夠在學習新任務的同時,保留並重複使用先前獲得的知識。其核心貢獻在於基於DPMM的非引數知識空間,能夠動態決定知識結構,無需預先定義任務聚類數量。這不僅避免了災難性遺忘,還能靈活適應新的、未知的任務。」

研究團隊更進一步整合了來自預訓練大型語言模型(LLM)的語言嵌入,讓機器人能夠處理和理解使用者的指令,並獨立於任務示範進行解讀。Meng補充說:「此外,我們的框架促進了知識重組,意味著機器人可以透過智慧排序先前學到的技能來解決長期任務,例如清理桌子。與傳統的模仿學習不同,LEGION允許以任何所需順序靈活組合技能,從而實現更好的泛化能力和實際應用中的靈活性。」

在初步測試中,研究團隊將LEGION框架應用於真實的機器人系統,結果令人振奮。機器人能夠從連續的任務流中持續累積知識。Meng表示:「我們證明瞭非引數貝葉斯模型,特別是DPMM,可以作為機器人終身學習的有效先驗知識。與傳統的多工學習不同,我們的框架能夠動態適應未知數量的任務流,儲存並重組知識,隨著時間推移提升效能。」

這項研究為未來開發能夠持續獲取知識並精進技能的機器人提供了重要啟示。LEGION框架可進一步改進並應用於各種機器人,包括服務型機器人和工業機器人。Meng舉例說明:「例如,部署在家庭環境中的機器人可以隨著時間學習家務,根據使用者回饋精進技能,並適應新出現的任務。同樣地,在工業環境中,機器人可以逐步學習並適應變化的生產線,無需大量重新程式設計。」

在未來的研究中,團隊計劃進一步提升終身學習中穩定性與可塑性之間的平衡,這將使機器人能夠可靠地保留知識,同時適應新環境或任務。為此,他們將整合各種計算技術,包括生成回放和持續反向傳播。Meng補充道:「另一個關鍵研究方向是跨平臺知識轉移,讓機器人能夠在不同形態之間轉移和適應學習到的知識,例如人形機器人、機械手臂和移動平臺。我們還希望擴充套件LEGION的能力,使其能夠處理非結構化、動態的真實世界環境,並利用LLM進行即時獎勵調整,讓機器人能夠根據口頭或情境回饋動態精進任務目標。」