四足機器人滑板新突破:強化學習框架引領未來應用
四足機器人,靈感多來自動物與昆蟲,未來有望協助人類完成各種現實任務,例如包裹遞送或環境監測。近年來,電腦科學家已開發出多種演演算法,讓這些機器人能夠以不同速度行走、跳躍、模仿動物動作,並展現出極高的敏捷性。如今,密西根大學的計算自主與機器人實驗室(CURLY Lab)與南方科技大學的研究團隊,成功開發出一套基於強化學習的框架,讓四足機器人能夠順利使用滑板。這項研究成果已發表於arXiv預印本伺服器,未來還可應用於模擬其他涉及與物體接觸的複雜動作。
「現有的四足機器人運動演演算法並未考慮與物體的密集接觸,例如滑板,」論文的通訊作者Sangli Teng向Tech Xplore表示。「我們的研究旨在為這類接觸引導的任務設計一套流程,滑板運動正是其中之一。密西根大學在開發混合動力系統方面有悠久的歷史,這啟發我們透過AI的資料驅動方法來識別這些混合效應。」
Teng與其團隊的主要目標是讓四足機器人能夠執行接觸引導的動作,包括滑板運動。為此,他們開發了一套名為「離散時間混合自動機學習」(DHAL)的新框架。
「混合動力學」意指系統能夠同時執行連續與離散的狀態轉換,這意味著它能夠流暢地移動,並在特定時刻突然改變狀態。「舉例來說,當一個彈跳的球與地面接觸時,球在空中具有連續的動力學,而在與地面碰撞時則會發生離散的狀態轉換,」Teng解釋道。「對於具有多種連續動力學與轉換函式的系統來說,同時識別離散模式與連續動力學極為困難,因為可能的轉換會隨著離散轉換的數量呈指數級增長。」
Teng所描述的這種突變轉換,使得傳統基於回歸的計算方法難以學習系統的動力學。研究團隊開發的DHAL框架能夠識別這些突變轉換,並使用回歸技術學習系統動力學的每個連續片段,從而減少不連續效應對機器人執行滑板等任務時的影響。
「與現有方法相比,DHAL無需手動識別離散轉換或事先了解轉換狀態的數量,」Teng表示。「DHAL的一切都是啟發式的,我們的研究顯示,這套方法能夠自主識別動力學的模式轉換。」
DHAL框架的另一大優勢是其高度直觀性,確保識別的模式轉換與滑板運動的典型特徵相符。在初步測試中,研究團隊發現這套框架讓四足機器人能夠流暢地踏上滑板,並利用滑板快速前進,同時還能拖曳一輛小型推車。
「在推動、滑行與上板階段,DHAL會自動輸出不同的標籤,」Teng補充道。「這套方法可應用於混合動力系統的狀態估計,以判斷是否發生轉換。有了這些轉換資訊,系統能夠更好地估計狀態,從而協助決策制定。」
Teng與其團隊開發的這套強化學習框架,未來有望為四足機器人的實際應用開闢新天地。例如,機器人可利用滑板在城市環境、辦公室或製造設施中更快地移動,執行包裹遞送等任務。「我們計劃將這套框架應用於其他場景,例如靈巧操作(即使用多根手指或手臂操控物體),」Teng表示。「DHAL有望更準確地預測接觸,從而讓規劃與控制演演算法做出更好的決策。」