當前位置:
首頁 > 科技 > MIT與NVIDIA聯手打造 直覺式機器人操控新框架

MIT與NVIDIA聯手打造 直覺式機器人操控新框架

想像一下,當機器人幫你洗碗時,你請它從水槽中拿起一個沾滿泡沫的碗,但它卻稍微偏離了目標。現在,MIT與NVIDIA的研究人員開發出一套新框架,讓你能用簡單的互動方式來修正機器人的行為。你可以指向碗、在螢幕上畫出軌跡,或者輕輕推動機器人的手臂引導它。這項研究已發表在預印本伺服器arXiv上。

與其他修正機器人行為的方法不同,這項技術不需要使用者收集新資料或重新訓練驅動機器人「大腦」的機器學習模型。它讓機器人能利用直覺的即時人類回饋,選擇最接近使用者意圖的可行動作序列。研究人員測試時發現,這套框架的成功率比未利用人為幹預的替代方法高出21%。

長遠來看,這套框架能讓使用者更容易引導在工廠受訓的機器人執行各種家務,即使機器人從未見過使用者的家或其中的物品。「我們不能期待一般人進行資料收集和微調神經網路模型。消費者期望機器人開箱即用,如果不行,他們會想要一個直覺的機制來客製化它。這就是我們在這項工作中解決的挑戰,」該論文的主要作者、電機工程與電腦科學研究生Felix Yanwei Wang表示。

近年來,研究人員開始使用預訓練的生成式AI模型來學習機器人完成動作的「策略」或規則集。生成模型能解決多項複雜任務。在訓練期間,模型只看到可行的機器人動作,因此學會生成有效的軌跡讓機器人遵循。然而,這些軌跡雖然有效,卻不一定與使用者在現實世界中的意圖一致。

為克服這些失敗,工程師通常會收集展示新任務的資料並重新訓練生成模型,這是一個耗時且需要機器學習專業知識的過程。MIT研究人員希望讓使用者在部署時能引導機器人的行為,當它犯錯時進行修正。但如果人類與機器人互動來修正其行為,可能會無意中導致生成模型選擇無效的動作。

「我們希望讓使用者能與機器人互動,而不會引入那些錯誤,這樣我們就能在部署時獲得更符合使用者意圖的行為,同時也是有效且可行的,」Wang說。他們的框架透過提供三種直覺的修正機器人行為的方式來實現這一點,每種方式都有其優勢。

首先,使用者可以在顯示機器人相機檢視的介面中指向他們想要機器人操作的物體。其次,他們可以在該介面中畫出軌跡,指定希望機器人如何到達物體。第三,他們可以實際移動機器人的手臂,引導它遵循所需方向。「當你將環境的2D影像對映到3D空間中的動作時,會丟失一些資訊。實際推動機器人是最直接的方式,能在不丟失任何資訊的情況下指定使用者意圖,」Wang解釋道。

為確保這些互動不會導致機器人選擇無效動作(例如與其他物體碰撞),研究人員使用特定的取樣程式。這項技術讓模型能從有效動作集中選擇最符合使用者目標的動作。「我們不只是強加使用者的意願,而是讓機器人瞭解使用者的意圖,但讓取樣程式在其自身學習的行為集中振盪,」Wang補充道。

這項取樣方法讓研究人員的框架在模擬和玩具廚房中的真實機器人手臂實驗中表現優於其他比較方法。雖然他們的方法可能無法總是立即完成任務,但它讓使用者能在看到機器人做錯事時立即進行修正,而不是等待它完成後再給予新指令。

此外,當使用者推動機器人幾次直到它拿起正確的碗後,機器人可以記錄該修正動作並將其納入未來的訓練中。這樣,第二天機器人就能在不需要推動的情況下拿起正確的碗。「但這種持續改進的關鍵在於讓使用者能與機器人互動,這就是我們在這裡展示的,」Wang總結道。

未來,研究人員希望在保持或提升效能的同時,提高取樣程式的速度。他們還希望在新環境中進行機器人策略生成的實驗。