AI助力:機器人快速精準掌握複雜技能
在加州大學柏克萊分校,Sergey Levine教授的機器人AI與學習實驗室裡,研究人員們目光聚焦在一張桌子上,上面整齊堆疊著一座由39塊疊疊樂積木組成的塔。隨後,一臺黑白相間的機器人出現了,它那單一的機械臂彎折著,就像一隻駝背的長頸鹿,迅速朝著積木塔衝去,手中揮舞著一條黑色皮鞭。
在旁人看來,這或許簡直就是物理學上的奇蹟。皮鞭準確無誤地擊中了恰當的位置,使得一塊積木從堆疊中飛出,而其餘的積木塔依舊保持著結構完整。這項被稱為「疊疊樂鞭擊」的任務,原本是那些手眼協調能力和反應速度極佳的人愛好挑戰的專案。如今,得益於一種全新的、由AI驅動的訓練方法,機器人也掌握了這項技能。
透過學習人類的示範和反饋,以及自身在現實世界中的嘗試,這種訓練方案能夠讓機器人以100%的成功率完成像疊疊樂鞭擊這樣的複雜任務。更令人驚訝的是,機器人學習的速度十分驚人,它們能夠在一到兩個小時內學會如何完美地組裝電腦主機板、搭建架子等技能。
在AI的推動下,機器人學習領域一直試圖攻克如何教導機器完成不可預測或複雜活動的難題,而不是像在傳送帶上特定位置反覆拾取物體這樣的單一動作。為瞭解決這個難題,Levine的實驗室將重點放在了所謂的「強化學習」上。
博士後研究員Jianlan Luo解釋說,在強化學習中,機器人在現實世界中嘗試完成任務,並利用攝像頭的反饋,從錯誤中學習,最終掌握技能。2024年初,團隊首次釋出了一套使用這種方法的新軟體套件,Luo表示,看到其他人能夠迅速利用開源軟體複製他們的成功,他們感到很振奮。
今年秋天,Levine、Luo、Charles Xu、Zheyuan Hu和Jeffrey Wu組成的研究團隊釋出了一份技術報告,介紹了他們最新的系統,也就是那個成功完成疊疊樂鞭擊任務的系統。這個改進版增加了人為幹預的元素。相關研究成果也釋出在了arXiv預印本伺服器上。
透過一個特殊的滑鼠控制機器人,人類可以糾正機器人的動作,這些糾正資訊會被整合到機器人的「記憶庫」中。利用一種稱為強化學習的AI方法,機器人會分析所有嘗試的總和,包括有人幫助和無人幫助、成功和失敗的嘗試,從而更好地完成任務。
Luo表示,隨著機器人從經驗中學習,人類需要幹預的次數越來越少。他說:「在最初的30%左右的時間裡,我可能需要密切關注機器人,但隨後我就可以逐漸減少注意力了。」
實驗室讓機器人系統接受了一系列複雜任務的考驗,遠不止疊疊樂鞭擊。機器人能夠在平底鍋裡翻轉雞蛋、將物體從一隻機械臂傳遞到另一隻機械臂,還能組裝主機板、汽車儀錶板和同步帶。研究人員選擇這些挑戰是因為它們具有多樣性,用Luo的話來說,代表了「在複雜的現實世界中執行機器人任務時的各種不確定性」。
其中,同步帶任務的難度尤為突出。每次機器人與同步帶互動時,就像試圖將一條鬆垮的項鏈穿過兩個釘子一樣,它需要預測並應對這種變化。疊疊樂鞭擊則構成了另一種挑戰。它涉及到難以建模的物理學原理,因此僅僅依靠模擬來訓練機器人效率較低,現實世界的經驗至關重要。
研究人員還透過製造意外情況來測試機器人的適應能力。他們會強制讓機器人的夾爪開啟,使其掉落物體,或者在機器人安裝微晶片時移動主機板,訓練它應對在實驗室環境之外可能遇到的變化情況。
到訓練結束時,機器人能夠100%正確地執行這些任務。研究人員將他們的結果與一種常見的「複製我的行為」方法(即行為克隆)進行了比較,後者使用了相同數量的示範資料進行訓練;他們的新系統讓機器人更快、更準確。
Luo表示,這些指標至關重要,因為人們對機器人能力的要求非常高。普通消費者和企業家都不想購買效能不穩定的機器人。他強調,像電子、汽車和航空航天零部件等行業常用的「定製化」製造流程,尤其能夠從能夠可靠且靈活地學習一系列任務的機器人中受益。
Luo說:「機器人第一次成功完成疊疊樂鞭擊挑戰時,真的讓我大吃一驚。疊疊樂任務對大多數人來說都非常困難。我自己拿著鞭子試過,成功率是0%。」他還補充說,即使與熟練的人類疊疊樂玩家相比,機器人也可能表現得更好,因為它不會像人類一樣肌肉疲勞。
Levine實驗室的新學習系統是機器人創新更廣泛趨勢的一部分。在過去兩年裡,整個領域取得了長足的進步,這得益於行業投資和AI技術的發展,它為工程師們提供了強大的工具,用於分析機器人可能觀察到的效能資料或影象輸入。柏克萊分校的教授和研究人員也是這股創新浪潮的一部分。
Levine聯合創立了機器人公司Physical Intelligence(PI),該公司目前估值達20億美元,因其在開發適用於各種機器人的軟體方面取得的進展而備受矚目。2018年,Ken Goldberg教授和其他柏克萊研究人員成立了Ambi Robotics公司,該公司創造的機器人透過AI模擬進行訓練,能夠抓取包裹並將其分類到不同的容器中,這對於電子商務企業來說不可或缺。
柏克萊人工智慧研究實驗室主任Pieter Abbeel聯合創立了AI機器人初創公司Covariant,其模型和智囊團去年被亞馬遜徵用。機械工程教授Homayoon Kazerooni則創立了上市公司Ekso Bionics,該公司生產用於行動不便人士的機器人「外骨骼」。
至於Luo的研究,他很期待自己的團隊和其他研究人員能夠將其推進到什麼程度。他表示,下一步將是用基本的物體操作能力對系統進行預訓練,這樣就無需從零開始學習,而是可以直接學習更複雜的技能。實驗室還選擇將其研究成果開源,以便其他研究人員能夠使用和改進。
Luo說:「這個專案的一個關鍵目標是讓這項技術像iPhone一樣易於使用和普及。我堅信,能夠使用它的人越多,我們就能產生越大的影響。」