機器人自我覺醒:MIT革命性視覺系統讓機械學會「認識自己」
在MIT電腦科學與人工智慧實驗室(CSAIL)裡,一隻柔軟的機械手正優雅地彎曲手指抓取小物件。令人驚艷的不是它的機械結構或內建感測器—實際上,這隻手根本沒有任何感測器。整套系統僅依靠單一攝影機觀察機器人動作,就能透過視覺資料實現精準控制。
這項突破性技術源自CSAIL團隊開發的「神經雅可比場域」(Neural Jacobian Fields, NJF)系統,為機器人控制帶來全新典範。不同於傳統需要複雜建模或感測陣列的方式,NJF讓機器人僅透過視覺就能理解自身肢體對控制指令的反應,賦予機器人某種程度的「身體自我認知」。相關研究已發表於頂尖期刊《自然》。
「這項研究標誌著從『程式設計機器人』到『教導機器人』的典範轉移,」論文主要作者、MIT電機工程與電腦科學博士生李思哲(Li Sizhe Lester)解釋:「現今多數機器人任務需要大量工程與編碼,未來我們希望能直接示範任務目標,讓機器人自主學習達成方法。」
傳統剛性機器人依靠精密數學模型控制,但當面對柔軟、可變形或非規則形狀的機器人時,這種方法就完全失效。NJF逆向思考—讓機器人透過觀察建立自己的內部模型。這種「建模與硬體設計脫鉤」的創新思維,將大幅擴充套件機器人設計的可能性。
「就像人類學習控制手指的過程:你會擺動、觀察、調整,」李思哲生動比喻:「我們的系統也是如此。它透過隨機動作實驗,找出哪些控制會驅動機器人的哪些部位。」
研究團隊已成功在多種機器人上驗證NJF的泛用性,包括氣動軟體機械手、剛性Allegro機械手、3D列印機械臂,甚至完全沒有內建感測器的旋轉平臺。在每個案例中,系統僅憑視覺和隨機運動就能同時學習機器人的形體結構和控制響應特性。
NJF的核心是能同步捕捉機器人三維幾何結構與控制敏感度的神經網路。它奠基於神經輻射場(NeRF)技術,但更進一步學習「雅可比場域」—這個數學函式能預測機器人身體任一點對馬達指令的運動響應。
訓練時,機器人執行隨機動作,多臺攝影機記錄結果。系統完全不需要人為標註或預先輸入機器人結構知識,僅透過觀察就能推導控制訊號與運動的關聯。訓練完成後,僅需單眼攝影機就能實現約12Hz的即時閉環控制,讓機器人不斷自我觀察、規劃並做出反應。
「最有趣的是系統能自行發現哪些馬達控制哪些部位,」李思哲強調:「這不是預先程式設計的—就像人類摸索新裝置按鈕一樣,是透過學習自然湧現的能力。」
數十年來,機器人領域偏愛易於建模的剛性結構(如工廠機械臂),因為它們的特性簡化了控制。但隨著軟體機器人和仿生機器人興起,這些能更靈活適應現實環境的機器人卻面臨建模困難的挑戰。
「當前機器人技術常因昂貴感測器和複雜程式設計而讓人望之卻步,」論文資深作者、MIT助理教授Vincent Sitzmann指出:「NJF的目標就是降低門檻,讓機器人技術更經濟、適應性更強、更普及。視覺是種既穩定又可靠的感測方式,它能讓機器人在農場、工地等雜亂的非結構化環境中運作,不需要昂貴基礎設施。」
共同作者、CSAIL主任Daniela Rus教授補充說明:「純視覺就能提供定位和控制所需的全部資訊—省去GPS、外部追蹤系統或複雜機載感測器的需求。這將開啟無人機在無地圖環境導航、移動機械臂在雜亂空間作業,甚至足式機器人穿越崎嶇地形等全新應用場景。」
雖然現階段NJF訓練仍需要多臺攝影機,且每臺機器人都需重新訓練,但研究團隊已構想更簡易的版本—未來業餘愛好者用手機拍攝機器人隨機動作影片(就像租車前環繞錄影),就能建立控制模型,完全不需要專業知識或特殊裝置。
當前NJF尚無法跨機器人通用,也缺乏力覺或觸覺感知,限制其在接觸密集任務的表現。但團隊正積極研究提升泛化能力、處理遮擋問題,以及擴充套件模型在時空維度的推理範圍。
「就像人類對自身肢體運動形成直覺理解,NJF讓機器人僅透過視覺就獲得類似的『體感認知』,」李思哲總結:「這種理解是在真實環境實現靈活操控的基礎。我們的工作本質上反映了機器人領域的整體趨勢:從手動編寫細節模型,轉向透過觀察和互動來教導機器人。」
[end]