當前位置:
首頁 > 科技 > 視覺語言模型革新!AI自動規劃環境檢測路徑

視覺語言模型革新!AI自動規劃環境檢測路徑

機器人技術近年突飛猛進,已能勝任從工廠產線包裝到精密微創手術等多種任務。特別是在人類難以進入的高風險場域,如隧道、水壩、管線、鐵路和發電廠等基礎設施檢測,機器人更能發揮關鍵作用。

然而目前多數檢測工作仍由人工執行。為此,普渡大學與LightSpeed Studios的研究團隊開發出一項突破性技術,運用預訓練的視覺語言模型(VLM),無需額外訓練即可根據文字描述生成專業檢測路徑規劃。這項研究成果已發表於arXiv預印本平臺。

論文第一作者孫興鵬表示:「現有研究多將VLM用於未知環境探索,我們則創新地運用它來導航已知3D場景,透過自然語言指令實現細緻的機器人檢測規劃。」

研究團隊建立了一套獨特流程:首先由VLM(如GPT-4o)解析自然語言描述的檢測目標與相關影像,評估候選視點的語意契合度;接著利用多視角影像進行空間關係推理;最後透過混合整數規劃求解旅行推銷員問題(TSP),綜合考量語意相關性、空間順序與位置限制,產生最佳化3D檢測路徑。

測試結果顯示,該模型能準確預測空間關係(準確率超過90%),並規劃出流暢的移動軌跡與最佳拍攝視角。孫興鵬與指導教授Dr. Aniket Bera強調:「我們證明瞭先進VLM具備出色的多視角影像空間推理能力。」

未來團隊將著手拓展方法至更複雜的3D場景,整合即時視覺回饋來動態調整規劃,並結合機器人控制實現閉環實體檢測系統,讓這項技術能真正落地應用於各類場域。

[end]