當前位置：

首頁 > 科技 > 視覺語言模型革新！AI自動規劃環境檢測路徑

視覺語言模型革新！AI自動規劃環境檢測路徑

科技 06-19

機器人技術近年突飛猛進，已能勝任從工廠產線包裝到精密微創手術等多種任務。特別是在人類難以進入的高風險場域，如隧道、水壩、管線、鐵路和發電廠等基礎設施檢測，機器人更能發揮關鍵作用。

然而目前多數檢測工作仍由人工執行。為此，普渡大學與LightSpeed Studios的研究團隊開發出一項突破性技術，運用預訓練的視覺語言模型(VLM)，無需額外訓練即可根據文字描述生成專業檢測路徑規劃。這項研究成果已發表於arXiv預印本平臺。

論文第一作者孫興鵬表示：「現有研究多將VLM用於未知環境探索，我們則創新地運用它來導航已知3D場景，透過自然語言指令實現細緻的機器人檢測規劃。」

研究團隊建立了一套獨特流程：首先由VLM(如GPT-4o)解析自然語言描述的檢測目標與相關影像，評估候選視點的語意契合度；接著利用多視角影像進行空間關係推理；最後透過混合整數規劃求解旅行推銷員問題(TSP)，綜合考量語意相關性、空間順序與位置限制，產生最佳化3D檢測路徑。

測試結果顯示，該模型能準確預測空間關係(準確率超過90%)，並規劃出流暢的移動軌跡與最佳拍攝視角。孫興鵬與指導教授Dr. Aniket Bera強調：「我們證明瞭先進VLM具備出色的多視角影像空間推理能力。」

未來團隊將著手拓展方法至更複雜的3D場景，整合即時視覺回饋來動態調整規劃，並結合機器人控制實現閉環實體檢測系統，讓這項技術能真正落地應用於各類場域。

[end]