當前位置:
首頁 > 科技 > AI視覺語言模型透過3D虛擬世界突破空間認知極限

AI視覺語言模型透過3D虛擬世界突破空間認知極限

視覺語言模型(VLMs)是當前最前沿的AI技術,能夠同時處理影像與文字資料,並據此做出精準判斷。這項技術特別適合應用於機器人領域,讓機器人能更精確理解周遭環境,提升與人類互動的流暢度。

來自義大利理工學院(IIT)與亞伯丁大學的研究團隊,近日開發出一套創新的訓練框架與資料集,專門用來強化VLMs的空間推理能力。這項發表在arXiv預印本平台的研究成果,將有助於開發更具實體智慧的AI系統,讓機器人能在真實環境中更自如地行動與溝通。

這項研究源自FAIR*計畫,由IIT的「人機互動中的社會認知」(S4HRI)研究團隊與亞伯丁大學的「行動預測實驗室」共同合作完成。研究技術長Davide De Tommaso表示:「我們團隊專注於探索人類與人工智慧互動時的社會認知機制。先前研究發現,在特定情境下,人們會將意圖性賦予機器人,互動方式與人類社交極為相似。」

視角採納能力(VPT)是機器人系統亟需突破的關鍵技術,它能讓機器人站在他人角度理解場景,從而正確執行指令、完成協作任務。研究團隊特別強調:「我們的核心目標是讓機器人能夠準確判斷其他個體在共享環境中的視野範圍。例如判斷文字從他人角度是否可讀、物體是否被遮蔽,或是物品擺放方向是否便於拿取。」

為提升VLMs的VPT能力,團隊運用NVIDIA Omniverse Replicator平台打造了一個虛擬世界,其中包含從不同角度拍攝的立方體場景。每張3D影像都配備詳盡的文字描述與4x4轉換矩陣,完整記錄物體的空間定位資訊。論文第一作者Joel Currie解釋:「透過虛擬環境,我們能快速生成數萬組影像-矩陣配對資料,這種規模在現實環境中幾乎不可能達成。這是在教導機器人不僅要『看見』,更要像實體生物般『理解』空間。」

目前這套框架仍屬理論階段,但研究團隊已計劃使用該資料集進行實際模型訓練。Gioele Migno補充道:「下一步我們將提升虛擬環境的真實度,縮短模擬場景與現實世界的差距。這是將模型所學轉移至實體機器人的關鍵步驟,最終目標是實現人機之間更流暢的空間協作。」

這項突破性研究為VLMs的空間認知訓練開創全新途徑,未來可望應用於人形機器人等具身智能系統,加速AI在現實環境中的部署進程。

[end]