當前位置:
首頁 > 科技 > AI生成3D資料庫 讓家用機器人聽懂人話更精準

AI生成3D資料庫 讓家用機器人聽懂人話更精準

密西根大學研究團隊開發出一套名為「3D-GRAND」的全新3D資料集,能夠協助訓練家用機器人等具身智慧系統,讓AI更準確理解人類語言與3D空間的對應關係。這項突破性研究已於6月15日在田納西州納許維爾舉行的CVPR電腦視覺與模式識別會議發表,並刊登於arXiv預印本伺服器。

經實測,使用3D-GRAND訓練的模型在空間定位準確率達38%,較先前最佳表現提升7.7%。更驚人的是,AI產生幻覺(hallucination)的比例從過往48%大幅降至僅6.67%。這項技術將推動家用機器人進化,未來不再侷限於現有的掃地機器人功能。

研究資深作者、密大電腦科學與工程系教授柴靜怡指出:「現行多模態語言模型多數基於2D影像訓練,但人類生活在3D世界。要讓機器人與我們互動,就必須教會它們理解空間概念、物體方位,並將語言對應到豐富的3D環境中。」

相較於能從網路獲取海量資訊的2D模型,3D資料極為稀缺,尤其附帶文字標註的3D資料更是難得。研究團隊創新採用生成式AI,自動產生帶有完整標註的虛擬房間場景,最終建構出包含40,087個家居場景與620萬條密集標註的龐大資料庫。

主要作者、密大博士生楊建寧解釋:「合成資料的優勢在於標註完全自動化,省去人工標示物件位置與空間關係的繁瑣流程。」研究團隊先以視覺模型分析每個物件的色彩、形狀與材質,再透過文字模型生成完整場景描述,並運用場景圖確保每個名詞短語都能對應到特定3D物件。

經人工抽檢10,200組場景標註確認,這套系統的錯誤率僅5%至8%,與專業人工標註品質相當。楊建寧強調:「相較人工標註,這套基於LLM的標註系統僅用兩天就完成620萬筆標註,成本與時間都大幅降低。」

在實際測試中,使用3D-GRAND訓練的模型表現遠超3D-LLM、LEO和3D-VISTA等基準模型。柴靜怡教授表示:「下一步將著重測試3D-GRAND如何幫助機器人提升空間理解能力,這對改善人機協作至關重要。」

[end]