突破性投票機制!全新AI模型精準預測手持物體姿態
在機器人技術領域,機械手臂或機械手的操作能力至關重要。然而,要準確估算手持物體的姿態,一直是機器人學、電腦視覺甚至擴增實境(AR)應用中的重大挑戰。雖然現今3D感測技術日益普及,讓研究者能結合彩色(RGB)與深度(D)影像等多模態數據進行分析,但現有方法仍存在兩大關鍵問題。
首先,當手部遮擋物體時,會導致關鍵特徵資訊缺失,嚴重影響姿態估算準確度。更棘手的是,手部與物體的互動常會造成非剛性變形,例如擠壓軟球時會改變物體形狀,這讓姿態辨識變得更加困難。
其次,現行技術多數採用分離式架構,分別從RGB和RGB-D數據提取特徵後再進行融合。由於兩種模態本質差異,這種融合方式容易導致特徵分佈偏移,使得從RGB影像學習的特徵與RGB-D輸入提取的特徵無法完美對應,進而影響最終估算結果。
為解決這些難題,日本芝浦工業大學創新全球計畫的潘春山副教授與越南FPT大學的黃庭權博士等研究人員,共同開發出一套創新的深度神經網路架構。這項發表於2025年2月《Alexandria工程學期刊》的研究,採用革命性的投票機制,成功整合2D與3D關鍵點資訊。
潘博士解釋:「我們的核心創新在於投票式融合機制,它能有效結合2D與3D關鍵點,同時解決手部遮擋與多模態數據融合的難題。此外,我們還引入自注意力機制來模擬手物互動,大幅提升系統表現。」
這套系統包含四大模組:負責提取2D影像與3D點雲特徵的骨幹網路、投票模組、創新的投票式融合模組,以及具手部感知能力的物體姿態估算模組。運作時,系統會先預測手部與物體的2D/3D關鍵點,再由各骨幹網路獨立進行投票。
特別值得一提的是,投票融合模組採用半徑鄰域投影與通道注意力機制,既能保留局部資訊,又能適應不同輸入條件,確保系統的穩健性。最終的手物互動模組則透過自注意力機制,精準捕捉手部與物體關鍵點間的複雜關係,有效處理各種握姿造成的非剛性變形。
研究團隊在三個公開數據集上進行測試,結果顯示新方法比現有技術準確度提升達15%。實際應用場景中,系統平均精確度達76.8%,較傳統方法提升13.9%。更令人驚豔的是,系統未經優化的推論時間僅40毫秒,優化後也僅需200毫秒,完全符合實務需求。
潘博士強調:「這項研究直接解決了機器人與電腦視覺產業的長期瓶頸,特別是在遮擋、動態與複雜手物互動情境下的精準姿態估算。我們的方案不僅更準確,也比多數現有技術更簡潔,將加速AI系統在自動化生產線、輔助型機器人與沉浸式AR/VR技術的應用。」
這項突破性進展標誌著機器人技術的重大躍進,不僅讓機器人能更靈活操作複雜物體,也為AR技術開創更逼真的手物互動模擬可能性。
[end]