當前位置:
首頁 > 科技 > AI即時手語翻譯系統 讓聽障溝通無障礙

AI即時手語翻譯系統 讓聽障溝通無障礙

全球數百萬聽障人士在日常生活中常面臨溝通障礙。傳統的手語翻譯服務不僅人力有限、費用高昂,更受制於譯者的時間安排。在數位化時代,能夠提供即時、準確且易於取得的智慧輔助技術需求正快速增長。

美式手語(ASL)是最廣泛使用的手語之一,透過特定的手勢來表達字母、單字和短語。現有的ASL識別系統常面臨即時性、準確度及環境適應性等挑戰。特別是辨識視覺相似的手勢如A和T、M和N時,容易產生誤判。此外,資料集的品質問題如影像解析度低、動態模糊、光線不均,以及手部大小、膚色和背景差異等因素,都會影響系統的辨識準確度。

為解決這些問題,佛羅裡達大西洋大學工程與電腦科學學院的研究團隊開發了一套創新的即時ASL翻譯系統。該系統結合YOLOv11的物件偵測能力和MediaPipe的精準手部追蹤技術,能即時準確辨識ASL字母手勢。透過先進的深度學習和關鍵手部特徵點追蹤,將手語轉換為文字,讓使用者能流暢地拼寫姓名、地點等資訊。

系統核心採用內建網路攝影機作為非接觸式感測器,捕捉即時影像並轉換為數位畫面進行手勢分析。MediaPipe會標記每隻手的21個關鍵點建立骨骼圖,YOLOv11則利用這些特徵點進行高精度的ASL字母分類。

研究第一作者Bader Alsharif表示:「這套系統最特別之處在於,從手勢捕捉到分類的整個辨識流程都能在不同光線和背景條件下流暢運作。更重要的是,僅需使用現成的標準硬體裝置,這讓系統具備高度可及性和擴充套件性。」

發表於《Sensors》期刊的研究結果顯示,系統準確率達98.2%(mAP@0.5),延遲時間極短。這項成果特別適合需要快速可靠效能的應用場景,如即時影像處理和互動技術。

研究團隊使用的ASL手勢資料庫包含13萬張影像,涵蓋各種光線條件(明亮、昏暗、陰影)、背景環境(室內外場景)及手部角度變化,確保系統的穩健性。每張影像都精確標註21個關鍵點,包括指尖、指節和手腕等特徵,讓系統能準確區分相似手勢。

共同作者Imad Mahgoub博士指出:「這項研究完美展現如何將尖端AI技術應用於服務人群。結合深度學習與手部特徵偵測,我們開發出兼具高準確度和實用性的系統,是邁向包容性通訊技術的重要里程碑。」

美國約有1,100萬聽障人口(佔總人口3.6%),另有3,750萬成年人有聽力困難。共同作者Mohammad Ilyas博士強調:「這項研究的意義在於為聽障社群提供AI驅動的溝通工具,將ASL手勢轉換為文字,改善教育、職場、醫療和社交等場域的互動體驗。」

未來研究將擴充套件系統功能,從辨識單一字母提升到完整句子翻譯,實現更自然的溝通方式。工程與電腦科學學院院長Stella Batalama博士表示:「這項技術不僅提升無障礙環境,更促進社會融合,幫助打造更具包容性的社群。」

[end]