AI指環革命:即時追蹤美式手語拼字
由康乃爾大學主導的研究團隊,最近開發出一款搭載微聲納技術的人工智慧指環,能夠即時且連續地追蹤美式手語(ASL)中的拼字動作。這款名為SpellRing的裝置,目前可用於透過拼字將文字輸入電腦或智慧型手機,特別適用於ASL中沒有對應手勢的專有名詞、人名和技術術語。隨著進一步的開發,這款被認為是首創的裝置,有望透過連續追蹤完整的手語單字和句子,徹底改變ASL的翻譯方式。
「許多其他能夠識別ASL拼字的技術,由於硬體笨重且不實用,並未被聾啞和聽障社群廣泛採用。」資訊科學領域的博士生Hyunchul Lim表示,「我們致力於開發一款單一指環,以捕捉ASL中所有細微且複雜的手指動作。」
SpellRing由Lim和康乃爾大學Ann S. Bowers計算與資訊科學學院未來互動智慧電腦介面實驗室(SciFi Lab)的研究人員共同開發。這款指環佩戴在拇指上,配備了麥克風和揚聲器,能夠傳送和接收無聲的聲波,追蹤佩戴者的手部和手指動作,同時利用微型陀螺儀追蹤手的運動。這些元件被安置在一個3D列印的指環和殼體中,大小不超過一枚標準的美國25分硬幣。
專有的深度學習演演算法隨後處理聲納影像,並即時預測ASL拼字字母,其準確度與許多需要更多硬體的現有系統相當。開發者對20名經驗豐富和初學的ASL使用者進行了評估,讓他們自然地連續拼寫總計超過20,000個不同長度的單字。SpellRing的準確率在82%到92%之間,取決於單字的難度。
「開發工具的技術社群與使用工具的目標社群之間,總是有一定的差距。」康乃爾Bowers CIS的資訊科學助理教授、論文共同作者Cheng Zhang表示,「我們縮小了部分差距。我們為目標使用者設計了SpellRing,並由他們進行評估。」
研究人員表示,訓練AI系統識別與字母表中每個字母相關的26種手勢,尤其是考慮到使用者會為了效率、速度和流暢性而自然調整特定字母的形式,這絕非易事。「字母之間的差異可能很大,」Zhang說,「這很難捕捉。」
SpellRing是基於SciFi Lab先前開發的Ring-a-Pose,並代表了該實驗室一系列搭載聲納的智慧裝置的最新成果。研究人員此前已開發出多種裝置,用於解讀虛擬實境中的手勢、3D中的上半身動作、無聲語音識別,以及視線和麵部表情等。
「雖然大型語言模型在媒體上佔據了重要位置,但機器學習正在以新的、意想不到的方式感知世界,正如這個專案和實驗室中的其他專案所展示的那樣,」康乃爾Bowers CIS的資訊科學教授、共同作者François Guimbretière表示,「這為更多元化和包容性的計算資源訪問鋪平了道路。」
「我希望確保我們採取了一切可能的措施,為ASL社群做出正確的貢獻,」語言學領域的博士生、論文共同作者Jane Lu表示,「拼字雖然從技術角度來看非常細微且具有挑戰性,但僅佔ASL的一小部分,並不能代表ASL作為一種語言。我們在開發能夠完整識別ASL的裝置方面還有很長的路要走,但這是一個令人興奮的正確方向。」
Lim未來的計劃包括將微聲納系統整合到眼鏡中,以捕捉上半身動作和麵部表情,從而實現更全面的ASL翻譯系統。「聾啞和聽障人士在ASL中不僅使用手部,還使用面部表情、上半身動作和頭部手勢,」Lim說,「ASL是一種非常複雜的視覺語言。」