突破語言隔閡!華大團隊研發「空間語音翻譯耳機」實現多人即時口譯
科技
05-10
華盛頓大學博士生陳拓潮日前在墨西哥參觀博物館時,遇到語言不通的窘境。即便使用手機翻譯App指向導覽員,博物館內的環境噪音仍讓轉譯結果慘不忍睹。這正是現有翻譯技術的致命傷——Meta眼鏡等產品僅能處理單一說話者,且輸出機械化的合成語音。
為解決這個痛點,陳拓潮與華大研究團隊開發出革命性的「空間語音翻譯系統」。這套改裝自降噪耳機的裝置,能同時追蹤多位說話者的方位與聲紋特徵,實現2-4秒延遲的即時翻譯。團隊4月30日在日本橫濱舉行的ACM CHI人機互動會議上發表這項突破性研究。
「現有技術都假設環境中只有單一說話者,」華大保羅·艾倫電腦科學與工程學院教授Shyam Gollakota強調:「我們首次實現保留每位說話者的聲音方位與特質,這在多人對話場景至關重要。」
這套系統具備三大創新:
1. 360度雷達式偵測:能即時辨識室內外環境中的說話者數量,動態追蹤人員移動狀況。
2. 本地端運算:基於隱私考量,直接在搭載Apple M2晶片的裝置上處理聲紋克隆與翻譯,避免雲端傳輸風險。
3. 空間音訊重現:當說話者轉頭或移動時,系統會持續調整聲音方位與音量衰減模擬。
經過10種場域測試與29人參與的對照實驗,證實該系統顯著優於傳統單向翻譯模型。多數受試者認為3-4秒的翻譯延遲最理想,團隊正著手最佳化即時性。目前系統支援西班牙語、德語與法語,未來可擴充套件至百種語言,但尚無法處理專業術語。
共同作者包括華大本科生王啟瑞(現為HydroX AI研究實習生)與博士生何潤林。陳拓潮興奮表示:「這項技術將徹底改變跨文化溝通——即使我在墨西哥街頭聽不懂西班牙語,也能清楚分辨誰說了什麼。」
[end]