韓國研究團隊突破AI語音極限!「SpeechSSM」讓24小時語音助手成真
近期,語音語言模型(SLMs)因能直接學習人類語音、理解並產生語言與非語言資訊,被視為超越文字語言模型的次世代技術。然而現有模型在生成播客、有聲書和語音助手所需的長時語音內容時,仍面臨重大技術瓶頸。
韓國科學技術院(KAIST)電機工程學系Yong Man Ro教授研究團隊的博士候選人Sejin Park,成功開發出突破性技術「SpeechSSM」,實現了不受時間限制的連貫自然語音生成。這項研究成果已發表於arXiv預印本平臺,並將在2025年國際機器學習大會(ICML)上發表。
語音語言模型最大優勢在於無需文字轉換即可直接處理語音,利用說話者獨特的聲學特徵,即使在大規模模型中也能快速產生高品質語音。但現有模型將語音分解為細碎片段時,會因「語音標記解析度」提高和記憶體消耗增加,難以維持長時語音的語義一致性與說話者特徵。
SpeechSSM採用創新「混合結構」,交替配置專注近期資訊的「注意力層」與記憶整體敘事流程的「迴圈層」。這種設計讓系統即使長時間生成語音,故事仍能流暢發展不脫節。更重要的是,記憶體使用量和運算負載不會隨輸入長度急遽增加,能穩定高效地學習與生成長時語音。
該技術將語音資料分割為短而固定的單元(視窗),獨立處理後再組合成長語音,有效處理無限語音序列。在語音生成階段,採用「非自迴歸」音訊合成模型(SoundStorm),能同時快速生成多個部分,而非逐字緩慢產生,大幅提升高品質語音的生成速度。
有別於現有模型僅評估約10秒的短語音,Sejin Park以其建立的基準資料集「LibriSpeech-Long」為基礎,建立了可生成長達16分鐘語音的新評估任務。相較僅評估語法正確性的傳統PPL(困惑度)指標,她提出「SC-L(隨時間變化的語義連貫性)」評估內容一致性,以及「N-MOS-T(隨時間變化的自然度平均意見分數)」等新指標,實現更精確有效的評估。
經新評估方法驗證,SpeechSSM生成的長時語音能始終保持與初始提示相關的特定人物,新角色與事件也能自然且情境一致地展開。這與現有模型容易偏離主題或出現重複的情況形成鮮明對比。
Sejin Park說明:「現有語音語言模型在長時生成方面存在限制,因此我們致力開發真正可供人類使用的長時語音生成技術。」她補充道:「這項成果有望為各類語音內容創作和語音AI領域(如語音助手)帶來重大突破,不僅能維持長語境的內容一致性,反應速度與效率也遠勝現有方法。」
本研究成果由第一作者Sejin Park與Google DeepMind合作完成,為語音AI領域開創嶄新可能。
[end]