革命性AI模型AudioX:用文字、影像「變」出高品質音樂與音效
近年來,電腦科學家開發出多款高效能機器學習工具,能夠根據使用者指令生成文字、圖片、影片甚至音樂等內容。不過這些模型大多僅能處理單一形式的輸入資料。
香港科技大學研究團隊最新發表的AudioX模型,徹底突破這項限制。這款採用「擴散轉換器」技術的創新模型,能將文字、影片、圖片、音樂甚至現有音檔等多元資料,轉換成高品質的音效與樂曲。相關論文已發表於arXiv預印本平臺。
論文通訊作者魏雪向Tech Xplore表示:「我們的研究源自AI領域的核心問題:智慧系統如何實現跨模態的理解與生成?人類創作時,大腦能自然整合來自不同感官的資訊,但傳統AI系統往往需要多個專用模型,無法捕捉模態間的內在關聯。」
研究團隊由魏雪、郭毅可領軍,目標是建立單一模型就能處理文字、影像、影片與音訊的統一框架。魏雪強調:「AudioX代表典範轉移,它能同時解決『內容是什麼』與『時序如何安排』兩大挑戰,最終目標是建立能預測並生成符合現實的多模態序列的世界模型。」
這款基於擴散轉換器的創新模型,最突破性的在於其「多模態遮蔽策略」。魏雪解釋:「我們在訓練時刻意遮蔽不同模態的資訊片段——可能是影片的區域性畫面、文字的特定詞彙,或是音檔的某段頻率,讓模型學習從其他模態推測缺失內容,從而建立統一的表徵空間。」
AudioX的應用前景令人振奮。影視工作者不再需要逐場景錄製音效,模型能根據畫面自動生成踩雪聲、門軸吱呀或樹葉沙沙響;網紅能為抖音舞蹈影片即時配上最搭的背景音樂;YouTuber則能為旅遊vlog新增當地真實的環境音。
遊戲產業也將受惠。未來玩家角色從水泥地踏入草地時,腳步聲會自動變化;接近敵人時,配樂緊張度能即時提升,創造更沉浸的遊戲體驗。
研究團隊透露,下一步將擴充套件AudioX的長音訊生成能力,並計劃整合人類美學判斷,透過強化學習框架讓生成內容更符合主觀偏好。這項突破性技術,正為創意產業開啟前所未有的可能性。
[end]