當前位置:
首頁 > 科技 > AI自主學習視聽關聯 開啟多媒體應用新紀元

AI自主學習視聽關聯 開啟多媒體應用新紀元

人類天生就能將視覺與聽覺相互連結進行學習。舉例來說,當我們看到大提琴演奏者拉琴的動作,就能自然聯想到耳中聽到的樂聲正是由此產生。近期由MIT等機構研究團隊開發的新技術,讓AI模型也能以類似方式自主學習,這項突破將為新聞報導與影視製作等領域帶來革新。

這項技術最直接的應用在於多媒體內容管理,AI可自動檢索並配對相關的影音素材。長期來看,更能提升機器人對真實環境的理解能力,畢竟在現實世界中,聲音與影像往往密不可分。

研究團隊改良了先前開發的CAV-MAE模型,使其無需人工標註就能自動對齊影音資料。關鍵在於讓模型能更精準地辨識特定畫面與當下聲音的對應關係,同時調整系統架構以平衡兩種學習目標,從而提升整體效能。

改進後的CAV-MAE Sync模型能將音訊分割成更小的片段,讓每個畫面只對應發生在當下的聲音。研究人員還新增了「全域標記」和「註冊標記」兩種資料表示方式,分別強化對比學習與重建任務的效果。

「我們打造的AI系統能像人類一樣,同時處理視聽資訊並無縫整合。未來若能將這項技術整合到日常使用的大型語言模型中,將開啟更多創新應用。」論文共同作者、MIT研究生Andrew Rouditchenko表示。

這項研究成果已發表在arXiv預印本伺服器,並將於2025年6月在納什維爾舉行的CVPR會議上正式發表。相較於需要大量訓練資料的複雜模型,這個改良版系統在影音檢索和場景分類任務上都展現出更優異的準確度。

「有時看似簡單的創意或資料規律,應用到既有模型上卻能產生驚人效果。」主要作者Edson Araujo強調。研究團隊下一步計劃整合更先進的資料表示模型,並擴充套件至文字資料處理,為開發影音版大型語言模型奠定基礎。

[end]