全新多模態AI工具「TaxaBind」:生態研究的新利器
你是否曾經看到一張動物的照片,心中充滿疑惑:「這是什麼物種?」現在,由華盛頓大學麥凱維工程學院的電腦科學家們開發的全新工具「TaxaBind」,不僅能滿足你的好奇心,還能為生態研究帶來革命性的突破。
TaxaBind的誕生,正是為瞭解決生態領域中對更強大且統一方法的需求。這款工具結合了多種模型,能夠執行物種分類(例如:這是哪種熊?)、分佈地圖繪製(例如:紅雀的分佈區域在哪裡?)以及其他與生態相關的任務。此外,TaxaBind還能作為更大規模生態模型研究的起點,幫助科學家預測動植物族群的變化、氣候變遷的影響,以及人類活動對生態系統的衝擊。
該計畫的主要作者Srikumar Sastry於3月2日至3日在亞利桑那州圖森市舉行的IEEE/CVF冬季電腦視覺應用會議(WACV)上展示了TaxaBind。這項研究也已發表在arXiv預印本伺服器上。
「透過TaxaBind,我們正在解鎖多模態在生態領域的潛力,」Sastry表示。「與現有模型只能專注於單一任務不同,我們將六種模態——物種的地面影像、地理位置、衛星影像、文字、音訊和其他環境特徵——整合到一個統一的框架中。這使得我們的模型能夠應對多樣化的生態任務。」
Sastry是電腦科學與工程學教授Nathan Jacobs指導的研究生,他使用了一種名為「多模態修補」的創新技術,將來自不同模態的資訊提煉成一個繫結模態。Sastry將這個繫結模態形容為「共同的朋友」,它連線並維持其他五種模態之間的協同作用。
在TaxaBind中,繫結模態是物種的地面影像。該工具從其他五種模態中捕捉獨特的特徵,並將其濃縮到繫結模態中,使AI能夠同時從影像、文字、聲音、地理和環境背景中學習。
當團隊評估TaxaBind在各種生態任務中的表現時,這款工具在零樣本分類(即對訓練資料集中未出現的物種進行分類)方面展現了卓越的能力。該工具的演示版本已經訓練了大約45萬種物種,能夠根據影像對物種進行分類,包括之前未見過的物種。
「在訓練過程中,我們只需要維持地面影像與其他模態之間的協同作用,」Sastry解釋道。「這座橋樑隨後在TaxaBind應用於檢索任務時,創造了模態之間的新興協同作用——例如衛星影像與音訊之間的協同——即使這些模態並未一起訓練。」
這種跨模態檢索是TaxaBind超越現有尖端方法的另一個領域。例如,衛星影像與地面物種影像的結合,使TaxaBind能夠檢索與物種位置相關的棲息地特徵和氣候資料。它還能根據物種影像返回相關的衛星影像,證明瞭該工具能夠將細緻的生態資料與現實世界的環境資訊連結起來。
TaxaBind的應用範圍遠不止於物種分類。Sastry指出,這些模型具有通用性,未來可能作為其他生態和氣候相關應用的基礎模型,例如森林砍伐監測和棲息地繪製。他還展望未來版本的技術能夠理解自然語言文字輸入,以回應使用者的查詢。