當前位置:
首頁 > 科技 > 突破傳統!學者運用機器視覺解讀龐大影像資料庫

突破傳統!學者運用機器視覺解讀龐大影像資料庫

繪畫、照片、素描等視覺媒體構成的龐大資料庫,蘊含著解讀歷史事件、社會生活與藝術表現的珍貴線索。這些影像資料對理解社會如何透過圖像塑造文化意義至關重要,但由於數量龐大(動輒數十萬件)與內容複雜(包含多元視覺特徵、內容、脈絡與後設資料結構),始終難以深入研究。

塔林大學數位科技學院博士生提爾曼·歐姆在其博士論文中提出創新研究方法:透過機器視覺的視角,專注於圖像間的相似性而非單一圖像內容。這套方法跳脫傳統分類框架,改以演算法感知的視覺相似度為基礎,將影像配置於視覺地圖中。

研究核心在於探討人類與機器如何建模、感知與詮釋視覺相似性。透過將影像轉化為數學表徵,系統能生成「相似性空間」——其中兩點間的距離直接反映圖像的相似程度。

論文的重要貢獻是開發出「典藏空間導航器」這款基於瀏覽器的介面工具。其產出的二維相似性地圖能揭示傳統關鍵字檢索難以發現的圖像模式、群聚與視覺關聯,支持研究人員進行開放式詮釋。該工具具備互動導覽、篩選與跨模型比較功能,可靈活應用於各類研究主題與典藏類型,在運算分析與人文詮釋間架起橋樑。

實際應用案例包括分析蘇聯新聞影片逾20萬幀畫面,成功揭露宣傳影片中的長期視覺模式。例如在列寧墓前擺拍的領導場景屬於重複出現的固定模式,而長桌談判場景的視覺風格則隨宣傳策略調整產生變化。這些透過相似性探索立即顯現的視覺敘事,傳統人工檢視方式實難察覺。

歐姆的研究為文化資料分析領域開拓新徑,透過挑戰既有制度與演算法的權威,使博物館、學者與公眾能獲得嶄新的視覺文化洞見。這項工作不僅促進跨領域合作,更藉創新的運算工具深化我們對文化敘事的理解。

歐姆已於6月11日通過題為《視覺典藏相似性空間的研究流程與工具設計》的博士論文答辯。指導教授為塔林大學的馬克西米利安·岡瑟·希奇教授,審查委員包括里士滿大學的勞倫·蒂爾頓教授與馬克斯·普朗克人類發展研究所的伊亞德·拉萬教授。

[end]