視覺藝術家難擋AI爬蟲 研究曝防護工具使用困境
最新研究顯示,多數視覺藝術家雖想保護作品免遭生成式AI工具未經授權使用,卻普遍缺乏相關技術知識與控管工具。這項由加州大學聖地牙哥分校與芝加哥大學團隊進行的研究,將於2025年10月在威斯康辛州麥迪遜市舉行的網路測量會議上發表。
研究團隊訪問200多位視覺藝術家後發現,近八成受訪者曾採取積極措施防止作品被AI訓練資料庫收錄,其中三分之二使用過芝加哥大學研發的防護工具「Glaze」。此外,60%藝術家減少在網路公開作品數量,51%僅分享低解析度圖片。
研究共同作者指出:「內容創作者現在希望控制的不是作品能否被看見,而是如何被使用。雖然著作權法對此有明文規定,但在現行網路環境中既難以具體實踐,更缺乏強制執行機制。」
目前藝術家可運用工具將原始作品轉換形式來躲避AI爬蟲,但最理想狀況是能完全阻止資料被擷取。研究指出,視覺藝術家需要防範三類AI爬蟲:訓練聊天機器人的大型語言模型爬蟲、增強AI助理知識庫的爬蟲,以及支援AI搜尋引擎的爬蟲。
調查顯示96%藝術家希望能取得阻擋AI爬蟲的工具,但超過60%不熟悉最基本的防護措施「robots.txt」檔案。這個放置在網站根目錄的文字檔,可指定允許或禁止哪些爬蟲存取內容,但爬蟲並沒有義務遵守這些限制。
研究人員分析全球前10萬個熱門網站後發現,超過10%網站在robots.txt中明確禁止AI爬蟲。不過像Vox Media與《大西洋》月刊等網站,在與AI公司達成授權協議後便移除了相關限制。值得注意的是,允許AI爬蟲的網站數量正在增加,其中包括一些散播不實訊息的極右派網站。
對藝術家而言,主要困境在於多數人使用第三方平臺架設網站(調查1100個藝術家網站中佔75%以上),這些平臺通常不允許修改robots.txt檔案。在常用內容管理系統中,僅Squarespace提供阻擋AI工具的簡易介面,但研究發現只有17%使用該平臺的藝術家啟用此功能。
研究團隊驗證發現,多數大型企業的爬蟲會遵守robots.txt規範,唯一明確違規的是抖音母公司位元組跳動的Bytespider爬蟲。整體而言,「由大公司營運的AI爬蟲多數會遵守規定,但多數AI助理爬蟲則否」。
隨著法律環境變動,AI爬蟲議題持續發展。歐盟透過的《人工智慧法》要求AI模型供應商須取得著作權人授權才能使用資料;美國則有法院正在審理網路爬取資料訓練AI模型是否構成合理使用的爭議。研究人員預期,若法院判決偏向AI公司,將進一步刺激對技術防護措施的需求。
網路服務商Cloudflare近期推出「阻擋AI機器人」功能,目前僅5.7%客戶啟用。研究人員希望這類工具能更普及,並呼籲服務商提高透明度,例如公佈被阻擋的AI爬蟲清單。
[end]