視覺藝術家難擋AI爬蟲研究曝防護工具使用困境

科技 08-08

最新研究顯示，多數視覺藝術家雖想保護作品免遭生成式AI工具未經授權使用，卻普遍缺乏相關技術知識與控管工具。這項由加州大學聖地牙哥分校與芝加哥大學團隊進行的研究，將於2025年10月在威斯康辛州麥迪遜市舉行的網路測量會議上發表。

研究團隊訪問200多位視覺藝術家後發現，近八成受訪者曾採取積極措施防止作品被AI訓練資料庫收錄，其中三分之二使用過芝加哥大學研發的防護工具「Glaze」。此外，60%藝術家減少在網路公開作品數量，51%僅分享低解析度圖片。

研究共同作者指出：「內容創作者現在希望控制的不是作品能否被看見，而是如何被使用。雖然著作權法對此有明文規定，但在現行網路環境中既難以具體實踐，更缺乏強制執行機制。」

目前藝術家可運用工具將原始作品轉換形式來躲避AI爬蟲，但最理想狀況是能完全阻止資料被擷取。研究指出，視覺藝術家需要防範三類AI爬蟲：訓練聊天機器人的大型語言模型爬蟲、增強AI助理知識庫的爬蟲，以及支援AI搜尋引擎的爬蟲。

調查顯示96%藝術家希望能取得阻擋AI爬蟲的工具，但超過60%不熟悉最基本的防護措施「robots.txt」檔案。這個放置在網站根目錄的文字檔，可指定允許或禁止哪些爬蟲存取內容，但爬蟲並沒有義務遵守這些限制。

研究人員分析全球前10萬個熱門網站後發現，超過10%網站在robots.txt中明確禁止AI爬蟲。不過像Vox Media與《大西洋》月刊等網站，在與AI公司達成授權協議後便移除了相關限制。值得注意的是，允許AI爬蟲的網站數量正在增加，其中包括一些散播不實訊息的極右派網站。

對藝術家而言，主要困境在於多數人使用第三方平臺架設網站（調查1100個藝術家網站中佔75%以上），這些平臺通常不允許修改robots.txt檔案。在常用內容管理系統中，僅Squarespace提供阻擋AI工具的簡易介面，但研究發現只有17%使用該平臺的藝術家啟用此功能。

研究團隊驗證發現，多數大型企業的爬蟲會遵守robots.txt規範，唯一明確違規的是抖音母公司位元組跳動的Bytespider爬蟲。整體而言，「由大公司營運的AI爬蟲多數會遵守規定，但多數AI助理爬蟲則否」。

隨著法律環境變動，AI爬蟲議題持續發展。歐盟透過的《人工智慧法》要求AI模型供應商須取得著作權人授權才能使用資料；美國則有法院正在審理網路爬取資料訓練AI模型是否構成合理使用的爭議。研究人員預期，若法院判決偏向AI公司，將進一步刺激對技術防護措施的需求。

網路服務商Cloudflare近期推出「阻擋AI機器人」功能，目前僅5.7%客戶啟用。研究人員希望這類工具能更普及，並呼籲服務商提高透明度，例如公佈被阻擋的AI爬蟲清單。

[end]

視覺藝術家難擋AI爬蟲 研究曝防護工具使用困境