當前位置:
首頁 > 科技 > AI防禦新突破:LoRID技術有效抵禦對抗性攻擊

AI防禦新突破:LoRID技術有效抵禦對抗性攻擊

近年來,類神經網路作為一種模仿人類大腦連線方式的人工智慧技術,已在多個科學領域中推動了關鍵性的突破。然而,這些模型正面臨著來自對抗性攻擊的重大威脅,這些攻擊可能導致預測失準並產生錯誤資訊。為此,洛斯阿拉莫斯國家實驗室的研究團隊開發了一種名為「低秩迭代擴散」(LoRID)的全新淨化策略,能有效抵禦對抗性攻擊,並確保類神經網路的穩健效能。這項研究成果已發表於arXiv預印本伺服器上。

洛斯阿拉莫斯實驗室的電腦科學家Manish Bhattarai指出:「對抗性攻擊通常以微小的、幾乎不可見的方式修改輸入影象,這些細微的調整能引導模型產生攻擊者期望的結果。這種漏洞讓惡意行為者能夠以真實輸出的名義,在數位管道中散播欺騙性或有害內容,直接威脅到人工智慧技術的可信度與可靠性。」

LoRID方法結合了生成式去噪擴散過程與先進的張量分解技術,能從輸入資料中移除對抗性幹擾。在對多個基準資料集的測試中,LoRID在消除對抗性噪音方面展現了前所未有的精準度,這項技術有望推動更安全、更可靠的人工智慧應用。

擴散技術是一種訓練AI模型的方法,其原理是向資料中新增噪音,然後教導模型如何去除這些噪音。透過學習清理噪音,AI模型能有效掌握資料的底層結構,從而自行生成逼真的樣本。在基於擴散的淨化過程中,模型利用其對「乾淨」資料的學習表示,來識別並消除輸入中的任何對抗性幹擾。

然而,過多的去噪步驟可能會導致資料中的重要細節被移除,就像過度清理照片會使其失去清晰度一樣;而過少的步驟則可能讓有害的擾動殘留。LoRID方法透過在擴散過程的早期階段進行多輪去噪,幫助模型精準消除適量的噪音,同時保留資料的有意義內容,從而強化模型對抗攻擊的能力。

值得注意的是,對抗性輸入通常會呈現出微妙的「低秩」特徵,這些特徵可能繞過複雜的防禦機制。LoRID透過引入張量分解技術,精確定位這些低秩特徵,進一步提升模型在大型對抗性攻擊情境中的防禦能力。

研究團隊使用CIFAR-10、CIFAR-100、Celeb-HQ和ImageNet等廣為人知的基準資料集對LoRID進行了測試,並評估其在最先進的黑盒與白盒對抗性攻擊中的表現。無論是白盒攻擊(攻擊者完全瞭解AI模型的架構與引數)還是黑盒攻擊(攻擊者僅能看到輸入與輸出,無法得知模型的內部運作),LoRID在所有測試中均表現優異,特別是在穩健準確性方面——這是衡量模型在對抗性威脅下可靠性的關鍵指標。

研究團隊還利用洛斯阿拉莫斯實驗室最新的AI超級電腦Venado,對LoRID模型進行了大規模測試,以評估其在黑盒與白盒攻擊情境下的表現。透過動用多個Venado節點進行數週的運算,他們完成了這項全面性的分析。Venado的強大運算能力將原本需要數月的模擬時間縮短至幾小時,並將總開發時間從數年壓縮至僅一個月,大幅降低了運算成本。

這項穩健的淨化技術不僅能提升AI的安全性,還可應用於各種類神經網路或機器學習場景,甚至可能對實驗室的國家安全任務產生重要影響。洛斯阿拉莫斯實驗室的人工智慧研究員Minh Vu表示:「我們的方法在多個知名資料集中設定了新的效能基準,無論在白盒還是黑盒攻擊情境下均表現出色。這意味著我們現在可以在使用資料訓練基礎模型之前,對其進行淨化處理,確保模型的安全性和完整性,同時持續提供準確的結果。」