當前位置:
首頁 > 科技 > 暗黑心智:利用大型語言模型推理能力的隱藏後門攻擊

暗黑心智:利用大型語言模型推理能力的隱藏後門攻擊

近年來,像ChatGPT這樣的大型語言模型(LLMs)在全球範圍內被廣泛應用於資訊獲取、文字編輯、分析和生成等任務。隨著這些模型變得越來越先進和普及,一些電腦科學家開始探索它們的侷限性和潛在漏洞,以促進未來的改進。

聖路易斯大學的研究人員Zhen Guo和Reza Tourani最近開發並展示了一種新型的後門攻擊,這種攻擊能夠操縱LLMs的文字生成,同時極難被檢測到。這項被命名為「暗黑心智」(DarkMind)的攻擊,在一篇發表於arXiv預印本伺服器的論文中被詳細描述,並揭示了現有LLMs的潛在漏洞。

「我們的研究源於個性化AI模型的日益普及,例如OpenAI的GPT商店、Google的Gemini 2.0以及擁有超過4000個定製LLMs的HuggingChat,」論文的資深作者Tourani告訴Tech Xplore。「這些平臺代表了AI向自主性、適應性和廣泛可及性邁進的重要轉變。然而,儘管它們具有變革性的潛力,但其對新興攻擊向量的安全性仍然未被充分研究,尤其是嵌入在推理過程中的漏洞。」

Tourani和Guo的研究主要目標是探索LLMs的安全性,揭示所謂的「思維鏈」(Chain-of-Thought, CoT)推理正規化的潛在漏洞。這是一種廣泛使用的計算方法,使基於LLM的對話代理(如ChatGPT)能夠將複雜任務分解為連續步驟。

「我們發現了一個重要的盲點,即基於推理的漏洞,這些漏洞在傳統的靜態提示注入或對抗性攻擊中並未顯現,」Tourani表示。「這促使我們開發了暗黑心智,這是一種後門攻擊,其中嵌入的對抗行為在LLM的特定推理步驟被啟用之前保持休眠狀態。」

Tourani和Guo開發的隱蔽後門攻擊利用了LLMs處理和生成文字的逐步推理過程。與過去引入的傳統後門攻擊不同,暗黑心智並不需要操縱使用者查詢或重新訓練模型,而是將「隱藏觸發器」嵌入到定製的LLM應用中,例如OpenAI的GPT商店。

「這些觸發器在初始提示中不可見,但在中間推理步驟中被啟用,從而微妙地修改最終輸出,」論文的第一作者Guo解釋道。「因此,攻擊保持潛伏且難以檢測,使LLM在標準條件下表現正常,直到特定的推理模式觸發後門。」

在初步測試中,研究人員發現暗黑心智具有多項優勢,使其成為一種非常有效的後門攻擊。它極難被檢測到,因為它在模型的推理過程中運作,無需操縱使用者查詢,從而避免了被標準安全過濾器捕捉的風險。

「暗黑心智具有廣泛的影響力,因為它適用於各種推理領域,包括數學、常識和符號推理,並且在最先進的LLMs(如GPT-4o、O1和LLaMA-3)上仍然有效,」Tourani表示。「此外,像暗黑心智這樣的攻擊可以透過簡單的指令輕鬆設計,即使沒有語言模型專業知識的使用者也能有效整合和執行後門,增加了廣泛濫用的風險。」

OpenAI的GPT4和其他LLMs正被整合到各種網站和應用中,包括一些重要服務,如銀行或醫療保健平臺。因此,像暗黑心智這樣的攻擊可能帶來嚴重的安全風險,因為它們可以在不被檢測的情況下操縱這些模型的決策。

「我們的研究結果凸顯了LLMs推理能力中的一個關鍵安全漏洞,」Guo表示。「值得注意的是,我們發現暗黑心智在對抗具有更強推理能力的LLMs時表現出更大的成功。事實上,LLM的推理能力越強,它對暗黑心智攻擊的脆弱性就越高。這挑戰了當前關於更強模型本質上更穩健的假設。」

研究團隊比較了四種攻擊方法——DT-Base、DT-COT、BadChain和他們的暗黑心智——在GPT-3.5和GPT-4o上使用標準思維鏈推理方法在多個資料集上的表現。結果顯示,暗黑心智在各種推理資料集上始終優於其他三種攻擊,實現了更高的攻擊效能。

與大多數需要多次示範的後門攻擊不同,暗黑心智即使在沒有先驗訓練例子的情況下也有效,這意味著攻擊者甚至不需要提供模型如何犯錯的例子。「這使得暗黑心智在現實世界的利用中非常實用,」Tourani表示。「暗黑心智也優於現有的後門攻擊。與BadChain和DT-Base相比,暗黑心智更具彈性,並且無需修改使用者輸入,使其更難被檢測和緩解。」

Tourani和Guo的研究成果可能很快會推動更先進的安全措施的開發,這些措施能夠更好地應對暗黑心智和其他類似的後門攻擊。研究人員已經開始開發這些措施,並計劃在不久的將來測試其對暗黑心智的有效性。

「我們未來的研究將專注於探索新的防禦機制,例如推理一致性檢查和對抗性觸發器檢測,以增強緩解策略,」Tourani補充道。「此外,我們將繼續探索LLMs的更廣泛攻擊面,包括多輪對話中毒和隱蔽指令嵌入,以發現更多的漏洞並加強AI安全性。」