「印地安納瓊斯」越獄手法揭露大型語言模型的安全漏洞
近年來,大型語言模型(LLMs)如ChatGPT背後的技術,已在全球範圍內廣泛應用。隨著越來越多人依賴這些平臺來獲取資訊和撰寫特定情境的文字,瞭解其限制與潛在風險變得至關重要。
澳洲新南威爾斯大學與新加坡南洋理工大學的研究團隊最近發現了一種新策略,能夠繞過LLMs內建的安全過濾機制,這種手法被稱為「越獄攻擊」。這項名為「印地安納瓊斯」的新方法,首次發表於arXiv預印本伺服器上。
「我們團隊對歷史有著濃厚的興趣,甚至有些成員深入研究過,」論文的主要作者李嶽康(Yuekang Li)向Tech Xplore表示。「在一次關於歷史惡棍的閒聊中,我們突發奇想:能否讓LLMs教導使用者如何成為這些人物?好奇心驅使我們進行測試,結果發現LLMs確實可以透過這種方式被越獄。」
李嶽康與其團隊的長期目標是揭露LLMs在越獄攻擊中的脆弱性,這有助於設計新的安全措施來減輕這些風險。為此,他們開發了全自動的「印地安納瓊斯」越獄技術,成功繞過了模型的安全過濾機制。
「印地安納瓊斯是一個靈活的對話工具,只需一個關鍵字就能簡化越獄攻擊,」李嶽康解釋道。「它會引導選定的LLM列出與關鍵字相關的歷史人物或事件,並在五輪對話中逐步精煉查詢,最終提取出高度相關且可能有害的內容。」
「為了保持對話的深度,我們設計了一個檢查器,確保回應與初始關鍵字保持一致。例如,如果使用者輸入『銀行搶匪』,印地安納瓊斯會引導LLM討論著名的銀行搶匪,並逐步精煉他們的方法,直到這些方法能應用於現代情境。」
本質上,印地安納瓊斯依賴於三個專用LLMs的協同運作,它們透過對話來回應精心設計的提示。研究團隊發現,這種方法能成功獲取模型安全過濾機制本應阻擋的資訊。
總體而言,這項研究揭露了LLMs的脆弱性,顯示它們可能輕易被用於非法或惡意活動。李嶽康與其團隊希望這項研究能激發更多強化LLMs安全性的措施。
「我們研究的關鍵洞察是,成功的越獄攻擊利用了LLMs擁有惡意活動知識的事實——這些知識本不該被學習,」李嶽康表示。「不同的越獄技術只是找到方法讓模型揭露這些『禁忌』資訊。我們的研究提供了一種新穎的提示方式,讓LLMs暴露這些知識,為這些脆弱性的利用提供了新的視角。」
儘管LLMs在越獄攻擊中顯得脆弱,但開發者可以透過引入更多安全層來增強其防禦能力。例如,李嶽康與其團隊建議引入更先進的過濾機制,在受限資訊到達終端使用者之前,檢測或阻擋惡意提示或模型生成的回應。
「在應用層面強化這些保護措施可能是更直接且有效的解決方案,同時模型層面的防禦也在持續進化,」李嶽康說。「在未來的研究中,我們計劃專注於開發LLMs的防禦策略,包括機器遺忘技術,選擇性地『移除』LLMs已獲取的潛在有害知識。這有助於降低模型被越獄攻擊利用的風險。」
李嶽康認為,開發新措施以強化LLMs的安全性至關重要。未來,這些措施應聚焦於兩個關鍵面向:更有效地偵測威脅或惡意提示,以及控制模型所能接觸的知識(例如提供外部資訊來源,簡化有害內容的過濾)。
「除了我們團隊的努力,我認為AI研究應優先開發具有強大推理與情境學習能力的模型,讓它們能動態檢索與處理外部知識,而非記住所有內容,」李嶽康補充道。「這種方式就像一個沒有專業知識的聰明人會查閱維基百科或其他可靠來源來解決問題。透過專注於這些進步,我們可以打造出更安全且更具適應性的LLMs。」