研究驚爆:多數AI聊天機器人仍易被誘導提供有害資訊
科技
05-26
以色列內蓋夫本古裡安大學的人工智慧研究團隊最新發現,儘管大型語言模型(LLM)開發商持續強化防護機制,市面上多數常見的聊天機器人仍能輕易被誘導產生有害甚至違法的內容。這項發表於arXiv預印本伺服器的研究,揭露了當前AI安全防護的重大漏洞。
研究團隊成員Michael Fire、Yitzhak Elbazis、Adi Wasenstein和Lior Rokach在調查所謂「暗黑LLM」時意外發現,即便是ChatGPT這類主流聊天機器人,也能輕易突破防護機制,取得理應被過濾的危險資訊。所謂暗黑LLM,是指刻意放寬安全限制的特殊模型。
事實上,自LLM技術普及以來,使用者就發現能透過這些系統獲取原本僅存在於暗網的資訊,例如製作凝固汽油彈或入侵電腦網路的方法。為此,開發商紛紛加強過濾機制。但使用者很快又發展出「越獄」技巧,透過精心設計的提問誘使系統突破限制。
研究團隊最初是為調查暗黑LLM的擴散與使用情況,特別是那些用於生成未經授權色情內容的模型。然而測試過程中,他們驚訝地發現,多數受測聊天機器人仍可輕易用數月前就公開的越獄技術突破防護,顯示開發商在防堵這類漏洞上並未投入足夠努力。
更具體地說,研究團隊發現一種「通用越獄攻擊」手法,能讓多數受測LLM提供詳細的非法活動指導,包括洗錢、內線交易甚至炸彈製作。研究人員更警告,暗黑LLM的威脅正持續擴大,被應用於各種不法用途。
研究結論指出,目前技術尚無法完全防止LLM在訓練過程中吸收「不良」資訊,因此唯一解決之道在於開發商必須以更嚴謹的態度,開發更完善的過濾系統。這項發現為AI安全領域敲響警鐘,呼籲業界正視此一迫切問題。
[end]