憲法分類器：全新安全系統大幅降低聊天機器人越獄率

科技 02-07

AI應用程式開發商Anthropic的一個大型電腦工程師和安全專家團隊，研發出一套全新的安全系統，旨在防止聊天機器人「越獄」。他們的論文已釋出在arXiv預印本伺服器上。

自從聊天機器人向公眾開放使用以來，使用者就一直在想方設法讓它們回答聊天機器人開發者試圖封鎖的問題。例如，聊天機器人不應該提供如何搶劫銀行或如何製造原子彈等問題的答案。聊天機器人開發商不斷新增安全防護機制，以避免它們造成危害。

遺憾的是，面對執意嘗試的使用者的猛烈攻勢，防止這種「越獄」行為被證明是困難的。例如，許多人發現以奇怪的方式表述問題可以規避安全防護機制。更糟糕的是，使用者還找到了一種所謂的「通用越獄」方法，透過一個指令就能覆蓋特定聊天機器人內建的所有防護措施，使其進入所謂的「上帝模式」。

在這項新研究中，Anthropic（Claude大型語言模型的開發商）團隊開發了一個使用他們所稱的「憲法分類器」的安全系統。他們聲稱，該系統能夠阻止絕大多數的越獄嘗試，同時也很少出現過度拒絕的情況，即系統拒絕回答無害的問題。

Anthropic使用的憲法分類器基於所謂的「憲法AI」，這是一種基於人工智慧的系統，試圖根據提供的列表使用已知的人類價值觀。Anthropic團隊建立了一個包含10,000個提示的列表，這些提示在某些情境下是被禁止的，而且過去曾被越獄者使用過。

該團隊還將這些提示翻譯成多種語言，並使用不同的寫作風格，以防止類似的術語漏網。最後，他們向系統輸入了一批可能導致過度拒絕的無害問題，並進行了微調，以確保這些問題不會被錯誤標記。

隨後，研究人員使用他們自己的Claude 3.5 Sonnet大型語言模型測試了該系統的有效性。他們首先測試了沒有新系統的基準模型，發現86%的越獄嘗試都成功了。新增新系統後，這一比例降至4.4%。研究團隊隨後將搭載新安全系統的Claude 3.5 Sonnet大型語言模型提供給一群使用者，並向任何能夠成功進行通用越獄的人提供15,000美元的獎金。超過180名使用者嘗試了，但沒有人能領取這筆獎金。