讓AI學會自我淨化:MIT與IBM聯手開發語言模型解毒術
就像人類從孩童時期逐漸成長,我們的詞彙量與表達方式會不斷進化。隨著人生經驗的累積,我們學會如何更精準地思考、推理與他人互動。在這個過程中,我們會發展出一套內在的「導航系統」,幫助我們理解對話的上下文,並避免說出可能造成傷害或不適當的言論。
有趣的是,大型語言模型(LLMs)現在也能培養類似的能力。這些模型在訓練時吸收了大量公開資料,難免會帶有偏見和不良用語。MIT、MIT-IBM Watson AI實驗室和IBM研究團隊最近開發出一種名為「自律自回歸取樣」(SASA)的新方法,能讓語言模型在不影響流暢度的前提下,自動過濾掉不當內容。這項研究成果已發表在arXiv預印本伺服器上。
與其他淨化技術不同,SASA是一種解碼演演算法,它能在不改變模型引數、無需重新訓練或依賴外部獎勵模型的情況下,直接在LLM的內部表徵中劃分出「有毒」與「無毒」的語意空間。在生成文字時,演演算法會評估已生成內容的毒性程度,並選擇能讓整體語句保持在「無毒」空間的詞彙。
研究主要作者、IBM華生研究中心的柯靜雲博士解釋:「我們希望找到一種方法,讓現有的語言模型在生成內容時,能夠遵循人類的價值觀——在這個案例中,我們特別關注的是言論的毒性問題。」
這項技術的開發背景值得深思。由於LLMs的訓練資料大多來自網路等公開來源,難免會包含粗俗、歧視性或其他不當用語——即使這些內容可能是文學作品的一部分。這導致LLMs有時會產生帶有偏見或仇恨的言論,甚至可能被誘導說出危險內容。
現有的解決方案各有侷限:重新訓練模型耗時費力,可能影響效能;使用外部獎勵模型則會增加運算負擔。SASA的創新之處在於,它利用LLMs的自回歸特性,在生成過程中逐步引導模型遠離不良內容。
研究團隊建立了一個線性分類器,能在LLM的語意空間中劃分「有毒」與「無毒」區域。他們使用帶有人工標註(標記毒性程度從0到1)的資料集來訓練這個分類器。在實際應用時,SASA會根據生成內容與分類器邊界的距離,調整下一個詞彙的選擇機率。
為了驗證效果,研究團隊測試了三種不同規模的LLM:GPT2-Large、Llama2-7b和Llama 3.1-8b-Instruct。結果顯示,SASA能顯著降低毒性內容的生成機率,效果與當前最先進的外部獎勵模型技術相當。不過研究也發現,過度過濾可能會影響文字的流暢度。
特別值得一提的是,SASA還能有效減少性別偏見——原本LLMs對女性相關提示詞更容易產生有毒回應,但經過SASA調整後,這種差異明顯縮小。
柯博士強調:「這就像人類的成長過程,我們不是要讓模型只看見美好的事物,而是要讓它理解世界的全貌——包括好與壞——然後在表達時選擇符合我們的價值觀。」
展望未來,SASA的輕量級特性讓它極具潛力。柯博士指出:「人類價值觀是多元的,我們不僅要避免毒性言論,還要追求真實、有益和忠誠。SASA可以輕鬆擴充套件到處理多種價值觀,只需在生成時檢查多個語意子空間,幾乎不會增加額外運算負擔。」
這項突破性研究將在2025年新加坡舉辦的國際學習表徵會議(ICLR)上正式發表,為打造更安全、更負責任的AI語言模型開闢了新途徑。
[end]