AI控制新突破:精準調校大型語言模型的新技術
想像一下,如果我們能為Google Gemini和OpenAI ChatGPT這類AI應用程式裝上更精密的「控制旋鈕」。加州大學聖地牙哥分校Halıcıoğlu資料科學研究所(HDSI)的Mikhail Belkin教授率領的研究團隊,最近就開發出這樣一項突破性技術。
這項發表在《Science》和《美國國家科學院院刊》的研究,讓研究人員能夠更精確地操控大型語言模型(LLMs)的運作方式。Belkin教授指出:「現今的LLMs雖然在文字生成、語言翻譯和問答方面表現出色,但它們的行為有時會出現偏差,甚至產生有害內容。」
研究團隊開發出一種創新的「非線性特徵學習」方法,這就像不是隻看蛋糕成品,而是深入分析其中的每種原料。透過理解AI模型內部的核心運作機制,研究人員能更有效地引導AI產生理想的輸出結果。
「這就像是我們終於能窺見AI的『思考過程』,」Belkin解釋道:「我們不僅能預測模型會產生什麼樣的輸出,還能主動引導它朝更有益、更安全的方向發展。」
研究團隊透過分析LLM各層級的內部啟用狀態,成功識別出與特定概念(如有害內容或事實準確性)相關的特徵。一旦鎖定這些特徵,就能調整它們來強化或抑制特定行為。
這項技術在多項任務中都展現出卓越成效,包括檢測和減少AI的「幻覺」(產生虛假資訊)、有害內容和毒性言論。研究還顯示,該方法能幫助LLMs更好地理解莎士比亞式英語和詩歌語言等特殊表達方式。
Belkin強調:「這項技術的最大優勢之一,是能讓LLMs變得更高效且成本更低。透過聚焦關鍵內部特徵,我們能用更少的資料和運算資源來微調這些強大模型,這將使先進AI技術更易於普及。」
這項突破也為開發更專業化的AI應用開啟大門,例如專門提供準確醫療資訊的AI助手,或是能避免陳腔濫調和有害刻板印象的創意寫作工具。研究團隊已公開相關程式碼,希望能推動AI安全控制領域的進一步發展。
SCIDS臨時院長Rajesh Gupta表示:「隨著LLMs日益融入日常生活,理解並引導它們的行為變得至關重要。Belkin教授團隊的這項研究,讓我們在建立更可靠、可信賴且有益的人工智慧道路上邁進了一大步。」
[end]