AI如何與人類目標一致?最新研究揭開「對齊難題」的測量之道
在理想情況下,人工智慧應該要能協助人類達成目標,但當人類彼此間的訴求產生衝突時,AI又該如何抉擇?我們的研究團隊開發出一套創新方法,能夠精準測量人類群體與AI系統之間的目標一致性程度。
隨著AI技術呈指數級成長,「對齊問題」——確保AI系統行為符合人類價值觀——已成為迫切的議題。然而在現實世界中,由於每個人的優先事項各不相同,要讓AI完全對齊全人類幾乎是不可能的任務。舉例來說,當自動駕駛車輛面臨潛在事故時,行人可能希望車輛立即煞停,但車內乘客或許更傾向轉向閃避。
透過分析這類案例,我們建立了一套「不一致性評分」系統,該模型基於三個關鍵要素:涉及的人類與AI主體、他們對不同議題的具體目標,以及每個議題對他們的重要性程度。我們的核心觀點很簡單:當群體目標的相容性越高時,人類與AI之間的一致性就越好。
在模擬實驗中,我們發現當目標在群體中均勻分佈時,不一致性會達到高峰。這很合理——如果每個人都想要不同的東西,衝突自然最嚴重。反之,當多數成員共享相同目標時,不一致性就會顯著降低。
現行多數AI安全研究都將對齊視為非黑即白的二元屬性,但我們的框架顯示情況要複雜得多。同一個AI系統可能在某個情境下與人類高度一致,卻在另一個情境中產生嚴重偏差。
這項發現對AI開發者至關重要,因為它讓「對齊」這個模糊概念變得具體可測。與其空泛地追求「符合人類價值觀」,研究人員現在能更精確地討論AI在特定情境下的角色定位。例如,電商平臺的推薦系統(那些「你可能會喜歡」的商品建議)若誘使消費者購買非必需品,雖然符合零售商提升銷售額的目標,卻與消費者量入為出的理財目標背道而馳。
對政策制定者而言,我們的評估框架提供了一套實用工具,既能測量現行系統的不一致性程度,也能建立對齊標準。對AI開發團隊來說,這套系統有助於平衡不同利益相關者的競爭需求。而對一般大眾來說,清楚理解問題本質才能有效參與解決方案。
要測量對齊程度,前提是能比較人類與AI的目標差異。人類價值觀資料可透過問卷調查收集,社會選擇理論也提供許多工具來解讀這些資料。但棘手的是,要理解AI系統的目標卻困難得多。
當今最先進的AI系統是大型語言模型,但這些「黑盒子」的本質讓我們難以理解像ChatGPT這類AI代理的真實目標。可解釋性研究或許能透過揭示模型的「內在思維」來改善現況,或者研究人員可以從設計階段就打造具有透明思考流程的AI。但在現階段,我們仍無法確知AI系統是否真正對齊人類目標。
我們也意識到,有時人類表達的目標與偏好未必完全反映真實需求。為處理這類複雜情境,我們正著手研究如何讓AI與道德哲學專家的判斷對齊。展望未來,我們期待開發者能運用這些工具,在不同人群間實現更精準的AI對齊。
[end]