當前位置:
首頁 > 科技 > AI的「中間盲區」:語言模型架構如何影響資訊處理偏差

AI的「中間盲區」:語言模型架構如何影響資訊處理偏差

最新研究顯示,大型語言模型(LLM)存在明顯的「位置偏差」現象——它們往往過度關註檔案或對話的開頭與結尾,卻容易忽略中間段落。這種特性在實際應用中可能造成嚴重影響。舉例來說,當律師使用AI助手在30頁的宣誓書中查詢特定詞句時,模型更容易在首尾頁面找到目標內容。

MIT研究團隊成功破解了這個現象背後的運作機制。他們建立理論架構來分析資訊如何在LLM的神經網路中流動,發現模型架構的特定設計選擇會導致位置偏差,特別是影響模型處理輸入單詞間關係的方式。此外,訓練資料也是造成此問題的因素之一。這項突破性研究已發表在arXiv預印本平臺上。

這項發現不僅找出位置偏差的根源,更為未來模型設計提供了診斷與修正的方法。這意味著我們有望開發出:能維持長時間對話主題一致性的聊天機器人、更公平處理大量病患資料的醫療AI系統,以及能全面檢視程式碼的開發助手。

研究第一作者、MIT資料系統與社會研究所的吳欣怡解釋:「這些模型如同黑盒子,使用者通常不會意識到位置偏差可能導致結果不一致。但透過更深入理解這些黑盒子的運作機制,我們就能改進它們的侷限性。」

研究團隊採用了新穎的圖表理論框架,來分析注意力遮罩(attention mask)和位置編碼(positional encoding)等技術如何影響位置偏差。吳欣怡指出:「注意力機制中的各種因素相互糾纏,很難單獨研究。圖表語言能有效描述單詞間的依賴關係,並追蹤它們在多層網路中的變化。」

理論分析顯示,因果遮罩(causal mask)會讓模型對輸入開頭產生固有偏見,即使資料本身並不存在這種傾向。更值得注意的是,隨著模型規模擴大、注意力層數增加,這種偏差會被進一步放大。

研究也發現,使用位置編碼來強化單詞與鄰近詞彙的關聯,有助於緩解位置偏差。但這種效果會隨著注意力層數增加而減弱。團隊強調,除了架構設計,訓練資料本身對模型如何排序單詞的重要性也至關重要。

在實驗階段,研究人員系統性地改變正確答案在文字序列中的位置。結果清楚呈現「中間迷失」現象:當正確答案位於序列開頭時,檢索準確率最高;隨著答案位置移向中間,準確率逐步下降,僅在接近結尾時略有回升。

研究共同作者Ali Jadbabaie教授強調:「透過理論與實驗的結合,我們得以釐清模型設計選擇的影響。在關鍵應用中使用AI模型時,必須清楚知道它何時有效、何時失效,以及原因為何。」

這項開創性研究不僅提供難得的理論視角來理解transformer模型的核心機制,更以數學的嚴謹性揭示了實際系統的運作特性。未來,研究團隊計劃進一步探索位置編碼的影響,並研究如何在某些應用中策略性地運用位置偏差。

[end]