AI讀書的奧秘:從死記位置到理解意義的關鍵轉變
當今人工智慧系統的語言能力令人驚艷。我們現在可以與ChatGPT、Gemini等系統進行近乎真人般的流暢對話。但這些神經網路內部究竟如何運作才能產生如此驚人的成果,至今仍是個謎團。
《統計力學期刊》發表的一篇題為「點積注意力可解模型中位置學習與語意學習的相變」的研究,為我們揭開了部分謎底。研究發現,當使用少量資料訓練時,神經網路最初會依賴詞語在句子中的位置;但當系統接觸足夠資料後,就會轉向基於詞語意義的新策略。
這項研究揭示,這種轉變會在某個關鍵資料閾值被跨越時突然發生——就像物理系統中的相變一樣。研究結果為理解這些模型的運作原理提供了寶貴見解。
就像小孩學習閱讀一樣,神經網路最初是透過詞語位置來理解句子:根據詞語在句子中的位置推斷它們之間的關係(是主語、動詞還是受詞?)。但隨著訓練持續進行——就像網路「持續上學」一樣——會發生一個轉變:詞語意義成為主要資訊來源。
這項新研究解釋了在自注意力機制的簡化模型中發生的現象。自注意力機制是我們日常使用的Transformer語言模型(如ChatGPT、Gemini、Claude等)的核心元件。
Transformer是一種專為處理文字等序列資料設計的神經網路架構,它構成了許多現代語言模型的基礎。Transformer擅長理解序列內部的關係,並使用自注意力機制來評估每個詞語相對於其他詞語的重要性。
「要評估詞語間的關係,」哈佛大學博士後研究員、該研究第一作者Hugo Cui解釋道,「網路可以使用兩種策略,其中一種是利用詞語的位置。」例如在英語中,主語通常位於動詞之前,而動詞又位於受詞之前。「瑪麗吃蘋果」就是這種順序的簡單例子。
「這是網路訓練時自發出現的第一種策略,」Cui說明。「但在我們的研究中觀察到,如果繼續訓練且網路獲得足夠資料,在某個臨界點——一旦跨越閾值——策略會突然轉變:網路開始依賴意義而非位置。」
「這項工作最初只是要研究網路會採用哪些策略或策略組合。但我們發現的結果有些出人意料:在特定閾值以下,網路完全依賴位置;而超過閾值後,則完全依賴意義。」
Cui借用物理學概念,將這種轉變描述為相變。統計物理學透過統計描述由大量粒子(如原子或分子)組成的系統的集體行為。
同樣地,作為這些AI系統基礎的神經網路,由大量「節點」(或稱神經元,類比人腦命名)組成,每個節點都與許多其他節點相連並執行簡單運算。系統的智慧就來自這些神經元互動產生的現象,這種現象可以用統計方法來描述。
這就是為什麼我們能將網路行為的突然改變稱為相變,就像水在特定溫度和壓力條件下從液體變為氣體一樣。
「從理論角度理解策略轉變以這種方式發生非常重要,」Cui強調。「我們的網路比人們日常互動的複雜模型簡化許多,但它們能為我們提供線索,開始理解導致模型穩定採用某種策略的條件。希望這些理論知識未來能讓神經網路的使用更高效、更安全。」
[end]