當前位置:
首頁 > 科技 > 大型語言模型如何像人腦一樣處理多後設資料?

大型語言模型如何像人腦一樣處理多後設資料?

隨著科技的進步,大型語言模型(LLMs)已經不再僅限於處理文字資料,而是能夠執行各種多元任務。舉例來說,這些模型不僅能理解多種語言,還能生成電腦程式碼、解決數學問題,甚至回答關於影象和音訊的問題。麻省理工學院(MIT)的研究人員深入探討了LLMs的內部運作機制,發現它們與人腦的運作方式有相似之處。

神經科學家認為,人腦的前顳葉中存在一個「語意中樞」,負責整合來自不同感官的語意資訊,例如視覺和觸覺資料。這個語意中樞與特定的「感官通道」相連,這些通道將資訊傳遞到中樞進行處理。MIT的研究人員發現,LLMs也採用類似的機制,透過一個中央的通用方式來抽象處理來自不同感官的資料。例如,一個以英文為主導語言的模型,會依賴英文作為中央媒介來處理日文輸入或進行算術、程式碼等推理。

此外,研究人員還發現,他們可以透過使用模型的主導語言(如英文)來幹預其語意中樞,從而改變模型的輸出,即使模型正在處理其他語言的資料。這一發現有助於科學家訓練未來能夠更好地處理多後設資料的LLMs。

「LLMs就像一個巨大的黑盒子,它們的表現非常出色,但我們對其內部運作機制知之甚少。我希望這項研究能成為理解它們如何運作的早期一步,從而讓我們能夠改進它們,並在需要時更好地控制它們。」該研究的主要作者、MIT電機工程與電腦科學(EECS)研究生吳兆峰(Zhaofeng Wu)表示。

這項研究基於先前的研究,該研究暗示以英文為中心的LLMs使用英文來對各種語言進行推理過程。吳兆峰及其合作者擴充套件了這一想法,深入研究了LLMs處理多後設資料的機制。LLM由許多相互連線的層組成,將輸入的文字分割成稱為「token」的單詞或子詞。模型為每個token分配一個表示,使其能夠探索token之間的關係並生成序列中的下一個詞。在影象或音訊的情況下,這些token對應於影象的特定區域或音訊片段的段落。

研究人員發現,模型的初始層會以特定的語言或感官方式處理資料,類似於人腦中的特定感官通道。然後,LLM在內部層中將token轉換為與感官無關的表示,這與大腦的語意中樞整合多元資訊的方式相似。模型會為具有相似意義的輸入分配相似的表示,無論其資料型別是影象、音訊、程式碼還是算術問題。即使影象和其文字說明是不同的資料型別,由於它們具有相同的意義,LLM也會為它們分配相似的表示。

例如,一個以英文為主導的LLM在生成中文輸出之前,會先用英文「思考」中文輸入。模型對於非文字輸入(如程式碼、數學問題甚至多模態資料)也有類似的推理傾向。為了驗證這一假設,研究人員將一對意義相同但用兩種不同語言寫成的句子輸入模型,並測量模型對每個句子的表示的相似性。然後,他們進行了第二組實驗,將不同語言(如中文)的文字輸入以英文為主導的模型,並測量其內部表示與英文和中文的相似性。研究人員對其他資料型別也進行了類似的實驗。

他們一致發現,模型對於意義相似的句子的表示也相似。此外,在許多資料型別中,模型在內部層處理的token更像是以英文為中心的token,而不是輸入的資料型別。「許多這些輸入資料型別看起來與語言極為不同,因此我們非常驚訝地發現,當模型處理數學或程式碼表示式時,我們可以探測出英文token。」吳兆峰表示。

研究人員認為,LLMs可能在訓練過程中學會了這種語意中樞策略,因為這是一種經濟高效的方式來處理多後設資料。「世界上有成千上萬種語言,但很多知識是共享的,例如常識或事實知識。模型不需要在各種語言中重複這些知識。」吳兆峰解釋道。

研究人員還嘗試在模型處理其他語言時,使用英文文字幹預其內部層。他們發現,即使輸出是其他語言,他們也可以預測性地改變模型的輸出。科學家可以利用這一現象,鼓勵模型在多後設資料型別之間共享盡可能多的資訊,從而提高效率。

然而,另一方面,可能存在無法跨語言或資料型別翻譯的概念或知識,例如特定文化的知識。在這些情況下,科學家可能希望LLMs具有一些特定語言的處理機制。「如何在可能的情況下最大限度地共享資訊,同時允許語言具有一些特定語言的處理機制?這可以在未來的模型架構研究中進行探索。」吳兆峰補充道。

此外,研究人員可以利用這些見解來改進多語言模型。通常,以英文為主導的模型在學會說另一種語言時,會失去一些英文的準確性。對LLM語意中樞的更好理解可以幫助研究人員防止這種語言幹擾。

「理解語言模型如何跨語言和感官處理輸入是人工智慧中的一個關鍵問題。這篇論文與神經科學建立了有趣的聯絡,並表明所提出的『語意中樞假說』在現代語言模型中成立,即在模型的中間層中建立了不同資料型別的語意相似表示。」特拉維夫大學電腦科學院助理教授Mor Geva Pipek評論道,他並未參與這項研究。「這項假說和實驗很好地結合並擴充套件了先前的研究結果,可能對未來建立更好的多模態模型以及研究它們與人腦功能和認知之間的聯絡具有重要影響。」