當前位置:
首頁 > 科技 > AI新演演算法讓回答更可靠,運算成本更低

AI新演演算法讓回答更可靠,運算成本更低

ChatGPT等AI聊天機器人時常給出令人驚豔的精準回答,但同時也經常讓我們對其答案產生懷疑。這類強大AI回應引擎的主要問題在於,它們能夠輕鬆地給出完美答案,卻也可能隨口胡謅。關鍵挑戰在於大型語言模型(LLMs)如何處理不確定性。

一直以來,我們很難判斷這些專為文字處理和生成設計的LLMs,其回答究竟是基於扎實的資料基礎,還是在不確定的情況下隨機應變。蘇黎世聯邦理工學院(ETH)電腦科學系機器學習研究所的研究團隊,現在開發出一種能有效降低AI不確定性的新方法,相關研究成果已發表在arXiv預印本伺服器上。

「我們的演演算法能讓AI的通用語言模型,針對特定問題的相關領域補充額外資料。結合具體問題,我們就能從模型深處和補充資料中,精準提取最可能產生正確答案的關聯性。」該研究主要作者、來自學習適應系統組的Jonas Hübotter博士候選人如此解釋。

研究團隊負責人、ETH AI中心主任Andreas Krause教授補充:「這項方法特別適合企業、科學家或其他使用者,當他們想在AI訓練資料僅部分涵蓋或完全未涵蓋的專業領域使用通用AI時。」

舉例來說,使用者可以將本地儲存的資料輸入大型語言模型(如Llama)。ETH電腦科學家開發的SIFT演演算法(選擇性資訊微調),就能利用這些補充資料,選出與問題最相關的特定資訊。

SIFT演演算法透過分析AI語言模型中語言資訊的組織結構來尋找相關資訊。這些模型會將訓練資料中的語言資訊分解為詞彙單元,並將這些單元間的語義和句法關係,以多維空間中的向量箭頭形式呈現。空間維度可能高達數千個,這些維度來自LLM在訓練過程中從通用資料自主識別的關係引數。

在這個向量空間中,指向相同方向的關係箭頭表示高度相關性。兩個向量間的夾角越大,表示資訊單元間的關聯性越低。SIFT演演算法利用輸入查詢的關係向量方向,找出與問題密切相關且內容互補的資訊關係。

Hübotter解釋:「向量間的夾角對應內容相關性,我們可以利用這些角度選擇能降低不確定性的特定資料。」相較之下,目前最常用的「最近鄰居」資訊選擇方法,往往會累積大量重複且廣泛可得的資訊。

以「Roger Federer幾歲?他有幾個孩子?」這個兩部分問題為例,最近鄰居方法會認為「Roger Federer 43歲」和「Roger Federer生日是1981年8月8日」等相似資訊同等重要,而關於他孩子的資訊(對問題第二部分至關重要)有時會被生日資訊掩蓋,因為後者在AI訓練資料中出現頻率更高。

SIFT演演算法則會考慮資訊片段間的互補程度,即資訊向量是否指向不同方向,從而為問題的兩個面向都找出相關資訊。這種針對性的資訊選擇不僅提升回答品質,還能降低AI應用日益增長的運算需求。

透過間接測量不確定性,模型能自行決定需要多少額外資料才能提供足夠可靠的答案。因此,LLM所需的運算資源可以根據問題複雜度和相關資訊可用性進行系統性調整。

由於SIFT在資料檢索過程中持續調整向量方向的權重,補充後的模型會隨著使用次數增加而變得更加可靠,這種「測試時訓練」方法可以用更小的模型達到相同的輸出效能。Hübotter強調:「在標準資料集的測試中,我們使用SIFT微調的模型,其表現甚至超越當前最佳AI模型,而模型大小僅為其1/40。」

SIFT演演算法在資料評估方面也展現新應用潛力。Krause教授說明:「我們可以追蹤SIFT選擇了哪些補充資料,這些資料與問題密切相關,因此對該主題領域特別重要。例如在醫學領域,可用來研究哪些實驗室分析或測量值對特定診斷具有重要意義。」

Hübotter將在新加坡舉辦的國際學習表徵會議(ICLR)上發表這項研究成果。去年12月,ETH研究團隊憑藉這項方法,在神經資訊處理系統年會(NeurIPS)的「現代機器學習中的微調」研討會上獲得最佳科學論文獎。

[end]