AI先驅獲頒電腦科學最高榮譽：強化學習的開創者

科技 03-07

在人工智慧的發展歷程中，有一種方法如同訓練動物般，透過獎勵與懲罰來引導機器的行為，這種方法被稱為「強化學習」。本週三，兩位在強化學習領域的先驅——安德魯·巴託（Andrew Barto）和理查·薩頓（Richard Sutton）——獲得了電腦科學界的最高榮譽「圖靈獎」，這項獎項被譽為科技界的諾貝爾獎。

巴託（76歲）和薩頓（67歲）的研究始於1970年代末，他們的工作為過去十年的人工智慧突破奠定了基礎。他們的核心概念是引導所謂的「享樂主義」機器，這些機器能夠根據正面訊號不斷調整自己的行為。強化學習技術不僅讓Google的電腦程式在2016年和2017年擊敗了世界頂尖的圍棋選手，也成為改進ChatGPT等熱門AI工具的關鍵技術，並在金融交易最佳化和機器手解魔術方塊等領域發揮重要作用。

然而，巴託回憶道，當他與薩頓在麻省大學阿默斯特分校開始研究這些理論和演演算法時，強化學習並不受重視。「我們當時像是在荒野中，」巴託在接受美聯社採訪時表示，「這也是為什麼獲得這個獎項如此令人欣慰，看到這個領域被更多人認可為重要且有趣的研究。在早期，情況並非如此。」

今年的圖靈獎由Google贊助，獎金高達100萬美元，並由計算機協會（ACM）於週三宣佈。巴託已從麻省大學退休，而薩頓則是加拿大阿爾伯塔大學的長期教授。他們並非首批獲得圖靈獎的AI先驅，但他們的研究直接回應了英國數學家艾倫·圖靈（Alan Turing）在1947年提出的呼籲——創造一臺「能從經驗中學習」的機器。薩頓認為，這正是強化學習的核心概念。

他們的研究借鑒了心理學和神經科學中關於「追求快樂的神經元如何對獎勵或懲罰做出反應」的理論。在1980年代初發表的一篇重要論文中，巴託和薩頓將他們的新方法應用於一個模擬世界的特定任務：讓一根桿子在移動的推車上保持平衡，避免倒下。兩位電腦科學家後來還合著了一本廣為使用的強化學習教科書。

Google首席科學家傑夫·迪恩（Jeff Dean）在一份書面宣告中表示：「他們開發的工具仍然是AI熱潮的核心支柱，並推動了重大進步，吸引了無數年輕研究者，並促進了數十億美元的投資。」

在接受美聯社的聯合採訪時，巴託和薩頓對於如何評估不斷自我改進的AI代理的風險並未達成一致。他們也將自己的工作與當前熱門的生成式AI技術區分開來，後者以OpenAI、Google等科技巨頭開發的大型語言模型為代表，這些模型能夠模仿人類的寫作和其他媒體形式。

「關鍵的選擇是，你是試圖從人們的資料中學習，還是從AI代理自身的生命和經驗中學習？」薩頓說道。他認為，關於AI對人類威脅的擔憂被過度誇大，但巴託則持不同意見，並表示「你必須意識到潛在的意外後果。」

已退休14年的巴託自稱是「盧德分子」（Luddite），而薩頓則擁抱一個他預期中將出現比現今人類更聰明存在的未來，這種想法有時被稱為「後人類主義」。薩頓表示：「人類是機器，他們是令人驚嘆的機器，但他們也不是『最終產品』，還可以變得更好。這本質上是AI事業的一部分，我們試圖理解自己，當然也試圖創造出能運作得更好的東西，甚至可能成為這樣的東西。」