當前位置:
首頁 > 科技 > 不匹配的訓練環境:讓AI在不確定條件下表現更優

不匹配的訓練環境:讓AI在不確定條件下表現更優

在家用機器人訓練的例子中,若在工廠訓練機器人執行家務工作,當它被部署到使用者的廚房時,可能無法有效地清洗水槽或倒垃圾,畢竟新環境和訓練空間不同。為避免這種情況,工程師通常會盡可能讓模擬訓練環境與機器人即將被部署的真實世界相匹配。

然而,麻省理工學院等機構的研究人員如今發現,儘管有這種傳統觀念,但有時在完全不同的環境中訓練,反而能造就表現更優的人工智慧代理。他們的研究結果顯示,在某些情況下,在不確定性較少或「幹擾」較少的世界中訓練模擬AI代理,比起在同樣有幹擾且用於測試兩個代理的世界中訓練的競爭對手AI代理,表現會更好。研究人員將這種意想不到的現象稱為「室內訓練效應」。

麻省理工媒體實驗室的研究助理、關於室內訓練效應論文的第一作者瑟琳娜・博諾解釋道:「如果我們在沒有幹擾的室內環境中學習打網球,可能更容易掌握不同的球技。然後,若我們轉移到像有風的網球場這樣幹擾較多的環境,比起一開始就在有風的環境中學習,我們打好網球的機率可能更高。」

研究人員透過訓練AI代理玩雅達利遊戲來研究這一現象,他們對遊戲進行了修改,增加了一些不可預測性。令人驚訝的是,室內訓練效應在雅達利遊戲及其變體中始終存在。這些研究結果釋出在arXiv預印本伺服器上。

他們希望這些結果能促進更多針對開發更好的AI代理訓練方法的研究。論文共同作者、哈佛大學研究生斯潘丹・馬丹補充說:「這是一個全新的思考方向。與其試圖讓訓練和測試環境相匹配,我們也許能夠構建出讓AI代理學習效果更好的模擬環境。」

和博諾、馬丹共同撰寫這篇論文的還有麻省理工學院研究生伊沙安・格羅弗、耶魯大學研究生毛康代、麻省理工媒體實驗室媒體藝術與科學教授兼個人機器人小組負責人辛西婭・佈雷齊爾、哈佛大學王安電腦科學教授漢斯彼得・菲斯特,以及哈佛醫學院教授加布裡埃爾・克雷曼。這項研究將在美國人工智慧促進協會會議上發表。

研究人員著手探究為什麼強化學習代理在與訓練空間不同的環境中測試時,表現往往如此糟糕。強化學習是一種試錯方法,代理在訓練空間中探索,並學習採取能使獎勵最大化的行動。

該團隊開發了一種技術,明確地向強化學習問題的一個元素(稱為轉移函式)新增一定量的幹擾。轉移函式根據代理選擇的行動,定義其從一個狀態轉移到另一個狀態的機率。例如,若代理在玩《吃豆人》遊戲,轉移函式可能定義遊戲板上的幽靈向上、下、左、右移動的機率。在標準強化學習中,AI會使用相同的轉移函式進行訓練和測試。

研究人員按照這種傳統方法向轉移函式新增幹擾,正如預期的那樣,這影響了代理在《吃豆人》遊戲中的表現。但當研究人員用無幹擾的《吃豆人》遊戲訓練代理,然後在向轉移函式注入幹擾的環境中測試它時,它的表現比在有幹擾的遊戲中訓練的代理更好。馬丹說:「經驗法則是,在訓練期間應盡可能捕捉部署條件的轉移函式,以獲得最大效益。我們真的把這個觀點驗證到極致了,因為我們自己都不敢相信。」

向轉移函式注入不同程度的幹擾,讓研究人員能夠測試多種環境,但這並不能創造出逼真的遊戲。他們向《吃豆人》遊戲中注入的幹擾越多,幽靈隨機傳送到不同方格的可能性就越大。為了檢視室內訓練效應是否在正常的《吃豆人》遊戲中也會出現,他們調整了底層機率,使幽靈正常移動,但更傾向於上下移動,而非左右移動。在無幹擾環境中訓練的AI代理在這些逼真的遊戲中仍然表現更好。博諾說:「這不僅僅是因為我們新增幹擾建立臨時環境的方式。這似乎是強化學習問題的一個特性,看到這一點更令人驚訝。」

當研究人員深入探究原因時,他們發現AI代理探索訓練空間的方式存在一些關聯。當兩個AI代理主要探索相同的區域時,在無幹擾環境中訓練的代理表現更好,這也許是因為在沒有幹擾的情況下,代理更容易學習遊戲規則。如果它們的探索模式不同,那麼在有幹擾環境中訓練的代理往往表現更好。這可能是因為代理需要理解在無幹擾環境中無法學到的模式。博諾解釋說:「如果我只在無幹擾的環境中學會用正手打網球,但在有幹擾的環境中我還得學會用反手打球,那麼我在無幹擾環境中的表現就不會那麼好。」

未來,研究人員希望探索室內訓練效應在更複雜的強化學習環境中,或者在像計算機視覺和自然語言處理等其他技術中是如何產生的。他們還想構建能夠利用室內訓練效應的訓練環境,這可能有助於AI代理在不確定的環境中表現得更好。