當前位置:
首頁 > 科技 > 革命性AI工具HART:高效生成高畫質影像,速度提升九倍

革命性AI工具HART:高效生成高畫質影像,速度提升九倍

在自駕車的訓練過程中,快速生成高品質影像的能力至關重要,這些影像能模擬真實環境,幫助自駕車辨識並避開不可預測的危險,從而提升實際道路上的安全性。然而,目前廣泛使用的生成式AI技術存在一些缺陷。例如,擴散模型(Diffusion Model)雖然能生成極其逼真的影像,但其運算速度緩慢且資源消耗龐大;而自回歸模型(Autoregressive Model)雖然速度較快,但生成的影像品質較差,常出現錯誤。

為瞭解決這一問題,麻省理工學院(MIT)與NVIDIA的研究團隊開發了一種全新的混合方法,結合了兩種模型的優勢。他們的新工具名為HART(Hybrid Autoregressive Transformer),利用自回歸模型快速捕捉影像的大致輪廓,再透過小型擴散模型精修細節。這項研究成果已發表於arXiv預印本伺服器,並將在國際學習表徵會議(ICLR)上展示。

HART的運作原理類似於繪畫過程。研究團隊的共同第一作者Haotian Tang博士比喻道:「如果你在畫一幅風景畫,一開始只是簡單地塗滿整張畫布,效果可能不盡理想。但如果你先勾勒出大致的輪廓,再用細筆觸修飾細節,整幅畫作就會更加出色。這就是HART的基本概念。」

HART的生成速度比現有的擴散模型快九倍,且運算資源消耗更少,甚至能在商用筆記型電腦或智慧型手機上執行。使用者只需在HART介面輸入一段自然語言提示,即可生成高品質影像。這項技術的應用範圍廣泛,例如協助研究人員訓練機器人完成複雜任務,或幫助設計師製作引人入勝的遊戲場景。

與傳統擴散模型不同,HART採用混合方法,先由自回歸模型預測壓縮後的離散影像標記(tokens),再由小型擴散模型預測殘餘標記(residual tokens)。這些殘餘標記能捕捉離散標記遺漏的細節,例如物體的邊緣或人物的頭髮、眼睛和嘴巴等部位,從而大幅提升影像重建品質。

研究團隊在開發HART的過程中,發現將擴散模型應用於自回歸過程的最後一步,能有效避免錯誤累積,並顯著提升生成品質。HART結合了擁有7億引數的自回歸變壓器模型與3700萬引數的輕量擴散模型,其生成的影像品質與擁有20億引數的擴散模型相當,但速度更快,運算資源消耗減少31%。

此外,由於HART使用與大型語言模型(LLMs)相同的自回歸模型,因此更容易與新型的視覺-語言生成模型整合。未來,使用者或許能透過與統一視覺-語言生成模型的互動,例如詢問組裝傢俱的步驟,進一步探索AI的潛力。

研究團隊表示,未來將基於HART架構開發視覺-語言模型,並將其應用於影片生成與音訊預測等任務,進一步拓展AI技術的應用領域。