AI新突破!「CausVid」混合模型秒速生成流暢高畫質影片
您是否好奇AI生成影片的幕後過程?傳統的逐幀渲染方式(如OpenAI的SORA和Google的VEO 2採用的「擴散模型」)雖然能產出逼真影像,卻存在處理速度緩慢、無法即時修改的缺點。
MIT電腦科學與人工智慧實驗室(CSAIL)與Adobe Research的科學家聯手開發出革命性的「CausVid」混合模型。這項技術就像聰明的學生向資深教師學習,讓擴散模型訓練自回歸系統快速預測下一幀畫面,同時確保品質與連貫性。使用者只需簡單文字指令,就能將靜態照片轉為動態場景、延伸影片長度,甚至在中途修改創作內容。
這個動態工具將原本需要50個步驟的流程簡化為幾個動作,能快速生成各種創意場景:從紙飛機變天鵝、長毛象雪中漫步,到孩童踩水坑的活潑畫面。更特別的是,使用者可以先輸入「生成過馬路的男子」這樣的初始指令,再追加「他走到對麵人行道時開始寫筆記」等後續要求,實現真正的互動式創作。
研究團隊指出,CausVid可應用於多種影片編輯任務,例如配合語音翻譯即時生成同步畫面幫助理解直播內容,或是快速製作遊戲新場景與機器人訓練模擬。電機工程與電腦科學博士田偉寅(Tianwei Yin)解釋:「CausVid結合預訓練擴散模型與文字生成模型常見的自回歸架構,讓AI教師模型能預見未來步驟,指導逐幀系統避免渲染錯誤。」
相較於傳統自回歸模型容易出現的「錯誤累積」問題(如人物跑步時腿部動作逐漸失真),CausVid透過高效能擴散模型傳授影片生成技巧,使簡單系統也能產出流暢畫面,且速度大幅提升。在生成10秒高解析度影片的測試中,CausVid表現超越OpenSORA等基準模型,速度最快可達競爭對手的100倍。
更驚人的是,在30秒長片測試中,CausVid的品質與一致性仍優於同類模型,顯示其未來可能產出長達數小時甚至無限時長的穩定影片。後續研究更發現,使用者普遍偏好CausVid學生模型生成的影片,雖然視覺多樣性稍遜於教師模型,但速度優勢顯著。
在超過900組文字轉影片的資料集測試中,CausVid以84.27的總分奪冠,在影像品質與人物動作真實性等指標均領先Vchitect、Gen-3等頂尖模型。卡內基梅隆大學助理教授朱儁彥(未參與本研究)評論:「這項突破讓影片生成效率大幅提升,意味著更好的串流速度、更多互動應用,以及更低的碳足跡。」
研究團隊表示,未來透過特定領域資料集的訓練,CausVid有望為機器人與遊戲產業產出更高品質的影片內容,甚至實現即時生成的終極目標。
[end]