當前位置:
首頁 > 科技 > 香港理工大學突破性AI技術:VideoMind模擬人類思維解析長影片

香港理工大學突破性AI技術:VideoMind模擬人類思維解析長影片

在全球人工智慧技術飛速發展的當下,解析長影片內容仍是AI面臨的重大挑戰。香港理工大學研發團隊近日發表創新的「VideoMind」影片語言代理系統,透過模擬人類思維模式,成功突破長影片理解與問答的技術瓶頸。

這項研究採用獨特的「低秩適應鏈」(Chain-of-LoRA)策略,能大幅降低運算資源需求,推動生成式AI在影音分析領域的實際應用。相關論文已提交至國際頂尖AI學術會議。

影片資料不同於靜態影像,特別是超過15分鐘的長片內容,包含時序性的事件發展、因果關係與場景轉換等複雜資訊。傳統AI模型不僅需要辨識畫面中的物件,更要理解這些元素隨時間的變化脈絡,這些特性導致處理長影片需要驚人的運算能力與記憶體資源。

研究團隊由理工大學計算機與數學科學院署理院長、視覺計算講座教授陳昌文帶領,透過模擬人類觀影的認知過程,設計出角色導向的工作流程。VideoMind框架包含四種專業角色:

這種漸進式分析架構,有效解決多數AI模型面臨的「時間基礎推理」難題。團隊更首創將四組輕量級LoRA介面卡整合於單一模型,每組介面卡對應特定角色功能,使模型能動態切換運算模式,既提升效率又避免部署多模型的成本。

目前VideoMind已在GitHub與Huggingface平臺開源,相關技術細節與14項基準測試結果均公開於arXiv預印本伺服器。在平均27分鐘影片的挑戰性任務中,其定位準確度超越包括GPT-4o與Gemini 1.5 Pro在內的頂尖模型。

值得注意的是,團隊測試的20億引數輕量版VideoMind,表現已可媲美其他70億引數模型。陳教授解釋:「人類大腦僅需約25瓦功率就能流暢解析影片,這種高效能啟發我們設計角色化工作流程,配合LoRA鏈策略最大限度降低AI的運算需求。」

VideoMind基於開源模型Qwen2-VL打造,搭配最佳化工具降低技術門檻。陳教授強調,這項技術不僅突破AI影片處理極限,其模組化、可擴充套件的架構,更將推動智慧監控、運動娛樂分析、影音搜尋引擎等多元應用發展。

[end]