AI視覺推理的幻覺危機:新指標揭密多模態模型的出錯模式
近十年來,電腦科學家開發出愈來愈先進的機器學習模型,在各種任務上都展現驚人表現。其中多模態大型語言模型(MLLMs)能處理和生成文字、圖片、影片等多種資料形式。像是OpenAI的GPT-4V、DeepSeek-R1和Google Gemini等模型,已被全球使用者廣泛運用於社群媒體圖文創作等多元場景。
儘管這些模型的數學與邏輯推理能力大幅提升,但研究發現它們常會產生與輸入資料不符的「幻覺」回應。例如在描述圖片時,憑空捏造不存在的細節。這種現象被歸因於模型訓練時從大量文本資料中吸收的語言先驗和內在偏見,這些偏見可能壓過輸入的視覺資訊,導致模型錯誤完成任務。
由加州大學聖塔克魯茲分校、史丹佛大學和加州大學聖塔芭芭拉分校組成的研究團隊,近期開發出新型指標和診斷基準,專門用來研究MLLMs在圖片描述任務中,推理能力與幻覺傾向的關聯性。這項發表在arXiv預印本平台的研究工具,將有助評估和改進多模態模型的發展。
研究人員劉承志、徐中興與其團隊在論文中指出:「測試階段的運算能力讓MLLMs能產生理論推理鏈,在多模態數學推理等任務表現出色。但隨著生成內容變長,模型容易偏離圖像基礎內容,過度依賴語言先驗,導致幻覺增加。」
團隊首先評估MLLMs在複雜推理任務的表現,發現當推理鏈(解決問題所需的邏輯步驟序列)愈長,模型產生幻覺的傾向就愈明顯。注意力機制分析顯示,過長的推理鏈會分散模型對視覺輸入的關注度,進而引發幻覺。
為系統化研究此現象,團隊提出RH-AUC指標,量化模型感知準確度隨推理長度的變化,並釋出RH-Bench診斷基準,涵蓋多種多模態任務,專門評估推理能力與幻覺之間的權衡關係。這些工具可協助其他研究者評估特定MLLMs的推理能力與幻覺風險的交互作用。
研究發現:「較大型模型通常能在推理與感知間取得更好平衡,而這種平衡更多取決於訓練資料的類型和領域,而非總量大小。」這項發現凸顯同時考量推理品質與感知忠實度的評估框架的重要性。
[end]