仿生AI突破!Lp卷積技術讓機器視覺更貼近人腦運作
由韓國基礎科學研究院、延世大學和德國馬克斯普朗克研究所組成的跨國研究團隊,最近開發出一項革命性的人工智慧技術「Lp卷積」,這項技術讓人造視覺系統首次能像人類大腦般靈活處理影像資訊。
傳統的卷積神經網路(CNN)雖然是目前影像辨識的主流技術,但其採用固定大小的方形濾波器,在處理破碎化資料時往往捉襟見肘。而近年興起的視覺轉換器(ViT)雖然表現優異,卻需要耗費龐大運算資源,在實際應用上窒礙難行。
研究團隊從大腦視覺皮質的運作方式獲得靈感,開發出這項創新的Lp卷積技術。該技術採用多元p廣義常態分佈(MPND),能讓AI模型根據任務需求動態調整濾波器形狀,就像人腦會自動聚焦在影像中的重要細節一樣。
這項突破性技術成功解決了AI領域長期存在的「大核問題」——傳統CNN單純增加濾波器尺寸(如使用7×7或更大的核)往往無法提升效能。Lp卷積透過引入仿生連結模式,讓AI系統能在保持高效運算的同時,大幅提升辨識準確度。
在CIFAR-100和TinyImageNet等標準影像分類資料集的測試中,Lp卷積無論是在AlexNet等經典模型,或是RepLKNet等現代架構上都展現出顯著的準確度提升。更令人驚豔的是,這項技術對資料損毀具有極強的魯棒性,這在現實世界的AI應用中至關重要。
研究還發現,當Lp遮罩呈現高斯分佈時,AI的內部處理模式與生物神經活動高度吻合。這項發現不僅驗證了技術的仿生特性,更為理解人腦視覺處理機制提供了新線索。
「人類能在複雜場景中快速鎖定關鍵資訊,」韓國基礎科學研究院認知與社會性研究中心主任李博士表示,「我們的Lp卷積技術成功模擬了這種能力,讓AI能像人腦一樣靈活聚焦影像重點。」
這項研究不僅為AI開闢了新方向,更在神經科學領域具有重要意義。研究團隊已將相關程式碼和模型公開在GitHub和OpenReview.net平臺,並將在2025年國際學習表徵大會(ICLR)上發表完整研究成果。
展望未來,研究團隊計劃將這項技術進一步最佳化,探索其在數獨解題等複雜推理任務,以及即時影像處理等領域的應用潛力。這項突破可望為醫療影像分析、自動駕駛、智慧監控等領域帶來革命性進展。
[end]