突破性視覺革命!AI模擬人腦運作 全新Lp卷積技術問世
韓國基礎科學研究院(IBS)、延世大學與馬克斯普朗克研究所的跨國研究團隊,在2025年國際學習表徵會議(ICLR)上發表了一項劃時代的人工智慧技術——Lp卷積法。這項突破讓機器視覺系統首次能像人類大腦般靈活處理視覺資訊。
現有的卷積神經網路(CNN)雖是影像辨識的主流技術,卻受限於固定大小的方形濾波器設計,難以有效捕捉複雜場景中的關鍵特徵。而近年表現優異的視覺轉換器(ViT)又因需要龐大運算資源,難以實際應用。
研究團隊從人腦視覺皮質獲得靈感,開發出創新的Lp卷積技術。這項技術運用多元p廣義常態分佈(MPND),讓AI模型能像人腦一樣動態調整濾波器形狀,根據任務需求水平或垂直延伸,專注於影像中最相關的細節。
這項突破成功解決了AI領域長期存在的「大核問題」——傳統方法單純增加濾波器尺寸(如7×7或更大)往往無法提升效能。Lp卷積透過生物啟發的彈性連線模式,在CIFAR-100和TinyImageNet等標準測試資料集上,無論是經典的AlexNet或現代的RepLKNet架構,都顯著提高了準確度。
更令人振奮的是,當Lp遮罩呈現高斯分佈時,AI的內部處理模式與小鼠大腦的神經活動高度吻合。IBS認知與社會性研究中心主任李宰賢博士表示:「就像人類能快速在複雜場景中鎖定重點,我們的Lp卷積讓AI具備同樣的靈活聚焦能力。」
這項技術不僅運算效率高,對資料損壞也展現極強韌性,可望在自動駕駛、醫學影像診斷、工業檢測等領域帶來革命性應用。研究團隊已公開程式碼與模型,並計劃進一步探索其在解謎遊戲(如數獨)和即時影像處理等複雜推理任務的潛力。
參考資料:
《基於大腦啟發的Lp卷積:提升大核效能並更好對齊視覺皮質》
作者:權宰、林成俊、宋慶宇、李宰賢
發表於:2025年3月11日,ICLR 2025會議
程式碼開源:https://github.com/jeakwon/lpconv/
資金來源:韓國基礎科學研究院