近日,電子工程學院王智文教授團隊在計算機科學領域頂級期刊Engineering Applications of Artificial Intelligence(中科院一區top期刊,IF=8)發表題為Max-Min Pooling and Squeeze Excitation Lightweight Bidirectional Mamba for image classification的學術論文。該論文第一作者為計算機科學與技術學院(軟件學院)2023級碩士研究生池森林,電子工程學院王智文教授為通訊作者。這是該項目團隊近期在國際計算機科學領域頂級期刊發表的又一力作。

為了解決 Transformer 模型二次計算復雜度、執行速度慢和內存消耗高帶來的挑戰,團隊提出了一種新穎的圖像分類方法:最大最小池化和擠壓激勵輕量級雙向Mamba(MMPSELMamba)。核心創新包括:(1)團隊設計了一種最大-最小池化機制,通過最大池化協同保留高激活前景特征,通過最小池化保留低強度上下文細節。該方法解決了傳統單模池化方法中的信息丟失問題;(2)受擠壓增強型Transformer(SeaFormer)的啟發,團隊設計了一種軸向擠壓激勵模塊,該模塊沿垂直和水平維度壓縮冗余特征,同時增強判別性特征細化;(3)基于序列建模的最新進展,團隊用基于狀態空間模型(SSM)的雙向Mamba架構,實現遠程依賴模型的線性復雜度;(4) 團隊提出的多尺度集成單元結合了上采樣、串聯和下采樣操作來優化特征融合,同時最大限度地減少計算開銷。對于工程應用,MMPSELMamba專為資源受限的環境(例如邊緣設備和移動視覺系統)而設計。通過集成深度可分離卷積和輕量級 SSM 運算,與SeaFormer相比,實現了36%的參數減少和16%的計算負載,同時保持了有競爭力的精度。在公共數據集上的實驗驗證了其部署在自主無人機和嵌入式監控等現實場景中極具潛力。

雙向Mamba結構

論文的技術方案
文章信息:
Senlin Chi, Zhiwen Wang*, Lianyuan Jang, Mengsi Gong. Max-Min Pooling and Squeeze Excitation Lightweight Bidirectional Mamba for image classification.Engineering Applications of Arti?cial Intelligence 162 (2025) 112246. https://doi.org/10.1016/j.engappai.2025.112246
文章鏈接:
https://doi.org/10.1016/j.engappai.2025.112246