跳转至

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

会议: CVPR 2026
arXiv: 2603.01361
代码: GitHub
领域: 分割 / 裂缝分割
关键词: 裂缝分割, 混合架构, Mamba注意力解耦, 方向引导边缘卷积, 轻量高效

一句话总结

提出 MixerCSeg,通过解析 Mamba 的隐式注意力机制将通道解耦为全局/局部分支,分别用 Self-Attention 和 CNN 增强,配合方向引导边缘门控卷积,以 2.05 GFLOPs / 2.54M 参数实现裂缝分割 SOTA。

研究背景与动机

裂缝分割是基础设施健康监测的关键技术,但面临裂缝形态多样、纹理分布不均、与背景对比度低等挑战。现有三类架构各有短板:

  • CNN:局部特征提取强但全局建模不足,难以处理复杂形态
  • Transformer:全局依赖建模强但计算开销大
  • Mamba:线性复杂度的全局关注,但逐步处理机制限制了单次前向中的全局上下文利用

现有混合模型(MambaVision, RestorMixer)简单堆叠不同架构而未深入分析其内在交互逻辑。本文的核心洞察:Mamba 的隐式注意力在通道维度上自然分化为全局通道和局部通道(通过分析 \(\Delta_t\) 发现),可据此有针对性地分配 CNN、Transformer、Mamba 各司其职。

方法详解

整体框架

编码器-解码器结构:输入经 Stem 层后由 TransMixer Block 提取多尺度特征 \(\{F_1, F_2, F_3, F_4\}\) → DEGConv 增强边缘和方向感知 → SRF 模块多尺度融合 → 分割头输出像素级结果。

关键设计

  1. TransMixer Block:首先执行标准 Mamba 操作(Eq.1-2)获得输出 \(Y\),然后根据 \(\Delta_t\)(控制历史 token 对当前 token 影响程度的因子)沿通道维度排序,选择 top \(d_g = d \cdot \gamma\) 个为全局 token\(\Delta_t\) 大,衰减快,更关注当前帧),其余 \(d_l = d \cdot (1-\gamma)\)局部 token。全局分支送入 Self-Attention 增强远程依赖;局部分支送入 Local Refinement Module(Norm → Reshape → MaxPool2d → Conv \(1\times1\) → Sigmoid 门控 → 与原特征相乘)增强细粒度细节。默认 \(\gamma = 0.5\)。这种设计让三种架构"各司其职"而非"简单堆叠"。

  2. Direction-guided Edge Gated Convolution (DEGConv):分为三步:(a) Rearrange:将特征图划分为 \(N\) 个不重叠的局部视图 \(F_i^j \in \mathbb{R}^{C_i \times h_i \times w_i}\),独立处理;(b) 方向嵌入生成:对每个视图沿通道平均 → Sobel 算子计算水平/垂直梯度 → \(\theta = \arctan(d_y/d_x)\) 得方向弧度 → 划分 cell 和 bin 构建方向直方图 → 经 Conv + ReLU + AvgPool 得方向嵌入向量 \(\epsilon \in \mathbb{R}^{C_i}\);(c) 门控边缘卷积\(g = \sigma_2(\text{EdgeConv}(F_i^j + \epsilon))\), \({F_i^j}' = g \odot \text{EdgeConv}(F_i^j)\)。EdgeConv 使用 \(1 \times k\)\(k \times 1\) 条形卷积分别提取水平/垂直方向特征后拼接+深度卷积。通过方向先验显式建模裂缝走向。

  3. Spatial Refinement Multi-Level Fusion (SRF):用高分辨率特征 \(F_1'\) 生成空间注意力图 \(\alpha = \sigma_2(\text{Conv}_{1\times1}(F_1'))\),对上采样后的低分辨率特征加权 \(F_i'' = \alpha \odot F_i^{up}\),最后拼接所有尺度特征送入分割头 \(r = \mu([F_1^{up}; F_2^{up}; F_3^{up}; F_4^{up}])\)。用高分辨率细节引导低分辨率语义融合,不增加额外计算。

损失函数 / 训练策略

  • BCE + Dice Loss,比例 1:5
  • 单卡 NVIDIA A100,50 epochs,batch size=1
  • AdamW 优化器,初始 lr=5e-4
  • 输入尺寸 512×512
  • 关键超参数:\(\gamma=0.5\), cell size=(8,8), bin 数 \(n=180\)(Crack500 用 36,因裂缝曲率平滑、宽度大)

实验关键数据

主实验

数据集 指标 (mIoU) MixerCSeg 次优方法 提升
DeepCrack mIoU 0.9151 0.9022 (SCSegamba) +1.43%
CamCrack789 mIoU 0.8409 0.8372 (U-Net) +0.44%
CrackMap mIoU 0.8123 0.8094 (SCSegamba) +0.36%
Crack500 mIoU 0.7824 0.7778 (SCSegamba) +0.59%
DeepCrack F1 0.9205 0.9110 (SCSegamba) +1.04%
模型 FLOPs (G) Params (M) Memory (MiB)
MixerCSeg 2.05 2.54 1190
SCSegamba 18.16 2.80 2206
RestorMixer 98.71 3.19 10384
MambaVision 642.86 13.57 5222

消融实验

配置 DeepCrack mIoU CamCrack mIoU 说明
Baseline (VMamba+Segformer) 0.8826 0.8283 无额外模块
+ TransMixer 0.9016 0.8359 编码器增强显著
+ DEGConv 0.9097 0.8381 方向边缘建模
+ SRF 0.9151 0.8409 多尺度融合完善

关键发现

  • MixerCSeg 比 SCSegamba FLOPs 降低 88.7%,同时 mIoU 更高——效率优势极为显著
  • TransMixer 比简单堆叠方式 (MambaVision、RestorMixer) 更有效,验证了"基于注意力特性解耦"优于"无脑堆叠"
  • \(\gamma = 0.5\)(全局/局部各半)是最优的通道分配比例
  • 方向嵌入中 bin 数需要根据数据集调整:复杂裂缝用 180 bins,平滑宽裂缝用 36 bins
  • 内存仅 1190 MiB,适合边缘部署

亮点与洞察

  • 从机理分析出发的架构设计:不是凭直觉混合架构,而是通过分析 Mamba 的 \(\Delta_t\) 注意力权重发现通道级别的全局/局部分化现象,据此有理有据地分配角色
  • 方向嵌入引入了裂缝分割特有的先验知识(Sobel → 方向直方图 → 嵌入),增强了对不规则几何形状的感知
  • 极致轻量:2.05 GFLOPs + 2.54M 参数,比大多数方法小一到两个数量级,但性能最优
  • SRF 通过高分辨率特征引导融合而非简单拼接,计算成本不增加

局限与展望

  • 仅在裂缝分割任务上验证,是否适用于通用语义分割(如 Cityscapes)需要验证
  • DEGConv 的空间块划分策略可能导致块边界处的不连续,虽然后接了一层 EdgeConv 缓解
  • 方向直方图的 bin 数需要手动调整(不同数据集不同),缺乏自适应机制
  • 训练 batch size=1 可能限制了 BatchNorm 层的效果

相关工作与启发

  • SCSegamba:Mamba 用于裂缝分割的先驱,设计结构感知扫描策略
  • MambaVision:首个 Mamba-Transformer 混合视觉 backbone,但简单堆叠
  • RestorMixer:CNN+Transformer+Mamba 用于图像修复,同样缺乏对架构交互的深入分析
  • 启发:从模型内部注意力机制出发设计架构(而非凭直觉拼接),是更有原则的混合策略

评分

  • 新颖性: ⭐⭐⭐⭐ 基于 Mamba 隐式注意力分析的通道解耦是新颖且有理论依据的设计
  • 实验充分度: ⭐⭐⭐⭐ 4 个数据集、7 种 SOTA 对比、完整消融和效率分析
  • 写作质量: ⭐⭐⭐⭐ 图表清晰,从理论分析到架构设计的推导链完整
  • 价值: ⭐⭐⭐⭐ 在裂缝分割这一实际应用中实现了效率与精度的优秀权衡,轻量设计有部署价值