MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention¶
会议: CVPR 2026
arXiv: 2603.01361
代码: GitHub
领域: 分割 / 裂缝分割
关键词: 裂缝分割, 混合架构, Mamba注意力解耦, 方向引导边缘卷积, 轻量高效
一句话总结¶
提出 MixerCSeg,通过解析 Mamba 的隐式注意力机制将通道解耦为全局/局部分支,分别用 Self-Attention 和 CNN 增强,配合方向引导边缘门控卷积,以 2.05 GFLOPs / 2.54M 参数实现裂缝分割 SOTA。
研究背景与动机¶
裂缝分割是基础设施健康监测的关键技术,但面临裂缝形态多样、纹理分布不均、与背景对比度低等挑战。现有三类架构各有短板:
- CNN:局部特征提取强但全局建模不足,难以处理复杂形态
- Transformer:全局依赖建模强但计算开销大
- Mamba:线性复杂度的全局关注,但逐步处理机制限制了单次前向中的全局上下文利用
现有混合模型(MambaVision, RestorMixer)简单堆叠不同架构而未深入分析其内在交互逻辑。本文的核心洞察:Mamba 的隐式注意力在通道维度上自然分化为全局通道和局部通道(通过分析 \(\Delta_t\) 发现),可据此有针对性地分配 CNN、Transformer、Mamba 各司其职。
方法详解¶
整体框架¶
MixerCSeg 要解决的是裂缝分割里"形态多样、对比度低、还得轻量部署"这组矛盾。整体是一个编码器-解码器结构:输入先过 Stem 层,再由若干 TransMixer Block 逐级提取多尺度特征 \(\{F_1, F_2, F_3, F_4\}\);这些特征经 DEGConv 注入方向与边缘先验后,由 SRF 模块以高分辨率细节引导低分辨率语义完成融合,最后交给分割头输出像素级裂缝掩码。整条链路的核心思路是"让 CNN、Transformer、Mamba 各管各擅长的通道",而不是把它们简单堆在一起。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["输入裂缝图像"] --> B["Stem 层"]
B --> TM
subgraph TM["TransMixer Block(顺 Δt 解耦通道)"]
direction TB
M["Mamba 输出 Y<br/>按 Δt 沿通道排序"]
M -->|"top d·γ 全局通道"| G["全局分支<br/>Self-Attention 补远程依赖"]
M -->|"其余 d·(1−γ) 局部通道"| L["局部分支<br/>Local Refinement 抠细节"]
end
TM --> F["多尺度特征 F1–F4"]
F --> D["DEGConv<br/>方向直方图门控边缘卷积"]
D --> S["SRF 融合<br/>高分辨率细节引导低分辨率语义"]
S --> H["分割头 → 像素级裂缝掩码"]
关键设计¶
1. TransMixer Block:顺着 Mamba 的 \(\Delta_t\) 把通道解耦成全局/局部两支
混合架构的老问题是"无脑堆叠"——MambaVision、RestorMixer 把不同模块串起来却没分析它们到底在干什么。本文先跑一遍标准 Mamba(Eq.1-2)得到输出 \(Y\),再用 \(\Delta_t\)(控制历史 token 对当前 token 影响程度的因子)当作"全局/局部"的判据沿通道维度排序:\(\Delta_t\) 大的通道衰减快、更关注当前帧,取 top \(d_g = d \cdot \gamma\) 个作为全局 token,其余 \(d_l = d \cdot (1-\gamma)\) 作为局部 token(默认 \(\gamma = 0.5\))。
全局分支送进 Self-Attention 补远程依赖,局部分支走 Local Refinement Module(Norm → Reshape → MaxPool2d → Conv \(1\times1\) → Sigmoid 门控 → 与原特征相乘)抠细粒度细节。这样三种架构是"各司其职"而非"简单堆叠"——消融里它确实比 MambaVision/RestorMixer 这类堆叠方式更有效。
2. Direction-guided Edge Gated Convolution:把裂缝走向当先验显式建进卷积
裂缝是细长、有明确走向的结构,普通各向同性卷积感知不到方向。DEGConv 分三步注入方向先验:(a) Rearrange——把特征图切成 \(N\) 个不重叠的局部视图 \(F_i^j \in \mathbb{R}^{C_i \times h_i \times w_i}\) 独立处理;(b) 方向嵌入生成——每个视图沿通道平均后用 Sobel 算子算水平/垂直梯度,\(\theta = \arctan(d_y/d_x)\) 得方向弧度,按 cell 和 bin 构建方向直方图,再经 Conv + ReLU + AvgPool 压成方向嵌入向量 \(\epsilon \in \mathbb{R}^{C_i}\);(c) 门控边缘卷积——\(g = \sigma_2(\text{EdgeConv}(F_i^j + \epsilon))\),\({F_i^j}' = g \odot \text{EdgeConv}(F_i^j)\),其中 EdgeConv 用 \(1 \times k\) 和 \(k \times 1\) 条形卷积分别提水平/垂直特征后拼接+深度卷积。方向直方图把"裂缝朝哪走"显式喂给门控,对不规则几何的感知比纯卷积强。
3. Spatial Refinement Multi-Level Fusion:用高分辨率细节引导低分辨率语义融合
多尺度特征直接拼接,高分辨率的边缘细节容易被低分辨率语义淹没。SRF 改用高分辨率特征 \(F_1'\) 生成空间注意力图 \(\alpha = \sigma_2(\text{Conv}_{1\times1}(F_1'))\),对上采样后的低分辨率特征逐点加权 \(F_i'' = \alpha \odot F_i^{up}\),最后拼接所有尺度送入分割头 \(r = \mu([F_1^{up}; F_2^{up}; F_3^{up}; F_4^{up}])\)。它本质是让细节图当"门"去校准语义图,且不额外增加计算量。
损失函数 / 训练策略¶
- BCE + Dice Loss,比例 1:5
- 单卡 NVIDIA A100,50 epochs,batch size=1
- AdamW 优化器,初始 lr=5e-4
- 输入尺寸 512×512
- 关键超参数:\(\gamma=0.5\), cell size=(8,8), bin 数 \(n=180\)(Crack500 用 36,因裂缝曲率平滑、宽度大)
实验关键数据¶
主实验¶
| 数据集 | 指标 (mIoU) | MixerCSeg | 次优方法 | 提升 |
|---|---|---|---|---|
| DeepCrack | mIoU | 0.9151 | 0.9022 (SCSegamba) | +1.43% |
| CamCrack789 | mIoU | 0.8409 | 0.8372 (U-Net) | +0.44% |
| CrackMap | mIoU | 0.8123 | 0.8094 (SCSegamba) | +0.36% |
| Crack500 | mIoU | 0.7824 | 0.7778 (SCSegamba) | +0.59% |
| DeepCrack | F1 | 0.9205 | 0.9110 (SCSegamba) | +1.04% |
| 模型 | FLOPs (G) | Params (M) | Memory (MiB) |
|---|---|---|---|
| MixerCSeg | 2.05 | 2.54 | 1190 |
| SCSegamba | 18.16 | 2.80 | 2206 |
| RestorMixer | 98.71 | 3.19 | 10384 |
| MambaVision | 642.86 | 13.57 | 5222 |
消融实验¶
| 配置 | DeepCrack mIoU | CamCrack mIoU | 说明 |
|---|---|---|---|
| Baseline (VMamba+Segformer) | 0.8826 | 0.8283 | 无额外模块 |
| + TransMixer | 0.9016 | 0.8359 | 编码器增强显著 |
| + DEGConv | 0.9097 | 0.8381 | 方向边缘建模 |
| + SRF | 0.9151 | 0.8409 | 多尺度融合完善 |
关键发现¶
- MixerCSeg 比 SCSegamba FLOPs 降低 88.7%,同时 mIoU 更高——效率优势极为显著
- TransMixer 比简单堆叠方式 (MambaVision、RestorMixer) 更有效,验证了"基于注意力特性解耦"优于"无脑堆叠"
- \(\gamma = 0.5\)(全局/局部各半)是最优的通道分配比例
- 方向嵌入中 bin 数需要根据数据集调整:复杂裂缝用 180 bins,平滑宽裂缝用 36 bins
- 内存仅 1190 MiB,适合边缘部署
亮点与洞察¶
- 从机理分析出发的架构设计:不是凭直觉混合架构,而是通过分析 Mamba 的 \(\Delta_t\) 注意力权重发现通道级别的全局/局部分化现象,据此有理有据地分配角色
- 方向嵌入引入了裂缝分割特有的先验知识(Sobel → 方向直方图 → 嵌入),增强了对不规则几何形状的感知
- 极致轻量:2.05 GFLOPs + 2.54M 参数,比大多数方法小一到两个数量级,但性能最优
- SRF 通过高分辨率特征引导融合而非简单拼接,计算成本不增加
局限与展望¶
- 仅在裂缝分割任务上验证,是否适用于通用语义分割(如 Cityscapes)需要验证
- DEGConv 的空间块划分策略可能导致块边界处的不连续,虽然后接了一层 EdgeConv 缓解
- 方向直方图的 bin 数需要手动调整(不同数据集不同),缺乏自适应机制
- 训练 batch size=1 可能限制了 BatchNorm 层的效果
相关工作与启发¶
- SCSegamba:Mamba 用于裂缝分割的先驱,设计结构感知扫描策略
- MambaVision:首个 Mamba-Transformer 混合视觉 backbone,但简单堆叠
- RestorMixer:CNN+Transformer+Mamba 用于图像修复,同样缺乏对架构交互的深入分析
- 启发:从模型内部注意力机制出发设计架构(而非凭直觉拼接),是更有原则的混合策略
评分¶
- 新颖性: ⭐⭐⭐⭐ 基于 Mamba 隐式注意力分析的通道解耦是新颖且有理论依据的设计
- 实验充分度: ⭐⭐⭐⭐ 4 个数据集、7 种 SOTA 对比、完整消融和效率分析
- 写作质量: ⭐⭐⭐⭐ 图表清晰,从理论分析到架构设计的推导链完整
- 价值: ⭐⭐⭐⭐ 在裂缝分割这一实际应用中实现了效率与精度的优秀权衡,轻量设计有部署价值