AKCMamba-YOLO: Selective State Space Models For Real-Time Object Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/xlllchen/AKCMamba_YOLO （有）
领域: 实时目标检测
关键词: YOLO, 状态空间模型, Mamba, 自适应核卷积, 多尺度特征融合

一句话总结¶

本文把选择性状态空间模型（Mamba/SSM）和自适应核卷积塞进 YOLOv8，用 3CAKCMamba / 4CAKCMamba 两个模块替换主干和颈部的 C2f 块，在保持 YOLO 线性复杂度、实时速度的同时补上卷积"看不远"的短板，COCO2017 上以 14.9G FLOPs 拿到 46.3% mAP（比 YOLOv8-S 高 1.4%、FLOPs 省 47.9%）。

研究背景与动机¶

领域现状：YOLO 系列从 v4 一路演进到 v11，靠纯卷积设计把实时检测的精度-速度平衡做到了极致，是工业部署的事实标准。但卷积有个绕不过去的物理特性——感受野是局部的。

现有痛点：局部感受野让 YOLO 在需要全局推理的复杂场景里吃亏：多尺度目标、严重遮挡、长程依赖（比如要把空间上分离但语义相关的物体联系起来）。这些场景下纯卷积只能靠堆深度间接扩大感受野，效率低且容易丢小目标。

核心矛盾：想要全局建模能力，最直接的办法是上 Transformer 自注意力，但自注意力对输入尺寸是二次复杂度，计算开销和延迟在实时检测里直接劝退。于是矛盾就卡在这里：既要卷积网络的高速低复杂度，又要 Transformer 的全局表征能力，两者似乎不可兼得。

切入角度：Mamba 这类选择性状态空间模型（SSM）提供了第三条路——它用输入相关的选择机制 + 线性时间的递归形式实现长序列建模，复杂度是线性的，已经在语言和图像分类上证明了全局建模能力。作者的关键问题是：能不能把选择性 SSM 嵌进 YOLO，在不牺牲实时性的前提下补上全局上下文这块短板？

核心 idea：设计两个"内容感知"模块 3CAKCMamba（主干用）和 4CAKCMamba（颈部用），整体替换 YOLOv8 的 C2f 块。每个模块把自适应核卷积（局部、动态采样）、AKSS2D（四向扫描 + 选择性 SSM 的长程建模）、AKCAttention（自适应特征重标定）三件套串成一体，实现从"静态局部卷积"到"动态序列建模"的范式切换。

方法详解¶

整体框架¶

AKCMamba-YOLO 建立在 YOLOv8 框架之上，输入 640×640 图像，输出多尺度检测框。它的改造很"外科手术"：不动 YOLOv8 的整体拓扑（主干—颈部—检测头），只把主干里的 C2f 块换成 3CAKCMamba 模块、把颈部的 C2f 块换成 4CAKCMamba 模块。这两个模块内部都由同一套底层组件搭成——AKCBlock 作基本单元、3CAKC/4CAKC 做多尺度局部特征提取、AKSS2D 做长程依赖建模、AKCAttention 做特征重标定。直觉上：3CAKC/4CAKC 负责"看清细节并适配不规则形状"，AKSS2D 负责"看得远、把全局上下文捞回来"，AKCAttention 负责"把有用的特征放大、冗余的压下去"，三者顺序叠加就构成一个既会看局部又会看全局的检测块。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 640×640"] --> B["AKConv 自适应核卷积<br/>可学习采样偏移→适配不规则形状"]
    B --> C["AKSS2D 四向扫描 SSM<br/>线性复杂度长程建模"]
    C --> D["AKCAttention 自适应重标定<br/>SE 注意力放大有用特征"]
    D --> E["3CAKCMamba / 4CAKCMamba<br/>三件套整合替换 C2f"]
    E -->|主干 3CAKCMamba| F["检测头<br/>多尺度框预测"]
    E -->|颈部 4CAKCMamba| F

关键设计¶

1. AKConv 自适应核卷积：让卷积核形状跟着目标长

标准卷积的采样位置是固定网格，对形状千变万化的目标（细长的风筝线、不规则的鸟巢）天然不友好，而且想扩大核就得付出参数二次增长的代价。AKConv（AKCBlock 的核心算子）改成可学习采样形状：在初始坐标 \(P_n\) 上加一组学到的偏移 \(\Delta P_n\)，得到自适应采样点 \(\hat P_n = P_n + \Delta P_n\)，位置 \(p_0\) 处的卷积变成 \(\text{AKConv}(p_0)=\sum_{n=1}^{N} w_n \cdot X(p_0+\hat P_n)\)。这样采样点能主动贴合不规则结构，且参数随核大小线性增长而非二次。AKCBlock 在此基础上加了动态短路机制——根据条件在残差连接 \(\omega(\omega(\text{AKConv}(z_{l-1})))\oplus z_{l-1}\) 和直连输出之间自适应切换（\(\omega\) 是 1×1 卷积做通道对齐），兼顾网络灵活性和训练稳定性。3CAKC / 4CAKC 则把 AKCBlock 堆成三层 / 四层的多尺度提取流水线（4CAKC 比 3CAKC 多一层卷积变换，做更深的特征加工），都用残差连接缓解梯度消失。

2. AKSS2D 四向扫描状态空间模块：用线性复杂度补全局视野

这是补"看不远"短板的核心。SSM 把一维序列 \(x(t)\) 经隐状态 \(h(t)\) 映射到输出 \(y(t)\)，连续形式为 \(h'(t)=Ah(t)+Bx(t),\ y(t)=Ch(t)\)；离散化（零阶保持）后写成 \(h_k=\bar A h_{k-1}+\bar B x_k,\ y_k=Ch_k\)，其中 \(\bar A=\exp(\Delta A)\)、\(\bar B=(\Delta A)^{-1}(\exp(\Delta A)-I)\cdot\Delta B\)，\(\Delta\) 是时间尺度参数。Mamba 的关键是选择机制——让 \(B,C,\Delta\) 变成输入相关，从而做上下文感知的内容过滤；输出也可写成全局卷积 \(y=x*K\)，\(K=(C\bar B, C\bar A\bar B,\dots,C\bar A^{N-1}\bar B)\) 是结构化卷积核。但 SSM 本是为一维序列设计的，图像是二维，怎么扫是关键。AKSS2D 用 S6 块（选择性 SSM） 配合四向扫描：把特征图沿四个对角方向（左上→右下、左下→右上、右下→左上、右上→左下）展开成序列，分别过 S6 块做选择性建模，再把四个方向的输出求和、reshape 回原始空间尺寸。四向扫描保证空间覆盖完整，避免单向扫描的方向偏置；扫描前先用 AKConv 做特征适配 \(z_l=\text{LN}(\text{AKConv}(z_{l-1}))\)。整个过程线性复杂度，这正是它相比自注意力能"看得远又不拖慢实时性"的根本原因。

3. AKCAttention 自适应特征重标定：把扫回来的全局特征做一次精选

长程建模捞回了全局上下文，但里面混着冗余。AKCAttention 在 AKConv 提取的特征上接一个 squeeze-and-excitation 风格的空间-通道注意力 \(\text{SeA}\)：\(z_l=\text{SeA}(\omega(\omega(\text{AKConv}(z_{l-1})))\oplus z_{l-1})\)（同样带可切换的残差），根据通道间依赖重新标定每个通道的重要性，放大关键特征、抑制冗余信息。消融里它在 Railway 数据集上比 SE、CBAM、MHA 都好，且 FPS（29.2）反而高于多头注意力（26.9）——因为它把重标定和自适应卷积融在一起，用很小的开销实现了更精准的特征选择。

4. 3CAKCMamba / 4CAKCMamba 整合模块：把三件套拼成一个可直接替换 C2f 的检测块

前三个设计是零件，这一步把它们装成整机。3CAKCMamba 的处理流写成 \(z_l=\psi(\text{LN}(\phi(\text{LN}(\text{3CAKC}(\omega(z_{l-1}))))\oplus\omega(z_{l-1})))\)，其中 \(\phi\) 是 AKSS2D、\(\psi\) 是 AKCAttention——即"局部提取（3CAKC）→ 长程建模（AKSS2D）→ 自适应选择（AKCAttention）"顺序串联，外面套残差。4CAKCMamba 结构同理，只是把 3CAKC 换成更深的 4CAKC，用在颈部做更强的多尺度融合与特征重组。主干用 3CAKCMamba 做深层特征挖掘 + 跨层语义融合，颈部用 4CAKCMamba 增强通道交互、聚合多尺度上下文，二者都即插即换地顶替原 C2f，既保留 YOLOv8 的工程优势又注入了全局建模能力。

损失函数 / 训练策略¶

完全沿用 YOLOv8 的检测损失：box loss 权重 7.5、cls loss 0.5、DFL loss 1.5。基于 YOLOv8 训练 500 epoch，batch size 32，SGD 优化器；3 epoch warm-up 后用恒定学习率 0.01（bias lr 0.1，momentum 0.8，weight decay 0.0005）。数据增强用 Mosaic（p=1.0）和 HSV 变换，输入固定 640×640。

实验关键数据¶

主实验¶

COCO2017 val 上和 YOLO 系列对比（精度 + 效率两条线都赢）：

模型	mAP	AP50	AP75	Params	FLOPs
YOLOv8-N	37.3	52.6	40.6	3.2M	8.7G
YOLOv8-S	44.9	61.8	48.6	11.2M	28.6G
DAMO YOLO-S	46.0	61.9	49.5	12.3M	37.8G
Mamba YOLO-T	45.4	62.3	49.1	6.1M	14.3G
OURS	46.3	63.1	51.4	9.1M	14.9G

关键对比：比 YOLOv8-S 高 +1.4% mAP，同时 FLOPs 省 47.9%；比同样用 SSM 的 Mamba YOLO-T 高 +0.9% mAP / +0.8% AP50 / +2.3% AP75，说明"主干+颈部都换 + 自适应核卷积 + 跨尺度融合"的更深整合确实有效。

工业/安全场景两个专用数据集（精度 % / FLOPs）：

数据集	指标	YOLOv8-S	YOLOv11	Mamba YOLO-T	OURS
Power Tower 异物	Precision / AP50 / AP50:95	90.3 / 83.9 / 70.1	92.3 / 86.1 / 71.8	92.1 / 86.3 / 71.3	92.8 / 86.9 / 72.5
Railway 行人	Precision / AP50 / AP50:95	94.6 / 97.2 / 74.2	94.8 / 97.1 / 75.1	94.8 / 97.1 / 75.1	95.1 / 97.4 / 75.5

在 Power Tower 上比 YOLOv8-S 提升 +2.5% precision / +3.0% AP50 / +2.4% AP50:95，且 FLOPs（14.9G）远低于 YOLOv11（40G）、YOLOv8-S（28.6G）。Railway 上绝对增益较小，但作者强调安全关键场景里每个检测都重要。

消融实验¶

主干组件逐步叠加（Power Tower 数据集）：

3CAKC	AKSS2D	AKCAttention	Precision	AP50	AP50:95	FLOPs
×	×	×	89.7	83.3	67.4	8.7G
✓	×	×	87.2	88.1	70.5	9.5G
✓	✓	×	91.4	87.5	73.0	11.1G
✓	✓	✓	92.1	87.6	75.0	11.8G

注意力机制对比（Railway，YOLOv8 基线上替换）：

注意力	mAP	AP50	AP75	FPS
Baseline	93.2	95.1	73.7	28.6
+ SE	93.9	95.8	74.2	27.5
+ MHA	94.1	95.7	74.1	26.9
+ AKCAttention	94.3	95.9	74.3	29.2

关键发现¶

AKSS2D 是涨点主力：主干消融里加上 AKSS2D 后 AP50:95 从 70.5 → 73.0（+2.5%），验证选择性 SSM 对长程依赖的价值；计算效率表里它单独贡献 +1.3% mAP（C2f→AKSS2D），是三件套里增益最大的。
3CAKC 单独加时 precision 反而略降（89.7→87.2）但 AP50 大涨（83.3→88.1）：⚠️ 论文未细究这个 precision 回落，疑似自适应卷积单独使用时召回上升、精确率短暂波动，需补 AKSS2D / AKCAttention 才把 precision 拉回 92.1。
AKCAttention 性价比最高：FPS 不降反升（29.2 > 基线 28.6，也高于 MHA 26.9），因为它把重标定和自适应卷积融合，避免了多头注意力的密集计算开销。
整体开销可控：完整三件套相比 C2f 基线只增加 2.4M 参数、0.8ms 延迟，换来 1.6% mAP 提升。
Grad-CAM 可视化显示，遮挡场景下能推断被遮区域的轮廓形成完整响应、小目标聚焦信息密集区、长程场景下激活空间分离的物体——印证 SSM 的全局建模在定性上确实生效。

亮点与洞察¶

"外科手术式"集成：不重新设计架构，只把 C2f 精准替换成内容感知模块，最大化保留 YOLOv8 的工程成熟度和部署优势——这种"在成熟框架上做局部器官移植"的思路很容易迁移到别的检测器。
三件套的分工很清晰：局部（AKConv 适配形状）→ 全局（AKSS2D 线性长程）→ 精选（AKCAttention 重标定），每一步对应一个明确的能力缺口，不是为了堆模块而堆。
四向对角扫描把一维 SSM 适配到二维图像，是 SSM 视觉化的通用解法，可复用到分割、密集预测等任务。
顺手贡献了一个 2,975 张标注的铁路行人检测数据集，填补安全关键场景的评测资源。

局限与展望¶

绝对增益偏小：在 Railway / Power Tower 上相比 Mamba YOLO-T、YOLOv11 的领先多在 0.3~0.5% 量级，方法的边际收益是否值得额外复杂度，作者用"安全关键场景每个检测都重要"来辩护，但说服力有限。
⚠️ 消融中 3CAKC 单独使用 precision 下降未解释：从 89.7 掉到 87.2 这个反常现象论文一笔带过，缺乏机理分析。
FPS 数据不全：主表（Table 1-3）只报了 Params/FLOPs，没给端到端 FPS，只有注意力消融表里有 FPS，实时性的直接证据不够强（FLOPs 低不等于实际延迟低，尤其 SSM 的扫描算子在不同硬件上效率差异大）。
参数没省：相比 Mamba YOLO-T（6.1M），本文 9.1M 参数更大，只是 FLOPs 接近，移植到更受限的边缘设备时优势会缩水。

评分¶

新颖性: ⭐⭐⭐☆☆ 把 SSM + 自适应核卷积深度集成进 YOLO，思路扎实但属于"已知零件的更彻底组合"，与 Mamba YOLO 同源。
实验充分度: ⭐⭐⭐⭐☆ 三个数据集 + 主干/颈部/注意力/效率多维消融较完整，但主表缺端到端 FPS、个别反常现象未解释。
写作质量: ⭐⭐⭐⭐☆ 结构清晰、公式给全、图示丰富，可读性好。
价值: ⭐⭐⭐⭐☆ 工程实用，即插即换 C2f + 开源 + 新数据集，对实时检测落地有参考价值。