Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=e4t1775UJ1
代码: https://github.com/pami-zwning/ForeMamba3D
领域: 3D 目标检测 / LiDAR 点云 / Mamba 状态空间模型
关键词: Mamba, 前景编码, 状态空间模型, LiDAR 3D 检测, 线性建模, Hilbert 曲线

一句话总结¶

把 Mamba 编码器从"扫描全场景体素"改成"只编码前景体素"，并用滑窗传播 + 语义/几何融合两套机制补回前景稀疏后丢失的长程依赖与上下文，在 nuScenes/KITTI/Waymo 上以更低 FLOPs 拿到 SOTA。

研究背景与动机¶

领域现状：LiDAR 3D 检测的主流骨干是稀疏卷积（SpCNN）和 Transformer，但前者对硬件不友好、后者复杂度是平方级，都难以满足实时部署。Mamba 这类线性建模方法以线性复杂度实现全局交互，被引入 3D 检测后分成两派：group-based（按 X/Y 轴把体素分组做线性建模，擅长局部）和 group-free（用 Hilbert/Z-order 空间填充曲线把全场景非空体素拍成一条序列，擅长全局）。

现有痛点：无论分组与否，现有 Mamba 方法都对整条非空体素序列做双向编码，而真正有信息量的前景体素只占很小一部分——在 nuScenes/KITTI 上背景体素约占 80%。对全场景编码既费算力又费显存，大量背景信息纯属冗余。

核心矛盾：直觉上"只编码前景"能省算力，但论文发现直接把 vanilla Mamba 套在纯前景序列上反而掉点。原因有二：(1) 响应衰减——前景体素稀疏地散落在不同实例上，线性自回归模型按序列距离衰减，跨实例的远距离前景之间难以建立依赖；(2) 上下文受限——前景采样不可能完美，丢失的结构信息让纯前景序列的上下文表征不足。

本文目标：在保留"只编码前景"算力优势的同时，解决响应衰减与上下文受限两大副作用。

核心 idea：(1) 前景采样 + 多次旋转 Hilbert 展平 保证前景序列的空间邻接性；(2) 区域到全局滑窗（RGSW） 用局部 token 聚合 + 滑窗迭代把局部信息传到全序列，缓解响应衰减；(3) SASFMamba 在状态变量里注入语义重排和几何重排，把因果、按距离衰减的线性编码改成非因果、语义/几何相关的编码。

方法详解¶

整体框架¶

Fore-Mamba3D 的 3D 骨干由 4 个 stage 串联，每个 stage 含一个实例选择块和一个下采样块。实例选择块是核心，依次完成：前景体素采样与展平 → RGSW 滑窗编码 → SASFMamba 语义/几何融合。骨干输出送入 BEV backbone 和检测头，前景分数和语义类别在训练时有专门的 focal loss 监督。

flowchart TD
    A[LiDAR 体素特征 X] --> B[SubMConv 预测前景分数 F]
    B --> C[Top-k 采样前景 Xf, 背景 Xb]
    C --> D[多角度旋转 + Hilbert 展平]
    D --> E[RGSW: 局部 token 聚合 + 滑窗迭代]
    E --> F[SASFMamba: 语义重排 SAF + 几何重排 SSF]
    F --> G[与背景 Xb 拼接 → 下采样]
    G --> H[BEV Backbone + 检测头]

关键设计¶

1. 前景采样 + 旋转 Hilbert 展平：让稀疏前景在序列里也保持邻接。 给定体素特征 \(X \in \mathbb{R}^{L\times H\times W\times D}\)，先用一个 submanifold 卷积为每个非空体素预测前景分数 \(F\)，加位置编码后再稀疏卷积，按 \(F\) 降序取 top-\(k\)（比例 \(\alpha\)，默认 0.2）作为前景特征 \(X_f \in \mathbb{R}^{N\times D}\)，其余记为背景 \(X_b\)。前景采样后用 Hilbert 曲线展平成 1D 序列，但 Hilbert 曲线存在"区域截断"——原 3D 坐标相邻的两个体素（如 \(v_1, v_2\)）在序列里可能离得很远，双向编码也救不回来。解法是把整个场景绕 Z 轴旋转多个角度 \(\theta\) 再展平：坐标变换 \(R(\theta, p) = (\lfloor x\cos\theta + y\sin\theta\rfloor, \lfloor y\cos\theta - x\sin\theta\rfloor, z)^T\)，展平特征 \(X_{f,\theta} = H(X_f, \{R(\theta,p)\})\)。不同旋转角（默认 2 次，\(\theta=0, \pi/2\)）的编码结果求和过 MLP，再与背景拼接：\(X' = \text{Cat}[\text{MLP}(\sum_{i=1}^{r}\text{Enc}(X_{f,\theta_i})), X_b]\)。多视角旋转既缓解了截断，也提升了对视角变化的鲁棒性。

2. 区域到全局滑窗 RGSW：用局部 token + 滑窗对抗响应衰减。 前景跨实例稀疏分布会让 Mamba 的远距离依赖衰减。RGSW 先把 \(N\) 长序列切成 \(M\) 个 patch 并行处理，在每个 patch 末尾插入一个局部 token \(T_i \in \mathbb{R}^D\)，序列扩成 \(\mathbb{R}^{M\times(N/M+1)\times D}\) 送进 SASFMamba。由于 Mamba 的自回归特性，编码后的局部 token \(T_i'\) 天然聚合了整个 patch 的区域信息，再用余弦相似度把它加权传播回 patch 内每个体素：\(x'_{i,j} = x'_{i,j} + \text{Sim}(x'_{i,j}, T_i')\times T_i'\)。这解决了 patch 内部，但 patch 之间还没交互——于是用滑窗机制：把 \(x'_i\) 的后半段和 \(x'_{i+1}\) 的前半段拼成新 patch \(x_i^s = \text{Cat}(x'_i[\tfrac{N}{2M}:], x'_{i+1}[:\tfrac{N}{2M}])\)，再喂回 SASFMamba，重复 \(t\) 次（默认 2 次，再多收益饱和）让信息跨 patch 传播。消融显示滑窗对大目标（车 +1.2%）更有效，局部 token 对小而稀疏的目标（行人 +0.93%、骑行者 +0.35%）更有效。

3. SASFMamba 之语义辅助融合 SAF：按语义重排状态变量，跳出局部性偏置。 标准 SSM 的状态 \(h_i = \sum_{j\le i}\bar{A}^\times_{j:i}\bar{B}_j x_j\) 沿序列累积，距离越远转移矩阵连乘越小、依赖越弱。SAF 先用轻量 MLP 预测每个体素的语义类别 \(S\)，再把状态变量 \(h\) 按预测类别分组重排（组内严格保留原相对顺序），让语义相似但原始位置很远的体素在序列里相邻；对重排后序列做一个有较大有效感受野的 1D 卷积聚合语义上下文，最后 reverse 回原顺序得到 \(h'\)。论文给了理论推导：重排后 \(h'_i = \sum_{k\in K}\alpha_k h_{N_k(i)}\)，展开后当前状态与远处输入 \(x_j\) 的关联分 \(M_{i,j} = \sum_{k\in K'_{i,j}}\alpha_k \bar{A}^\times_{j:N_k(i)}\bar{B}_j\)，只要存在语义近邻的原始索引 \(N_k(i) > j\)，该项就非零，从而证明 SAF 能让当前状态有效捕获语义相似的远距离输入，克服线性编码器的局部性偏置。

4. SASFMamba 之状态空间融合 SSF：把 1D 状态映回 3D 做几何卷积，补回空间结构。 3D→1D 展平不可避免造成几何畸变。SSF 把 SAF 输出的状态 \(h'\) 按原坐标映射回 3D 空间形成稀疏张量（L2S），沿不同轴用大核 dimension-wise 卷积做空间识别，再展平回序列（S2L）：\(h'' = \text{S2L}(\text{DwConv}(\text{L2S}(h')))\)。最后按 SSM 观测方程乘动态输出矩阵 \(\bar{C}\) 得到输出 \(x'\)。SSF 与 SAF 同理，保证了非因果、几何相关的编码。训练用两个 focal loss \(L_f, L_s\)（\(\gamma=2\)）监督前景分数与语义类别，其中前景由原框沿 X/Y 扩 0.5 m、Z 扩 0.25 m 定义以保留边界模糊信息，总损失 \(L = w(L_f+L_s) + L_{cls} + L_{reg}\)（\(w=2\)）。

实验关键数据¶

主实验表格¶

nuScenes（无 CBGS，LiDAR-only）：

方法	发表	mAP	NDS
Voxel-Mamba	NIPS24	67.5	71.9
LION	NIPS24	68.0	72.1
FSHNet	CVPR25	68.1	71.7
Fore-Mamba3D（val）	–	68.4	72.3
LION（test）	NIPS24	69.8	73.9
Fore-Mamba3D（test）	–	70.1	74.0

KITTI（val, R11，按骨干类型对比，Mod 难度）：

方法	骨干	Car	Ped.	Cyc.
DSVT	Transformer	77.8	59.7	66.7
LION	Mamba	78.3	60.2	68.6
VoxelMamba	Mamba	80.8	59.7	69.1
Fore-Mamba3D	Mamba	82.2	62.2	69.5

Waymo（20% 训练、全 val）：L2 mAP 71.9%，比 CenterPoint 基线高 7.4%，L1 全面超越此前方法。

消融实验表格¶

组件逐步叠加（KITTI val，Mod）：

HF	RGSW	SAF	SSF	Car	Ped.	Cyc.
✓				79.4	59.2	66.0
✓	✓			80.6	60.5	66.8
✓	✓	✓		81.8	61.9	67.3
✓	✓		✓	81.0	61.3	68.2
✓	✓	✓	✓	82.6	62.2	69.5

采样比例 \(\alpha\) 与效率（vs LION）：

\(\alpha\)	nuScenes mAP/NDS	FLOPs(G)↓	FPS
0.1	67.4 / 71.0	22.62	70
0.2	68.4 / 72.3	26.04	67
0.5	68.0 / 71.8	38.62	58
1.0	67.8 / 71.6	52.17	50
LION	68.0 / 72.1	46.24	52

关键发现¶

前景比例 0.2 最优：恰好逼近真实前景分布，比例过低丢结构、过高引冗余；相比 LION 减 43.7% FLOPs、增 23.9% FPS 还涨点。
RGSW 两个分支分工互补：滑窗利大目标、局部 token 利小目标，滑窗迭代 \(t=2\) 后收益饱和。
SAF/SSF 缺一不可：单独加各涨约 1%，两者同时加才到最佳，说明语义对齐与几何还原是正交的两类补偿。

亮点与洞察¶

直指 Mamba 3D 检测的真实冗余：把"全场景非空体素编码"的隐藏浪费（80% 是背景）显式拆掉，是对 group-based/group-free 两派的统一反思。
诊断到位：没有止步于"只编前景会掉点"的现象，而是归因到响应衰减 + 上下文受限两个具体机制，并针对性各开一刀（RGSW 治衰减、SASFMamba 治上下文）。
理论支撑非空洞：SAF 的关联分非零性推导，把"语义重排为何能建立远距离依赖"讲成可验证的命题，而非纯经验。
效率-精度双赢：在三大基准上拿 SOTA 的同时显著降 FLOPs，对实时部署有实际意义。

局限与展望¶

依赖前景分数预测质量：采样准确度直接决定下游，分数预测在远距离/小目标上若失准，丢失的前景无法在后续补回，论文用扩框定义前景缓解但未根治。
多次旋转 Hilbert + 多次滑窗迭代引入额外开销：虽然总体仍比全场景编码省，但旋转次数 \(r\)、迭代次数 \(t\)、采样比 \(\alpha\) 都是需要逐数据集调的超参。
仅 LiDAR-only 单模态：未验证多模态（图像+点云）下前景采样是否依然成立，跨传感器的前景一致性是开放问题。
Waymo 仅 20% 训练子集：完整数据规模下的表现与排名仍待补充。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把前景-only 编码与 Mamba 骨干结合，并系统解决随之而来的响应衰减/上下文受限，问题切入与机制设计都新。
实验充分度: ⭐⭐⭐⭐ 覆盖 nuScenes/KITTI/Waymo 三大基准 + 完整组件/比例/迭代消融，效率指标齐全；Waymo 仅 20% 子集略减一分。
写作质量: ⭐⭐⭐⭐ 动机—诊断—对症的逻辑链清晰，SAF 配理论推导，图 2 框架完整。
价值: ⭐⭐⭐⭐ 效率-精度双赢对实时 LiDAR 检测落地有直接价值，前景稀疏编码范式可外推。