3DSMT: A Hybrid Spiking Mamba-Transformer for Point Cloud Analysis¶

会议: ICLR2026
OpenReview: KkoS6y0pHP
代码: 待确认（原文称已开源）
领域: 3D视觉 / 点云分析 / 脉冲神经网络
关键词: 点云分析、脉冲神经网络、Mamba、局部偏移注意力、能效

一句话总结¶

3DSMT 把脉冲神经网络（SNN）的事件驱动低功耗特性，与 Transformer 的局部建模、Mamba 的线性复杂度全局建模拧成一个混合架构，用「脉冲局部偏移注意力 + 脉冲 Mamba 块」在分类、少样本、分割任务上拿下 SNN 方法的 SOTA，能耗只有 ANN 同行的几十分之一，还反超了不少 ANN 模型。

研究背景与动机¶

领域现状：点云分析（分类、分割）是自动驾驶、机器人、AR/VR 的底层能力。主流做法从早期的 PointNet/PointNet++（MLP）演进到 Point Transformer（自注意力建模全局依赖），近期又出现 PointMamba 这类把状态空间模型（Mamba）引入点云的工作。这些方法精度很高，但都是传统人工神经网络（ANN）。

现有痛点：点云本身是稀疏、无序的，把它喂给稠密计算的深度模型会带来大量「无谓的计算和能耗」。具体而言，Transformer 的点积自注意力对点数 \(N\) 是二次复杂度 \(O(N^2)\)，大规模点云上吃不消；Mamba 虽然把复杂度压到线性 \(O(N)\)，但它天生面向有序序列，对无序点云缺乏自然适配，强行学序列顺序会产生不稳定的「伪序列依赖」。更根本的是，无论 Transformer 还是 Mamba，都受限于 ANN 范式固有的能耗低效，难以部署到无人机、移动机器人、AR/VR 头显这类算力/电量受限的边缘设备。

核心矛盾：精度和能效之间存在尖锐 trade-off。脉冲神经网络（SNN）用稀疏的事件驱动二值脉冲通信、用加法代替乘累加，在神经形态硬件上能做到超低功耗，其稀疏性又天然契合点云的稀疏分布——但已有 SNN 点云方法（Spiking PointNet、P2SResLNet、SPT、SPM）为了省能耗过度牺牲精度，与 ANN 模型仍有明显精度差距，原因在于特征表达能力不足、训练机制不成熟。

本文目标：造一个同时具备「局部几何建模 + 线性复杂度全局建模 + SNN 低功耗」三者的统一架构，把 SNN 点云方法的精度拉到能与 ANN 抗衡的水平。

切入角度：作者的核心观察是，Transformer 擅长局部细粒度关系、Mamba 擅长线性复杂度全局依赖、SNN 擅长稀疏低功耗——三者的长处恰好互补，关键是把注意力的局部建模和 SSM 的全局建模都「脉冲化」后塞进同一个 SNN 框架里。

核心 idea：在统一的脉冲框架内，用脉冲版局部偏移注意力抓局部、用脉冲版双向 Mamba 抓全局，纯靠代理梯度直接训练（不走 ANN-SNN 转换那条增加时序开销的路），实现精度-能效的最优平衡。

方法详解¶

整体框架¶

3DSMT 是一个专为点云设计的脉冲神经网络。给定一团 \(N\) 个点的点云 \(P\in\mathbb{R}^{N\times 3}\)，整条管线是「分块嵌入 → 堆叠 12 层混合块 → 任务头」三段：先用脉冲分块嵌入（SPE）把低维点坐标 patch 映射成高维脉冲特征序列，再让序列穿过 \(M=12\) 个串联的脉冲混合块（SHB）——每个 SHB 内部先用脉冲局部偏移注意力（SLOA）抓局部、再用脉冲 Mamba 块（SMB）抓全局，外加脉冲位置编码（SPE-pos）补空间感知，最后由分类头/分割头出结果。

具体地，输入先用最远点采样（FPS）选出 \(L\) 个中心点，每个中心点用 KNN 构出局部 patch；由于脉冲神经元带时空维度，patch 会沿时间步 \(t\in[0,T)\) 复制 \(T\) 份再送进网络。Patch 嵌入后拼上一个可学习的 [CLS] token 形成长度 \(L+1\) 的序列，逐层过 SHB。SHB 内部用残差连接组织：

\[O_{i'} = \text{SLOA}(\text{LN}(O_{i-1}+S_{pos})) + O_{i-1}, \quad O_i = \text{SMB}(\text{LN}(O_{i'})) + O_{i'}\]

分割头借鉴 PointBERT，把第 4、8、12 层 SHB 的特征拼起来输出逐点的部件概率；分类头则是堆叠线性层。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入点云<br/>FPS+KNN 分块"] --> B["脉冲分块嵌入 SPE<br/>坐标→高维脉冲特征"]
    B --> C["脉冲位置编码<br/>SN+MLP 注入空间感知"]
    C --> D["脉冲局部偏移注意力 SLOA<br/>QKV 逻辑与+累加 抓局部"]
    D --> E["脉冲 Mamba 块 SMB<br/>双向扫描+门控 抓全局"]
    E -->|"堆叠 12 层 SHB"| D
    E --> F["分类头 / 分割头<br/>第4·8·12层特征融合"]

关键设计¶

1. 脉冲局部偏移注意力（SLOA）：用脉冲逻辑运算抓局部几何，顺带省掉 softmax 的浮点能耗

这一块针对的痛点是「点云的局部几何细节很关键，但 Transformer 的标准自注意力靠 softmax 做浮点乘累加（MAC），既贵又费电」。SLOA 的做法是：先借鉴 Mamba3D 的 K-Norm（把中心点局部特征向邻点传播）和 K-Pool（局部特征聚合）得到 \(S_1=\text{K-Pool}(\text{K-Norm}(S))\)，再过脉冲神经元层（SN）把局部特征转成 \(\{0,1\}\) 的脉冲序列 \(S_2\)，然后用线性变换得到 \(Q,K,V\)（每步都串 Linear-BN-Spiking，简记 LBS），算注意力 \(A=Q\cdot K^T\cdot V\)。

关键巧思在于：由于脉冲序列天然稀疏且非负，注意力矩阵 \(A\) 的计算可以直接用「逻辑与（AND）+ 累加（AC）」实现，完全绕开传统 ANN 里 softmax 引入的浮点 MAC，能耗骤降。之后它不是直接用注意力特征，而是算注意力特征与输入 \(S_2\) 的偏移（逐元素相减），过 SN 和 MLP 后再加回 \(S_2\)：

\[S_3 = \text{MLP}(\text{SN}(S_2 - \text{SN}(A))) + S_2\]

这个「偏移注意力」让模型更显式地凸显局部区域内的特征差异，强化对细微结构变化的捕捉，从而提升细粒度局部表征。

2. 脉冲 Mamba 块（SMB）：把无序点云的全局建模脉冲化，用双向扫描 + 门控解决「伪序列依赖」

Mamba 的强项是线性复杂度全局建模，但它面向有序序列，点云无序，强行学序就会产生不稳定的伪序列依赖。SMB 的设计是把 Mamba 的全局建模与 SNN 的省能优势融合，并用双向扫描化解无序问题。流程上，输入特征 \(Z\) 先经 SN 转成二值脉冲序列 \(Z_1\)（稀疏化、降冗余），然后分两支：SSM 支把 \(Z_1\) 经 Linear+SN 编码成 \(Z_S\)，再用双向扫描得到两个方向的依赖 \(Z_L=\text{L+SSM}(\text{Conv1d}(Z_S))\) 与 \(Z_C=\text{C-SSM}(\text{Conv1d}(Z_S))\)；门控支产生稀疏脉冲门控矩阵 \(Z_G\)，与 \(Z_L,Z_C\) 做 Hadamard 积实现特征选择与过滤：

\[Z_2 = (Z_L\otimes Z_G) + (Z_C\otimes Z_G), \quad Z_3 = \text{Lin}(\text{SN}(Z_2))\]

这里 L+SSM 是原始 Mamba 的扫描策略、C-SSM 是 Mamba3D 提出的通道翻转扫描，二者组合即「双向」。SMB 还用非因果 Conv1D 消除时序伪影。它有效之处在于：脉冲稀疏化压掉了特征冗余，双向扫描补全了无序点云缺失的方向信息，动态脉冲门控选择性激活显著特征、抑制噪声，且消融显示双向扫描不增加额外能耗就能涨点。

3. 脉冲位置编码（SPE-pos）：在脉冲域里给无序点云补回空间结构信息

无序点云丢了空间位置就难学几何，而位置编码也得脉冲化才能融进 SNN。作者设计了可学习的点云位置编码：交替堆叠脉冲神经元层（SN）和 MLP，对每个点 \(p=(x,y,z)\)，先用 SN 借神经元膜电位动力学把原始坐标初始化成带时间依赖的时空特征，再用 MLP 做特征变换增强几何表达，输出最终位置编码。每个 SHB 都注入这份位置编码 \(S_{pos}\in\mathbb{R}^{(L+1)\times C}\) 来增强空间感知。

4. 全脉冲混合 + 代理梯度直接训练：把局部、全局、位置三块统一进事件驱动框架，靠 IF 神经元省内存省电

整个 3DSMT 的统领设计是「混合 + 全脉冲」：SHB 把 SLOA（局部）、SMB（全局）、SPE-pos（位置）三块都放进同一个脉冲框架，残差串联、堆 12 层。底层用 Integrate-and-Fire（IF）神经元——它内存和能耗需求都低，适合能耗敏感任务；训练上严格走「代理梯度直接训练」，避开 ANN-SNN 转换带来的额外时序开销，保证低能耗。正是这套混合设计让模型同时拿到 Transformer 的局部细粒度、Mamba 的线性全局、SNN 的事件驱动低功耗，实现精度-能效的联合最优。

损失函数 / 训练策略¶

模型基于 PyTorch + SpikingJelly 实现，用代理梯度直接训练 SNN（不做 ANN-SNN 转换）。两个 SNN 专属超参对结果影响很大：脉冲发放阈值（Threshold）和时间步（TimeStep）。实验扫了阈值 \(\{0.5,1.0,1.5,2.0\}\) 与时间步 \(\{1,2,3,4\}\) 的组合，最优为 TimeStep=3、Threshold=1.0；阈值太低会引入噪声、太高会压住有用特征，时间步超过 3 会引入冗余信息反而掉点。SLOA 邻域 \(k=4\)、token 数 \(L=128\) 为最优。分类还可叠加 voting 后处理进一步涨点。

实验关键数据¶

主实验¶

分类：ScanObjectNN 三个变体 + ModelNet40，对比 ANN 与 SNN 两类方法（能耗单位 mJ，FLOPs 单位 G）。

方法	类型	FLOPs	PB_T50_RS OA	ModelNet40 OA	能耗
PCM	ANN	45.0	88.1	93.4	207.0
PTv2	ANN	17.1	-	93.7	78.7
SIM	ANN	3.6	87.3	92.7	16.6
SPM（前 SNN SOTA）	SNN	1.5	84.2	92.3	5.4
3DSMT (w/ vot.)	SNN	1.3	92.0 (+7.8)	95.2 (+2.9)	4.3

要点：3DSMT 在 ScanObjectNN 最难变体 PB_T50_RS 上比次优 SNN（SPM）猛涨 7.8%；ModelNet40 上 95.2% OA 比 SPM 涨 2.9%、能耗还降了 1.1 mJ。对比 ANN：超过单 Mamba 的 PCM（93.4%）1.8% 且能耗降至 1/48，超过单 Transformer 的 PTv2（93.7%）1.5% 且能耗降至 1/18。

少样本（ModelNet40）：5-way 10/20-shot 达 92.8%/96.2%，10-way 10/20-shot 达 87.2%/92.1%，远超 SNN 基线 SpikePointNet，与 ANN 的 Mamba3D 持平。部件分割（ShapeNetPart）：Cat.mIoU 82.7%、Ins.mIoU 85.1%，均为 SNN 方法最高。语义分割（S3DIS）mIoU 70.2% 为 SNN 最佳、能耗仅 11.4 mJ（ANN 的 PTv3 虽达 73.6% 但要 687.7 mJ）。效率（ModelNet40）上训练/推理延迟 298ms/142ms、显存 10.1G/4.6G，全面优于 SPT 系列与 Mamba3D。

消融实验¶

混合架构消融（ModelNet40 / ScanObjectNN，Table 7）：

配置	类型	ModelNet40 OA	能耗	说明
Full	ANN	94.9	36.3	ANN 上限，但能耗爆炸
No-MT	SNN	92.1	3.3	去掉 Transformer 和 Mamba，基线
Only-T	SNN	93.8	4.1	只加 Transformer
Only-MB	SNN	94.0	4.0	只加双向 Mamba
Full-MUT	SNN	94.2	4.3	混合 + 单向 SSM
Full-MBT	SNN	94.7	4.3	混合 + 双向 SSM（本文）

扫描策略消融（Table 11）：单向 SSM 94.2% → L-SSM+C-SSM 双向 94.7%；排序策略消融（Table 10）：No Order（94.7%）反而优于 Shuffle/Z-order，证明模型能直接吃无序点云。

关键发现¶

混合 + 双向是涨点主力：从 No-MT（92.1%）到 Only-T/Only-MB 再到 Full-MBT（94.7%），逐块叠加都涨；双向 SSM 比单向涨 0.5% 且零额外能耗，说明双向扫描是「免费午餐」。
SNN 把能耗压到 ANN 的零头：Full（ANN）94.9% 要 36.3 mJ，而 Full-MBT（SNN）94.7% 只要 4.3 mJ——精度只差 0.2%，能耗差近 8.4 倍。
超参有甜区：TimeStep=3、Threshold=1.0、\(k=4\)、\(L=128\) 均为先升后降的峰值；时间步过长引入冗余、阈值过高压住特征。
真实世界数据优势更明显：分割涨幅（+0.3~0.4%）小于分类，因 ShapeNetPart 是无噪合成数据、区分度低；而 ScanObjectNN 含真实噪声/遮挡，3DSMT 在其上优势更突出。

亮点与洞察¶

把注意力矩阵脉冲化成「逻辑与 + 累加」：因为脉冲序列稀疏非负，\(Q\cdot K^T\cdot V\) 可以直接用 AND+AC 算，绕开 softmax 的浮点 MAC——这是 SNN 省能的核心抓手，能迁移到任何需要把注意力部署到神经形态硬件的场景。
偏移注意力而非普通注意力：算注意力特征与输入的差值再加回，比直接用注意力更能凸显局部结构差异，是个轻量但有效的细节增强 trick。
三长互补的工程哲学很干净：Transformer 管局部、Mamba 管线性全局、SNN 管低功耗，各取所长塞进一个残差块堆叠，思路清晰、易复现。
双向扫描零成本涨点：用 L-SSM + C-SSM 组合补无序点云的方向信息，不增能耗就涨精度，对所有把 Mamba 用到无序数据上的工作有借鉴意义。

局限与展望¶

作者明确把任务范围限定在分类/少样本/分割，未涉及目标检测与场景理解这类更复杂的点云任务，留作未来工作。
ShapeNetPart 上提升很小（+0.3~0.4%），作者归因于数据集本身区分度低、ANN 方法也都挤在 85%-87%，但这也说明部件分割上 3DSMT 的优势并不显著。
与最强 ANN（如 S3DIS 上 PTv3 73.6%、SemanticKITTI 上 PTv3 75.5%）相比仍有精度差距，3DSMT 卖点是「精度-能效平衡」而非绝对精度天花板。
SNN 的硬功耗优势依赖神经形态硬件落地，论文中的能耗为估算值；在通用 GPU 上的实际收益还需结合硬件适配评估。
可改进方向：把 SLOA 的偏移注意力与 SMB 的门控进一步统一、或探索自适应时间步以避开「时间步过长掉点」的硬性甜区限制。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把脉冲偏移注意力 + 脉冲双向 Mamba 拧进统一 SNN 框架，组合创新扎实，但单个组件多有出处。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖分类/少样本/部件分割/语义分割/场景分割五类任务，消融细到阈值-时间步组合与扫描策略。
写作质量: ⭐⭐⭐⭐ 结构清晰、公式完整，个别表述与拼写略糙。
价值: ⭐⭐⭐⭐ 为高性能低功耗点云分析提供了可落地的 SNN 范式，对边缘 3D 感知有实际意义。