FSI2P: A Hierarchical Focus–Sweep Registration Network with Dynamically Allocated Depth¶
会议: ICML 2026
arXiv: 2605.07607
代码: 无
领域: 3D视觉 / 跨模态配准
关键词: 图像-点云配准, Mamba/SSM, 强化学习层数选择, Focus-Sweep, 多尺度交互
一句话总结¶
本文把人类“先扫一眼再逐块细看”的观察过程抽象为 Focus-Sweep 两阶段范式,用 Mamba 替换 Transformer 做图像-点云交互,并用强化学习动态决定每个尺度上的交互层数,在 RGB-D Scenes V2 和 7-Scenes 上拿到 I2P 配准的 SOTA。
研究背景与动机¶
领域现状:图像到点云(I2P)配准的主流路线已经从“detect-then-match”过渡到“detection-free”的 coarse-to-fine 框架,如 2D3D-MATR、B2-3D、CA-I2P 等,靠多尺度特征 + Transformer 交叉注意力建立 patch 级对应,再用 PnP+RANSAC 求位姿。
现有痛点:作者通过实验观察到两个被忽视的问题——第一,堆叠太多 cross-attention 层会出现“注意力漂移”,早期层的小偏差被反复放大(Matthew 效应),导致 MMD 反而上升;第二,多尺度设计虽然缓解了部分尺度差异,但在重复纹理场景下仍会因为不同分辨率上的相似纹理产生 scale ambiguity,匹配错位。
核心矛盾:跨模态对齐本质需要长程交互,所以必须堆叠多层;但堆得越多越容易漂移,而堆多少层又是离散、不可微的决策,普通梯度下降无法学习——“需要深交互”与“深交互会漂移”、“深度可学”与“离散决策”之间存在双重 trade-off。
本文目标:(1) 设计一种比 Transformer cross-attention 更稳定、能压制 scale ambiguity 的跨模态交互机制;(2) 给每个尺度配一个数据自适应的交互深度,让模型像人一样“看够了就停”。
切入角度:认知心理学指出,人在跨模态匹配时分两步——先做全局尺度估计与粗扫描(Focus),再分块精细比对(Sweep)。这种序列、定向、保持长期记忆的过程天然契合 SSM(Mamba)的扫描机制;而“看几次才够”本质是一个可由 RL 优化的策略。
核心 idea:用基于 Mamba 的“Focus-Sweep”交替交互 + 用 RL 学习每个尺度上的迭代深度,取代 Transformer 的固定深度交叉注意力。
方法详解¶
整体框架¶
输入是同场景的 RGB 图像 \(I\in\mathbb{R}^{H\times W\times 3}\) 和点云 \(P\in\mathbb{R}^{N\times 3}\),目标输出刚体变换 \([R,\mathbf{t}]\)。整体 pipeline 是 coarse-to-fine:用 ResNet+FPN 抽 2D 多尺度特征 \(F_{Ia},F_{Ib},F_{Ic}\),用 KPFCNN 抽点云特征 \(F_P\);先经过一层 self/cross-attention 做初步桥接;然后进入核心的 Hierarchical Focus-Sweep Interaction Module,对三个尺度上的图像特征轮流做 Focus(全局尺度对齐)和 Sweep(分块精细交互),每个尺度上的 FS-Layer 迭代次数由 Dynamic Layer Allocation Strategy 的 RL 策略网络决定;最后把多尺度图像特征拼起来,与三个尺度的点云特征分别算余弦相似度后取逐元素 max 得到 score map,做 top-k patch 匹配并细化到像素级,最后用 PnP+RANSAC 求位姿。
关键设计¶
-
Focus(基于范数适配的全局粗对齐):
- 功能:用整朵点云的“总体尺度”一次性调制图像特征,建立粗对应,相当于人的“先扫一眼”。
- 核心思路:把点云特征 \(F_P\) 全局 average pool 后通过 linear 投影出三组通道级因子 \([\alpha,\beta,\gamma]=\text{Linear}(\text{AvgPool}(F_P))\),再用 \(F'_i=\gamma\cdot\text{VSSM}(\alpha\cdot F_i+\beta)+F_i\) 修改图像特征的统计量;VSSM 是 VMamba 里的视觉 SSM 前馈层。这个操作没有显式的 cross-attention 矩阵,开销极小但能把图像通道的均值/方差“按点云口味”重排,把多尺度图像特征与点云尺度对齐。
- 设计动机:作者发现 Transformer 在尺度不一致时容易让早期注意力偏差被反复放大,而把粗对齐做成一次性的 norm 调制,可以避免后续 SSM 被错误尺度反复带偏。
-
Sweep(Partition-Scan-Recover 局部分块交互):
- 功能:在 Focus 之后逐区域精细比对,相当于“分块来回看”,是 FS-I2P 准确匹配的主力模块。
- 核心思路:先 Partition——把图像 \(F_i\in\mathbb{R}^{h\times w\times C}\) 按窗口大小 \(o\) 分成 \(P=hw/o^2\) 个不重叠 patch \([F_i^1,\dots,F_i^t]\);然后 Scan——构造混合序列 \(F_H=[F_i^1 F_P, F_i^2 F_P,\dots, F_i^t F_P]\),把点云序列在每个图像 patch 后面重复插入,再过一层 VSSM;最后 Recover——把扫描后的序列拆回图像特征(直接重排),点云特征用可学习权重 \(\lambda=[\lambda_1,\dots,\lambda_t]\) 做加权平均 \(F_P^{re}=\sum_u \lambda_u F_P^t/t\)。利用 SSM “越靠近当前时刻的 token 越被关注”的特性,每次进入新 patch 时点云序列被“重新提醒一次”,迫使模型反复对齐当前区域与全局点云。
- 设计动机:传统 cross-attention 在不同 patch 之间没有顺序约束,注意力很容易飘;而把点云重复插入图像 patch 之间,用 SSM 的方向性扫描就能既保住局部精细对齐,又保留全局接收域,同时 Mamba 的线性复杂度让密集交互可行。
-
Dynamic Layer Allocation(RL 驱动的层数自适应):
- 功能:为三个尺度 \(\{n_1,n_2,n_3\}\) 各自动态选取 FS-Layer 的迭代次数(允许某层为 0 即跳过该尺度交互),不再用固定深度。
- 核心思路:从图像 token 和点云 token 的 mean+max pooling 拼成状态 \(s\),用轻量策略网络 \(g_\theta\) 输出动作 logits \(\mathbf{z}=g_\theta(s)\),得到候选深度上的类别分布 \(\pi_\theta(n\mid s)=\text{Softmax}(\mathbf{z})\);训练时采样 \(a\sim\pi_\theta(\cdot\mid s)\) 并记录 \(\log p=\log\pi_\theta(a\mid s)\),推理时贪婪取 \(a=\arg\max \mathbf{z}\);奖励来自全局配准约束(Inlier Ratio / FMR / RR 等),用 policy gradient 更新策略。
- 设计动机:层数选择是离散不可微的,无法靠普通梯度学习;而 RL 自然契合“看到目标才停”的人类行为——少了不够准、多了引入噪声,用全局约束作为奖励比 ad-hoc 启发式更直接。
损失函数 / 训练策略¶
训练目标 = 标准 I2P 配准损失(patch-level 对应监督 + 细化级监督)+ 策略梯度 \(\mathcal{L}_{RL}=-\mathbb{E}[R\cdot\log p]\),其中 \(R\) 由配准 inlier 数 / 距离误差构造。最大允许深度 \(l_{\max}\) 是超参,三个尺度可独立选 0..\(l_{\max}\)。
实验关键数据¶
主实验¶
两个公开 benchmark:RGB-D Scenes V2(4 个场景)与 7-Scenes(7 个场景),三个常用指标 Inlier Ratio (IR)、Feature Matching Recall (FMR)、Registration Recall (RR)。
| 数据集 | 指标 | FS-I2P (本文) | Flow-I2P | 2D3D-MATR | 备注 |
|---|---|---|---|---|---|
| RGB-D Scenes V2 (mean) | IR | 42.9 | 40.1 | 32.4 | +2.8 vs 之前最强 |
| RGB-D Scenes V2 (mean) | FMR | 94.4 | 93.3 | 90.8 | 与 B2-3D 持平最优 |
| 7-Scenes (mean) | IR | 53.9 | 52.0 | 50.1 | 全部 7 场景平均 |
| 7-Scenes (mean) | FMR | 92.4 | 91.6 | 92.1 | 与 SOTA 持平 |
在 Scene-11 / Scene-12(重复纹理严重的场景)上提升尤其大,验证了对 scale ambiguity 的缓解。
消融实验¶
| 配置 | RGB-D V2 mean IR | 说明 |
|---|---|---|
| Full FS-I2P | 42.9 | 完整模型 |
| w/o Focus (只留 Sweep) | 明显下降 | 缺少全局尺度对齐,多尺度反而互相干扰 |
| w/o Sweep (只留 Focus) | 大幅下降 | 缺少精细分块交互,仅靠 norm 调制信息不足 |
| w/o Dynamic Layer (固定 4 层) | 略低 | 固定深度无法适配不同场景;论文 Figure 3 显示 transformer 加深时 MMD 反而上升 |
| Mamba → Transformer 替换 | 下降 | 证明 Mamba 不只是“替换组件”,对 Matthew 效应的缓解有结构性收益 |
关键发现¶
- Transformer 加深时 MMD(图像-点云特征分布距离)先降后升,而 FS-I2P 用 SSM + RL 自适应深度避免了这种漂移,T-SNE 可视化也更聚类。
- Dynamic Layer Allocation 学到的策略具有解释性:在尺度差异大的场景倾向加深特定尺度的层数,在结构简单场景倾向跳过部分尺度,验证了“按需观察”的假设。
- Focus 与 Sweep 单独都不够强,两者交替才是性能主因——这说明跨模态对齐既需要全局尺度先验,也需要分块精细比对,类似于人脑两阶段感知。
亮点与洞察¶
- 用 Mamba 的“顺序敏感 + 线性复杂度”天然匹配认知科学里的两阶段观察理论,把架构选择与人类感知对齐,是一个很优雅的“motivation→backbone 选择”链路。
- “在每个图像 patch 后面重复插入点云序列”是个非常聪明的工程 trick:利用 SSM 对近期 token 更敏感的特性,无需显式 cross-attention 就实现了反复对齐,能直接迁移到任何“一边是序列、一边是集合”的跨模态匹配任务(如 text-to-point cloud、speech-to-image)。
- 把“交互层数”这种过去当超参拍脑袋的设计变成 RL 策略,是 detection-free 系列里第一个明确把“看几次”动态化的工作,思路可推广到任何 coarse-to-fine 框架。
- 论文给出了 Matthew 效应的具体证据(不同深度的 MMD 曲线),不再只是“cross-attention 易过拟合”这种泛泛之谈,对后续 SSM vs Transformer 的取舍讨论有数据支持。
局限与展望¶
- 作者承认 RL 训练需要可微/半可微的全局奖励,奖励设计在更多 I2P 数据集(如室外大尺度场景 KITTI)上的迁移性未验证。
- 自评:策略网络的状态 \(s\) 只用了 mean+max pooling,比较粗糙;在场景几何高度复杂时,可能学到的策略仍偏保守。
- 论文未给出在跨数据集(如 RGB-D V2 训练 → 7-Scenes 测试)的 RL 策略迁移结果,无法判断策略本身是否过拟合到某个 benchmark 的尺度分布。
- 缺少与 LiDAR 室外大场景配准(KITTI、NuScenes)的对比,目前只在室内 RGB-D 场景验证,可推广性需要进一步实验。
- 未来工作可以把 Focus-Sweep 推广到 multi-view I2P(多张图配同一点云),用 RL 同时选层数与选视角。
相关工作与启发¶
- vs 2D3D-MATR:同样 detection-free coarse-to-fine,但 2D3D-MATR 用 Transformer 交叉注意力做固定深度交互;本文用 Mamba + RL 动态深度,对重复纹理鲁棒得多。
- vs B2-3D:B2-3D 用层级 cross-attention 处理 scale ambiguity;本文进一步用 norm-adaptation 的 Focus + 分块 SSM 的 Sweep 替换 attention,并指出 cross-attention 堆叠的 Matthew 效应问题。
- vs Flow-I2P / Diff2I2P:Flow-I2P 走 Beltrami flow,Diff2I2P 走 depth-conditioned diffusion;本文走“人类认知 + SSM”的认知工程路线,不依赖额外深度/扩散先验,infer 时单 pass 即可。
- 可迁移启发:(1) 用 SSM 的 token 顺序构造跨模态对齐 anchor 的思路可推广到任何异构序列融合;(2) RL 学层数的范式可用于任何 backbone 深度作为超参的任务(动态 transformer、动态 diffusion 步数)。
评分¶
- 新颖性: ⭐⭐⭐⭐ Focus-Sweep 范式 + Mamba 交互 + RL 动态深度,三者组合在 I2P 领域是首次,但每个单独组件都不算全新。
- 实验充分度: ⭐⭐⭐⭐ 两个 benchmark、三种指标、与最新 5 个 baseline 全面对比,并给出 Matthew 效应的实验证据;少了室外大尺度场景。
- 写作质量: ⭐⭐⭐⭐ motivation→方法链路清晰,认知心理学类比让 architecture choice 很有说服力,公式与图示配合到位。
- 价值: ⭐⭐⭐⭐ 在 I2P 这个相对小但实用的方向把 SOTA 推得很扎实,RL 选深度的思路对其他动态架构也有借鉴价值。