Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement¶

会议: CVPR 2026
arXiv: 2603.19623
代码: GitHub
领域: Multimodal VLM / 多模态图像配准
关键词: 多模态配准, 混合变换, 特征解纠缠, 跨尺度一致性, Mamba

一句话总结¶

提出 HRNet，通过跨尺度特征解纠缠和自适应投影（CDAP）学习干净的共享表示，并在统一的粗到细管线中非迭代地联合预测刚性和非刚性变换，在四个多模态数据集上达到SOTA。

研究背景与动机¶

领域现状: 多模态图像配准（如RGB-热红外、RGB-SAR）是跨模态融合的基础。现有深度学习方法多采用多尺度策略提升精度，但通常限于单一变换类型。

现有痛点: (a) 大多数多尺度框架仅支持刚性或非刚性中的一种——刚性无法处理局部形变，非刚性在大全局偏移下扭曲结构完整性；(b) 现有混合配准方法采用串行级联（先刚性后非刚性），刚性和非刚性在不同特征空间估计，难以协调且后级继承前级偏差；(c) 共享特征提取方法虽缓解模态差异，但约束主要作用于共享部分，模态私有信息仍会泄漏到共享空间。

核心矛盾: 如何在统一的特征空间中同时估计全局刚性对齐和局部非刚性形变，且不受私有模态信息干扰？

本文目标: 设计一个统一框架，同时解决：(a) 共享特征空间的模态私有泄漏问题；(b) 刚性和非刚性变换的协调估计问题。

切入角度: "解纠缠-再对齐"——先用CDAP学习干净的多尺度共享表示，再在HPPM中联合预测混合变换。

核心idea: 表示解纠缠（跨尺度门控+自适应投影）+ 混合参数预测（统一粗到细管线内刚性+非刚性）= 单次前向传播产出统一形变场。

方法详解¶

整体框架¶

多模态配准（RGB-热红外、RGB-SAR 等）难在两点：模态私有信息会污染共享特征，且全局刚性对齐和局部非刚性形变得在不同空间分头估计、互相打架。HRNet 的思路是「先解纠缠、再对齐」：输入固定图像 \(I_f\) 和移动图像 \(I_m\)，先用共享 backbone + MSBN 提取多尺度特征 \(F, M\)，再经 CDAP 模块把私有信息从共享特征里剥掉、得到干净的共享表示 \((\hat{F}^s, \hat{M}^s)\)，最后由 HPPM 在一条粗到细的管线里一次性联合预测刚性 + 非刚性的混合变换 \(\phi\)，用它 warp \(I_m\)。整个过程单次前向，不做迭代级联。其间结构化正则从四个维度约束 CDAP 产出的共享空间，让解纠缠真正成立。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["固定图像 I_f + 移动图像 I_m"] --> B["共享 backbone + MSBN<br/>提取多尺度特征 F, M"]
    B --> C
    subgraph C["CDAP：把私有信息门控掉再投影"]
        direction TB
        C1["分解<br/>共享 E_sh / 私有 E_pf,m"] --> C2["门控 ILDA<br/>跨尺度注意力减去私有分量"] --> C3["投影 DSS<br/>自适应正交基投到紧凑子空间"]
    end
    C --> D["干净共享表示 F̂^s, M̂^s"]
    D --> E["HPPM：非迭代粗到细<br/>联合预测刚性 + 非刚性"]
    E --> F["统一形变场 φ → warp I_m"]
    R["结构化正则<br/>去相关 / 基正交 / 跨尺度一致 / 三元组"] -.约束共享空间.-> D

关键设计¶

1. CDAP：把私有信息从共享空间里门控掉，再投到自适应子空间

共享特征提取虽能缓解模态差异，但约束只作用在共享部分，模态私有信息仍会泄漏进来污染对齐。CDAP 用「分解 - 门控 - 投影」三步堵住这个泄漏。分解阶段每个尺度用共享提取器 \(E_{sh}^i\) 取模态无关分量、用模态特定提取器 \(E_{pf/m}^i\) 取私有分量。门控阶段（ILDA）借相邻尺度的语义做跨尺度注意力，显式把私有分量减出去：\(\widetilde{F}_i^s = \alpha_i^s \odot F_i^s - \gamma^i \alpha_i^p \odot F_i^p\)，其中权重 \(\alpha_i^s, \alpha_i^p\) 由 cross-scale attention 算出——光分解挡不住泄漏，必须有门控主动抑制。投影阶段（DSS）再数据自适应地生成一组近似正交基 \(W_i^s = Gen^i(z_i^s)\)，把门控后的特征投上去 \(\hat{F}_i^s = \widetilde{F}_i^s W_i^{s\top}\)，比固定投影更灵活、得到的共享空间更紧凑。

2. HPPM：在同一特征空间里非迭代联合预测刚性 + 非刚性

串行级联的混合配准（先刚性后非刚性）在不同特征空间分头估计，后级会继承前级的偏差，难协调。HPPM 把刚性和非刚性放进同一条 5 尺度粗到细管线联合估计。最粗尺度用 HRB 经 GAP + FC 估全局刚性参数 \(H\)，直接编码成粗形变场；之后每个尺度先上采样前级变换 \(\phi_{i-1}\) 去 warp 当前移动特征，拼接后再用 HRB 估增量 \(\phi_i' = \text{conv}(f_i)\)，累积更新 \(\phi_i = \text{upsample}(\phi_{i-1}) + \phi_i'\)。这样刚性预测一旦得到就立刻变成 flow、在后续尺度里被渐进精化，而不是事后再拼。HRB 内部用 2 个 RSSB（Residual State Space Block，基于 Mamba）建模长程依赖，在低算力开销下捕捉配准最需要的全局结构关系。

3. 结构化正则：从四个维度约束共享空间的质量

解纠缠和对齐光靠网络结构还不够稳，HRNet 再加四个互补正则来塑形共享空间。交叉协方差去相关 \(L_{ccd} = \|\text{Cov}(\hat{F}_i^s, F_i^p)\|_F^2\) 压低共享与私有的耦合；基正交性 \(L_{bo} = \|W^{(i)}W^{(i)\top} - I\|_F^2\) 防止 DSS 子空间退化；跨尺度方向一致性 \(L_{cs} = 1 - \cos(\hat{F}_i^s, \hat{F}_{i+1}^s)\) 让相邻尺度的共享语义不打架；三元组损失 \(L_{tri}\) 把跨模态同位置的共享特征拉近、推远私有干扰。四者分别管解耦、非冗余、一致性和对齐，合起来才让前面两步的解纠缠真正成立。

损失函数 / 训练策略¶

总损失: \(L = \alpha_r L_r + \alpha_n L_n + \alpha_s L_s + \alpha_{tri} L_{tri} + \alpha_{cs} L_{cs} + \alpha_{ccd} L_{ccd} + \alpha_{bo} L_{bo}\)
三阶段课程训练: warmup(10%)→mid(50%)→late(40%)，渐进调整损失权重（如 \(\alpha_n\): 6→10→12，后期加重非刚性）
Adam优化器，lr=1e-4，batch=8，100 epochs，图像resize到256×256

实验关键数据¶

主实验（刚性配准）¶

方法	RGB-NIR RE↓	RGB-TIR RE↓	RGB-IR RE↓	RGB-SAR RE↓
IHN	3.887	3.006	5.684	7.087
MMRNet	3.179	2.472	4.406	7.075
HRNet (Ours)	0.785	0.744	0.578	3.161

RE降低：75.3%, 69.9%, 86.9%, 55.3%（相对MMRNet，平均~72%）

主实验（非刚性配准）¶

方法	RGB-NIR RE↓	RGB-TIR RE↓	RGB-IR RE↓	RGB-SAR RE↓
ADRNet (混合)	-	-	-	-
MMRNet	-	-	-	-
HRNet (Ours)	最优	最优	最优	最优

RE相对ADRNet降低：61.2%, 62.5%, 66.9%, 23.3%

消融实验¶

配置	关键效果	说明
w/o CDAP	共享特征含私有噪声	配准精度下降
w/o ILDA门控	私有信息泄漏	解纠缠不充分
w/o DSS投影	跨模态对齐不稳定	特征空间不紧凑
仅刚性	无法处理局部形变	结构完整性差
仅非刚性	大偏移下扭曲	全局对齐不足
完整HRNet	刚性+非刚性统一	全面最优

关键发现¶

混合配准的巨大优势: 在RGB-IR上RE从4.406→0.578（86.9%↓），证明联合估计远优于单一范式
RGB-SAR最具挑战性（模态差异最大），但HRNet仍显著领先
三阶段课程训练中渐进增加非刚性权重（\(\alpha_n\): 6→12）很关键

亮点与洞察¶

统一混合框架: 首次在单一管线中非迭代联合估计刚性+非刚性变换，产出单一统一形变场
解纠缠全面: CDAP的decompose-gate-project管线 + 4种结构化正则，从根本上解决私有信息泄漏
Mamba在配准中的应用: RSSB提供低开销长程依赖建模，适合配准中的全局结构感知

局限与展望¶

当前在256×256分辨率验证，更高分辨率下的效率和性能待测试
课程训练的超参数调优可能需要根据不同模态对调整
对极端遮挡或完全无重叠区域的鲁棒性未讨论

评分¶

新颖性: ⭐⭐⭐⭐ 统一混合配准和CDAP解纠缠设计有价值，Mamba的引入也有新意
实验充分度: ⭐⭐⭐⭐⭐ 四个多模态数据集，刚性+非刚性，详细消融和课程训练分析
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，但符号密度较高
价值: ⭐⭐⭐⭐ 为多模态配准提供了通用模板，但应用场景相对垂直