跳转至

CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration

会议: CVPR 2026
arXiv: 2604.05689
代码: https://github.com/NEU-Liuxuecong/CRFT
领域: 医学影像 / 图像配准
关键词: 跨模态配准, 特征流学习, 粗到精, 差异引导注意力, 空间几何变换

一句话总结

提出CRFT,统一的粗到精跨模态图像配准框架——在Transformer架构中学习模态无关的特征流表示,粗阶段1/8分辨率全局对应+精阶段1/2-1/4多尺度局部细化,配合迭代差异引导注意力和空间几何变换(SGT)递归精化流场捕捉微妙空间不一致,在光学/红外/SAR/多光谱等多种跨模态数据集上超越RAFT/GMFlow/LoFTR等SOTA。

研究背景与动机

领域现状:跨模态图像配准(建立不同传感器图像间的空间对应)是计算机视觉核心问题,应用于3D重建、视觉定位、遥感分析等。

现有痛点:(1) 手工特征(SIFT/RIFT)在强非线性外观差异下不可靠;(2) 学习型稀疏匹配(SuperGlue/LoFTR)优化于RGB→跨模态泛化差;(3) 光流方法(RAFT/GMFlow)假设光度一致性→跨模态输入违反此假设;(4) 所有方法对大仿射+尺度变化+模态差异的组合应对不足。

核心idea:(1) 在Transformer中学习模态无关的特征流——不依赖像素一致性而是学习跨模态的特征空间对应;(2) 粗→精层级匹配(全局+局部);(3) 迭代差异引导的递归流场精化——利用特征差异主动定位对齐不良区域。

方法详解

整体框架

输入图像对\((I^A, I^B)\) → 共享ResNet CNN提取1/2、1/4、1/8三个尺度特征 → 粗阶段(1/8): self-attn+cross-attn建立全局对应→初始流场 → 精阶段(1/2+1/4): 窗口注意力+交叉注意力注入精细空间细节 → 迭代差异引导流优化(N轮): 精细特征经SGT变换对齐→计算特征差异→差异加权注意力引导→残差更新+置信度估计网络平滑 → 最终高精度密集流场。

关键设计

  1. 粗阶段流估计(全局上下文):

    • 1/8分辨率特征→self-attn增强+cross-attn跨模态匹配→全局相关矩阵→初始流场
    • 设计动机:低分辨率特征捕捉高层结构→对模态间光谱/辐射不一致更鲁棒→稳定全局匹配
  2. 精阶段流细化(局部细节):

    • 1/2和1/4分辨率特征→窗口自注意力捕捉局部模式→交叉注意力注入精细空间细节
    • 设计动机:高分辨率保留空间细节但全局注意力计算量不可行→窗口注意力+层级融合
  3. 迭代差异引导流优化(核心创新):

    • N轮迭代精化。每轮:
      • Fine-Scale Feature Transformation (FSFT):用当前流场warp特征
      • Spatial Geometric Transform (SGT):显式建模仿射/尺度变换→对齐大变形
      • 差异计算:warped特征与目标特征的残差→差异图
      • Discrepancy-Guided Flow Optimization (DGFO):差异加权注意力→自动聚焦对齐不良区域
      • 残差更新(RU):差异引导的残差流更新
      • Confidence Estimation Network (CENet):预测逐像素置信度→平滑最终流场
    • 设计动机:单次匹配无法处理复杂的非线性和仿射变形→递归精化逐步纠正。差异引导确保注意力集中在对齐最差的区域→效率高
  4. 模态无关设计:

    • 共享CNN编码器跨模态使用→学习模态不变特征
    • 特征流formulation替代像素级光度/光流→不依赖像素一致性

实验关键数据

主实验(多种跨模态场景)

主实验

OSdataset (光学-SAR配准)

方法 类型 AEPE ↓ CMR@3px ↑ CMR@1px ↑ CMR@0.7px ↑
RIFT2 手工特征 23.61 22.9% 0.0% 0.0%
GMFlow 光流 11.91 17.0% 0.0% 0.0%
RAFT 光流 3.51 69.6% 15.9% 8.7%
ADRNet 密集匹配 1.67 90.1% 35.0% 20.6%
GDROS 密集匹配 1.34 91.1% 49.2% 35.5%
XoFTR+Flow 半密集 1.13 96.2% 57.6% 41.7%
CRFT 本文 0.65 99.0% 95.1% 89.9%

CRFT 是唯一达到亚像素 AEPE 的方法 (0.65);CMR@0.7px 达 89.9%,是第二名 XoFTR+Flow (41.7%) 的 2.15×

RoadScene (可见光-红外配准)

方法 AEPE ↓ CMR@3px ↑ CMR@1px ↑ CMR@0.7px ↑
RIFT2 17.27 36.4% 0.0% 0.0%
RAFT 8.92 66.6% 14.1% 8.0%
ADRNet 4.72 50.1% 9.4% 4.8%
XoFTR+Flow 4.83 27.3% 0.0% 0.0%
CRFT 2.37 68.2% 18.2% 4.5%

在 RoadScene 上 CRFT 同样取得最低 AEPE (2.37) 和最高 CMR@1px (18.2%)。

消融实验

配置 效果说明
仅粗阶段 全局对应可用但空间精度不足
+精阶段 局部细节改善,精度提升
+差异引导(N=1) 进一步修正几何失配
+迭代精化(N=3) 最优,收敛稳定
无SGT 退化——大仿射变换配准能力显著下降
无差异引导 退化——注意力无重点,修正效率低
无FSFT 退化——跨模态特征空间未对齐,差异计算不稳定

关键发现

  • SGT模块对大仿射变换最关键——无SGT时大角度/大尺度变换的配准几乎不可能
  • 差异引导注意力vs均匀注意力→前者使迭代更高效(注意力集中在需要修正的区域)
  • N=3次迭代已基本收敛→继续增加收益递减
  • 在RGB-RGB场景下CRFT也保持竞争力→模态无关设计不牺牲同模态性能

亮点与洞察

  • 模态无关的特征流:将跨模态配准统一为特征空间的流估计——不为每种模态对单独设计方法→通用性
  • 差异引导的"自适应注意力":用warped特征与目标的差异作为注意力权重→自动定位需要修正的区域→比均匀注意力高效得多
  • SGT的显式几何建模:将仿射变换作为可学习模块集成→而非期望流场隐式学到大变形

局限与展望

  • N=3次迭代增加了推理时间
  • 粗阶段用全局注意力→大图需要控制分辨率
  • 目前验证在遥感/导航场景→医学配准(CT-MRI)待探索

评分

  • 新颖性: ⭐⭐⭐⭐ 差异引导递归+SGT+模态无关流的组合有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 光学/红外/SAR/多光谱多场景验证
  • 写作质量: ⭐⭐⭐⭐ 架构图详细
  • 价值: ⭐⭐⭐⭐ 对遥感/导航有通用配准价值