CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration¶
会议: CVPR 2026
arXiv: 2604.05689
代码: https://github.com/NEU-Liuxuecong/CRFT
领域: 医学影像 / 图像配准
关键词: 跨模态配准, 特征流学习, 粗到精, 差异引导注意力, 空间几何变换
一句话总结¶
提出CRFT,统一的粗到精跨模态图像配准框架——在Transformer架构中学习模态无关的特征流表示,粗阶段1/8分辨率全局对应+精阶段1/2-1/4多尺度局部细化,配合迭代差异引导注意力和空间几何变换(SGT)递归精化流场捕捉微妙空间不一致,在光学/红外/SAR/多光谱等多种跨模态数据集上超越RAFT/GMFlow/LoFTR等SOTA。
研究背景与动机¶
领域现状:跨模态图像配准(建立不同传感器图像间的空间对应)是计算机视觉核心问题,应用于3D重建、视觉定位、遥感分析等。
现有痛点:(1) 手工特征(SIFT/RIFT)在强非线性外观差异下不可靠;(2) 学习型稀疏匹配(SuperGlue/LoFTR)优化于RGB→跨模态泛化差;(3) 光流方法(RAFT/GMFlow)假设光度一致性→跨模态输入违反此假设;(4) 所有方法对大仿射+尺度变化+模态差异的组合应对不足。
核心idea:(1) 在Transformer中学习模态无关的特征流——不依赖像素一致性而是学习跨模态的特征空间对应;(2) 粗→精层级匹配(全局+局部);(3) 迭代差异引导的递归流场精化——利用特征差异主动定位对齐不良区域。
方法详解¶
整体框架¶
输入图像对\((I^A, I^B)\) → 共享ResNet CNN提取1/2、1/4、1/8三个尺度特征 → 粗阶段(1/8): self-attn+cross-attn建立全局对应→初始流场 → 精阶段(1/2+1/4): 窗口注意力+交叉注意力注入精细空间细节 → 迭代差异引导流优化(N轮): 精细特征经SGT变换对齐→计算特征差异→差异加权注意力引导→残差更新+置信度估计网络平滑 → 最终高精度密集流场。
关键设计¶
-
粗阶段流估计(全局上下文):
- 1/8分辨率特征→self-attn增强+cross-attn跨模态匹配→全局相关矩阵→初始流场
- 设计动机:低分辨率特征捕捉高层结构→对模态间光谱/辐射不一致更鲁棒→稳定全局匹配
-
精阶段流细化(局部细节):
- 1/2和1/4分辨率特征→窗口自注意力捕捉局部模式→交叉注意力注入精细空间细节
- 设计动机:高分辨率保留空间细节但全局注意力计算量不可行→窗口注意力+层级融合
-
迭代差异引导流优化(核心创新):
- N轮迭代精化。每轮:
- Fine-Scale Feature Transformation (FSFT):用当前流场warp特征
- Spatial Geometric Transform (SGT):显式建模仿射/尺度变换→对齐大变形
- 差异计算:warped特征与目标特征的残差→差异图
- Discrepancy-Guided Flow Optimization (DGFO):差异加权注意力→自动聚焦对齐不良区域
- 残差更新(RU):差异引导的残差流更新
- Confidence Estimation Network (CENet):预测逐像素置信度→平滑最终流场
- 设计动机:单次匹配无法处理复杂的非线性和仿射变形→递归精化逐步纠正。差异引导确保注意力集中在对齐最差的区域→效率高
- N轮迭代精化。每轮:
-
模态无关设计:
- 共享CNN编码器跨模态使用→学习模态不变特征
- 特征流formulation替代像素级光度/光流→不依赖像素一致性
实验关键数据¶
主实验(多种跨模态场景)¶
主实验¶
OSdataset (光学-SAR配准)
| 方法 | 类型 | AEPE ↓ | CMR@3px ↑ | CMR@1px ↑ | CMR@0.7px ↑ |
|---|---|---|---|---|---|
| RIFT2 | 手工特征 | 23.61 | 22.9% | 0.0% | 0.0% |
| GMFlow | 光流 | 11.91 | 17.0% | 0.0% | 0.0% |
| RAFT | 光流 | 3.51 | 69.6% | 15.9% | 8.7% |
| ADRNet | 密集匹配 | 1.67 | 90.1% | 35.0% | 20.6% |
| GDROS | 密集匹配 | 1.34 | 91.1% | 49.2% | 35.5% |
| XoFTR+Flow | 半密集 | 1.13 | 96.2% | 57.6% | 41.7% |
| CRFT | 本文 | 0.65 | 99.0% | 95.1% | 89.9% |
CRFT 是唯一达到亚像素 AEPE 的方法 (0.65);CMR@0.7px 达 89.9%,是第二名 XoFTR+Flow (41.7%) 的 2.15×。
RoadScene (可见光-红外配准)
| 方法 | AEPE ↓ | CMR@3px ↑ | CMR@1px ↑ | CMR@0.7px ↑ |
|---|---|---|---|---|
| RIFT2 | 17.27 | 36.4% | 0.0% | 0.0% |
| RAFT | 8.92 | 66.6% | 14.1% | 8.0% |
| ADRNet | 4.72 | 50.1% | 9.4% | 4.8% |
| XoFTR+Flow | 4.83 | 27.3% | 0.0% | 0.0% |
| CRFT | 2.37 | 68.2% | 18.2% | 4.5% |
在 RoadScene 上 CRFT 同样取得最低 AEPE (2.37) 和最高 CMR@1px (18.2%)。
消融实验¶
| 配置 | 效果说明 |
|---|---|
| 仅粗阶段 | 全局对应可用但空间精度不足 |
| +精阶段 | 局部细节改善,精度提升 |
| +差异引导(N=1) | 进一步修正几何失配 |
| +迭代精化(N=3) | 最优,收敛稳定 |
| 无SGT | 退化——大仿射变换配准能力显著下降 |
| 无差异引导 | 退化——注意力无重点,修正效率低 |
| 无FSFT | 退化——跨模态特征空间未对齐,差异计算不稳定 |
关键发现¶
- SGT模块对大仿射变换最关键——无SGT时大角度/大尺度变换的配准几乎不可能
- 差异引导注意力vs均匀注意力→前者使迭代更高效(注意力集中在需要修正的区域)
- N=3次迭代已基本收敛→继续增加收益递减
- 在RGB-RGB场景下CRFT也保持竞争力→模态无关设计不牺牲同模态性能
亮点与洞察¶
- 模态无关的特征流:将跨模态配准统一为特征空间的流估计——不为每种模态对单独设计方法→通用性
- 差异引导的"自适应注意力":用warped特征与目标的差异作为注意力权重→自动定位需要修正的区域→比均匀注意力高效得多
- SGT的显式几何建模:将仿射变换作为可学习模块集成→而非期望流场隐式学到大变形
局限与展望¶
- N=3次迭代增加了推理时间
- 粗阶段用全局注意力→大图需要控制分辨率
- 目前验证在遥感/导航场景→医学配准(CT-MRI)待探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 差异引导递归+SGT+模态无关流的组合有效
- 实验充分度: ⭐⭐⭐⭐⭐ 光学/红外/SAR/多光谱多场景验证
- 写作质量: ⭐⭐⭐⭐ 架构图详细
- 价值: ⭐⭐⭐⭐ 对遥感/导航有通用配准价值