CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration¶
会议: CVPR 2026
arXiv: 2604.05689
代码: https://github.com/NEU-Liuxuecong/CRFT
领域: 医学影像 / 图像配准
关键词: 跨模态配准, 特征流学习, 粗到精, 差异引导注意力, 空间几何变换
一句话总结¶
提出CRFT,统一的粗到精跨模态图像配准框架——在Transformer架构中学习模态无关的特征流表示,粗阶段1/8分辨率全局对应+精阶段1/2-1/4多尺度局部细化,配合迭代差异引导注意力和空间几何变换(SGT)递归精化流场捕捉微妙空间不一致,在光学/红外/SAR/多光谱等多种跨模态数据集上超越RAFT/GMFlow/LoFTR等SOTA。
研究背景与动机¶
领域现状:跨模态图像配准(建立不同传感器图像间的空间对应)是计算机视觉核心问题,应用于3D重建、视觉定位、遥感分析等。
现有痛点:(1) 手工特征(SIFT/RIFT)在强非线性外观差异下不可靠;(2) 学习型稀疏匹配(SuperGlue/LoFTR)优化于RGB→跨模态泛化差;(3) 光流方法(RAFT/GMFlow)假设光度一致性→跨模态输入违反此假设;(4) 所有方法对大仿射+尺度变化+模态差异的组合应对不足。
核心idea:(1) 在Transformer中学习模态无关的特征流——不依赖像素一致性而是学习跨模态的特征空间对应;(2) 粗→精层级匹配(全局+局部);(3) 迭代差异引导的递归流场精化——利用特征差异主动定位对齐不良区域。
方法详解¶
整体框架¶
CRFT 要解决的是一个很拧巴的问题:两张图来自不同传感器(光学 vs SAR、可见光 vs 红外),同一处地物的灰度可能完全相反,光流方法赖以工作的"光度一致性"在这里直接失效,但配准又要求亚像素级的密集对应。CRFT 的做法是把整件事搬到特征空间里,用一条粗到精的流水线把对应关系一层层磨出来。
具体地,一对输入图像 \((I^A, I^B)\) 先过一个共享权重的 ResNet 编码器,抽出 1/2、1/4、1/8 三个尺度的特征。先在最粗的 1/8 尺度上用 self-attention 和 cross-attention 建立全局对应,得到一个稳但糙的初始流场;再把流场带到 1/2、1/4 两个高分辨率尺度,用窗口注意力补上局部细节。最后是整篇的核心——一个跑 \(N\) 轮的迭代精化回路:每轮都把当前流场作用到特征上、显式补偿仿射/尺度变形、算出特征差异,再把差异反转成可靠度去引导注意力、用可靠区域的对应传播修正不可靠区域,逐步把流场收敛到亚像素精度。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["输入图像对 I^A / I^B"] --> B["共享 ResNet 编码器<br/>抽 1/2·1/4·1/8 三尺度特征(模态无关)"]
B --> C["粗阶段全局流估计<br/>1/8 尺度 SA+CA → 全局相关 → 初始流 Tc"]
C --> D["精阶段局部流细化<br/>1/2·1/4 窗口注意力 → 多尺度融合"]
D --> E
subgraph E["迭代差异引导流优化(N 轮回路)"]
direction TB
E1["FSFT:MLP 投影到共享特征空间"] --> E2["SGT:按当前流 warp 补偿仿射/尺度"]
E2 --> E3["算差异图 ΔF → 反转成可靠度 1−ΔF"]
E3 --> E4["DGFO:可靠度引导注意力<br/>从可靠邻域聚合流场"]
E4 --> E5["RU:残差更新流场"]
E5 --> E6["CENet:估可靠度 → 平滑"]
E6 -->|未达 N 轮| E1
end
E -->|N 轮后| F["全分辨率密集流场(配准结果)"]
关键设计¶
1. 粗阶段全局流估计:先在低分辨率上把"大对应"对稳
直接在高分辨率上做跨模态匹配很危险——两个模态的光谱、辐射差异会把局部细节淹没,匹配容易满盘跑偏。CRFT 选择先在 1/8 分辨率上动手:这一层特征对应的是高层结构(轮廓、骨架),对模态间的光度不一致天然更鲁棒。这里先用 self-attention 增强各自的特征表达,再用 cross-attention 在两张图之间做跨模态匹配,构造全局相关矩阵,从中读出一个初始流场。这个流场分辨率低、不够精细,但胜在覆盖全局、不容易被外观差异带偏,给后面的细化提供了一个可靠的起点。
2. 精阶段局部流细化:把空间细节在高分辨率上补回来
粗阶段的流场缺的是细节,而细节只在高分辨率特征里。问题是 1/2、1/4 这两层尺寸大,全局注意力的计算量直接爆掉。CRFT 用窗口自注意力把注意力限制在局部窗口内捕捉精细模式,再用交叉注意力把跨模态的空间细节注入流场,配合多尺度的层级融合逐级加细。这样既拿回了局部精度,又把高分辨率全局注意力的开销绕了过去。
3. 迭代差异引导流优化:用"哪里没对齐"来决定"该修哪里"
这是 CRFT 的核心创新,针对的是单次前向匹配解决不了的复杂非线性 + 大仿射变形。它把精化做成一个跑 \(N\) 轮的回路,每一轮都在上一轮的流场基础上往前修一步。一轮内部依次发生几件事:先是 Fine-Scale Feature Transformation (FSFT),用一个轻量 MLP 把两个模态的特征投影到同一个特征空间,先压掉外观差异、让后面的差异计算更稳;接着 Spatial Geometric Transform (SGT) 显式地把仿射/尺度变换建模成一个可学习的 warp 模块,按当前流场把目标特征对齐过来,专门补偿那些流场难以隐式表达的大变形;warp 后的特征与目标特征相减得到差异图 \(\Delta F\),它标出了当前哪些区域还没对齐;CRFT 把它反转成可靠度图 \(1-\Delta F\)(差异越小、越一致 → 可靠度越高);Discrepancy-Guided Flow Optimization (DGFO) 用这张可靠度图生成注意力的 query/key、以当前流场为 value,在局部邻域内做注意力聚合——让每个像素的流从邻域里更可靠(已对齐)的位置聚合过来,相当于用可靠区域的对应去传播、修正不可靠区域;据此做一次残差更新 (RU) 把流场往前推;最后 Confidence Estimation Network (CENet) 预测逐像素置信度,在窗口内挑高置信度的流聚合、并对流场做加权平滑、抑制不可靠区域的乱跳。
之所以有效,关键在"差异引导"这一步:普通迭代每轮都对整张图均匀聚合、不分可靠与否,而 CRFT 让差异自己说话——以一致性高的区域当可信锚点去聚合、把可靠对应传播到尚未对齐的区域,每一轮都在确定的信息上发力,所以收敛得又快又准(消融显示 \(N=3\) 轮已基本收敛,再加收益递减)。SGT 则是另一根支柱,缺了它,遇到大角度、大尺度的仿射变换配准几乎会垮掉。
4. 模态无关设计:把跨模态配准统一成"特征流"
跨模态配准过去常常是一种模态对配一套方法,泛化性差。CRFT 的思路是:编码器跨模态共享权重,逼着它学出模态不变的特征;并且整个 formulation 不再估计像素级的光度/光流,而是估计特征空间里的流,从根上绕开了"光度一致性"这个跨模态根本不成立的假设。代价很小——消融显示即便在 RGB-RGB 同模态场景下,这套设计也仍保持竞争力,说明模态无关并没有牺牲同模态性能。
实验关键数据¶
主实验(多种跨模态场景)¶
OSdataset (光学-SAR配准)
| 方法 | 类型 | AEPE ↓ | CMR@3px ↑ | CMR@1px ↑ | [email protected] ↑ |
|---|---|---|---|---|---|
| RIFT2 | 手工特征 | 23.61 | 22.9% | 0.0% | 0.0% |
| GMFlow | 光流 | 11.91 | 17.0% | 0.0% | 0.0% |
| RAFT | 光流 | 3.51 | 69.6% | 15.9% | 8.7% |
| ADRNet | 密集匹配 | 1.67 | 90.1% | 35.0% | 20.6% |
| GDROS | 密集匹配 | 1.34 | 91.1% | 49.2% | 35.5% |
| XoFTR+Flow | 半密集 | 1.13 | 96.2% | 57.6% | 41.7% |
| CRFT | 本文 | 0.65 | 99.0% | 95.1% | 89.9% |
CRFT 是唯一达到亚像素 AEPE 的方法 (0.65);[email protected] 达 89.9%,是第二名 XoFTR+Flow (41.7%) 的 2.15×。
RoadScene (可见光-红外配准)
| 方法 | AEPE ↓ | CMR@3px ↑ | CMR@1px ↑ | [email protected] ↑ |
|---|---|---|---|---|
| RIFT2 | 17.27 | 36.4% | 0.0% | 0.0% |
| RAFT | 8.92 | 66.6% | 14.1% | 8.0% |
| ADRNet | 4.72 | 50.1% | 9.4% | 4.8% |
| XoFTR+Flow | 4.83 | 27.3% | 0.0% | 0.0% |
| CRFT | 2.37 | 68.2% | 18.2% | 4.5% |
在 RoadScene 上 CRFT 同样取得最低 AEPE (2.37) 和最高 CMR@1px (18.2%)。
消融实验¶
| 配置 | 效果说明 |
|---|---|
| 仅粗阶段 | 全局对应可用但空间精度不足 |
| +精阶段 | 局部细节改善,精度提升 |
| +差异引导(N=1) | 进一步修正几何失配 |
| +迭代精化(N=3) | 最优,收敛稳定 |
| 无SGT | 退化——大仿射变换配准能力显著下降 |
| 无差异引导 | 退化——注意力无重点,修正效率低 |
| 无FSFT | 退化——跨模态特征空间未对齐,差异计算不稳定 |
关键发现¶
- SGT模块对大仿射变换最关键——无SGT时大角度/大尺度变换的配准几乎不可能
- 差异引导注意力vs均匀注意力→前者使迭代更高效(以一致区域为可信锚点聚合、传播流场,而非整图均摊)
- N=3次迭代已基本收敛→继续增加收益递减
- 在RGB-RGB场景下CRFT也保持竞争力→模态无关设计不牺牲同模态性能
亮点与洞察¶
- 模态无关的特征流:将跨模态配准统一为特征空间的流估计——不为每种模态对单独设计方法→通用性
- 差异引导的"自适应注意力":把 warped 特征与目标的差异反转成可靠度图当注意力权重→让流场从可靠邻域聚合、传播到不可靠区域→比均匀聚合收敛更快更准
- SGT的显式几何建模:将仿射变换作为可学习模块集成→而非期望流场隐式学到大变形
局限与展望¶
- N=3次迭代增加了推理时间
- 粗阶段用全局注意力→大图需要控制分辨率
- 目前验证在遥感/导航场景→医学配准(CT-MRI)待探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 差异引导递归+SGT+模态无关流的组合有效
- 实验充分度: ⭐⭐⭐⭐⭐ 光学/红外/SAR/多光谱多场景验证
- 写作质量: ⭐⭐⭐⭐ 架构图详细
- 价值: ⭐⭐⭐⭐ 对遥感/导航有通用配准价值