跳转至

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/bociic/FusionRegister
领域: 图像恢复 / 低层视觉(红外可见光图像融合 + 配准)
关键词: 红外可见光融合, 跨模态配准, 视觉先验, 后配准, gMLP

一句话总结

针对红外-可见光图像融合(IVIF)里"先配准再融合"的高成本、依赖人造形变、难以适配真实场景的痛点,FusionRegister 反过来"先融合、再只对错配区域做后配准"——它挂在任意冻结的融合骨干之后,用融合结果当视觉先验定位错配区域、做双向 warping 纠偏、再用 gMLP 模块找回纹理,以仅 2.94M 参数、19ms 推理把五种主流融合方法的配准精度(SAM IoU)平均提升约 5%,同时完全保留原融合质量。

研究背景与动机

领域现状:红外和可见光图像融合(IVIF)想把热辐射信息(红外独有)和纹理细节(可见光独有)合成一张信息更全的图,已从 CNN、GAN、Transformer 一路发展到扩散模型与状态空间模型。但真实多模态相机由于成像器件差异,红外和可见光图像往往存在空间错位(misalignment),直接融合会导致严重的"信息错位(information displacement)"、产生鬼影,融合质量崩坏。

现有痛点:为解决错位,主流做法是把配准当作融合前的预处理,即"register-then-fuse(先配准后融合)"范式。作者把这条线的方法归纳出三个硬伤(论文 Fig.1):①依赖人造形变——很多 SOTA 用人为生成的仿射扰动当监督信号,强迫网络从合成扰动里学配准参数,结果一旦遇到本身没有大形变的真实输入就直接崩溃;②无法与融合方法交互——配准模块和融合模块割裂,换个融合骨干就得重做;③预操作沉重——风格迁移消除模态差、全局光流估计等步骤计算量大,还不可避免地带来信息损失。

核心矛盾:这些方法都试图把两个模态的所有信息全部对齐,却忽略了图像融合的一个关键事实——并非所有特征都会进入融合图。论文 Fig.2 做了个关键观察:把一对完美配准的图施加空间形变后再用同一融合骨干融合,patch 级相似度分析显示,红外的空间错位主要只影响"模态共享区域",而"模态独有区域"几乎不受影响。既然只有共享区域会错位,那就没必要做全局配准或重型预处理,只在错配区域做后配准即可。

本文目标:在保留任意融合骨干原有融合质量的前提下,用最小代价、最强泛化、最高鲁棒性地纠正跨模态错配。

切入角度:多模态传感器通常紧挨着放,天然提供了粗配准(coarse registration),所以方法应当能直接吃原始传感器输入,而不必靠人造形变当监督。作者据此提出"学习并定位错配表征(misregistration representation),只在受影响区域做定向纠正"。

核心 idea:把范式从"先配准后融合"翻转为"先融合、后配准"——让融合骨干当视觉先验提供者,引导配准只盯着错配区域,从而同时拿下鲁棒性、通用性、效率三件事。

方法详解

整体框架

FusionRegister(简称 FR)是一个挂在融合骨干之后的通用后配准框架。输入是可见光图 \(I_{vi}\)、红外图 \(I_{ir}\) 以及二者经任意(冻结的)融合骨干得到的融合结果 \(I_f\);目标是输出精配准后的融合图 \(I_{out}\),使其逼近"完美配准下应得到的融合图" \(I_{gt}\)。整个流程借鉴 MIMO-UNet 做分层(多尺度)处理:在尺度 \(i\in\{0,\cdots,N-1\}\) 上对 \(I_f/I_{vi}/I_{ir}\) 下采样,用三个结构相同、参数不同的特征提取器抽出多尺度特征 \(F_{in}^i\)\(in\in\{f,vi,ir\}\),见式 (1))。

在每个尺度上,FR 由三个协同阶段串起来:错配定位(ML)先用融合结果与源图的视觉先验,估计一张错配概率图 \(M^i\) 和一个形变场 \(\phi^i\),告诉后续"哪里错了、错多少";位置配准(LR)\(\phi^i\) 对融合特征/图做双向 warping,把错配区域拉回去且不破坏本就对齐的区域;模态保持块(MRB)再把空间变换中损失的纹理和对比度补回来,预测残差偏置图 \(I_{bias}^i\) 叠加到 warp 结果上。多尺度的形变场从粗到细逐层细化,保证空间一致性。注意融合骨干在训练时是冻结的——FR 不改融合,只纠错配,这正是它能即插即用到任意融合方法的原因。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["可见光 I_vi / 红外 I_ir"] --> B["冻结融合骨干<br/>→ 融合图 I_f(视觉先验)"]
    B --> C["错配定位 ML<br/>估概率图 M 与形变场 φ"]
    C --> D["位置配准 LR<br/>双向 warping 纠偏"]
    D --> E["模态保持块 MRB<br/>gMLP 补回纹理与对比度"]
    E --> F["精配准融合图 I_out"]

关键设计

1. 视觉先验驱动的"先融合、后配准"范式:只纠错配区域,不做全局对齐

这是全文最核心的范式翻转。旧范式"先配准后融合"要把两模态所有信息对齐,代价高且依赖人造形变监督;FR 基于 Fig.2 的观察——错位只影响模态共享区域——把顺序反过来:先让任意融合骨干产出 \(I_f\),再以 \(I_f\) 为视觉先验显式表征并定位错配,只在错配区域做纠正。这样做有三重收益:融合骨干冻结、原融合质量被完整保留(通用性);配准只聚焦 mismatch 区域、省掉全局光流和风格迁移等预操作(效率);不再靠人造形变当监督、改为"学习错配表征",所以面对没有大形变的干净真实输入也不会崩(鲁棒性)。作者称之为"field-free supervised paradigm"——不依赖全局监督的形变场,而是用视觉先验自适应地推断局部形变。

2. 错配定位 ML:用概率图 + 分层细化形变场回答"哪里错、错多少"

ML 针对的痛点是:既要知道错配位置,又要知道错配幅度,还不能被噪声带偏成孤立的乱跳形变。它在每个尺度同时估计一张错配概率图 \(M^i\in\mathbb{R}^{B\times1\times(H/2^i)\times(W/2^i)}\) 和一个形变场 \(\phi^i\in\mathbb{R}^{B\times2\times\cdots}\),前者表示"哪里是错配区域",后者表示"该往哪挪、挪多少"。形变场从粗到细逐层细化:

\[\phi^i = \phi^i \otimes \big(1 \oplus 2\otimes Up(\phi^{i+1})\big)\]

其中 \(\oplus,\otimes\) 是逐元素加/乘,\(Up(\cdot)\) 是双线性上采样,系数 "2" 用来补偿上采样带来的分辨率不匹配、维持物理尺度一致性。这种分层传播保证空间相干、抑制孤立形变。与依赖全局监督形变场的旧方法相比,ML 不需要全局监督,而是用视觉先验线索自适应地捕捉错配并推断局部形变,从而更鲁棒、更可泛化。

3. 位置配准 LR:双向 warping 同时纠偏又防撕裂

LR 把 ML 预测的 \(\phi^i\) 真正落实到融合特征/图上。痛点是:传统单向 backward warping 容易过度补偿——只朝一个方向拉,会把可疑错配区域用力过猛、把远处本来好的结构也扯歪,造成边缘撕裂(edge tearing)。FR 改用双向 warping,借概率图 \(M^i\) 做区域门控,对正反两个方向的形变场分别 warp 再加权融合:

\[I_{warp}^i = M^i \otimes BW(I_f^i,\phi^i)\ \oplus\ (1-M^i)\otimes BW(I_f^i,-\phi^i)\]

特征域同理得到 \(F_{warp}^i\)(式 (4)),\(BW(\cdot)\) 是 backward warping。直觉是:用 \(M^i\) 把"正方向纠正"留给真正错配的区域、把"反方向纠正"留给其余区域,正反向互相牵制,避免单侧用力过猛,既稳定形变又防止边缘撕裂。消融显示单向 warping 会"过度强调可疑错配区、扭曲远处结构",双向版在配准精度和融合质量上都更优。

4. 模态保持块 MRB:gMLP + 相关层 + 双模态注意力,找回 warp 丢掉的纹理

空间 warping 不可避免会削弱纹理、压低对比度。MRB 就是把这些细节补回来的轻量模块(论文 Fig.4/5)。它先用一个相关层(Correlation Layer)度量 warp 后融合特征 \(F_{warp}^i\) 与源特征 \(F_{src}^i\)\(src\in\{vi,ir\}\))的局部对应:把 \(F_{src}^i\) 零填充后在 \(m,n\in\{0,\dots,2p\}\) 范围内逐像素平移,与 \(F_{warp}^i\) 做逐元素乘并按通道平均,得到相关描述子 \(F_{cor}^{i,m,n}=CA(\tilde F_{src}^{i,m,n}\otimes F_{warp}^i)\)(式 (5)),拼成 \(F_{cor}^i\in\mathbb{R}^{B\times4p^2\times\cdots}\),相当于记录了多种偏移下的局部几何关系。随后把 \(F_{warp}^i,F_{src}^i,F_{cor}^i\) 压缩、切成多尺度 patch,交给 gMLP 做空间交互——用通道投影加空间门控单元 \(F_{cor}^{i(s)}=(F_{cor}^{i(s)}W_1)\otimes\sigma((F_{cor}^{i(s)}W_2)\mathbf{G})\)(式 (6),\(\mathbf{G}\) 是可学门控矩阵,\(\sigma\) 为 ReLU),无需自注意力就能建模长程依赖;多尺度结果再用 softmax 权重 \(w_s\) 聚合成 \(F_{gMLP}^i\)(式 (7))。

为强调模态独有信息,MRB 还接了双模态注意力:可见光分支用空间均值 + 通道加权增强语义一致性(式 (8)),红外分支用通道 max/mean 拼接的空间注意力强调高频细节(式 (9)),两者与 \(F_{gMLP}^i\) 相加得 \(F_{ff}^i\)(式 (10));最后卷积块预测残差偏置图 \(I_{bias}^i\),refine 出 \(I_{out}^i=I_{warp}^i\oplus I_{bias}^i\)(式 (11))。消融里 gMLP 版相比可变形 Transformer(DT)和可变形卷积(DC)取得了配准精度、细节保留与效率的最佳平衡——DT 建不好长程依赖、DC 感受野有限提升微弱。

损失函数 / 训练策略

总损失联合优化配准误差与结构/纹理保真,跨空间域与频率域(式 (12)):\(\mathcal{L}_{all}=\lambda_1\mathcal{L}_e+\lambda_2\mathcal{L}_g+\lambda_3\mathcal{L}_f+\lambda_4\mathcal{L}_d\)。四项分别是:边缘损失 \(\mathcal{L}_e\) 用高斯差分(DoG)算子对齐 warp/输出与 GT 的结构边界;全局空间损失 \(\mathcal{L}_g\) 在像素空间用 L2 约束整体结构一致;频率损失 \(\mathcal{L}_f\) 在傅里叶域用 L1 保高频纹理;细节损失 \(\mathcal{L}_d\) 用 Sobel 算子只在错配图 \(M^i\) 区域内约束纹理一致。训练用 Adam(\(\beta_1=0.9,\beta_2=0.999\))+ 余弦退火(lr \(2\times10^{-4}\to1\times10^{-6}\)),batch 20、patch \(256\times256\)、5000 epoch,超参 \(p=1,s\in\{1,3\},\lambda_1=10,\lambda_2=1,\lambda_3=0.1,\lambda_4=10\),单卡 RTX 4090。

⚠️ 上述公式编号、系数与超参均按论文原文整理,个别 OCR 还原的公式(如双向 warping、相关层)建议以原文为准

实验关键数据

实验设置

训练数据是作者自建的多模态配准数据集:从公开融合数据集 MSRS 和 M3FD 手工裁出 1,333 个完美配准的 \(260\times260\) patch(MSRS 426 + M3FD 907)。测试用 27 张 MSRS、21 张 M3FD、20 张 LLVIP 的自然错配样本,全分辨率、无合成形变评测。训练时对 \(I_{ir}\) 施加随机仿射(旋转 \([-2°,2°]\)、平移 \([-2,2]\) 像素、缩放 \([0.95,1.08]\) 等)模拟真实错配。评测分两块:融合质量用 EN/SF/AG/SD 四个无参考指标;配准精度用 SAM 做全景分割提取物体掩膜,再用 IoU 与 PR(precision/recall 调和均值)衡量跨模态对齐度,掩膜经人工标注保证公平。

主实验:通用性(SAM 配准精度,IoU/PR)

FR 即插即用到 CNN(MMDR)、GAN(FreqGAN)、Transformer(TDFusion)、扩散(HCLFuse)、Mamba(S4Fusion)五类融合骨干,在三个数据集上配准精度全面提升(论文 Table 1,平均约 +5% IoU),且融合质量保持:

融合骨干 MSRS IoU M3FD IoU LLVIP IoU
MMDR 83.6 76.9 83.7
MMDR + FR 86.5 81.6 86.0
FreqGAN 80.7 74.4 82.5
FreqGAN + FR 84.1 80.6 83.2
TDFusion 85.2 76.5 81.1
TDFusion + FR 86.7 81.0 82.9
HCLFuse 79.2 66.2 76.9
HCLFuse + FR 83.7 80.4 84.7
S4Fusion 79.9 72.5 82.8
S4Fusion + FR 85.9 75.7 85.3

作为参照,纯配准融合方法在 MSRS 上的 IoU 普遍偏低且泛化差:MURF 58.3、CAP 59.1、IVFWSR 64.6、C2RF 70.5、SemLA/IMF 均 78.7——其中 MulFS-CAP 只在自己训练集 LLVIP 上好,迁到 MSRS/M3FD 就崩。HCLFuse 在 M3FD 上 66.2→80.4 的 +14.2 是单项最大跃升,说明 FR 对原本配准较差的骨干增益尤其明显。

消融实验(MSRS)

论文 Table 2,同时报告配准(IoU/PR)、图像质量(EN/SF/AG/SD)与开销(时间 T/参数 P):

配置 IoU PR SF SD T(s) P(M) 说明
w/o MRB 85.6 91.9 11.46 42.71 0.012 2.83 去掉 MRB,纹理/对比度明显掉
1-d Warping 85.5 92.4 11.58 43.57 0.019 2.94 单向 warping,过补偿扭曲远处结构
MRB w/ DT 86.0 92.3 11.53 44.15 0.025 3.21 可变形 Transformer,长程依赖建不好且更慢
MRB w/ DC 84.8 92.1 11.41 42.52 0.014 3.25 可变形卷积,感受野有限,提升微弱
More Layers 86.3 92.9 11.65 43.79 0.021 7.32 2→3 层,收益微小但参数翻倍
Ours(2 层) 86.5 92.9 11.71 43.84 0.019 2.94 完整模型

复杂度对比(论文 Table 3)

方法 Params(M) MSRS 时间(s) M3FD 时间(s)
SemLA 28.03 0.75 2.39
MURF 13.4 2.23 4.85
IVFWSR 53.8 0.008 0.013
IMF 52.6 0.188 0.465
MulFS-CAP 1.5 4.5 10.57
C2RF 10.53 0.139 0.349
Ours 2.94 0.019 0.057

关键发现

  • MRB 贡献最大:去掉后 SD 从 43.84 掉到 42.71、SF 从 11.71 掉到 11.46,说明 warping 确实会损纹理/对比度,MRB 是把细节补回来的关键。
  • 双向 warping 优于单向:单向版 IoU 85.5、SF 11.58 都不如双向版(86.5 / 11.71),印证"单侧纠正会过补偿扭曲远处结构"的分析。
  • 2 层就够:从 2 层加到 3 层(More Layers)IoU 仅到 86.3(仍不及 Ours 的 86.5),但参数从 2.94M 翻到 7.32M,为轻量实时选 2 层。
  • 效率-质量权衡最好:FR 仅 2.94M 参数、19ms 推理,参数与速度都是次优梯队;IVFWSR 虽最快但 53.8M 参数且适配性差,MulFS-CAP 参数最少却推理最慢、泛化差。

亮点与洞察

  • 范式翻转最妙:把"先配准后融合"改成"先融合后配准",背后是一个被忽略的事实——错位只伤模态共享区。这个观察直接砍掉了全局配准和重型预处理,是"少做"换来"更好"的典范。
  • 冻结骨干 + 即插即用:FR 不碰融合网络,只当一个外挂纠错器,因此能无缝套到 CNN/GAN/Transformer/扩散/Mamba 五类骨干上,工程价值很高。
  • 用 SAM 做配准评测:IVIF 缺乏完美对齐参考图,作者用 SAM 分割掩膜的 IoU/PR 来量化对齐度,绕开了"靠合成形变评测脱离真实"的老问题,这个评测设计可迁移到其他跨模态对齐任务。
  • 双向 warping 防撕裂:用概率图门控正反向形变,是个简单却有效的稳形变技巧,可借鉴到光流/形变配准的其他场景。

局限与展望

  • 作者承认的局限:FR 假设输入已有粗配准(传感器紧邻提供)。当跨模态视角差异很大时,这个前提失效,FR 难以拿到满意效果——这也是未来要解决的关键问题。
  • 依赖融合骨干质量:FR 是后处理,若融合骨干本身把信息融烂了,视觉先验也不准;它纠的是错配而非融合本身的缺陷。
  • 自建数据 + 人工掩膜:训练 patch 与评测掩膜都靠手工裁剪/标注,规模有限(1,333 patch),可扩展性与标注一致性存疑。
  • 改进方向:把"粗配准"假设放宽到大视角差、把范式推广到更多跨模态融合任务(如医学多模态、遥感)是作者明确的下一步。

相关工作与启发

  • vs 先配准后融合(SemLA / MURF / IMF / MulFS-CAP / C2RF / IVFWSR):它们走"register-then-fuse",靠风格迁移/全局光流/模态字典先对齐再融合,预处理重、依赖人造形变、换数据集就崩;FR 走"fuse-then-register",只纠错配区、冻结骨干、用视觉先验,效率与泛化都更好。
  • vs 特征级一阶段配准融合(IVFWSR / RFVIF):它们在中间特征域直接预测 offset 做一阶段对齐特征融合,仍需把两模态信息整体对齐;FR 不动融合、只在像素/特征域对错配区做双向纠正,参数(2.94M)远小于 IVFWSR(53.8M)。
  • 启发:"并非所有信息都进融合图,所以只需局部配准"——这种"按需纠错而非全局对齐"的思路,可迁移到任何"重处理 + 局部缺陷"的任务(如视频去抖只修抖动帧、超分只补高频区)。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把 IVIF 配准范式从"先配准后融合"翻转为"先融合后配准",观察扎实、立意清晰
  • 实验充分度: ⭐⭐⭐⭐ 五类骨干 × 三数据集通用性 + 多维消融 + 复杂度对比,但缺与 SOTA 在融合质量数值上的正面横评
  • 写作质量: ⭐⭐⭐⭐ 动机与观察讲得透,公式较多但 OCR 还原略糙,部分细节需查补充材料
  • 价值: ⭐⭐⭐⭐⭐ 即插即用、轻量、可套任意融合骨干,工程落地价值高