跳转至

MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement

会议: CVPR 2026
arXiv: 2602.01760
代码: https://github.com/zhayanping/MagicFuse (有)
领域: 扩散模型 / 图像融合 / 多模态
关键词: 单图融合, 红外可见光融合, 潜在扩散模型, 跨光谱知识生成, 语义分割

一句话总结

针对"现实中往往只有可见光相机、没有红外相机"的痛点,本文提出"单图融合 (Single Image Fusion, SIF)"新范式:用两条扩散流分别从一张低质可见光图里强化可见光内知识凭空生成红外光知识,再在噪声层面把两者融合,得到一张兼顾人眼观感与下游语义决策的 MagImg——在只用单张退化可见光图的条件下,视觉/语义指标可与用红外-可见光配对输入的 SOTA 融合方法持平甚至反超。

研究背景与动机

领域现状:红外可见光图像融合 (IVIF) 利用红外模态补全可见光在低光/雾霾/噪声等恶劣条件下丢失的场景信息,已广泛用于侦察、智能交通、辅助驾驶。近年 TarDAL、OmniFuse、Text-DiFuse 等深度方法不断把融合在复杂环境下的鲁棒性推向新高。

现有痛点:所有 IVIF 方法都有一个硬性前提——必须同时拿到配准好的红外图和可见光图。但现实里红外热像仪因成本高常常缺席,绝大多数场景只有可见光传感器。这种"数据级缺失"直接让所有 IVIF 方法失效。退一步用图像复原从单光谱里恢复信息,但单一可见光谱内的先验本就有限,退化类型多且耦合时复原往往不理想。

核心矛盾:融合的本质是"跨模态互补信息",而互补信息需要第二个模态。一旦红外数据级缺失,传统"数据级融合"(把两张图的像素/特征拼在一起)就无从谈起。

本文目标:在只有单张低质可见光图的条件下,仍然享受 IVIF 的好处,得到一个兼顾视觉质量与语义决策的跨光谱场景表征。这要回答两个根本问题:(1) 超出可见光谱的新知识从哪来?(2) 既然数据级融合不可行,怎么从数据级跃迁到知识级融合?

切入角度:生成式扩散模型能从大规模数据里"学出/造出"新知识——可见光谱内被退化遮蔽的细节可以靠复原扩散流补回来,红外热辐射分布可以靠"可见光→红外"翻译扩散流凭经验生成。而扩散采样每一步估计的噪声 \(\bm{\epsilon}_t\) 本身就编码了知识,可以当作融合的媒介。

核心 idea:把融合从"数据级"提升到"知识级"——不再拼像素,而是用两条扩散流分别产出"强化的可见光知识"和"生成的红外知识",在噪声层面做加权融合,从同一个高斯噪声起点连续采样出一张 MagImg。

方法详解

整体框架

MagicFuse 输入一张退化可见光图 \(\bm{\mathcal{I}}\in\mathbb{R}^{H\times W\times 3}\),输出一张具备跨光谱表征能力的 Magic Image (MagImg) 以及配套的语义分割图。它把 SIF 形式化为一个知识融合问题:先用两条潜在扩散模型 (LDM) 分别产出两类知识 \(\bm{k}^\psi\)(可见光谱内强化知识)和 \(\bm{k}^\phi\)(跨光谱生成的红外知识),再让融合网络 \(\mathcal{F}\) 在噪声空间把两者按权重 \(\bm{w}\) 合成,最后解码成 MagImg;同时一个分割头 \(\mathcal{S}\) 把融合特征对齐到语义标签,反过来修正融合权重。整条管线从一个共享的标准高斯噪声 \(\bm{z}_T\) 出发,三条扩散流(IKR/CKG/MKF)同步逐步采样。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单张退化<br/>可见光图 I"] --> B["IKR 分支:<br/>强化可见光内知识 kψ"]
    A --> C["CKG 分支:<br/>生成红外知识 kφ"]
    B -->|噪声 εψ| D["MKF 知识融合:<br/>权重 w 合成噪声 εf"]
    C -->|噪声 εφ| D
    D --> E["视觉-语义耦合:<br/>分割头 S + 辐射类别图 M<br/>修正权重 wr"]
    E -->|修正后噪声| D
    D --> F["解码采样<br/>→ MagImg + 分割图"]

关键设计

1. 单图融合 (SIF):把融合从数据级抬到知识级

直接动机是上面的核心矛盾——红外数据级缺席让传统融合彻底失效。本文不再去"拼第二张图",而是把融合重新定义为知识融合问题(式 1):\(\min_{\bm{\omega}^{\mathtt f}}\mathbb{E}_{\bm{z}_T\sim\mathcal{N}(0,\bm{I})}[\mathcal{L}^{\mathtt f}(\mathcal{F}(\bm{k}^\psi,\bm{k}^\phi;\bm{\omega}^{\mathtt f}))]\),其中 \(\bm{k}^\psi\) 来自可见光复原扩散流 \(\Psi\)\(\bm{k}^\phi\) 来自"可见光→红外"翻译扩散流 \(\Phi\),两条流共享同一个噪声起点 \(\bm{z}_T\)。这一步的关键洞察是:第二个模态的信息不必来自传感器,可以来自生成模型从大规模配对数据里学到的分布规律。这样融合的对象从"两张图的像素"变成了"两条扩散流产出的知识",从根上绕开了红外缺失的限制——这也是论文自称的首个 SIF 提案

2. IKR + CKG 双扩散流:一路补内知识、一路造外知识

两类知识的学习目标本质不同:可见光复原是恢复光谱内的颜色/纹理细节,"可见光→红外"翻译则要建模跨光谱的语义对应关系。因此本文实例化两条专门的扩散分支——IKR (intra-spectral knowledge reinforcement) 训练 \(\Psi\) 做退化可见光复原,CKG (cross-spectral knowledge generation) 训练 \(\Phi\) 学红外热辐射分布并从可见光推断红外表征。两者共用同一套 LDM 设计(带 InstanceNorm 的轻量自编码器把图映到内容中心的潜空间 \(\bm{z}=\bm{\mathcal{E}}(\bm{\mathcal{I}})\),U-Net 去噪器以退化图为条件 \(\bm{c}\) 预测噪声 \(\bm{\epsilon}_\theta(\bm{z}_t,\bm{c},t)\),DDIM 加速采样),但参数容量不同——翻译任务更难,所以 \(\Phi\)(517.67M)远大于 \(\Psi\)(39.65M)。关键的一点是:学到的知识并不显式输出成图,而是隐式地编码在每步预测的噪声里 \(\bm{\epsilon}^\psi_t,\bm{\epsilon}^\phi_t\),为下一步"在噪声层面融合"埋下接口

3. MKF 噪声层融合:在概率空间动态加权两类知识

有了两路噪声,怎么合?本文构造 MKF (multi-domain knowledge fusion) 分支,让融合网络 \(\mathcal{F}\) 逐时刻估计一个加权系数 \(\bm{w}\),把两路噪声线性组合:\(\bm{\epsilon}_t^{\mathtt f}=\bm{w}\bm{\epsilon}^\psi_t+(1-\bm{w})\bm{\epsilon}^\phi_t\)(式 3)。权重不是拍脑袋给的常数,而是综合三方面信息算出来的(式 4):两条流当前的单步初值估计 \(\widetilde{\bm{z}}^\psi_{t\to0}\)\(\widetilde{\bm{z}}^\phi_{t\to0}\)(衡量两路知识质量,由 \(\widetilde{\bm{z}}_{t\to0}=(\bm{z}_t-\sqrt{1-\bar\alpha_t}\,\bm{\epsilon}_t)/\sqrt{\bar\alpha_t}\) 单步反推得到)、两路噪声 \(\bm{\epsilon}^\psi_t,\bm{\epsilon}^\phi_t\) 本身、以及 MKF 当前步的采样表征 \(\bm{z}_t^{\mathtt f}\)。这样权重随时间步与内容自适应变化,让"补内知识"和"造外知识"在概率空间里始终保持平衡,而不是简单平均

4. 视觉-语义耦合:分割头既注入语义、又救活训练

只优化视觉会让 MagImg 好看但对机器感知没用;更隐蔽的是,由于 \(\bm{\epsilon}^\psi\)\(\bm{\epsilon}^\phi\) 都从同一输入 \(\{\bm{\mathcal{I}},\bm{z}_T\}\) 产生,二者存在内在相关 \(\bm{\epsilon}^\phi=A\bm{\epsilon}^\psi\),式 3 可改写成 \(\bm{\epsilon}_t^{\mathtt f}=(\bm{w}+(1-\bm{w})A)\bm{\epsilon}^\psi_t\)——因为两条流的条件都是可见光图,优化会完全偏向 \(\bm{\epsilon}^\psi_t\)(即 \(\bm{w}\to1\)),导致红外知识被抹掉、训练坍塌。本文在 MKF 里嵌入分割头 \(\mathcal{S}\),以融合网络的注意力特征 \(\bm{\zeta}\) 为输入预测分割图 \(\Gamma\)(式 5),再从 \(\Gamma\) 导出一张辐射类别图 \(\mathcal{M}\)(标出行人、车辆这类典型热目标)去修正权重:\(\bm{w}^{\mathtt r}=\mathcal{M}\,\text{min}(\bm{w},\bm{\tau})+(1-\mathcal{M})\bm{w}\)(式 6)。在热目标区域强制把权重压到不超过超参 \(\bm{\tau}\)既保证了行人/车辆的热辐射特征被保留(语义注入),又强行打破了 \(\bm{w}\to1\) 的坍塌(优化救活)——一个模块同时解决了语义对齐和训练稳定两个问题

损失函数 / 训练策略

采用两阶段优化。第一阶段:在配对数据上独立训练 \(\Psi\)\(\Phi\)(IKR 用 14,190 对退化-干净可见光图,CKG 用 25,186 对退化可见光-干净红外图)。第二阶段:冻结 \(\Psi\)\(\Phi\),只训融合网络 \(\mathcal{F}\)(2.74M)和分割头 \(\mathcal{S}\),训练信号来自两条扩散流每个时间步的输出(见 Algorithm 1)。视觉端用对比/纹理/颜色三项正则(式 10):\(\mathcal{L}_{\text{cont}}\) 让 MagImg 亮度取两路解码图的逐像素 max、\(\mathcal{L}_{\text{text}}\) 对 Sobel 梯度取 max、\(\mathcal{L}_{\text{color}}\) 约束色度向可见光对齐,合成 \(\mathcal{L}_{\text{visual}}=\lambda_1\mathcal{L}_{\text{cont}}+\lambda_2\mathcal{L}_{\text{text}}+\lambda_3\mathcal{L}_{\text{color}}\);语义端用交叉熵 \(\mathcal{L}_{\text{seg}}\)(式 11)。两者联合优化驱动视觉保真与语义一致双提升。扩散步数训练/推理为 1000/25。

实验关键数据

数据集:IKR/CKG 在 MFNet + FMB + LLVIP 合并集上训练;MKF 用 MFNet 的 1,177 张退化可见光图+分割标签训练,在 MFNet 的 392 张退化可见光图上测试。所有对比方法都用红外-可见光配对输入,MagicFuse 只用单张退化可见光图。

主实验

视觉质量对比(MFNet 测试集,↑ 越大越好):

指标 TarDAL EMMA Text-DiFuse DAFusion Ours
EN 5.11 6.74 7.08 7.26 7.29 (最佳)
MI 1.45 3.46 2.99 3.08 4.13 (最佳)
PSNR 57.48 61.96 62.99 61.71 63.49 (最佳)
SSIM 0.12 0.43 0.41 0.42 0.45
Qabf 0.21 0.45 0.40 0.33 0.50 (次优)

只用单张退化可见光图,MagicFuse 在 EN/MI/PSNR 三项拿到最佳,整体与用红外-可见光配对的 SOTA 持平甚至反超。

语义分割对比(MFNet,SegFormer 重训,mIoU↑):

方法 输入 mIoU
SegMiF IR+VIS 62.28 (最佳)
Ours-\(\mathcal{F}\) 单张 VIS 62.19 (次优)
EMMA IR+VIS 61.98
Text-IF IR+VIS 60.65
Degra. VIS(退化原图) 单张 VIS 54.09

仅以单张可见光图就拿到次优 mIoU,仅落后用双模态的 SegMiF 0.09,远超退化原图的 54.09。

消融实验

关键组件消融(视觉 Table 6 / 语义 Table 7):

配置 EN↑ MI↑ PSNR↑ mIoU↑ 说明
Model I:权重去掉 \(\widetilde{\bm{z}}_{t\to0}\) 7.28 4.09 62.14 61.05 权重只看噪声、不看知识质量
Model II:去掉分割头 7.33 4.10 62.16 60.83 只有视觉引导
Model III:扩散后再聚合(非逐步噪声融合) 7.17 3.24 61.49 59.74 跨光谱能力最弱
Model IV:仅靠 IKR 增强的可见光 7.39 4.08 62.11 57.18 无红外知识,语义崩
Full Model 7.29 4.13 63.49 61–62 完整模型

关键发现

  • 逐时刻噪声融合是关键:Model III 把"先各自扩散完再聚合"换掉逐步噪声融合,MI 从 4.13 暴跌到 3.24、mIoU 跌到 59.74,说明知识必须在扩散过程中、噪声层面融合才有效,事后拼图丢失大量跨光谱信息。
  • 红外知识对语义最致命:Model IV 去掉 CKG 只留可见光增强,视觉指标几乎不掉(EN 甚至 7.39 最高),但 mIoU 崩到 57.18——印证了"生成的红外知识"主要在帮机器感知(突出行人/车辆等热目标)。
  • 超参 \(\bm{\tau}\) 的甜点在 0.4\(\bm{\tau}\) 调节辐射类别图对融合的影响,取 0/0.2/0.4/0.6/0.8 时,MagImg 质量与分割精度都在 \(\bm{\tau}=0.4\) 达到峰值,说明跨光谱知识虽能增强表征,但注入过强会破坏原始光谱信息。
  • 泛化到非融合场景:在 Cityscapes 上把可见光图增强成 MagImg 重训 SegFormer,分割 mIoU 从 65.80 提升到 66.91,证明方法不局限于红外-可见光融合数据集,可用于几乎任意自然图。

亮点与洞察

  • "融合不需要第二个传感器,只需要第二份知识":把融合从数据级抬到知识级,用生成模型造出缺失模态的知识,这一范式转换打开了"单图也能享受多模态融合红利"的新方向,实用价值极高(红外相机贵且常缺)。
  • 噪声即知识载体:不把扩散流产出解码成图再融合,而是直接在每步预测噪声 \(\bm{\epsilon}_t\) 上加权融合,这一选择很巧——噪声同时编码了语义与结构知识,且天然处在两条流的共享采样轨迹上,融合代价极低(融合网络仅 2.74M)。
  • 一个分割头身兼两职:分割头既注入语义(让 MagImg 利于下游分割),又顺手解决了"两路噪声同源导致 \(\bm{w}\to1\) 训练坍塌"的优化难题——用辐射类别图在热目标区强行压权重,是个很漂亮的"一石二鸟"设计,值得迁移到其他"双分支权重易塌陷"的融合/蒸馏场景。

局限与展望

  • CKG 是"凭经验幻想红外":红外知识完全由生成模型从训练分布里推断,对训练集没见过的热辐射模式(罕见物体、异常温度场景)可能编造出不真实的热分布,存在幻觉风险;论文未讨论生成红外的可信度评估。
  • 依赖大规模配对数据训练上游:虽然推理只要单张可见光图,但 IKR/CKG 训练仍需大量退化-干净、可见光-红外配对(合计近 4 万对),换新场景/新传感器仍要重训上游扩散流。
  • 语义仍略逊纯双模态方法:mIoU 次优、泛化到 FMB 时不及多模态融合,说明生成的红外知识终究不等于真实红外测量,极端环境下机器感知上限受限。
  • 改进思路:可引入红外生成的不确定性估计,对低置信热区降低融合权重;或用少量真实红外做半监督校准 CKG,缩小"生成红外 vs 真实红外"的差距。

相关工作与启发

  • vs 传统 IVIF(TarDAL / SegMiF / Text-DiFuse):它们做数据级融合、必须有配准的红外+可见光对;本文做知识级融合、只要单张可见光。区别在于第二模态信息源——前者来自传感器,后者来自生成模型。本文优势是摆脱红外硬件依赖、适用面广;劣势是红外知识是"造"的,语义上限略低于真实双模态。
  • vs 图像复原 (image restoration):复原只能从可见光谱内恢复有限信息;本文在复原(IKR)之外额外用 CKG 引入跨光谱新知识,并把两者融合,信息量超出单光谱先验。
  • vs 扩散融合方法 (DDFM / OmniFuse):同样用扩散,但它们仍在双模态输入上做去噪/融合;本文创新在"用噪声当融合媒介 + 逐时刻动态加权 + 分割头救坍塌",把扩散从"融合工具"用成了"知识生成+融合"的统一框架。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首提单图融合 (SIF),把融合从数据级抬到知识级,范式级创新
  • 实验充分度: ⭐⭐⭐⭐ 视觉/语义/泛化/消融/超参/跨域 6 类实验齐全,但缺生成红外的可信度分析
  • 写作质量: ⭐⭐⭐⭐ 两个根本问题驱动叙事清晰,公式与 Algorithm 完整;符号较密集
  • 价值: ⭐⭐⭐⭐⭐ 摆脱红外硬件依赖、单可见光图即可享受融合红利,实用落地价值高