Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared¶

会议: CVPR 2026
arXiv: 2603.08018
代码: https://github.com/harukiv/DCMIF
领域: 可解释性
关键词: 红外-可见光融合, 缺失模态, 卷积字典学习, 系数域推理, 大语言模型先验

一句话总结¶

提出首个在系数域（而非像素域）进行红外缺失条件下跨模态融合的框架：通过共享卷积字典建立 IR-VIS 统一原子空间，在系数域完成 VIS→IR 推理和自适应融合，配合冻结 LLM 提供弱语义先验进行热信息补全，在仅输入可见光图像的条件下达到接近双模态融合方法的性能。

研究背景与动机¶

红外-可见光（IR-VIS）图像融合对于监控、机器人和自动驾驶系统的鲁棒感知至关重要。现有方法（CNN、CNN-Transformer、GAN、扩散模型）都假设训练和推理时两种模态都可用。然而现实中红外模态经常缺失（如测试时仅有可见光相机）。

当红外缺失时，直观方案是在像素空间生成伪红外图像再融合。但像素空间生成存在严重问题：控制性差、可解释性弱、容易产生幻觉伪影和结构细节丢失。

核心矛盾：如何在红外缺失时稳定地恢复热信息并进行可解释的融合？本文的切入角度是：不在像素空间生成红外，而是将两种模态映射到统一的字典-系数空间，在系数域完成推理和融合，从而锚定数据一致性和先验约束在原子-系数层面。

方法详解¶

整体框架¶

本文要解决的是「测试时只有可见光、红外缺失」下的图像融合。它的核心选择是不在像素空间凭空生成红外，而是把整个问题搬到一个共享的「字典-系数」空间里完成。具体来说，一张图像被表示为字典原子与稀疏系数的卷积 \(\mathbf{I} = \mathbf{D} * \mathbf{S}\)，于是「恢复红外」和「融合」都变成了在系数 \(\mathbf{S}\) 上做运算，而非直接生成像素。

整条 pipeline 是一个闭环：先由 JSRL 学一本 IR 和 VIS 共用的卷积字典，把两种模态钉到同一原子空间；再由 VGII 在系数域把可见光系数推理成伪红外系数，中途借冻结 LLM 注入一点语义先验做校准；最后由 AFRI 在原子级别把可见光系数和推理出的伪红外系数自适应混合，用同一本字典重建出融合图。编码、推理、融合、重建全程在同一字典-系数空间内流转，这正是它可解释性的来源。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：仅可见光图像<br/>（红外缺失）"] --> B["JSRL 联合共享字典学习<br/>学 IR/VIS 共用卷积字典 D，I = D*S"]
    B --> C["编码可见光 → 系数 S_vis"]
    C --> D["VGII 可见光引导红外推理<br/>RIN 在系数域推出初步伪红外系数"]
    D -->|"冻结 LLM 输出 FiLM 调制系数, 二次过 RIN 校准"| E["精炼伪红外系数 S_p_ir"]
    C --> F["AFRI 自适应表示融合<br/>原子级门控混合 S_vis 与 S_p_ir"]
    E --> F
    F --> G["共享字典 D 重建 → 输出融合图"]

关键设计¶

1. JSRL — 联合共享字典表示学习：用一本共享字典把两种模态对齐到同一原子空间

红外缺失推理之所以难，是因为 VIS 和 IR 本来分属两个互不相通的表示，缺一个就无从下手。JSRL 的做法是强迫两种模态共用同一本卷积字典 \(\mathbf{D} \in \mathbb{R}^{B \times k \times k}\)，让它们各自只在稀疏系数上有差异，从而在原子级别建立起一一对应——这也是后续能在系数域而非像素域做推理的前提。训练目标是联合最小化两模态重建误差，外加系数先验和字典正则：

\[\min_{\mathbf{D},\mathbf{S}_{vis},\mathbf{S}_{ir}} \tfrac{1}{2}\|\mathbf{I}_{vis} - \mathbf{D}*\mathbf{S}_{vis}\|_F^2 + \tfrac{1}{2}\|\mathbf{I}_{ir} - \mathbf{D}*\mathbf{S}_{ir}\|_F^2 + \lambda_1\varphi_1(\mathbf{S}_{vis}) + \lambda_2\varphi_2(\mathbf{S}_{ir}) + \lambda_3\phi(\mathbf{D})\]

求解不靠黑盒网络硬拟合，而是用模型驱动展开（model-driven unfolding）把优化迭代展成网络：每一步在「数据一致性」（频域用 Sherman-Morrison 公式闭式求解）和「近端更新」（CoeNet / DicNet 充当可学习的近端算子代理）之间交替。整体堆成 \(N\) 个级联的 IV-DLB（红外-可见字典学习块），每块含两个系数求解器加一个字典求解器，其中的步长等超参由 HypNet 按输入自适应预测，而非全程固定。这样既保留了优化算法的可解释结构，又有网络的拟合能力。

2. VGII — 可见光引导红外推理：在系数域补出伪红外，并请 LLM 当语义评审员校准

有了共享字典，「恢复红外」就退化成「把 VIS 系数转成 IR 系数」这一件事。先用冻结的 REN（表示编码网络，含预训练 HeadNet + CSB + CoeNet）把可见光编码成系数 \(\tilde{\mathbf{S}}_{vis}\)，再由 RIN（表示推理网络，encoder-decoder 配 multi-head attention）映射出初步伪红外系数 \(\mathbf{S}_{p\_ir}\)。但纯系数映射缺少高层语义约束，容易把热区域推偏，于是引入一步轻量的 LLM 闭环精炼：先重建出初始伪红外 \(\mathbf{I}_{p\_ir}^{(0)}\)，把 {VIS, 伪IR} 图像对连同任务描述作为 prompt 喂给冻结 LLM，取出文本特征 \(\mathbf{F}_{text}\)，再用 FiLM（Feature-wise Linear Modulation）对系数做通道级线性调制 \(\mathbf{S}_{fm} = \gamma \odot \tilde{\mathbf{S}}_{vis} + \beta\)，调制后的系数二次过 RIN 得到精炼结果。关键在于 LLM 全程不生成任何像素，只输出一组缩放-平移系数 \((\gamma, \beta)\) 当「语义评审员」，既轻量可控，又把推理牢牢留在可解释的系数域里。

这一步的监督由三项构成：\(\ell_{inf} = \ell_{int} + \ell_{reg} + \ell_{grad}\)。其中一致性损失 \(\ell_{int}\) 在图像域和系数域同时拉近伪 IR 与真实 IR 的 L1 距离；热正则 \(\ell_{reg}\) 用归一化权重图额外强调热区域的对齐，防止把高温目标推糊；梯度损失 \(\ell_{grad} = \|\nabla\mathbf{I}_{p\_ir} - \nabla\mathbf{I}_{vis}\|_1\) 借可见光的边缘约束伪红外的结构，避免幻觉出不存在的轮廓。

3. AFRI — 自适应表示融合：在原子级别让结构归 VIS、热语义归 IR

拿到可见光系数和推理伪红外系数后，融合不再是像素加权，而是让 RFN（推理融合网络）通过两个级联的 Convolution-Attention Fusion 块，学出一组隐式的原子级门控权重 \((\mathbf{W}_{vis}, \mathbf{W}_{p\_ir})\)，再做加权混合 \(\mathbf{S}_f = \mathbf{W}_{vis} \odot \tilde{\mathbf{S}}_{vis} + \mathbf{W}_{p\_ir} \odot \mathbf{S}_{p\_ir}^{(1)}\)，最后用共享字典重建出融合图。融合的监督靠逐元素 max：

\[\ell_f = \|\mathbf{I}_f - \max(\mathbf{I}_{p\_ir}, \mathbf{I}_{vis})\|_1 + \|\nabla\mathbf{I}_f - \max(\nabla\mathbf{I}_{p\_ir}, \nabla\mathbf{I}_{vis})\|_1\]

这个 max 等于在告诉网络：哪儿强度高就保留谁的强度、哪儿边缘锐就保留谁的梯度，于是融合结果自然继承 IR 的热峰值和 VIS 的锐利轮廓。因为门控发生在系数域而非像素域，承载结构边缘的原子会被推向 VIS、承载热语义的原子会被推向 IR，融合权重因此具有清晰的物理含义。

损失函数 / 训练策略¶

三个模块顺序训练：JSRL → VGII → AFRI。JSRL 在 MSRS 上训 1000 epoch，学到的字典可直接迁移到其他数据集复用；VGII 和 AFRI 各只需 10 epoch，无需对抗或扩散采样。优化器为 Adam，字典卷积核 5×5，训练在两块 RTX 4090 上完成。

实验关键数据¶

主实验¶

方法	输入	MSRS AG↑	MSRS EN↑	FLIR AG↑	FLIR EN↑	KAIST AG↑
CDDFuse	IR+VIS	4.818	7.321	5.079	6.766	3.167
EMMA	IR+VIS	4.913	7.333	3.796	6.489	3.083
DCEvo	IR+VIS	4.858	7.298	4.585	6.763	3.229
Ours	仅VIS	5.037	7.188	4.518	6.639	4.414

关键发现：仅用可见光输入的本文方法在 AG（平均梯度）等指标上甚至超越了部分需要双模态输入的 SOTA 融合方法。

下游任务（M3FD 目标检测 YOLOv5）：本文 mAP=0.948 vs SAGE(双模态)=0.956，差距极小。下游任务（FMB 语义分割 SegFormer-b5）：本文 mIoU=62.939 vs LRRNet(双模态)=62.942，基本持平。

消融实验¶

配置	Dictionary	LLM	AG↑	CE↓	EI↑	EN↑	SF↑
Model I（基线）	✗	✗	3.320	1.452	45.531	6.058	9.238
Model II	✓	✗	4.363	1.046	48.351	6.578	11.936
Model III	✗	✓	4.256	0.619	48.154	6.423	11.175
Ours	✓	✓	4.518	0.596	48.784	6.639	12.554

关键发现¶

共享字典对性能提升贡献最大（Model I→II：AG +31%），验证了系数域范式的有效性
LLM 调制提供额外的语义增强（CE 从 1.046 降到 0.596），特别是在亮度和对比度方面
两者互补，组合效果最佳
仅用 VIS 输入即可达到双模态方法的 90%+ 性能水平

亮点与洞察¶

范式创新：首次提出系数域推理-融合方案处理红外缺失问题，避免像素空间生成的不稳定性
LLM 的巧妙使用：不用 LLM 生成图像，仅用作语义级别的 FiLM 调制，极其轻量且有效
训练极简：无需对抗训练或扩散采样，VGII 和 AFRI 各仅需 10 epoch
可解释性强：所有计算在统一原子空间进行，字典原子提供直观的物理意义
闭环设计：编码→推理→融合→重建全部在同一字典-系数空间中，保证表示一致性

局限与展望¶

共享字典在 MSRS 上训练后直接迁移，对域差异大的场景（如医疗红外）可能需要重训
LLM 处理增加了推理延迟，实时场景需考虑效率
系数域推理的精度上限受字典容量限制，超大分辨率或细粒度热细节可能损失
仅验证了红外缺失场景，未探讨可见光缺失或其他多模态组合
方法假设 VIS 图像中包含足够的结构线索推理热信息，全黑场景可能失效

评分¶

新颖性: ⭐⭐⭐⭐⭐ 系数域推理-融合范式+LLM弱先验的组合在该领域完全原创
实验充分度: ⭐⭐⭐⭐ 三个融合数据集+两个下游任务+完整消融，但缺少cross-dataset泛化分析
写作质量: ⭐⭐⭐⭐ 公式推导严谨，框架图清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 首次解决红外缺失融合，有实际应用前景，字典范式可推广