UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation¶

会议: CVPR2026
arXiv: 2603.14214
代码: dusongcheng/UniFusion
领域: 优化
关键词: unified image fusion, DINOv3, bilevel optimization, reconstruction alignment, cross-task generalization

一句话总结¶

提出 UniFusion 统一图像融合框架，利用 DINOv3 自监督语义先验构建跨模态共享特征空间，通过重建对齐机制保留源图信息，并以双层优化策略解耦重建与融合目标，在红外-可见光、多曝光、多焦点、医学图像等多任务上均达到 SOTA。

研究背景与动机¶

图像融合的核心目标：将多源图像的互补信息整合为单一、信息丰富且视觉一致的表示，服务于目标检测、医学诊断、自动驾驶等下游任务。

任务特定方法的局限：现有方法（CDDFuse、CoCoNet、LRRNet 等）大多针对特定融合场景设计（红外-可见光、多曝光、多焦点），采用定制化的 CNN/AE/GAN 架构，泛化能力有限，难以适应多样化融合需求。

通用融合框架的现状：近期的 Transformer 架构（SwinFusion）、扩散模型方法、以及 TC-MoA 等尝试用单一模型处理多任务，但仍受限于两个核心瓶颈。

瓶颈一：缺乏模态一致的特征提取机制——现有共享 backbone 无法在异质信号（红外热成像 vs. 可见光纹理）间建立原则性的、鲁棒的统一编码。

瓶颈二：深层传播中源信息退化——特征在深层网络中传播时，模态特有线索（如可见光纹理、红外辐射对比）逐渐丢失，导致融合质量次优。

本文切入点：能否利用大规模自监督预训练模型（DINOv3）的强语义先验，配合显式的重建约束和优化解耦策略，同时解决上述两个瓶颈？

方法详解¶

整体框架¶

UniFusion 由三大模块组成：(1) 基于冻结 DINOv3 的双分支语义特征提取 + 轻量 Adapter 域适配；(2) Cross-Attention 融合模块；(3) 重建对齐分支。训练采用双层优化：内层更新 Adapter + 重建分支参数 $\phi$（重建目标），外层更新融合网络参数 $\theta$（融合目标），两者交替迭代实现协同优化。

关键设计 1：DINOv3 语义先验适配（Semantic Prior Adaptation）¶

功能：以冻结的 DINOv3 ViT 作为通用语义 backbone，从两个模态分别提取多层特征 $f^{(l_2)}, f^{(l_5)}, f^{(l_8)}, f^{(l_{11})}$，再通过轻量级层次化 Adapter 进行渐进式特征校准。
核心思路：Adapter 作为"特征翻译器"，通过多阶段残差融合和上采样，将深层全局语义与浅层细粒度结构逐级整合，输出模态对齐的嵌入。
设计动机：DINOv3 在大规模自然图像上预训练，具有强大的物体中心先验和长程上下文依赖，但其潜空间与特定模态（红外、医学影像）存在域偏差。Adapter 以极低参数开销弥补这一偏差，同时保持冻结 backbone 的泛化能力，避免灾难性遗忘。

关键设计 2：重建对齐机制（Reconstruction Alignment）¶

功能：为每个模态分支增加一个轻量重建分支 $R_m$（数层 Transformer + 投影头），从 Adapter 输出的校准特征 $\hat{\mathbf{F}}_m$ 重建原始输入 $\bar{I}_m = R_m(\hat{\mathbf{F}}_m)$。
核心思路：通过自重建约束，强制编码器在共享潜空间中保留足够的模态特有信息（纹理、辐射对比等），防止语义漂移和信息丢失。
设计动机：传统方法仅约束融合输出与源图的相似性（像素级 L1/SSIM），容易偏向浅层纹理模仿而忽视深层语义对应。重建对齐从编码端入手，确保特征本身是"可逆的"——能还原回源图，从而在特征层面保证信息完备性。消融实验（Fig. 8）直观显示，去掉重建分支后，编码特征丢失了显著的模态特有语义表示。

关键设计 3：双层优化策略（Bilevel Optimization）¶

功能：将训练形式化为双层优化：内层（lower-level）快速更新 Adapter + 重建参数 $\phi$ 以捕获模态特有语义，外层（upper-level）基于更新后的特征空间缓慢调整融合网络参数 $\theta$。
核心思路： $$\phi^* = \arg\min_\phi \mathcal{L}_{\text{rec}}(\phi), \quad \theta^* = \arg\min_\theta \mathcal{L}_{\text{fuse}}(\theta; \phi^*)$$ 实际采用一阶交替方案：每次迭代先以较大学习率 $\eta_L$ 更新 $\phi$，再以较小学习率 $\eta_U$ 更新 $\theta$，并对 $\theta$ 施加 EMA 正则化以增强时序稳定性。
设计动机：重建和融合是两个存在耦合的目标——如果联合端到端训练，重建信号可能干扰融合梯度，导致收敛不稳定。双层优化将两者解耦为不同时间尺度的子问题：先确保特征"记住"源图信息（内层），再在此基础上学习最优融合策略（外层），实现信息保留与融合质量的平衡。

关键设计 4：Cross-Attention 融合模块¶

功能：4 个 Cross-Attention Block 对两个模态的适配特征进行动态交互，建模跨模态依赖并强调互补信息。
核心思路：基于注意力机制，让每个模态特征作为 query 去关注另一模态的 key/value，自适应选择和强化有价值的互补区域。
设计动机：相比简单的拼接或加权平均，cross-attention 能在空间和语义层面实现细粒度的信息交换，特别适合处理红外-可见光等信息高度互补的场景。

实验关键数据¶

表 1：多模态 & 多曝光融合定量对比¶

方法	M3FD MI↑	M3FD VIF↑	M3FD $Q_{abf}$↑	M3FD $Q_y$↑	MEFB MI↑	MEFB VIF↑	MEFB CC↑	MEFB PSNR↑
CDDFuse	3.776	0.839	0.610	0.978	6.575	1.430	0.837	56.809
SwinFusion	2.945	0.618	0.480	0.936	5.318	1.459	0.894	59.009
TC-MoA	3.466	0.870	0.636	0.983	4.889	1.406	0.885	59.152
UniFusion	4.268	0.899	0.637	0.982	6.861	1.484	0.906	59.219

UniFusion 在 M3FD 上 MI 指标达到 4.268，大幅领先 TC-MoA（3.466）约 23%
MEFB 上四项指标全面最优，VIF 达 1.484（超越 SwinFusion 的 1.459）

表 2：消融实验（M3FD / MEFB / MFIF）¶

配置	M3FD MI↑	M3FD VIF↑	MEFB MI↑	MEFB VIF↑	MFIF MI↑	MFIF $Q_{abf}$↑
w/o Adapter	3.646	0.863	5.512	1.232	5.375	0.532
w/o DINOv3	3.681	0.879	5.709	1.334	5.624	0.491
w/o Reconstruction	3.846	0.870	6.434	1.396	5.838	0.579
w/o Bilevel Opt	3.924	0.876	6.374	1.424	6.021	0.583
Full Model	4.268	0.899	6.861	1.484	6.253	0.685

每个组件均有显著贡献；去掉 Adapter 后 MFIF $Q_{abf}$ 从 0.685 降至 0.532（-22%）
DINOv3 编码器的语义先验是基础，替换为普通 4 层 Transformer 后跨任务性能全面下降
重建对齐和双层优化各自独立贡献，两者协同效果最佳

亮点与洞察¶

DINOv3 作为通用语义骨架的思路具有启发性：冻结预训练 ViT + 轻量 Adapter 的范式类似 NLP 中的 LoRA/Adapter-tuning，首次在图像融合领域系统性验证了这一路线的有效性。
重建对齐是一个优雅的信息保留机制：不在融合输出端做约束，而在编码端通过自重建确保特征的信息完备性，思路新颖且 Fig. 8 的可视化令人信服。
双层优化的形式化清晰：将重建与融合解耦为不同时间尺度的优化子问题，理论上有据（bilevel optimization），实践中通过一阶交替近似高效实现。
跨任务泛化能力强：单一模型在 IVIF、MIF、MEF、MFF 四类任务上均达到或接近 SOTA，训练仅需 10K 迭代，具有实际应用价值。

局限与展望¶

DINOv3 依赖：冻结的 DINOv3 backbone 参数量大（ViT-Large/Giant 级别），推理开销较高，部署于边缘设备有挑战。可以探索蒸馏到更小的 backbone。
双层优化的计算成本：虽然采用了一阶近似，但两阶段交替更新仍增加了每迭代的计算量，且 $\eta_L / \eta_U$ 的比率需要仔细调参。
缺乏非对齐场景的评估：实验中未涉及源图存在几何失配（如手持多曝光、运动模糊）的场景，实际应用中这类情况很常见。
重建分支的必要性讨论不足：推理时重建分支是否可以去掉以加速？论文未明确说明推理阶段的架构简化策略。
融合损失直接沿用 SwinFusion：未对融合损失函数本身做创新，可能存在进一步优化空间。

评分¶

新颖性: ⭐⭐⭐⭐ — DINOv3 + Adapter 作为通用融合 backbone 的思路新颖，重建对齐机制设计巧妙，双层优化的引入有理论支撑；但各组件（Adapter-tuning、bilevel opt）本身并非全新，贡献在于有效组合。
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 IVIF/MIF/MEF/MFF 四大类任务共 6+ 个 benchmark，与 10 个 SOTA 方法对比，消融实验完整（4 个变体），定性可视化丰富（特征图、融合结果），并在附录中提供下游任务验证。
写作质量: ⭐⭐⭐⭐ — 结构清晰，方法描述逻辑性强，公式推导完整；图表质量高，Fig. 8 的特征可视化很有说服力；但部分符号定义可以更早引入。
价值: ⭐⭐⭐⭐ — 提供了一个实用的统一融合框架，单模型跨任务泛化具有工程价值；DINOv3 + Adapter 范式可推广到其他低级视觉任务；代码开源进一步增加可复现性和影响力。