A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking¶

会议: NeurIPS 2025
arXiv: 2505.19858
代码: vfbench.github.io
领域: 医学图像
关键词: 视频融合, 多帧学习, 光流对齐, 时序一致性, benchmark
作者: Zixiang Zhao (ETH Zürich), Haowen Bai, Bingxin Ke, Yukun Cui, Lilun Deng, Yulun Zhang, Kai Zhang, Konrad Schindler

一句话总结¶

提出首个统一视频融合框架 UniVF（基于多帧学习 + 光流特征 warping + 时序一致性损失），并构建首个覆盖四大融合任务（多曝光、多焦点、红外-可见光、医学）的视频融合基准 VF-Bench，在全部子任务上取得 SOTA。

研究背景与动机¶

图像融合的局限：现有图像融合方法（多曝光、多焦点、红外-可见光、医学融合）处理的是静态帧，忽略了视频中帧间的时序关联，逐帧独立处理会导致闪烁和时序不一致。

视频融合是自然延伸：现实世界是动态的，视频提供连续、时序一致的场景表示，包含运动、瞬态事件和上下文变化。随着视频硬件进步和视频数据增长，将图像融合扩展到时序域已经成为必然趋势。

时序信息利用不足：逐帧独立处理忽视了视频固有的时序连续性，导致闪烁和运动不连续。有效的视频融合必须整合相邻帧的信息，既提高单帧质量又确保时序一致。

数据集规模受限：相比配对图像，收集完美对齐、时间同步且多样化的视频对更加困难和昂贵，限制了数据驱动融合方法的开发与评估。

缺乏评估协议：现有评估指标针对图像设计，完全忽略时间轴上的一致性评估，无法衡量视频融合的时序质量。

缺乏统一框架与基准：虽然近期有少量红外-RGB 视频融合工作，但统一的视频融合框架和覆盖多任务的 benchmark 仍然空白。

方法详解¶

整体框架：UniVF¶

UniVF 采用 Transformer-based（Restormer）编码器-解码器架构，核心思路是：对每个时间步 \(t\)，从两路视频各取 3 连续帧（\(t-1, t, t+1\)），通过光流估计 + 特征 warping 将相邻帧特征对齐到当前帧，再融合解码，最终配合时序一致性损失训练。

框架包含四个核心组件：

关键设计 1：双路特征提取器¶

对两路视频 \(\mathcal{V}_1, \mathcal{V}_2\)，每个时间步提取 3 帧片段 \(\{I_{t-1}^k, I_t^k, I_{t+1}^k\}\)，\(k \in \{1,2\}\)。每路有一个独立的编码器 \(\mathcal{E}_k\)（由多个 Restormer block 组成，8 个注意力头，特征维度 32，4 层堆叠），在同一路的 3 帧间参数共享：

\[\Phi_{t-1}^k, \Phi_t^k, \Phi_{t+1}^k = \mathcal{E}_k(I_{t-1}^k, I_t^k, I_{t+1}^k)\]

关键设计 2：光流估计与特征 Warping¶

这是 UniVF 区别于逐帧图像融合的核心机制。使用 SEA-RAFT（SOTA 光流估计器）计算相邻帧间的双向光流：

\[\mathcal{O}_{s \to t}^k = \mathcal{S}(I_s^k, I_t^k), \quad s \in \{t-1, t+1\}\]

然后通过可微双线性采样，利用光流将相邻帧的深层特征 warp 到当前时间步：

\[\widetilde{\Phi}_{s \to t}^k = \mathcal{W}(\Phi_s^k, \mathcal{O}_{s \to t}^k)\]

warp 后的特征与当前帧特征在时间上对齐，作为运动补偿输入送入后续融合。

关键设计 3：融合解码¶

将 6 组特征（两路各 3 帧，当前帧 + 前后 warp 特征）沿通道维度拼接：

\[\Phi_t^F = \text{Concat}(\Phi_t^1, \Phi_t^2, \widetilde{\Phi}_{t-1 \to t}^1, \widetilde{\Phi}_{t+1 \to t}^1, \widetilde{\Phi}_{t-1 \to t}^2, \widetilde{\Phi}_{t+1 \to t}^2)\]

由 Restormer-based 解码器 \(\mathcal{D}\) 建模空间和时间维度的长程依赖，输出当前帧融合结果 \(I_t^F = \mathcal{D}(\Phi_t^F)\)。

损失函数¶

训练采用三项复合损失：\(\mathcal{L} = \mathcal{L}_{\text{spatial}} + \alpha_1 \mathcal{L}_{\text{grad}} + \alpha_2 \mathcal{L}_{\text{temp}}\)

空间相似性损失 \(\mathcal{L}_{\text{spatial}}\)：不同任务采用不同策略。IVF/MVF 用 \(\|I_t^F - \max(I_t^1, I_t^2)\|_1\)；MEF 用强度损失 + MEF-SSIM；MFF 用均值强度损失。
梯度保持损失 \(\mathcal{L}_{\text{grad}}\)：基于 Sobel 算子，保留源图像的结构和边缘：\(\||\nabla I_t^F| - \max(|\nabla I_t^1|, |\nabla I_t^2|)\|_1\)。
时序一致性损失 \(\mathcal{L}_{\text{temp}}\)：核心创新点。将当前融合帧与前后 warp 后的融合帧进行对比，惩罚不一致区域。引入基于前向-后向光流一致性检查的 validity mask，只在可靠区域计算损失，排除遮挡和运动边界区域。阈值 \(\epsilon=1.0\)。

权重配置：\(\{\alpha_1, \alpha_2\} = \{10,2\}, \{1,0.5\}, \{5,2\}, \{1,1\}\) 分别对应 MEF, MFF, IVF, MVF。

实验关键数据¶

VF-Bench 数据集构建¶

任务	数据来源	构建方式	训练/测试场景	平均帧数
MEF（多曝光）	YouTube-HDR 10-bit	EOTF 线性域曝光调整 ±3 EV	450/50	~150
MFF（多焦点）	DAVIS	视频深度估计 + CoC 模糊	120/30	~70
IVF（红外-可见光）	VTMOT	三阶段筛选（质量+互补性+对齐）	75/15	~300
MVF（医学）	Harvard Medical	MRI+CT/PET/SPECT 连续切片	49/8	~27

主实验结果（Tab 1-3）¶

多曝光视频融合（MEF，2K 分辨率）：

方法	VIF↑	SSIM↑	MI↑	Q_abf↑	BiSWE↓	MS2R↓
FILM	0.78	0.98	4.39	0.71	8.27	0.34
TC-MoA	0.76	0.98	2.94	0.71	7.78	0.34
UniVF	0.82	0.99	4.45	0.72	6.40	0.33

红外-可见光视频融合（IVF）：

方法	VIF↑	SSIM↑	MI↑	Q_abf↑	BiSWE↓	MS2R↓
TDFusion	0.45	0.64	2.34	0.67	4.35	0.36
ReFusion	0.42	0.64	2.27	0.67	4.64	0.36
UniVF	0.44	0.64	2.47	0.68	3.94	0.35

医学视频融合（MVF）：

方法	VIF↑	SSIM↑	MI↑	Q_abf↑	BiSWE↓	MS2R↓
CDDFuse	0.29	0.76	1.80	0.59	26.33	1.34
FILM	0.33	0.36	1.83	0.67	32.04	1.59
UniVF	0.35	0.76	2.00	0.68	29.61	1.30

消融实验（IVF 任务，Tab 4）¶

配置	VIF↑	SSIM↑	MI↑	Q_abf↑	BiSWE↓	MS2R↓
无特征 warping	0.40	0.63	2.44	0.66	4.18	0.36
无 warping + 无多帧输入	0.38	0.61	2.07	0.64	4.46	0.37
无时序一致性损失	0.42	0.65	2.38	0.65	5.79	0.39
完整 UniVF	0.44	0.64	2.47	0.68	3.94	0.35

关键发现¶

时序一致性损失至关重要：去掉 \(\mathcal{L}_{\text{temp}}\) 后 BiSWE 从 3.94 恶化到 5.79（+47%），MS2R 从 0.35 到 0.39，说明该损失是抑制闪烁的关键。
光流特征 warping 有效：去掉 warping 后空间指标和时序指标均下降，表明跨帧特征对齐对融合质量有实质贡献。
多帧输入必要：退化到单帧处理后所有指标全面下降，验证了多帧学习的价值。
统一框架跨任务泛化：同一架构在 4 个不同任务上均取得 SOTA 或极具竞争力的结果。

亮点与洞察¶

首个统一视频融合框架：UniVF 用一个统一的架构覆盖四类融合任务，避免了为每个任务单独设计网络的冗余，展示了跨任务融合的可行性。
首个视频融合 Benchmark：VF-Bench 填补了领域空白，提出了多曝光（HDR→线性域曝光模拟）和多焦点（深度估计+CoC 物理模糊）两种创新的数据生成范式。
精巧的时序一致性设计：validity mask 基于前向-后向光流一致性检查，只在可靠区域计算时序损失，避免了遮挡和运动边界带来的噪声梯度。
新的时序评估指标：BiSWE（双向自 warping 误差）和 MS2R（双参考运动平滑度）弥补了视频融合评估中时序维度的缺失。
数据构建方法论价值：多曝光数据通过 EOTF 在线性光域调整曝光，保真度远高于直接在 gamma 域操作；多焦点数据基于物理 CoC 模型而非语义分割，更符合真实光学过程。

局限性¶

只用 3 帧窗口：当前设计只利用前后各 1 帧（3 帧窗口），对于快速运动或长时间依赖的场景可能不够，增大窗口可能进一步提升效果但会增加计算开销。
光流估计器固定不微调：SEA-RAFT 作为预训练光流估计器是冻结的，没有端到端联合训练，可能无法适应特定融合场景（如医学图像中的非自然运动）。
医学融合数据量较小：MVF 仅 49 训练/8 测试场景，平均 27 帧，数据规模和多样性有限，可能影响泛化能力。
计算开销：需要对两路各 3 帧分别编码 + 4 次光流估计 + 4 次 warping，推理开销相对于单帧方法显著增加。
评估指标的局限：BiSWE 和 MS2R 仍基于光流估计，其准确性受限于光流估计器本身的精度。
未探索更高效的时序建模：如 3D 卷积、时序注意力或 state space model 等替代方案未做对比。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次提出统一视频融合框架和 benchmark，时序一致性损失设计（validity mask）和数据生成范式均有创新，但核心技术（光流 warping + Restormer）是已有组件的组合。
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 个子任务，对比 7-10 个方法，消融实验设计合理，空间+时序指标全面，2K 和低分辨率双版本测试。
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导完整，图表丰富，数据构建过程描述详细。
价值: ⭐⭐⭐⭐⭐ — VF-Bench 作为首个视频融合基准具有很高的领域价值，为后续视频融合研究奠定了坚实基础，有望推动该方向的系统性发展。