跳转至

A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking

会议: NeurIPS 2025
arXiv: 2505.19858
代码: vfbench.github.io
领域: 医学图像
关键词: 视频融合, 多帧学习, 光流对齐, 时序一致性, benchmark
作者: Zixiang Zhao (ETH Zürich), Haowen Bai, Bingxin Ke, Yukun Cui, Lilun Deng, Yulun Zhang, Kai Zhang, Konrad Schindler

一句话总结

提出首个统一视频融合框架 UniVF(基于多帧学习 + 光流特征 warping + 时序一致性损失),并构建首个覆盖四大融合任务(多曝光、多焦点、红外-可见光、医学)的视频融合基准 VF-Bench,在全部子任务上取得 SOTA。


研究背景与动机

图像融合的局限:现有图像融合方法(多曝光、多焦点、红外-可见光、医学融合)处理的是静态帧,忽略了视频中帧间的时序关联,逐帧独立处理会导致闪烁和时序不一致。

视频融合是自然延伸:现实世界是动态的,视频提供连续、时序一致的场景表示,包含运动、瞬态事件和上下文变化。随着视频硬件进步和视频数据增长,将图像融合扩展到时序域已经成为必然趋势。

时序信息利用不足:逐帧独立处理忽视了视频固有的时序连续性,导致闪烁和运动不连续。有效的视频融合必须整合相邻帧的信息,既提高单帧质量又确保时序一致。

数据集规模受限:相比配对图像,收集完美对齐、时间同步且多样化的视频对更加困难和昂贵,限制了数据驱动融合方法的开发与评估。

缺乏评估协议:现有评估指标针对图像设计,完全忽略时间轴上的一致性评估,无法衡量视频融合的时序质量。

缺乏统一框架与基准:虽然近期有少量红外-RGB 视频融合工作,但统一的视频融合框架和覆盖多任务的 benchmark 仍然空白。


方法详解

整体框架:UniVF

UniVF 采用 Transformer-based(Restormer)编码器-解码器架构,核心思路是:对每个时间步 \(t\),从两路视频各取 3 连续帧(\(t-1, t, t+1\)),通过光流估计 + 特征 warping 将相邻帧特征对齐到当前帧,再融合解码,最终配合时序一致性损失训练。

框架包含四个核心组件:

关键设计 1:双路特征提取器

对两路视频 \(\mathcal{V}_1, \mathcal{V}_2\),每个时间步提取 3 帧片段 \(\{I_{t-1}^k, I_t^k, I_{t+1}^k\}\)\(k \in \{1,2\}\)。每路有一个独立的编码器 \(\mathcal{E}_k\)(由多个 Restormer block 组成,8 个注意力头,特征维度 32,4 层堆叠),在同一路的 3 帧间参数共享:

\[\Phi_{t-1}^k, \Phi_t^k, \Phi_{t+1}^k = \mathcal{E}_k(I_{t-1}^k, I_t^k, I_{t+1}^k)\]

关键设计 2:光流估计与特征 Warping

这是 UniVF 区别于逐帧图像融合的核心机制。使用 SEA-RAFT(SOTA 光流估计器)计算相邻帧间的双向光流:

\[\mathcal{O}_{s \to t}^k = \mathcal{S}(I_s^k, I_t^k), \quad s \in \{t-1, t+1\}\]

然后通过可微双线性采样,利用光流将相邻帧的深层特征 warp 到当前时间步:

\[\widetilde{\Phi}_{s \to t}^k = \mathcal{W}(\Phi_s^k, \mathcal{O}_{s \to t}^k)\]

warp 后的特征与当前帧特征在时间上对齐,作为运动补偿输入送入后续融合。

关键设计 3:融合解码

将 6 组特征(两路各 3 帧,当前帧 + 前后 warp 特征)沿通道维度拼接:

\[\Phi_t^F = \text{Concat}(\Phi_t^1, \Phi_t^2, \widetilde{\Phi}_{t-1 \to t}^1, \widetilde{\Phi}_{t+1 \to t}^1, \widetilde{\Phi}_{t-1 \to t}^2, \widetilde{\Phi}_{t+1 \to t}^2)\]

由 Restormer-based 解码器 \(\mathcal{D}\) 建模空间和时间维度的长程依赖,输出当前帧融合结果 \(I_t^F = \mathcal{D}(\Phi_t^F)\)

损失函数

训练采用三项复合损失:\(\mathcal{L} = \mathcal{L}_{\text{spatial}} + \alpha_1 \mathcal{L}_{\text{grad}} + \alpha_2 \mathcal{L}_{\text{temp}}\)

  • 空间相似性损失 \(\mathcal{L}_{\text{spatial}}\):不同任务采用不同策略。IVF/MVF 用 \(\|I_t^F - \max(I_t^1, I_t^2)\|_1\);MEF 用强度损失 + MEF-SSIM;MFF 用均值强度损失。
  • 梯度保持损失 \(\mathcal{L}_{\text{grad}}\):基于 Sobel 算子,保留源图像的结构和边缘:\(\||\nabla I_t^F| - \max(|\nabla I_t^1|, |\nabla I_t^2|)\|_1\)
  • 时序一致性损失 \(\mathcal{L}_{\text{temp}}\):核心创新点。将当前融合帧与前后 warp 后的融合帧进行对比,惩罚不一致区域。引入基于前向-后向光流一致性检查的 validity mask,只在可靠区域计算损失,排除遮挡和运动边界区域。阈值 \(\epsilon=1.0\)

权重配置:\(\{\alpha_1, \alpha_2\} = \{10,2\}, \{1,0.5\}, \{5,2\}, \{1,1\}\) 分别对应 MEF, MFF, IVF, MVF。


实验关键数据

VF-Bench 数据集构建

任务 数据来源 构建方式 训练/测试场景 平均帧数
MEF(多曝光) YouTube-HDR 10-bit EOTF 线性域曝光调整 ±3 EV 450/50 ~150
MFF(多焦点) DAVIS 视频深度估计 + CoC 模糊 120/30 ~70
IVF(红外-可见光) VTMOT 三阶段筛选(质量+互补性+对齐) 75/15 ~300
MVF(医学) Harvard Medical MRI+CT/PET/SPECT 连续切片 49/8 ~27

主实验结果(Tab 1-3)

多曝光视频融合(MEF,2K 分辨率)

方法 VIF↑ SSIM↑ MI↑ Q_abf↑ BiSWE↓ MS2R↓
FILM 0.78 0.98 4.39 0.71 8.27 0.34
TC-MoA 0.76 0.98 2.94 0.71 7.78 0.34
UniVF 0.82 0.99 4.45 0.72 6.40 0.33

红外-可见光视频融合(IVF)

方法 VIF↑ SSIM↑ MI↑ Q_abf↑ BiSWE↓ MS2R↓
TDFusion 0.45 0.64 2.34 0.67 4.35 0.36
ReFusion 0.42 0.64 2.27 0.67 4.64 0.36
UniVF 0.44 0.64 2.47 0.68 3.94 0.35

医学视频融合(MVF)

方法 VIF↑ SSIM↑ MI↑ Q_abf↑ BiSWE↓ MS2R↓
CDDFuse 0.29 0.76 1.80 0.59 26.33 1.34
FILM 0.33 0.36 1.83 0.67 32.04 1.59
UniVF 0.35 0.76 2.00 0.68 29.61 1.30

消融实验(IVF 任务,Tab 4)

配置 VIF↑ SSIM↑ MI↑ Q_abf↑ BiSWE↓ MS2R↓
无特征 warping 0.40 0.63 2.44 0.66 4.18 0.36
无 warping + 无多帧输入 0.38 0.61 2.07 0.64 4.46 0.37
无时序一致性损失 0.42 0.65 2.38 0.65 5.79 0.39
完整 UniVF 0.44 0.64 2.47 0.68 3.94 0.35

关键发现

  1. 时序一致性损失至关重要:去掉 \(\mathcal{L}_{\text{temp}}\) 后 BiSWE 从 3.94 恶化到 5.79(+47%),MS2R 从 0.35 到 0.39,说明该损失是抑制闪烁的关键。
  2. 光流特征 warping 有效:去掉 warping 后空间指标和时序指标均下降,表明跨帧特征对齐对融合质量有实质贡献。
  3. 多帧输入必要:退化到单帧处理后所有指标全面下降,验证了多帧学习的价值。
  4. 统一框架跨任务泛化:同一架构在 4 个不同任务上均取得 SOTA 或极具竞争力的结果。

亮点与洞察

  1. 首个统一视频融合框架:UniVF 用一个统一的架构覆盖四类融合任务,避免了为每个任务单独设计网络的冗余,展示了跨任务融合的可行性。
  2. 首个视频融合 Benchmark:VF-Bench 填补了领域空白,提出了多曝光(HDR→线性域曝光模拟)和多焦点(深度估计+CoC 物理模糊)两种创新的数据生成范式。
  3. 精巧的时序一致性设计:validity mask 基于前向-后向光流一致性检查,只在可靠区域计算时序损失,避免了遮挡和运动边界带来的噪声梯度。
  4. 新的时序评估指标:BiSWE(双向自 warping 误差)和 MS2R(双参考运动平滑度)弥补了视频融合评估中时序维度的缺失。
  5. 数据构建方法论价值:多曝光数据通过 EOTF 在线性光域调整曝光,保真度远高于直接在 gamma 域操作;多焦点数据基于物理 CoC 模型而非语义分割,更符合真实光学过程。

局限性

  1. 只用 3 帧窗口:当前设计只利用前后各 1 帧(3 帧窗口),对于快速运动或长时间依赖的场景可能不够,增大窗口可能进一步提升效果但会增加计算开销。
  2. 光流估计器固定不微调:SEA-RAFT 作为预训练光流估计器是冻结的,没有端到端联合训练,可能无法适应特定融合场景(如医学图像中的非自然运动)。
  3. 医学融合数据量较小:MVF 仅 49 训练/8 测试场景,平均 27 帧,数据规模和多样性有限,可能影响泛化能力。
  4. 计算开销:需要对两路各 3 帧分别编码 + 4 次光流估计 + 4 次 warping,推理开销相对于单帧方法显著增加。
  5. 评估指标的局限:BiSWE 和 MS2R 仍基于光流估计,其准确性受限于光流估计器本身的精度。
  6. 未探索更高效的时序建模:如 3D 卷积、时序注意力或 state space model 等替代方案未做对比。

相关工作与启发

  • 判别式融合方法(CDDFuse, EMMA, TC-MoA, FILM, ReFusion):现有 SOTA 图像融合方法大多是判别式模型(CNN/Transformer),UniVF 在其基础上引入时序维度。
  • 生成式融合(DDFM, GAN-based):扩散模型和 GAN 建模潜空间流形,提供更多细节,但时序一致性更难保证。
  • 视频修复/增强中的光流利用:UniVF 的光流 warping 思路直接借鉴了视频超分辨率和视频修复领域的经验(如 BasicVSR++)。
  • Restormer:作为骨干网络,Restormer 的转置自注意力机制在图像修复中已证明高效。
  • 统一融合模型趋势(TC-MoA, FILM, ReFusion):近期工作开始探索跨任务统一融合,UniVF 将这一趋势延伸到视频域。
  • 启发:本文的数据构建思路(物理模型合成 + 严格筛选已有数据)在其他缺乏配对视频数据的领域也有很强的参考价值。VF-Bench 的评估协议(空间+时序联合评估)可推广到其他视频生成/编辑任务。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次提出统一视频融合框架和 benchmark,时序一致性损失设计(validity mask)和数据生成范式均有创新,但核心技术(光流 warping + Restormer)是已有组件的组合。
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 个子任务,对比 7-10 个方法,消融实验设计合理,空间+时序指标全面,2K 和低分辨率双版本测试。
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整,图表丰富,数据构建过程描述详细。
  • 价值: ⭐⭐⭐⭐⭐ — VF-Bench 作为首个视频融合基准具有很高的领域价值,为后续视频融合研究奠定了坚实基础,有望推动该方向的系统性发展。