A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking¶
会议: NeurIPS 2025
arXiv: 2505.19858
代码: vfbench.github.io
领域: 医学图像
关键词: 视频融合, 多帧学习, 光流对齐, 时序一致性, benchmark
作者: Zixiang Zhao (ETH Zürich), Haowen Bai, Bingxin Ke, Yukun Cui, Lilun Deng, Yulun Zhang, Kai Zhang, Konrad Schindler
一句话总结¶
提出首个统一视频融合框架 UniVF(基于多帧学习 + 光流特征 warping + 时序一致性损失),并构建首个覆盖四大融合任务(多曝光、多焦点、红外-可见光、医学)的视频融合基准 VF-Bench,在全部子任务上取得 SOTA。
研究背景与动机¶
图像融合的局限:现有图像融合方法(多曝光、多焦点、红外-可见光、医学融合)处理的是静态帧,忽略了视频中帧间的时序关联,逐帧独立处理会导致闪烁和时序不一致。
视频融合是自然延伸:现实世界是动态的,视频提供连续、时序一致的场景表示,包含运动、瞬态事件和上下文变化。随着视频硬件进步和视频数据增长,将图像融合扩展到时序域已经成为必然趋势。
时序信息利用不足:逐帧独立处理忽视了视频固有的时序连续性,导致闪烁和运动不连续。有效的视频融合必须整合相邻帧的信息,既提高单帧质量又确保时序一致。
数据集规模受限:相比配对图像,收集完美对齐、时间同步且多样化的视频对更加困难和昂贵,限制了数据驱动融合方法的开发与评估。
缺乏评估协议:现有评估指标针对图像设计,完全忽略时间轴上的一致性评估,无法衡量视频融合的时序质量。
缺乏统一框架与基准:虽然近期有少量红外-RGB 视频融合工作,但统一的视频融合框架和覆盖多任务的 benchmark 仍然空白。
方法详解¶
整体框架:UniVF¶
UniVF 采用 Transformer-based(Restormer)编码器-解码器架构,核心思路是:对每个时间步 \(t\),从两路视频各取 3 连续帧(\(t-1, t, t+1\)),通过光流估计 + 特征 warping 将相邻帧特征对齐到当前帧,再融合解码,最终配合时序一致性损失训练。
框架包含四个核心组件:
关键设计 1:双路特征提取器¶
对两路视频 \(\mathcal{V}_1, \mathcal{V}_2\),每个时间步提取 3 帧片段 \(\{I_{t-1}^k, I_t^k, I_{t+1}^k\}\),\(k \in \{1,2\}\)。每路有一个独立的编码器 \(\mathcal{E}_k\)(由多个 Restormer block 组成,8 个注意力头,特征维度 32,4 层堆叠),在同一路的 3 帧间参数共享:
关键设计 2:光流估计与特征 Warping¶
这是 UniVF 区别于逐帧图像融合的核心机制。使用 SEA-RAFT(SOTA 光流估计器)计算相邻帧间的双向光流:
然后通过可微双线性采样,利用光流将相邻帧的深层特征 warp 到当前时间步:
warp 后的特征与当前帧特征在时间上对齐,作为运动补偿输入送入后续融合。
关键设计 3:融合解码¶
将 6 组特征(两路各 3 帧,当前帧 + 前后 warp 特征)沿通道维度拼接:
由 Restormer-based 解码器 \(\mathcal{D}\) 建模空间和时间维度的长程依赖,输出当前帧融合结果 \(I_t^F = \mathcal{D}(\Phi_t^F)\)。
损失函数¶
训练采用三项复合损失:\(\mathcal{L} = \mathcal{L}_{\text{spatial}} + \alpha_1 \mathcal{L}_{\text{grad}} + \alpha_2 \mathcal{L}_{\text{temp}}\)
- 空间相似性损失 \(\mathcal{L}_{\text{spatial}}\):不同任务采用不同策略。IVF/MVF 用 \(\|I_t^F - \max(I_t^1, I_t^2)\|_1\);MEF 用强度损失 + MEF-SSIM;MFF 用均值强度损失。
- 梯度保持损失 \(\mathcal{L}_{\text{grad}}\):基于 Sobel 算子,保留源图像的结构和边缘:\(\||\nabla I_t^F| - \max(|\nabla I_t^1|, |\nabla I_t^2|)\|_1\)。
- 时序一致性损失 \(\mathcal{L}_{\text{temp}}\):核心创新点。将当前融合帧与前后 warp 后的融合帧进行对比,惩罚不一致区域。引入基于前向-后向光流一致性检查的 validity mask,只在可靠区域计算损失,排除遮挡和运动边界区域。阈值 \(\epsilon=1.0\)。
权重配置:\(\{\alpha_1, \alpha_2\} = \{10,2\}, \{1,0.5\}, \{5,2\}, \{1,1\}\) 分别对应 MEF, MFF, IVF, MVF。
实验关键数据¶
VF-Bench 数据集构建¶
| 任务 | 数据来源 | 构建方式 | 训练/测试场景 | 平均帧数 |
|---|---|---|---|---|
| MEF(多曝光) | YouTube-HDR 10-bit | EOTF 线性域曝光调整 ±3 EV | 450/50 | ~150 |
| MFF(多焦点) | DAVIS | 视频深度估计 + CoC 模糊 | 120/30 | ~70 |
| IVF(红外-可见光) | VTMOT | 三阶段筛选(质量+互补性+对齐) | 75/15 | ~300 |
| MVF(医学) | Harvard Medical | MRI+CT/PET/SPECT 连续切片 | 49/8 | ~27 |
主实验结果(Tab 1-3)¶
多曝光视频融合(MEF,2K 分辨率):
| 方法 | VIF↑ | SSIM↑ | MI↑ | Q_abf↑ | BiSWE↓ | MS2R↓ |
|---|---|---|---|---|---|---|
| FILM | 0.78 | 0.98 | 4.39 | 0.71 | 8.27 | 0.34 |
| TC-MoA | 0.76 | 0.98 | 2.94 | 0.71 | 7.78 | 0.34 |
| UniVF | 0.82 | 0.99 | 4.45 | 0.72 | 6.40 | 0.33 |
红外-可见光视频融合(IVF):
| 方法 | VIF↑ | SSIM↑ | MI↑ | Q_abf↑ | BiSWE↓ | MS2R↓ |
|---|---|---|---|---|---|---|
| TDFusion | 0.45 | 0.64 | 2.34 | 0.67 | 4.35 | 0.36 |
| ReFusion | 0.42 | 0.64 | 2.27 | 0.67 | 4.64 | 0.36 |
| UniVF | 0.44 | 0.64 | 2.47 | 0.68 | 3.94 | 0.35 |
医学视频融合(MVF):
| 方法 | VIF↑ | SSIM↑ | MI↑ | Q_abf↑ | BiSWE↓ | MS2R↓ |
|---|---|---|---|---|---|---|
| CDDFuse | 0.29 | 0.76 | 1.80 | 0.59 | 26.33 | 1.34 |
| FILM | 0.33 | 0.36 | 1.83 | 0.67 | 32.04 | 1.59 |
| UniVF | 0.35 | 0.76 | 2.00 | 0.68 | 29.61 | 1.30 |
消融实验(IVF 任务,Tab 4)¶
| 配置 | VIF↑ | SSIM↑ | MI↑ | Q_abf↑ | BiSWE↓ | MS2R↓ |
|---|---|---|---|---|---|---|
| 无特征 warping | 0.40 | 0.63 | 2.44 | 0.66 | 4.18 | 0.36 |
| 无 warping + 无多帧输入 | 0.38 | 0.61 | 2.07 | 0.64 | 4.46 | 0.37 |
| 无时序一致性损失 | 0.42 | 0.65 | 2.38 | 0.65 | 5.79 | 0.39 |
| 完整 UniVF | 0.44 | 0.64 | 2.47 | 0.68 | 3.94 | 0.35 |
关键发现¶
- 时序一致性损失至关重要:去掉 \(\mathcal{L}_{\text{temp}}\) 后 BiSWE 从 3.94 恶化到 5.79(+47%),MS2R 从 0.35 到 0.39,说明该损失是抑制闪烁的关键。
- 光流特征 warping 有效:去掉 warping 后空间指标和时序指标均下降,表明跨帧特征对齐对融合质量有实质贡献。
- 多帧输入必要:退化到单帧处理后所有指标全面下降,验证了多帧学习的价值。
- 统一框架跨任务泛化:同一架构在 4 个不同任务上均取得 SOTA 或极具竞争力的结果。
亮点与洞察¶
- 首个统一视频融合框架:UniVF 用一个统一的架构覆盖四类融合任务,避免了为每个任务单独设计网络的冗余,展示了跨任务融合的可行性。
- 首个视频融合 Benchmark:VF-Bench 填补了领域空白,提出了多曝光(HDR→线性域曝光模拟)和多焦点(深度估计+CoC 物理模糊)两种创新的数据生成范式。
- 精巧的时序一致性设计:validity mask 基于前向-后向光流一致性检查,只在可靠区域计算时序损失,避免了遮挡和运动边界带来的噪声梯度。
- 新的时序评估指标:BiSWE(双向自 warping 误差)和 MS2R(双参考运动平滑度)弥补了视频融合评估中时序维度的缺失。
- 数据构建方法论价值:多曝光数据通过 EOTF 在线性光域调整曝光,保真度远高于直接在 gamma 域操作;多焦点数据基于物理 CoC 模型而非语义分割,更符合真实光学过程。
局限性¶
- 只用 3 帧窗口:当前设计只利用前后各 1 帧(3 帧窗口),对于快速运动或长时间依赖的场景可能不够,增大窗口可能进一步提升效果但会增加计算开销。
- 光流估计器固定不微调:SEA-RAFT 作为预训练光流估计器是冻结的,没有端到端联合训练,可能无法适应特定融合场景(如医学图像中的非自然运动)。
- 医学融合数据量较小:MVF 仅 49 训练/8 测试场景,平均 27 帧,数据规模和多样性有限,可能影响泛化能力。
- 计算开销:需要对两路各 3 帧分别编码 + 4 次光流估计 + 4 次 warping,推理开销相对于单帧方法显著增加。
- 评估指标的局限:BiSWE 和 MS2R 仍基于光流估计,其准确性受限于光流估计器本身的精度。
- 未探索更高效的时序建模:如 3D 卷积、时序注意力或 state space model 等替代方案未做对比。
相关工作与启发¶
- 判别式融合方法(CDDFuse, EMMA, TC-MoA, FILM, ReFusion):现有 SOTA 图像融合方法大多是判别式模型(CNN/Transformer),UniVF 在其基础上引入时序维度。
- 生成式融合(DDFM, GAN-based):扩散模型和 GAN 建模潜空间流形,提供更多细节,但时序一致性更难保证。
- 视频修复/增强中的光流利用:UniVF 的光流 warping 思路直接借鉴了视频超分辨率和视频修复领域的经验(如 BasicVSR++)。
- Restormer:作为骨干网络,Restormer 的转置自注意力机制在图像修复中已证明高效。
- 统一融合模型趋势(TC-MoA, FILM, ReFusion):近期工作开始探索跨任务统一融合,UniVF 将这一趋势延伸到视频域。
- 启发:本文的数据构建思路(物理模型合成 + 严格筛选已有数据)在其他缺乏配对视频数据的领域也有很强的参考价值。VF-Bench 的评估协议(空间+时序联合评估)可推广到其他视频生成/编辑任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次提出统一视频融合框架和 benchmark,时序一致性损失设计(validity mask)和数据生成范式均有创新,但核心技术(光流 warping + Restormer)是已有组件的组合。
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 个子任务,对比 7-10 个方法,消融实验设计合理,空间+时序指标全面,2K 和低分辨率双版本测试。
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整,图表丰富,数据构建过程描述详细。
- 价值: ⭐⭐⭐⭐⭐ — VF-Bench 作为首个视频融合基准具有很高的领域价值,为后续视频融合研究奠定了坚实基础,有望推动该方向的系统性发展。