BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions¶
研究背景与动机¶
视频帧插值(Video Frame Interpolation, VFI)旨在合成两个给定帧之间的中间帧,广泛应用于慢动作生成、视频编解码和帧率提升。现有方法主要基于光流估计:先估计前向和后向光流,然后通过 warping 合成中间帧。
然而,现实视频中的运动场往往是非均匀的(non-uniform),即同一帧内不同区域的运动速度和方向差异巨大。典型场景包括:
前景高速运动 + 静止背景:如体育赛事中的运动员
多物体异速运动:如交通场景中的多辆车
旋转与平移混合:如手持拍摄中的复杂相机运动
传统方法通常假设双向运动是独立的,分别估计前向和后向光流。这忽略了一个关键信息:双向光流之间存在内在的几何约束关系。对于同一个3D场景点,其在两帧中的投影位移之间满足特定的数学关系。
本文提出了 BiM(Bidirectional Motion)描述子,一种同时编码双向运动关系的紧凑表示,以及基于BiM的轻量级帧插值框架。
方法详解¶
BiM 描述子¶
BiM 描述子 \([R, \Phi]\) 由两个分量组成:
幅度比 \(R\) (Magnitude Ratio)¶
其中 \(\mathbf{f}_{0 \to 1}\) 和 \(\mathbf{f}_{1 \to 0}\) 分别是前向和后向光流。\(R\) 捕获了运动的相对速度信息。
角度差 \(\Phi\) (Angle Difference)¶
\(\Phi\) 衡量前向和后向光流方向的偏差。对于严格的线性运动,\(\Phi = 0\);对于非线性运动(如旋转、加速),\(\Phi \neq 0\)。
| 运动类型 | \(R\) | \(\Phi\) | 描述 |
|---|---|---|---|
| 均匀平移 | 1.0 | 0 | 前后帧等速反向运动 |
| 加速运动 | >1.0 | 0 | 后半段更快 |
| 减速运动 | <1.0 | 0 | 前半段更快 |
| 弧线运动 | ≈1.0 | ≠0 | 存在方向偏差 |
| 复杂非线性 | ≠1.0 | ≠0 | 速度和方向均变化 |
BiM-guided FlowNet¶
BiM 描述子作为额外输入通道注入光流估计网络:
与传统方法直接估计中间帧光流不同,BiM-guided FlowNet 利用双向运动的全局约束信息,显著提高了运动不均匀区域的光流精度。
Content-Aware Upsampling Network (CAUN)¶
传统帧插值使用双线性插值或可分离卷积对 warped 特征进行上采样。本文提出 CAUN,一种内容感知的上采样模块:
- 输入:低分辨率 warped 特征、高分辨率原始帧
- 核心:基于局部内容的自适应采样核生成
- 输出:高分辨率合成帧
CAUN 在边缘和纹理区域使用更精细的采样策略,在平坦区域使用更大感受野,实现质量和效率的平衡。
知识蒸馏 (KDVCF)¶
为进一步压缩模型,本文设计了 KDVCF(Knowledge Distillation for Video Content-aware Frame interpolation)策略:
| 组件 | 教师模型 | 学生模型 |
|---|---|---|
| 骨干网络 | ResNet-50 | MobileNetV3 |
| 参数量 | 28.3M | 6.88M |
| 蒸馏损失 | - | 特征对齐 + 输出匹配 |
| 推理速度 | 1× | 3.2× |
蒸馏策略包括: 1. 特征对齐蒸馏:中间层特征的 L2 距离最小化 2. 输出匹配蒸馏:最终合成帧的感知损失匹配
实验结果¶
标准数据集对比¶
| 方法 | 参数量 | Vimeo90K PSNR↑ | SSIM↑ | UCF101 PSNR↑ | SNU-FILM Hard↑ |
|---|---|---|---|---|---|
| RIFE | 9.8M | 35.61 | 0.978 | 35.28 | 29.27 |
| IFRNet | 19.7M | 35.80 | 0.979 | 35.36 | 29.51 |
| AMT-S | 12.3M | 35.72 | 0.978 | 35.31 | 29.39 |
| EMA-VFI | 21.5M | 35.86 | 0.979 | 35.40 | 29.56 |
| BiM-VFI | 6.88M | 36.01 | 0.980 | 35.52 | 29.72 |
BiM-VFI 以最少的参数量(6.88M)在所有数据集上取得最佳结果。
非均匀运动场景¶
在包含大量非线性运动的 X-TEST 和 Xiph-4K 数据集上,BiM-VFI 的优势更加明显:
| 方法 | X-TEST PSNR↑ | Xiph-4K PSNR↑ |
|---|---|---|
| RIFE | 28.93 | 31.42 |
| EMA-VFI | 29.34 | 31.89 |
| BiM-VFI | 30.12 | 32.47 |
消融实验¶
| 配置 | Vimeo90K PSNR↑ | 参数量 |
|---|---|---|
| Full BiM-VFI | 36.01 | 6.88M |
| w/o BiM描述子 | 35.42 | 6.85M |
| w/o CAUN (双线性上采样) | 35.67 | 5.91M |
| w/o KDVCF (教师模型) | 36.23 | 28.3M |
| 仅用\(R\) | 35.78 | 6.86M |
| 仅用\(\Phi\) | 35.71 | 6.86M |
BiM 描述子的两个分量均对性能有贡献,完整 BiM 描述子带来 +0.59dB 提升。
总结与展望¶
BiM-VFI 通过引入 BiM 描述子 \([R, \Phi]\) 显式建模双向运动场的内在关系,结合内容感知上采样和知识蒸馏,在仅6.88M参数下实现了 SOTA 的帧插值质量。该方法特别适合处理非均匀运动场景,其设计理念——利用双向光流的约束关系——可以推广到其他需要运动估计的视频理解任务中。