跳转至

BF-STVSR: B-Splines and Fourier—Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution

会议: CVPR 2025
arXiv: 2501.11043
代码: 有
领域: 视频生成
关键词: video super-resolution, B-spline, Fourier, continuous STVSR, temporal interpolation

一句话总结

提出 BF-STVSR,结合 B 样条映射器(时间平滑插值)和傅里叶映射器(空间高频捕获)实现连续时空视频超分辨率,完全无需预训练光流网络(RAFT),在 GoPro 数据集上 PSNR 达 30.22dB,FLOPs 在所有方法中最低。

研究背景与动机

领域现状:连续时空视频超分辨率(C-STVSR)需要同时实现任意时间插值和任意空间放大。现有方法如 MoTIF、VideoINR 依赖预训练光流网络(RAFT)来建模帧间运动。

现有痛点:(1) 依赖 RAFT 增加计算成本和推理延迟,RAFT 本身需要额外的预训练和推理开销。(2) 位置编码(PE)在 C-STVSR 中反而降低性能——这与其在 NeRF 等领域的表现完全相反,是一个值得关注的发现。(3) 现有方法在处理大运动和复杂纹理时,空间细节保持不足。

核心矛盾:时间维度需要平滑的运动建模(避免抖动和不连续),空间维度需要高频细节恢复(捕获纹理和边缘),两者对表示方式的需求截然不同,用统一的 MLP 难以同时满足。

本文目标 设计无需外部光流的高效 C-STVSR 框架,同时改善时间一致性和空间细节质量。

切入角度:B 样条基函数天然具备局部平滑性和可控性,适合运动轨迹建模(时间);傅里叶基函数擅长捕获信号的频率成分,适合空间高频细节恢复。

核心 idea:用 B 样条预测运动向量实现时间平滑插值,用傅里叶基捕获空间高频细节,两者互补,彻底摆脱对 RAFT 光流的依赖。

方法详解

整体框架

输入两帧低分辨率帧 \(I_0^L, I_1^L\),编码器 E 产生三个潜在特征:\(F_0^L, F_{(0,1)}^L, F_1^L\)。B-spline Mapper 基于时间坐标 \(t\) 预测高分辨率运动向量和可靠性图;Fourier Mapper 估计主频率和振幅增强空间特征。前向 warp 后通过最近邻上采样,拼接时间和模板特征送入解码器生成最终帧。

关键设计

  1. B-spline Mapper(时间插值)

    • 功能:预测高分辨率运动向量 \(M_{0 \to t}^H\), \(M_{1 \to t}^H\) 和可靠性图
    • 核心思路:\(p_\psi(z_r, \delta_r, \hat{t}) = c_r \odot \beta^n((\hat{t} - k_r)/d)\),其中 \(c_r\) 为预测系数,\(k_r\) 为预测节点,\(d\) 为帧间隔相关的膨胀参数
    • 设计动机:B 样条基函数具有局部支撑和 \(C^{n-1}\) 连续性,天然保证运动轨迹在时间方向的平滑性,比 MLP 的全局非线性更适合运动建模
  2. Fourier Mapper(空间增强)

    • 功能:捕获空间域的主频率和振幅,增强高频细节
    • 核心思路:\(g_\phi(z_r, \delta_r) = A_r \odot [\cos(\pi F_r \delta_r); \sin(\pi F_r \delta_r)]\)\(A_r\) 为振幅估计,\(F_r\) 为频率估计
    • 设计动机:解决 MLP 的频谱偏置(spectral bias)问题——MLP 倾向学习低频信号,而视频超分辨率恰恰需要恢复高频细节

损失函数 / 训练策略

  • 简化损失:\(\mathcal{L} = \mathcal{L}_{char}(\hat{I}_t^H, I_t^H)\),仅 Charbonnier 像素损失,移除了对 RAFT 的运动监督
  • 两阶段训练:Stage 1 固定 ×4 放大 450K 迭代 → Stage 2 均匀采样放大倍数 [2,4] 训练 150K 迭代
  • Adam 优化器,cosine annealing 学习率 \(10^{-4}\)\(10^{-7}\)
  • 批量大小 32,随机旋转和翻转增强

实验关键数据

主实验

数据集 设置 BF-STVSR PSNR BF-STVSR SSIM
Vid4 ×4空间 ×2时间 25.85 0.7772
GoPro-Center ×4空间 ×8时间 31.17 0.8898
GoPro-Average ×4空间 ×8时间 30.22 0.8802
Adobe-Average ×4空间 ×8时间 30.12 0.8808

参数量 13.47M(vs MoTIF 12.55M),FLOPs 在所有方法中最低。

消融实验

配置 GoPro PSNR SSIM
MoTIF+RAFT baseline 30.04 0.8773
+B-spline only 30.12 0.8783
+Fourier only 30.16 0.8792
+B-spline+Fourier 30.22 0.8802
加入位置编码 性能下降

关键发现

  • 去掉 RAFT 监督不影响甚至略微提升性能,B 样条完全替代外部光流
  • 位置编码在 C-STVSR 中有害——与 NeRF 领域完全相反,值得深入研究
  • FLOPs 最低且推理约 70-100ms(1280×720),fast CUDA kernel 加速有效
  • 在分布外放大倍数(如 ×6 时间 ×6 空间)上也保持稳定性能

亮点与洞察

  • 去 RAFT 化是重要的工程价值——消除外部依赖简化部署流水线,降低推理延迟
  • B 样条+傅里叶互补设计非常优雅:一个管时间平滑,一个管空间细节
  • 位置编码在 C-STVSR 中无效的发现值得关注,暗示不同视觉任务对位置信息的需求不同
  • 可迁移到其他需要时空连续表示的任务(如视频生成、动态 NeRF)

局限与展望

  • 超大运动场景(×12 时间放大)PSNR 显著下降,B 样条的局部性可能限制了大位移建模
  • 仅在固定和连续放大两种设置上验证,未在感知质量指标(LPIPS)上全面评估
  • 未探索与扩散模型的结合——扩散模型在超分辨率中越来越强

相关工作与启发

  • vs MoTIF: MoTIF 需要 RAFT 光流,BF-STVSR 完全摆脱该依赖且性能更好
  • vs VideoINR: VideoINR 用 MLP 隐式表示,BF-STVSR 的 B 样条+傅里叶显式基更高效

评分

  • 新颖性: ⭐⭐⭐⭐ B 样条+傅里叶组合设计新颖,去 RAFT 化有实际意义
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多设置+消融+感知指标
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,数学推导完整
  • 价值: ⭐⭐⭐⭐ 去 RAFT 化对视频超分辨率实际部署有重要意义