BF-STVSR: B-Splines and Fourier—Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution¶

会议: CVPR 2025
arXiv: 2501.11043
代码: 有
领域: 视频生成
关键词: video super-resolution, B-spline, Fourier, continuous STVSR, temporal interpolation

一句话总结¶

提出 BF-STVSR，结合 B 样条映射器（时间平滑插值）和傅里叶映射器（空间高频捕获）实现连续时空视频超分辨率，完全无需预训练光流网络（RAFT），在 GoPro 数据集上 PSNR 达 30.22dB，FLOPs 在所有方法中最低。

研究背景与动机¶

领域现状：连续时空视频超分辨率（C-STVSR）需要同时实现任意时间插值和任意空间放大。现有方法如 MoTIF、VideoINR 依赖预训练光流网络（RAFT）来建模帧间运动。

现有痛点：(1) 依赖 RAFT 增加计算成本和推理延迟，RAFT 本身需要额外的预训练和推理开销。(2) 位置编码（PE）在 C-STVSR 中反而降低性能——这与其在 NeRF 等领域的表现完全相反，是一个值得关注的发现。(3) 现有方法在处理大运动和复杂纹理时，空间细节保持不足。

核心矛盾：时间维度需要平滑的运动建模（避免抖动和不连续），空间维度需要高频细节恢复（捕获纹理和边缘），两者对表示方式的需求截然不同，用统一的 MLP 难以同时满足。

本文目标 设计无需外部光流的高效 C-STVSR 框架，同时改善时间一致性和空间细节质量。

切入角度：B 样条基函数天然具备局部平滑性和可控性，适合运动轨迹建模（时间）；傅里叶基函数擅长捕获信号的频率成分，适合空间高频细节恢复。

核心 idea：用 B 样条预测运动向量实现时间平滑插值，用傅里叶基捕获空间高频细节，两者互补，彻底摆脱对 RAFT 光流的依赖。

方法详解¶

整体框架¶

输入两帧低分辨率帧 \(I_0^L, I_1^L\)，编码器 E 产生三个潜在特征：\(F_0^L, F_{(0,1)}^L, F_1^L\)。B-spline Mapper 基于时间坐标 \(t\) 预测高分辨率运动向量和可靠性图；Fourier Mapper 估计主频率和振幅增强空间特征。前向 warp 后通过最近邻上采样，拼接时间和模板特征送入解码器生成最终帧。

关键设计¶

B-spline Mapper（时间插值）
- 功能：预测高分辨率运动向量 \(M_{0 \to t}^H\), \(M_{1 \to t}^H\) 和可靠性图
- 核心思路：\(p_\psi(z_r, \delta_r, \hat{t}) = c_r \odot \beta^n((\hat{t} - k_r)/d)\)，其中 \(c_r\) 为预测系数，\(k_r\) 为预测节点，\(d\) 为帧间隔相关的膨胀参数
- 设计动机：B 样条基函数具有局部支撑和 \(C^{n-1}\) 连续性，天然保证运动轨迹在时间方向的平滑性，比 MLP 的全局非线性更适合运动建模
Fourier Mapper（空间增强）
- 功能：捕获空间域的主频率和振幅，增强高频细节
- 核心思路：\(g_\phi(z_r, \delta_r) = A_r \odot [\cos(\pi F_r \delta_r); \sin(\pi F_r \delta_r)]\)，\(A_r\) 为振幅估计，\(F_r\) 为频率估计
- 设计动机：解决 MLP 的频谱偏置（spectral bias）问题——MLP 倾向学习低频信号，而视频超分辨率恰恰需要恢复高频细节

损失函数 / 训练策略¶

简化损失：\(\mathcal{L} = \mathcal{L}_{char}(\hat{I}_t^H, I_t^H)\)，仅 Charbonnier 像素损失，移除了对 RAFT 的运动监督
两阶段训练：Stage 1 固定 ×4 放大 450K 迭代 → Stage 2 均匀采样放大倍数 [2,4] 训练 150K 迭代
Adam 优化器，cosine annealing 学习率 \(10^{-4}\) → \(10^{-7}\)
批量大小 32，随机旋转和翻转增强

实验关键数据¶

主实验¶

数据集	设置	BF-STVSR PSNR	BF-STVSR SSIM
Vid4	×4空间 ×2时间	25.85	0.7772
GoPro-Center	×4空间 ×8时间	31.17	0.8898
GoPro-Average	×4空间 ×8时间	30.22	0.8802
Adobe-Average	×4空间 ×8时间	30.12	0.8808

参数量 13.47M（vs MoTIF 12.55M），FLOPs 在所有方法中最低。

消融实验¶

配置	GoPro PSNR	SSIM
MoTIF+RAFT baseline	30.04	0.8773
+B-spline only	30.12	0.8783
+Fourier only	30.16	0.8792
+B-spline+Fourier	30.22	0.8802
加入位置编码	性能下降	—

关键发现¶

去掉 RAFT 监督不影响甚至略微提升性能，B 样条完全替代外部光流
位置编码在 C-STVSR 中有害——与 NeRF 领域完全相反，值得深入研究
FLOPs 最低且推理约 70-100ms（1280×720），fast CUDA kernel 加速有效
在分布外放大倍数（如 ×6 时间 ×6 空间）上也保持稳定性能

亮点与洞察¶

去 RAFT 化是重要的工程价值——消除外部依赖简化部署流水线，降低推理延迟
B 样条+傅里叶互补设计非常优雅：一个管时间平滑，一个管空间细节
位置编码在 C-STVSR 中无效的发现值得关注，暗示不同视觉任务对位置信息的需求不同
可迁移到其他需要时空连续表示的任务（如视频生成、动态 NeRF）

局限与展望¶

超大运动场景（×12 时间放大）PSNR 显著下降，B 样条的局部性可能限制了大位移建模
仅在固定和连续放大两种设置上验证，未在感知质量指标（LPIPS）上全面评估
未探索与扩散模型的结合——扩散模型在超分辨率中越来越强

评分¶

新颖性: ⭐⭐⭐⭐ B 样条+傅里叶组合设计新颖，去 RAFT 化有实际意义
实验充分度: ⭐⭐⭐⭐ 多数据集多设置+消融+感知指标
写作质量: ⭐⭐⭐⭐ 动机清晰，数学推导完整
价值: ⭐⭐⭐⭐ 去 RAFT 化对视频超分辨率实际部署有重要意义