跳转至

DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution

会议: NeurIPS 2025
arXiv: 2505.16239
代码:
领域: 图像生成 / 扩散模型 / 视频超分辨率
关键词: 单步扩散, 视频超分辨率, CogVideoX, 潜空间-像素空间训练, 视频数据管线

一句话总结

提出 DOVE,基于 CogVideoX 预训练视频生成模型,通过两阶段潜空间-像素空间训练策略和高质量 HQ-VSR 数据集实现单步推理的视频超分辨率,比多步扩散方法快 28 倍且性能相当或更优。

研究背景与动机

现有扩散模型在真实世界视频超分辨率(VSR)中表现优秀,但面临两大瓶颈:

多步采样效率低:典型方法需数十步采样,处理 33 帧 720p 视频在 A100 上需 173-425 秒

额外模块增加开销:ControlNet、时序层等辅助组件进一步拖慢推理

单步推理在图像 SR 已有成功案例,但在 VSR 中尚未实现,困难在于: - 视频训练开销过大:DMD/VSD 等需多网络联合优化,在视频域不可行 - 高保真度要求:对抗训练的不稳定性在 VSR 中引入不良伪影

方法详解

整体框架

DOVE 基于 CogVideoX1.5(T2V 预训练模型)微调,核心设计决策: - 不引入任何额外模块(无 ControlNet、无光流模块、无时序层),只微调 Transformer - LR 视频双线性上采样后通过 VAE 编码到潜空间 z_lr - 将 z_lr 视为时间步 t=399 的噪声潜变量(而非 t=999),因为 LR 已包含足够结构信息 - 单步 v-prediction 去噪:z_sr = √ᾱ_t · z_lr - √(1-ᾱ_t) · v_θ(z_lr, c, t) - 使用空文本 prompt,预编码以减少推理开销 - VAE 解码得到输出视频 x_sr

关键设计

Latent-Pixel 两阶段训练策略

核心创新——用回归损失(而非蒸馏或对抗损失)实现高效训练:

Stage-1: Adaptation(潜空间适应) - 在潜空间最小化预测潜变量 z_sr 与 HR 潜变量 z_hr 的 MSE - 利用 VAE 高压缩比的计算效率优势,可在更长帧序列上训练 - 训练 10,000 步,学习率 2e-5,视频分辨率 320×640,帧长 25

Stage-2: Refinement(像素空间精炼) - 潜空间训练后 z_sr 接近 z_hr,但经 VAE 解码后差距被放大 - 像素空间训练直接优化 x_sr 与 x_hr 的差距 - 引入图像-视频混合训练解决视频像素训练内存瓶颈: - 图像(单帧视频)占比 φ=0.8,像素训练可行 - 视频逐帧通过 VAE 编码/解码避免多帧内存峰值,Transformer 在完整潜变量上操作 - 训练仅 500 步,学习率 5e-6

Stage-2 损失函数: - 图像:L_s2-image = MSE(x̂_sr, x̂_hr) + λ₁ · DISTS(x̂_sr, x̂_hr) - 视频:L_s2-video = MSE + λ₁·DISTS + λ₂·L_frame - 帧差损失 L_frame 强制帧间一致性:对齐相邻帧差值 Δx_sr 与 Δx_hr - λ₁ = λ₂ = 1

视频处理管线(HQ-VSR 数据集构建)

四步流水线从 OpenVid-1M 中筛选高质量 VSR 训练数据: 1. 元数据过滤:短边 > 720px,帧数 > 50 2. 场景过滤:场景检测+切分,丢弃 < 50 帧的片段 3. 质量过滤:多指标严格筛选(CLIP-IQA + FasterVQA + DOVER) 4. 运动处理:光流运动打分 + 运动区域检测算法

- 生成运动强度图 M,阈值化得运动掩码
- 包围盒 B 定位高运动区域,裁剪后丢弃低于 720p 的片段
- 解决"全局高运动但局部静态"的问题

最终得到 2,055 个高质量视频的 HQ-VSR 数据集。

损失函数 / 训练策略

  • Stage-1:MSE loss 在潜空间对齐
  • Stage-2:MSE + DISTS(感知质量)+ 帧差损失(时序一致性)
  • 仅微调 Transformer,VAE 权重冻结
  • 4 张 A800-80G GPU,总 batch size 8
  • AdamW 优化器,Stage-1 共 10K 步 + Stage-2 共 500 步
  • 图像数据 DIV2K(900 张),采用 Real-ESRGAN 退化
  • 视频数据 HQ-VSR(2,055 视频),采用 RealBasicVSR 退化

实验关键数据

主实验

UDM10 合成数据集(×4 超分)

方法 步数 PSNR↑ LPIPS↓ CLIP-IQA↑ DOVER↑ E*warp↓
RealBasicVSR - 24.13 0.3908 0.3494 0.7564 3.10
MGLD-VSR 多步 24.23 0.3272 0.4557 0.7264 3.59
STAR 多步 23.47 0.4242 0.2417 0.4830 2.08
DOVE 1步 26.48 0.2696 0.5107 0.7809 1.77

DOVE 在保真度(PSNR +2.25)和感知质量(CLIP-IQA/DOVER)上全面领先。

SPMCS 合成数据集(×4 超分)

方法 PSNR↑ LPIPS↓ CLIP-IQA↑
MGLD-VSR 22.39 0.3263 0.4348
DOVE 23.11 0.2888 0.5690

效率对比(33 帧 720p 视频,1 张 A100)

方法 推理时间
MGLD-VSR 425.23s
STAR 173.07s
DOVE ~15s(28× 加速)

消融实验

训练策略消融(UDM10)

策略 PSNR LPIPS CLIP-IQA DOVER
S1(仅潜空间) 27.20 0.3037 0.3236 0.6154
S1+S2-I(+像素图像) 26.39 0.2784 0.5085 0.7694
S1+S2-I/V(+像素混合) 26.48 0.2696 0.5107 0.7809

Stage-2 显著提升感知质量(CLIP-IQA: 0.32→0.51),混合训练优于纯图像。

图像比例 φ 消融

φ LPIPS CLIP-IQA DOVER
0%(纯视频) 0.2624 0.4800 0.7647
80%(最优) 0.2696 0.5107 0.7809
100%(纯图像) 0.2784 0.5085 0.7694

HQ-VSR 数据集对比(Stage-1)

数据集 视频数 PSNR DOVER
YouHQ 38,576 26.88 0.3965
OpenVid-1M ~400K 27.04 0.4363
HQ-VSR 2,055 27.20 0.6154

仅 2K 视频即超越 40 万级数据集,证明数据质量远比数量重要。

关键发现

  • 单步推理在 VSR 中完全可行,且性能超越多步方法
  • 潜空间→像素空间两阶段训练是平衡效率与质量的关键
  • 视频逐帧过 VAE 的技巧有效解决了像素空间视频训练的内存瓶颈
  • 运动区域检测裁剪比全局运动打分更适合 VSR 场景

亮点与洞察

  1. 首个单步扩散 VSR 模型:28 倍加速且不牺牲性能,具有重要实用价值
  2. 极简架构哲学:不加任何额外模块,完全依赖预训练 T2V 模型的先验,简洁高效
  3. 超短训练周期:仅 10K+500 步即完成微调,远低于同类方法
  4. 数据质量 >> 数据数量:2K 高质量视频胜过 40 万视频,运动区域裁剪是关键
  5. t=399 的选择:不从纯噪声开始,利用 LR 已有的结构信息,减少不必要的重建负担

局限与展望

  • 基于 CogVideoX 的模型体量较大,单帧推理仍需 GPU
  • 仅在 ×4 超分上评估,可扩展到其他倍数和退化类型
  • 帧差损失是简单的 L1 差值对齐,更高级的时序一致性约束(如光流)可能进一步提升
  • HQ-VSR 仅 2K 视频,更大规模高质量数据可能进一步提升

相关工作与启发

  • CogVideoX 作为基座模型:3D causal VAE + Transformer denoiser
  • OSEDiff 在图像 SR 首次探索单步扩散,DOVE 将其推进到视频域
  • DISTS 感知损失在质量评估和训练中同时使用
  • 帧差损失是简洁但有效的时序一致性方案,避免了光流计算的额外开销

评分

  • 新颖性:⭐⭐⭐⭐(首次将单步扩散推进至 VSR,训练策略有创新)
  • 技术深度:⭐⭐⭐⭐(两阶段训练+数据管线+架构选择有完整方法论)
  • 实验充分性:⭐⭐⭐⭐⭐(6 个测试集、8 个对比方法、多维度消融)
  • 实用性:⭐⭐⭐⭐⭐(28× 加速具有重要应用价值)
  • 表达清晰度:⭐⭐⭐⭐⭐(结构清晰,图示丰富)