DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution¶

会议: NeurIPS 2025
arXiv: 2505.16239
代码: 有
领域: 图像生成 / 扩散模型 / 视频超分辨率
关键词: 单步扩散, 视频超分辨率, CogVideoX, 潜空间-像素空间训练, 视频数据管线

一句话总结¶

提出 DOVE，基于 CogVideoX 预训练视频生成模型，通过两阶段潜空间-像素空间训练策略和高质量 HQ-VSR 数据集实现单步推理的视频超分辨率，比多步扩散方法快 28 倍且性能相当或更优。

研究背景与动机¶

现有扩散模型在真实世界视频超分辨率（VSR）中表现优秀，但面临两大瓶颈：

多步采样效率低：典型方法需数十步采样，处理 33 帧 720p 视频在 A100 上需 173-425 秒

额外模块增加开销：ControlNet、时序层等辅助组件进一步拖慢推理

单步推理在图像 SR 已有成功案例，但在 VSR 中尚未实现，困难在于： - 视频训练开销过大：DMD/VSD 等需多网络联合优化，在视频域不可行 - 高保真度要求：对抗训练的不稳定性在 VSR 中引入不良伪影

方法详解¶

整体框架¶

DOVE 基于 CogVideoX1.5（T2V 预训练模型）微调，核心设计决策： - 不引入任何额外模块（无 ControlNet、无光流模块、无时序层），只微调 Transformer - LR 视频双线性上采样后通过 VAE 编码到潜空间 z_lr - 将 z_lr 视为时间步 t=399 的噪声潜变量（而非 t=999），因为 LR 已包含足够结构信息 - 单步 v-prediction 去噪：z_sr = √ᾱ_t · z_lr - √(1-ᾱ_t) · v_θ(z_lr, c, t) - 使用空文本 prompt，预编码以减少推理开销 - VAE 解码得到输出视频 x_sr

关键设计¶

Latent-Pixel 两阶段训练策略¶

核心创新——用回归损失（而非蒸馏或对抗损失）实现高效训练：

Stage-1: Adaptation（潜空间适应） - 在潜空间最小化预测潜变量 z_sr 与 HR 潜变量 z_hr 的 MSE - 利用 VAE 高压缩比的计算效率优势，可在更长帧序列上训练 - 训练 10,000 步，学习率 2e-5，视频分辨率 320×640，帧长 25

Stage-2: Refinement（像素空间精炼） - 潜空间训练后 z_sr 接近 z_hr，但经 VAE 解码后差距被放大 - 像素空间训练直接优化 x_sr 与 x_hr 的差距 - 引入图像-视频混合训练解决视频像素训练内存瓶颈： - 图像（单帧视频）占比 φ=0.8，像素训练可行 - 视频逐帧通过 VAE 编码/解码避免多帧内存峰值，Transformer 在完整潜变量上操作 - 训练仅 500 步，学习率 5e-6

Stage-2 损失函数： - 图像：L_s2-image = MSE(x̂_sr, x̂_hr) + λ₁ · DISTS(x̂_sr, x̂_hr) - 视频：L_s2-video = MSE + λ₁·DISTS + λ₂·L_frame - 帧差损失 L_frame 强制帧间一致性：对齐相邻帧差值 Δx_sr 与 Δx_hr - λ₁ = λ₂ = 1

视频处理管线（HQ-VSR 数据集构建）¶

四步流水线从 OpenVid-1M 中筛选高质量 VSR 训练数据： 1. 元数据过滤：短边 > 720px，帧数 > 50 2. 场景过滤：场景检测+切分，丢弃 < 50 帧的片段 3. 质量过滤：多指标严格筛选（CLIP-IQA + FasterVQA + DOVER） 4. 运动处理：光流运动打分 + 运动区域检测算法

- 生成运动强度图 M，阈值化得运动掩码
- 包围盒 B 定位高运动区域，裁剪后丢弃低于 720p 的片段
- 解决"全局高运动但局部静态"的问题

最终得到 2,055 个高质量视频的 HQ-VSR 数据集。

损失函数 / 训练策略¶

Stage-1：MSE loss 在潜空间对齐
Stage-2：MSE + DISTS（感知质量）+ 帧差损失（时序一致性）
仅微调 Transformer，VAE 权重冻结
4 张 A800-80G GPU，总 batch size 8
AdamW 优化器，Stage-1 共 10K 步 + Stage-2 共 500 步
图像数据 DIV2K（900 张），采用 Real-ESRGAN 退化
视频数据 HQ-VSR（2,055 视频），采用 RealBasicVSR 退化

实验关键数据¶

主实验¶

UDM10 合成数据集（×4 超分）

方法	步数	PSNR↑	LPIPS↓	CLIP-IQA↑	DOVER↑	E*warp↓
RealBasicVSR	-	24.13	0.3908	0.3494	0.7564	3.10
MGLD-VSR	多步	24.23	0.3272	0.4557	0.7264	3.59
STAR	多步	23.47	0.4242	0.2417	0.4830	2.08
DOVE	1步	26.48	0.2696	0.5107	0.7809	1.77

DOVE 在保真度（PSNR +2.25）和感知质量（CLIP-IQA/DOVER）上全面领先。

SPMCS 合成数据集（×4 超分）

方法	PSNR↑	LPIPS↓	CLIP-IQA↑
MGLD-VSR	22.39	0.3263	0.4348
DOVE	23.11	0.2888	0.5690

效率对比（33 帧 720p 视频，1 张 A100）

方法	推理时间
MGLD-VSR	425.23s
STAR	173.07s
DOVE	~15s（28× 加速）

消融实验¶

训练策略消融（UDM10）

策略	PSNR	LPIPS	CLIP-IQA	DOVER
S1（仅潜空间）	27.20	0.3037	0.3236	0.6154
S1+S2-I（+像素图像）	26.39	0.2784	0.5085	0.7694
S1+S2-I/V（+像素混合）	26.48	0.2696	0.5107	0.7809

Stage-2 显著提升感知质量（CLIP-IQA: 0.32→0.51），混合训练优于纯图像。

图像比例 φ 消融

φ	LPIPS	CLIP-IQA	DOVER
0%（纯视频）	0.2624	0.4800	0.7647
80%（最优）	0.2696	0.5107	0.7809
100%（纯图像）	0.2784	0.5085	0.7694

HQ-VSR 数据集对比（Stage-1）

数据集	视频数	PSNR	DOVER
YouHQ	38,576	26.88	0.3965
OpenVid-1M	~400K	27.04	0.4363
HQ-VSR	2,055	27.20	0.6154

仅 2K 视频即超越 40 万级数据集，证明数据质量远比数量重要。

关键发现¶

单步推理在 VSR 中完全可行，且性能超越多步方法
潜空间→像素空间两阶段训练是平衡效率与质量的关键
视频逐帧过 VAE 的技巧有效解决了像素空间视频训练的内存瓶颈
运动区域检测裁剪比全局运动打分更适合 VSR 场景

亮点与洞察¶

首个单步扩散 VSR 模型：28 倍加速且不牺牲性能，具有重要实用价值
极简架构哲学：不加任何额外模块，完全依赖预训练 T2V 模型的先验，简洁高效
超短训练周期：仅 10K+500 步即完成微调，远低于同类方法
数据质量 >> 数据数量：2K 高质量视频胜过 40 万视频，运动区域裁剪是关键
t=399 的选择：不从纯噪声开始，利用 LR 已有的结构信息，减少不必要的重建负担

局限与展望¶

基于 CogVideoX 的模型体量较大，单帧推理仍需 GPU
仅在 ×4 超分上评估，可扩展到其他倍数和退化类型
帧差损失是简单的 L1 差值对齐，更高级的时序一致性约束（如光流）可能进一步提升
HQ-VSR 仅 2K 视频，更大规模高质量数据可能进一步提升

评分¶

新颖性：⭐⭐⭐⭐（首次将单步扩散推进至 VSR，训练策略有创新）
技术深度：⭐⭐⭐⭐（两阶段训练+数据管线+架构选择有完整方法论）
实验充分性：⭐⭐⭐⭐⭐（6 个测试集、8 个对比方法、多维度消融）
实用性：⭐⭐⭐⭐⭐（28× 加速具有重要应用价值）
表达清晰度：⭐⭐⭐⭐⭐（结构清晰，图示丰富）