DUO-VSR: Dual-Stream Distillation for One-Step Video Super-Resolution¶

会议: CVPR 2026
arXiv: 2603.22271
代码: https://cszy98.github.io/DUO-VSR/
领域: 图像生成 / 视频超分
关键词: 视频超分辨率, 扩散蒸馏, 单步生成, GAN, 分布匹配蒸馏

一句话总结¶

提出 DUO-VSR 三阶段蒸馏框架，通过渐进引导蒸馏初始化 + 双流蒸馏（DMD + RFS-GAN 联合优化）+ 偏好引导精调，将多步视频超分模型压缩为单步生成器，实现约 50× 加速且超越先前单步 VSR 方法的视觉质量。

研究背景与动机¶

领域现状：基于扩散模型的视频超分辨率（VSR）在视觉质量上取得了显著进展，如 SeedVR、STAR 等方法利用大规模预训练先验实现了令人印象深刻的细节恢复。然而这些方法通常需要 15-50 步迭代去噪，推理时间长达数百秒，严重阻碍实际部署。
现有痛点：现有的单步 VSR 方法面临三重挑战：(1) DOVE 使用回归损失保证稳定性，但牺牲了细节保真度；(2) SeedVR2 使用对抗后训练，但大判别器容易主导优化引入不自然伪影；(3) 直接应用 Distribution Matching Distillation (DMD) 到 VSR 面临训练不稳定（学生模型单步输出分布偏离教师）、退化监督（冻结的 real score model 未见过学生噪声输出，产生空间偏移和伪影）、不充分监督（real score model 本身不如真实 HR 视频，限制了学生模型的上限）三大问题。
核心矛盾：单步 VSR 蒸馏的根本困难在于"稳定性-质量"的权衡——轨迹保持蒸馏（如渐进蒸馏）稳定但输出模糊，分布匹配蒸馏（如 DMD）质量高但训练不稳定且受限于教师上界，GAN 方法能引入真实视频监督但判别器训练不稳定。
本文目标 设计一个统一框架，同时解决 DMD 蒸馏中的初始化不稳定、退化监督和不充分监督问题，使单步 VSR 生成器达到多步模型甚至超越其质量上界。
切入角度：作者提出将 DMD 和 GAN 作为互补的双流监督信号联合优化——DMD 保证与教师分布对齐的稳定性，GAN 通过引入真实 HR 视频特征突破教师质量上界。
核心 idea：三阶段渐进式蒸馏 + DMD 与 RFS-GAN 双流联合优化 + DPO 偏好精调，实现稳定、高质量的单步视频超分。

方法详解¶

整体框架¶

DUO-VSR 想把一个要跑 50 步的扩散视频超分模型压成"只跑一步"，但又不能像以往单步方法那样掉细节或崩训练。它的做法是把蒸馏拆成三段接力：先用渐进蒸馏把多步教师稳稳地收敛成一个可用的单步初始化，再用 DMD 和 GAN 两条监督流联合把质量顶上去，最后用一轮偏好精调做感知层面的微调。前两段解决"稳"和"超过教师"，第三段做"锦上添花"。

具体到数据流，输入低分辨率视频 \(x^{LR}\) 先上采样到目标分辨率，再编码到隐空间得到 \(z^{LR}\)；基于 DiT 架构的去噪器以 \(z^{LR}\) 和文本嵌入 \(c\) 为条件，一步直接预测干净的 HR 隐表示。基模型约 1.3B 参数，原始多步教师默认 50 步采样。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["低分辨率视频<br/>上采样 + 编码到隐空间"]
    IN --> S1["渐进引导蒸馏初始化<br/>CFG 蒸馏 + 64→32→…→1 渐进蒸馏，得稳定单步起点"]
    S1 --> S2["双流蒸馏策略（联合优化）"]
    S2 -->|稳定流| DMD["DMD 流<br/>real / fake score model 之差给 KL 梯度，守住稳定底线"]
    S2 -->|激进流| GAN["RFS-GAN 流<br/>复用 score model 特征做轻量判别，引真实 HR 突破教师上界"]
    DMD --> M2["单步学生<br/>质量超越多步教师"]
    GAN --> M2
    M2 --> S3["偏好引导精调<br/>DOVER 排序选胜/败对，做一轮 DPO 微调"]
    S3 --> OUT["单步高分辨率视频"]

关键设计¶

1. 渐进引导蒸馏初始化：先把多步教师稳稳压成单步，再谈质量

如果一上来就拿 50 步教师去初始化单步学生，去噪路径被一刀砍到底，梯度会剧烈振荡、训练直接崩掉。所以这一步不追求质量，只求一个"不崩"的单步起点，分两小步走。第一步是 CFG 蒸馏：让学生直接匹配教师的有条件/无条件组合输出 \(v_{\text{cfg}} = (1+w)v_\theta(z_t, t, z^{LR}, c) - v_\theta(z_t, t, z^{LR}, \emptyset)\)，把推理时本来要做的两次前向折叠成一次。第二步是渐进蒸馏：以 CFG 蒸馏后的模型为教师，按 \(64 \to 32 \to 16 \to \dots \to 1\) 逐级减半步数，每一轮让学生用一步预测去对齐教师的两步预测，教师每 500 步用最新学生刷新。逐步缩短路径而不是一步到位，正是它能平滑过渡到单步而不发散的原因。

2. 双流蒸馏策略：DMD 守住稳定底线，RFS-GAN 引真实视频突破教师天花板

单跑 DMD 有两个硬伤：质量被教师上界卡死，而且冻结的 real score model 没见过学生的噪声输出，会给出带空间偏移和伪影的"退化监督"。DUO-VSR 的解法是让两条流交替优化、互相补位。DMD 流里，冻结的 real score model 锚定高质量分布，持续更新的 fake score model 追踪学生当前分布，二者之差给出 KL 散度梯度来更新学生。RFS-GAN 流则复用这两个 score model 当判别器骨干——抽取它们中间若干 transformer 层的特征拼接后，送进一个额外的卷积判别器头，用 hinge GAN 目标加特征匹配损失，把学生输出（fake）和真实 HR 视频（real）拉开。引入真实 HR 视频的对抗信号，一方面压住 real score model 偏移带来的有偏梯度，另一方面直接打破"学生不可能超过教师"的天花板；同时让对抗监督同时看 real 和 fake 两侧特征，信号更均衡。工程上两条流共享扩散加噪后的学生输出 \(\hat{z}_t^S\) 省一半计算，并在骨干特征到判别器头之间插了 stop-gradient，避免 GAN 的梯度反过来污染 score model 对分布的追踪。

3. 偏好引导精调：用现成的视频质量打分器做一轮低成本 DPO 微调

双流蒸馏后的学生已经很强，但感知质量还留有最后一点打磨空间。这一步不再训练任何额外判别器：让第二阶段学生对每个 LR 视频生成多个 HR 候选，用现成的视频质量评估模型（如 DOVER）排序，挑出胜者 \(z_0^{S_w}\) 和败者 \(z_0^{S_l}\) 拼成偏好对 \((z^{LR}, z_0^{S_w}, z_0^{S_l})\)，再用 DPO 损失微调学生，使其预测的速度场整体偏向高质量样本。本质上是把已有的质量打分信号当隐式奖励，做一次便宜的偏好对齐。

损失函数 / 训练策略¶

阶段一：CFG 蒸馏用 MSE 损失 \(\mathcal{L}_{CFG}\)；渐进蒸馏用轨迹匹配损失 \(\mathcal{L}_{PD}\)。
阶段二：学生更新 = \(\mathcal{L}_{DMD} + 0.1 \cdot \mathcal{L}_G + 0.05 \cdot \mathcal{L}_{FM}\)；辅助更新分别用 \(\mathcal{L}_{Diff}\) 更新 fake score model，\(\mathcal{L}_D\) 更新判别器头。每 3 次辅助更新做 1 次学生更新。
阶段三：DPO 损失 \(\mathcal{L}_{DPO}\)，在 2000 偏好对上微调 1000 步。

实验关键数据¶

主实验（多数据集，无参考感知指标）¶

方法	步数	时间(s)	NIQE↓	MUSIQ↑	CLIP-IQA↑	DOVER↑
STAR	15	200.4	5.17	59.08	0.4068	69.29
SeedVR2-7B	1	89.7	4.63	55.45	0.3387	59.56
DOVE	1	66.7	4.43	51.25	0.3209	69.36
DLoRAL	1	76.6	4.91	58.44	0.4346	73.60
DUO-VSR	1	11.3	4.08	59.24	0.3925	69.71

（以 YouHQ40 数据集为例，DUO-VSR 在 UDM10 上 DOVER 达 87.28，全面领先）

消融实验（AIGC60 数据集）¶

配置	NIQE↓	MUSIQ↑	CLIPIQA↑	DOVER↑
Base (50步)	4.31	63.46	0.4712	87.98
Stage I only	5.45	58.97	0.408	86.49
Stage I + II	4.64	63.36	0.487	88.01
Stage I + III	5.11	60.22	0.423	87.63
Stage I + II + III	4.42	63.68	0.489	88.15

双流蒸馏策略消融¶

设置	NIQE↓	MUSIQ↑	CLIPIQA↑	DOVER↑
DMD only	4.99	61.46	0.432	87.38
RFS-GAN only	5.32	62.64	0.427	87.53
Sequential DMD→GAN	5.17	62.76	0.419	87.67
Dual-Stream (Joint)	4.42	63.68	0.489	88.15

关键发现¶

阶段二（双流蒸馏）是核心：从 Stage I 到 Stage I+II，CLIPIQA 从 0.408 提升至 0.487，DOVER 从 86.49 到 88.01，甚至超越了 50 步基线（87.98），证明引入真实视频对抗监督能突破教师上界。
联合优化显著优于顺序优化：Joint 相比 Sequential DMD→GAN，CLIPIQA 提升 0.070，DOVER 提升 0.48。两个目标在训练中动态交互、互相增强。
效率惊人：DUO-VSR 仅 1.3B 参数，单步 11.3s 处理 21 帧 1920×1080 视频，比 SeedVR2-7B（89.7s）快约 8×，比多步方法 MGLD（956.7s）快约 85×。
RFS-GAN 的互补作用：RFS-GAN 单独使用纹理增强不如 DMD（植物区域），但能有效抑制 DMD 的退化监督导致的伪影和时序不一致（瓷砖区域、时域剖面）。

亮点与洞察¶

双流联合优化的设计极为巧妙——DMD 保证分布对齐的稳定底线，GAN 引入真实世界的高质量信号突破天花板，两者通过共享扩散后样本实现高效协同。stop-gradient 的精心设置保证了两个目标互不干扰。这种"稳定流 + 激进流"的联合范式可以迁移到其他蒸馏任务。
诊断 DMD 在 VSR 中的三大问题（不稳定、退化监督、不充分监督）的分析非常扎实——图 2 中 real score model 的空间偏移和伪影可视化直观地展示了为什么 VSR 场景比无条件生成更容易受退化监督影响（因为 LR 输入提供了强空间锚点）。
DPO 偏好精调作为第三阶段的"锦上添花"，不需要额外判别器，仅需生成候选 + 质量排序即可完成，是一种低成本的质量提升手段。

局限与展望¶

训练流程较复杂（三阶段、多个 score model），总训练成本可能较高，且超参数（如损失权重比例、更新频率比）需要仔细调节。
当前在合成退化（RealBasicVSR pipeline）上训练和评估较多，对真实世界复杂退化的泛化能力虽有验证但仍有限。
1.3B 参数虽然比 SeedVR2-7B 小很多，但对边缘设备部署仍然过大。可以考虑结合模型压缩进一步缩小。
偏好精调阶段的质量排序依赖特定的视频质量评估模型，不同评估标准可能导致不同的优化方向。

评分¶

新颖性: ⭐⭐⭐⭐ DMD+GAN 双流联合的思路有创新，对 DMD 在 VSR 失效原因的分析深入
实验充分度: ⭐⭐⭐⭐⭐ 五个数据集（合成+真实+AIGC）、完整三阶段消融和策略消融
写作质量: ⭐⭐⭐⭐ 逻辑清晰，问题分析到位，图表设计直观
价值: ⭐⭐⭐⭐ 1步11.3秒处理1080p视频的效率很有吸引力，但训练流程复杂度是实际应用的障碍