SURF: Signature-Retained Fast Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成 / 扩散模型加速
关键词: 视频生成加速, 分辨率动态, 噪声重移, 超分 Refiner, 签名保持

一句话总结¶

SURF 把高分辨率视频生成拆成「预训练大模型出低分辨率预览 + 轻量 Refiner 上采样」两阶段，用免训练的 noise reshifting 让大模型在低分辨率下仍保住原模型的布局/语义/运动「签名」，对 Wan 2.1 生成 720p 视频实现 12.5× 加速且质量几乎不掉。

研究背景与动机¶

领域现状：当前 SOTA 视频生成模型（Wan 2.1、HunyuanVideo）质量很高，但推理极慢——生成一段 5 秒 720p 视频要约 50 分钟。为了提速，社区主要走三条路：步数蒸馏（减少去噪步数）、注意力稀疏化（只算重要 token）、级联多尺度生成。

现有痛点：这些方法虽然提速，但几乎都会破坏原模型的「签名」（signature）——也就是模型特有的美学风格、语义对齐的布局、合理的运动动态。论文用 Fig. 2 展示：蒸馏模型会让人物肢体错位、语义一致性变弱；激进的 token 丢弃即便保留「重要 token」也会损伤已学到的生成先验。签名本身是模型质量的直接体现，加速时把它丢了就得不偿失。

核心矛盾：影响生成速度的两个本质因素是分辨率和去噪步数。一个反直觉的观察是：每个预训练模型都有自己的「最优分辨率」（通常就是训练分辨率），直接让它在更低分辨率上推理会导致签名严重退化。所以「降分辨率提速」和「保签名」之间存在直接冲突——既不能全程在低分辨率跑，也不能全程在高分辨率跑（太慢）。

切入角度：作者抓住扩散去噪的一个性质——早期去噪步决定整体内容结构，后期步只是细化细节。既然整体布局在前几步就定型了，那就让大模型只在「定型阶段」用最优分辨率，结构定下来之后再切到低分辨率提速。

核心 idea：用「OptimRes→LowRes→HighRes」三段式分辨率流动代替固定分辨率推理——前期高分辨率保签名、中期低分辨率抢速度、后期轻量 Refiner 补细节，让加速和签名保持同时成立，且整套方案是可插拔的 plug-in。

方法详解¶

整体框架¶

SURF 把视频生成切成两个阶段、三段分辨率流。预览阶段用强大的预训练模型（如 Wan 2.1）跑去噪，但通过 noise reshifting 在去噪轨迹中途从最优分辨率切到低分辨率，快速产出一段保住签名的低分辨率预览；精修阶段换上一个仅 1B 参数的轻量 Refiner，把预览当作「模糊低分辨率输入」，通过 flow mapping 学习从低分辨率到高分辨率的映射，只用 10 步去噪就补回细节、修掉伪影，最终输出 720p 甚至 1080p。

核心思想是动态缩放（dynamic scaling）：不永久丢弃 token，而是按去噪时间步 resize 隐空间的尺度来调节 token 数量，既减了计算又保住了全局信息。三段分辨率示例为 480p（最优分辨率段）→ 240p（低分辨率段）→ 1080p（精修段）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["文本 prompt + 高斯噪声"] --> B["OptimRes→LowRes→HighRes<br/>三段分辨率流水线"]
    B --> C["噪声重移 noise reshift<br/>预训练大模型·前k步高分辨率定结构"]
    C -->|"第 k 步切到低分辨率"| D["低分辨率预览<br/>保住布局/语义/运动签名"]
    D --> E["流映射 Refiner<br/>1B 轻量模型·NFE=10 补细节"]
    E --> F["移位窗口 3D 注意力<br/>降算力·全时序连通"]
    F --> G["720p / 1080p 高清视频"]

关键设计¶

1. OptimRes→LowRes→HighRes 动态缩放：用 resize 代替 token 丢弃

现有加速法在固定隐空间尺度上操作——稀疏注意力靠丢 token，但激进丢 token 必然损伤生成签名，且加速潜力有限。SURF 的破局点是把「token 数量」这个效率瓶颈交给分辨率来调：因为注意力是二次复杂度，token 数（= 分辨率）才是决定速度的关键。方法不是永久丢弃 token，而是在去噪不同阶段对隐空间做 resize，让 token 集合的全局信息始终被保留。三段流动让模型「先在粗尺度拿到全局语义、再在细尺度出预览、最后高分辨率补细节」，每一段的分辨率都匹配该阶段的需求，从而在保签名的前提下把整体算力压下来。

2. Noise reshifting：免训练的中途降分辨率，保住预览签名

这是预览阶段的核心。痛点是：直接让预训练模型在低分辨率推理会因「分辨率不匹配」严重退化签名。SURF 的做法是沿去噪轨迹设一个转折步 $k$，分成 pre-$k$ 步和 post-$k$ 步。pre-$k$ 步在模型最优分辨率上用 ODE flow matching 去噪：$z_0 = z_1 + \int_1^0 u_\theta(z_t, t)\,dt$，其中 $u_\theta$ 是模型预测的方向函数。到第 $k$ 步时，先估计干净隐变量 $\hat z_0 = z_k - \sigma_k \cdot u_\theta(z_k, k)$，对它做隐空间线性降采样 $\hat z_0^{\downarrow} = \mathrm{Downscale}(\hat z_0)$，然后把重移到时间步 $k$ 的噪声重新注入低分辨率隐变量：

\[z_{k-1} = \hat z_0^{\downarrow} + \sigma_k \cdot \tilde\epsilon, \quad \tilde\epsilon \sim \mathcal{N}(0, I)\]

之后 post-$k$ 步全部在低分辨率上去噪抢速度。之所以有效，是因为前 $k$ 步在最优分辨率上已经把整体结构和签名「锁定」了（论文观察到布局约在第 10 步左右稳定），后续即使在低分辨率细化也不会破坏已定型的结构——它完全免训练，是纯推理技巧。

3. Flow mapping Refiner：把预览当噪声起点，10 步补全高分辨率

精修阶段换成 1B 轻量模型来降低单步耗时。痛点是从低分辨率预览到高分辨率需要的去噪步数若按常规会很多。SURF 的巧思是改造 flow matching 公式（式 1）：把起点 $z_1$ 替换成线性上采样后的低分辨率隐变量 $z_{lr}$、把终点 $z_0$ 替换成高分辨率隐变量 $z_{hr}$，让 Refiner 直接学习从 $z_{lr}$ 指向 $z_{hr}$ 的方向信息。这样去噪不再从纯高斯噪声起步，而是从「已有结构的模糊预览」起步，NFE 因此能压到 10。训练时用像素级 + 隐空间级双重退化构造低质量配对数据：像素级退化模拟模糊，隐空间级退化则防止任务退化成平凡超分、逼模型动用自己的生成能力补内容。

4. Cyclic shift-window 3D 注意力：在大隐张量上做全时序连通

Refiner 处理高分辨率长帧视频时，3D 注意力的算力依旧吃紧。SURF 把循环移位窗口策略嵌进 Transformer：偶数块 $2L$ 对大小为 $W_t$ 的非重叠时序窗口做 3D 自注意力；奇数块 $2L+1$ 先把特征沿时序移位半个窗口 $S_t = W_t/2$ 再划窗计算：

\[X^{(2L)} = \mathrm{Attention3D}(\mathrm{Partition}(X, W_t))$$ $$X_{shifted} = \mathrm{CyclicShift}(X^{(2L)}, W_t/2)$$ $$X^{(2L+1)} = \mathrm{Attention3D}(\mathrm{Partition}(X_{shifted}, W_t), \mathrm{Mask})\]

移位后某个边界窗口会包含时序上不相关的两半，故加注意力 mask 把它们隔开；窗口内用 3D RoPE 位置-频率嵌入避免固定位置嵌入带来的分辨率偏置。这种「不移/移」两块一循环的设计，用局部窗口注意力就实现了全时序连通，大幅降低大隐张量上的显存与算力。消融显示精修阶段其实不需要全局感受野，局部上下文足以补细节。

损失函数 / 训练策略¶

Refiner 在 24 张 A800（80GB）上训练，batch size 24，AdamW，学习率 5e-5。用 Wang 等人的方法合成 10 万对 LR-HR 视频帧。采用渐进式训练：先在 21 帧输入上训 1k 步，再扩到 81 帧 finetune 4k 步，以稳定收敛并提效。

实验关键数据¶

主实验（Wan 2.1，720p，NFE=50）¶

方法	QS↑	AQ↑	DD↑	SA↑	PC↑	时间↓	加速	PFLOPs↓
Wan 2.1	83.31	66.9	63.89	41.82	45.45	3497s (58min)	1×	658.5
30% step	77.92	58.43	56.94	18.18	16.36	1049s	3.34×	197.5
SVG（稀疏注意力）	83.36	65.6	68.06	25.45	20.00	2712s	1.29×	429.9
DMD（蒸馏）	83.31	66.11	52.78	34.55	30.91	282s	12.40×	39.5
SURF	83.26	66.86	72.22	41.82	38.18	278s	12.58×	34.3

关键看 SA（语义对齐）和 PC（物理常识）：SURF 的 SA 与原模型 Wan 2.1 持平（41.82），而 DMD/SVG 大幅掉到 34.55/25.45——说明蒸馏和稀疏注意力都丢了签名，SURF 几乎完整保留。1080p 场景下相比直接跑 Wan 2.1 可达 43× 加速。

1080p 与超分方法对比¶

方法	DINO↑	CLIP↑	LAION↑	DOVER↑	NFE/时间↓
RealBasicVSR	93.40	94.83	61.07	80.25	1/162.1s
VEnhancer	93.55	96.02	63.46	79.78	15/2467.6s
STAR	93.68	96.59	60.81	63.64	14/912.7s
SURF	93.75	96.30	63.50	81.20	10/76.5s

SURF 在质量指标领先（DOVER 81.20 最高）的同时，耗时只有 76.5s——比扩散类超分 VEnhancer（2467s）快 32×。

消融实验¶

配置	关键指标	说明
预览步划分 5-35	AQ 63.45 / 201s	过早切低分辨率，破坏布局与运动
预览步划分 10-30	AQ 62.87 / 252s	推荐：布局在第 10 步稳定后再切
预览步划分 30-10	AQ 61.37 / 481s	过晚切，慢且晚期分辨率切换扰乱已定结构
Refiner 8 步	DOVER 80.52	步数偏少，细节略欠
Refiner 10 步	DOVER 81.20	推荐：质量/速度最优平衡
w/o 移位窗口注意力	视觉差异可忽略	精修阶段局部上下文已够，无需全局感受野

关键发现¶

去噪步划分 $k$ 是预览阶段最敏感的超参：太早（5 步）布局/运动退化，太晚（35 步）既慢又会扰乱已定型结构；论文观察到布局约在第 10 步稳定，故取 10-30 为最优。
精修阶段不需要全局注意力：去掉移位窗口的全局感受野，视觉差异可忽略，说明细化只靠局部上下文就够——这反过来支持了用窗口注意力降算力的合理性。
可插拔性强：作为 plug-in 接 HunyuanVideo + 稀疏注意力得 8.7× 加速，接步蒸馏模型 AccVideo 得 1.3× 加速，且 SA 从 29~32 提到 36~43。
用户研究（37 位研究者、24 个视频）：SURF vs Wan 2.1 整体质量「更好/相同/更差」为 46.24%/29.73%/24.02%，在 12.58× 提速下人类偏好与原模型相当。

亮点与洞察¶

「签名保持」是个被忽视但关键的加速评判维度：以往加速工作只比质量分数，SURF 点明蒸馏/稀疏会丢掉模型特有的布局-语义-运动先验，并用 SA/PC 指标量化出来——这个视角本身很有价值。
noise reshifting 完全免训练：只在去噪轨迹中途换分辨率 + 重注入噪声，不需要任何额外训练，却能让大模型在低分辨率下保住签名，是即插即用的纯推理技巧，迁移成本极低。
「早期步定结构、后期步补细节」被用足了：这个去噪性质既指导了预览阶段在何时切分辨率，也支撑了精修阶段从预览（而非纯噪声）起步只需 10 步——同一个洞察贯穿两个阶段。
动态缩放 vs token 丢弃：用 resize 调 token 数而非永久丢弃，保住全局信息，是对稀疏注意力路线的一个有说服力的替代思路，可迁移到其他高分辨率扩散加速任务。

局限与展望¶

精修阶段需要单独训练一个 1B Refiner（24 张 A800、合成 10 万对数据），虽轻量但仍有训练成本，不像 noise reshifting 那样完全免训练；接新基座模型时 Refiner 是否需重训未充分讨论。⚠️ 论文未明确 Refiner 跨基座的复用性。
评测主要在 5 秒短视频上，更长视频下三段分辨率流与移位窗口的稳定性、签名保持效果未验证。
转折步 $k$ 目前是经验设定（10-30），对不同基座模型/不同 prompt 是否需要自适应调整、能否自动选择，留作开放问题。
1080p 与超分方法比较仅用 100 个样本，规模偏小；且与 GAN/扩散超分的对比存在「目标不同」的 caveat（超分追求贴近输入，SURF 追求贴近原模型签名），指标不完全可直接比大小。

评分¶

新颖性: ⭐⭐⭐⭐ 把「签名保持」立为加速评判维度，noise reshifting 免训练降分辨率的思路简洁有效。
实验充分度: ⭐⭐⭐⭐ 多基座 plug-in 验证 + 用户研究 + 步划分/步数/移位窗口消融齐全，仅 1080p 样本量偏小。
写作质量: ⭐⭐⭐⭐ 两阶段三段流讲得清晰，公式与图配合到位。
价值: ⭐⭐⭐⭐ 即插即用、对 Wan/Hunyuan 都有效，12× 加速且保质量，实用性强。