SURF: Signature-Retained Fast Video Generation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成 / 扩散模型加速
关键词: 视频生成加速, 分辨率动态, 噪声重移, 超分 Refiner, 签名保持
一句话总结¶
SURF 把高分辨率视频生成拆成「预训练大模型出低分辨率预览 + 轻量 Refiner 上采样」两阶段,用免训练的 noise reshifting 让大模型在低分辨率下仍保住原模型的布局/语义/运动「签名」,对 Wan 2.1 生成 720p 视频实现 12.5× 加速且质量几乎不掉。
研究背景与动机¶
领域现状:当前 SOTA 视频生成模型(Wan 2.1、HunyuanVideo)质量很高,但推理极慢——生成一段 5 秒 720p 视频要约 50 分钟。为了提速,社区主要走三条路:步数蒸馏(减少去噪步数)、注意力稀疏化(只算重要 token)、级联多尺度生成。
现有痛点:这些方法虽然提速,但几乎都会破坏原模型的「签名」(signature)——也就是模型特有的美学风格、语义对齐的布局、合理的运动动态。论文用 Fig. 2 展示:蒸馏模型会让人物肢体错位、语义一致性变弱;激进的 token 丢弃即便保留「重要 token」也会损伤已学到的生成先验。签名本身是模型质量的直接体现,加速时把它丢了就得不偿失。
核心矛盾:影响生成速度的两个本质因素是分辨率和去噪步数。一个反直觉的观察是:每个预训练模型都有自己的「最优分辨率」(通常就是训练分辨率),直接让它在更低分辨率上推理会导致签名严重退化。所以「降分辨率提速」和「保签名」之间存在直接冲突——既不能全程在低分辨率跑,也不能全程在高分辨率跑(太慢)。
切入角度:作者抓住扩散去噪的一个性质——早期去噪步决定整体内容结构,后期步只是细化细节。既然整体布局在前几步就定型了,那就让大模型只在「定型阶段」用最优分辨率,结构定下来之后再切到低分辨率提速。
核心 idea:用「OptimRes→LowRes→HighRes」三段式分辨率流动代替固定分辨率推理——前期高分辨率保签名、中期低分辨率抢速度、后期轻量 Refiner 补细节,让加速和签名保持同时成立,且整套方案是可插拔的 plug-in。
方法详解¶
整体框架¶
SURF 把视频生成切成两个阶段、三段分辨率流。预览阶段用强大的预训练模型(如 Wan 2.1)跑去噪,但通过 noise reshifting 在去噪轨迹中途从最优分辨率切到低分辨率,快速产出一段保住签名的低分辨率预览;精修阶段换上一个仅 1B 参数的轻量 Refiner,把预览当作「模糊低分辨率输入」,通过 flow mapping 学习从低分辨率到高分辨率的映射,只用 10 步去噪就补回细节、修掉伪影,最终输出 720p 甚至 1080p。
核心思想是动态缩放(dynamic scaling):不永久丢弃 token,而是按去噪时间步 resize 隐空间的尺度来调节 token 数量,既减了计算又保住了全局信息。三段分辨率示例为 480p(最优分辨率段)→ 240p(低分辨率段)→ 1080p(精修段)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["文本 prompt + 高斯噪声"] --> B["OptimRes→LowRes→HighRes<br/>三段分辨率流水线"]
B --> C["噪声重移 noise reshift<br/>预训练大模型·前k步高分辨率定结构"]
C -->|"第 k 步切到低分辨率"| D["低分辨率预览<br/>保住布局/语义/运动签名"]
D --> E["流映射 Refiner<br/>1B 轻量模型·NFE=10 补细节"]
E --> F["移位窗口 3D 注意力<br/>降算力·全时序连通"]
F --> G["720p / 1080p 高清视频"]
关键设计¶
1. OptimRes→LowRes→HighRes 动态缩放:用 resize 代替 token 丢弃
现有加速法在固定隐空间尺度上操作——稀疏注意力靠丢 token,但激进丢 token 必然损伤生成签名,且加速潜力有限。SURF 的破局点是把「token 数量」这个效率瓶颈交给分辨率来调:因为注意力是二次复杂度,token 数(= 分辨率)才是决定速度的关键。方法不是永久丢弃 token,而是在去噪不同阶段对隐空间做 resize,让 token 集合的全局信息始终被保留。三段流动让模型「先在粗尺度拿到全局语义、再在细尺度出预览、最后高分辨率补细节」,每一段的分辨率都匹配该阶段的需求,从而在保签名的前提下把整体算力压下来。
2. Noise reshifting:免训练的中途降分辨率,保住预览签名
这是预览阶段的核心。痛点是:直接让预训练模型在低分辨率推理会因「分辨率不匹配」严重退化签名。SURF 的做法是沿去噪轨迹设一个转折步 \(k\),分成 pre-\(k\) 步和 post-\(k\) 步。pre-\(k\) 步在模型最优分辨率上用 ODE flow matching 去噪:\(z_0 = z_1 + \int_1^0 u_\theta(z_t, t)\,dt\),其中 \(u_\theta\) 是模型预测的方向函数。到第 \(k\) 步时,先估计干净隐变量 \(\hat z_0 = z_k - \sigma_k \cdot u_\theta(z_k, k)\),对它做隐空间线性降采样 \(\hat z_0^{\downarrow} = \mathrm{Downscale}(\hat z_0)\),然后把重移到时间步 \(k\) 的噪声重新注入低分辨率隐变量:
之后 post-\(k\) 步全部在低分辨率上去噪抢速度。之所以有效,是因为前 \(k\) 步在最优分辨率上已经把整体结构和签名「锁定」了(论文观察到布局约在第 10 步左右稳定),后续即使在低分辨率细化也不会破坏已定型的结构——它完全免训练,是纯推理技巧。
3. Flow mapping Refiner:把预览当噪声起点,10 步补全高分辨率
精修阶段换成 1B 轻量模型来降低单步耗时。痛点是从低分辨率预览到高分辨率需要的去噪步数若按常规会很多。SURF 的巧思是改造 flow matching 公式(式 1):把起点 \(z_1\) 替换成线性上采样后的低分辨率隐变量 \(z_{lr}\)、把终点 \(z_0\) 替换成高分辨率隐变量 \(z_{hr}\),让 Refiner 直接学习从 \(z_{lr}\) 指向 \(z_{hr}\) 的方向信息。这样去噪不再从纯高斯噪声起步,而是从「已有结构的模糊预览」起步,NFE 因此能压到 10。训练时用像素级 + 隐空间级双重退化构造低质量配对数据:像素级退化模拟模糊,隐空间级退化则防止任务退化成平凡超分、逼模型动用自己的生成能力补内容。
4. Cyclic shift-window 3D 注意力:在大隐张量上做全时序连通
Refiner 处理高分辨率长帧视频时,3D 注意力的算力依旧吃紧。SURF 把循环移位窗口策略嵌进 Transformer:偶数块 \(2L\) 对大小为 \(W_t\) 的非重叠时序窗口做 3D 自注意力;奇数块 \(2L+1\) 先把特征沿时序移位半个窗口 \(S_t = W_t/2\) 再划窗计算:
移位后某个边界窗口会包含时序上不相关的两半,故加注意力 mask 把它们隔开;窗口内用 3D RoPE 位置-频率嵌入避免固定位置嵌入带来的分辨率偏置。这种「不移/移」两块一循环的设计,用局部窗口注意力就实现了全时序连通,大幅降低大隐张量上的显存与算力。消融显示精修阶段其实不需要全局感受野,局部上下文足以补细节。
损失函数 / 训练策略¶
Refiner 在 24 张 A800(80GB)上训练,batch size 24,AdamW,学习率 5e-5。用 Wang 等人的方法合成 10 万对 LR-HR 视频帧。采用渐进式训练:先在 21 帧输入上训 1k 步,再扩到 81 帧 finetune 4k 步,以稳定收敛并提效。
实验关键数据¶
主实验(Wan 2.1,720p,NFE=50)¶
| 方法 | QS↑ | AQ↑ | DD↑ | SA↑ | PC↑ | 时间↓ | 加速 | PFLOPs↓ |
|---|---|---|---|---|---|---|---|---|
| Wan 2.1 | 83.31 | 66.9 | 63.89 | 41.82 | 45.45 | 3497s (58min) | 1× | 658.5 |
| 30% step | 77.92 | 58.43 | 56.94 | 18.18 | 16.36 | 1049s | 3.34× | 197.5 |
| SVG(稀疏注意力) | 83.36 | 65.6 | 68.06 | 25.45 | 20.00 | 2712s | 1.29× | 429.9 |
| DMD(蒸馏) | 83.31 | 66.11 | 52.78 | 34.55 | 30.91 | 282s | 12.40× | 39.5 |
| SURF | 83.26 | 66.86 | 72.22 | 41.82 | 38.18 | 278s | 12.58× | 34.3 |
关键看 SA(语义对齐)和 PC(物理常识):SURF 的 SA 与原模型 Wan 2.1 持平(41.82),而 DMD/SVG 大幅掉到 34.55/25.45——说明蒸馏和稀疏注意力都丢了签名,SURF 几乎完整保留。1080p 场景下相比直接跑 Wan 2.1 可达 43× 加速。
1080p 与超分方法对比¶
| 方法 | DINO↑ | CLIP↑ | LAION↑ | DOVER↑ | NFE/时间↓ |
|---|---|---|---|---|---|
| RealBasicVSR | 93.40 | 94.83 | 61.07 | 80.25 | 1/162.1s |
| VEnhancer | 93.55 | 96.02 | 63.46 | 79.78 | 15/2467.6s |
| STAR | 93.68 | 96.59 | 60.81 | 63.64 | 14/912.7s |
| SURF | 93.75 | 96.30 | 63.50 | 81.20 | 10/76.5s |
SURF 在质量指标领先(DOVER 81.20 最高)的同时,耗时只有 76.5s——比扩散类超分 VEnhancer(2467s)快 32×。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 预览步划分 5-35 | AQ 63.45 / 201s | 过早切低分辨率,破坏布局与运动 |
| 预览步划分 10-30 | AQ 62.87 / 252s | 推荐:布局在第 10 步稳定后再切 |
| 预览步划分 30-10 | AQ 61.37 / 481s | 过晚切,慢且晚期分辨率切换扰乱已定结构 |
| Refiner 8 步 | DOVER 80.52 | 步数偏少,细节略欠 |
| Refiner 10 步 | DOVER 81.20 | 推荐:质量/速度最优平衡 |
| w/o 移位窗口注意力 | 视觉差异可忽略 | 精修阶段局部上下文已够,无需全局感受野 |
关键发现¶
- 去噪步划分 \(k\) 是预览阶段最敏感的超参:太早(5 步)布局/运动退化,太晚(35 步)既慢又会扰乱已定型结构;论文观察到布局约在第 10 步稳定,故取 10-30 为最优。
- 精修阶段不需要全局注意力:去掉移位窗口的全局感受野,视觉差异可忽略,说明细化只靠局部上下文就够——这反过来支持了用窗口注意力降算力的合理性。
- 可插拔性强:作为 plug-in 接 HunyuanVideo + 稀疏注意力得 8.7× 加速,接步蒸馏模型 AccVideo 得 1.3× 加速,且 SA 从 29~32 提到 36~43。
- 用户研究(37 位研究者、24 个视频):SURF vs Wan 2.1 整体质量「更好/相同/更差」为 46.24%/29.73%/24.02%,在 12.58× 提速下人类偏好与原模型相当。
亮点与洞察¶
- 「签名保持」是个被忽视但关键的加速评判维度:以往加速工作只比质量分数,SURF 点明蒸馏/稀疏会丢掉模型特有的布局-语义-运动先验,并用 SA/PC 指标量化出来——这个视角本身很有价值。
- noise reshifting 完全免训练:只在去噪轨迹中途换分辨率 + 重注入噪声,不需要任何额外训练,却能让大模型在低分辨率下保住签名,是即插即用的纯推理技巧,迁移成本极低。
- 「早期步定结构、后期步补细节」被用足了:这个去噪性质既指导了预览阶段在何时切分辨率,也支撑了精修阶段从预览(而非纯噪声)起步只需 10 步——同一个洞察贯穿两个阶段。
- 动态缩放 vs token 丢弃:用 resize 调 token 数而非永久丢弃,保住全局信息,是对稀疏注意力路线的一个有说服力的替代思路,可迁移到其他高分辨率扩散加速任务。
局限与展望¶
- 精修阶段需要单独训练一个 1B Refiner(24 张 A800、合成 10 万对数据),虽轻量但仍有训练成本,不像 noise reshifting 那样完全免训练;接新基座模型时 Refiner 是否需重训未充分讨论。⚠️ 论文未明确 Refiner 跨基座的复用性。
- 评测主要在 5 秒短视频上,更长视频下三段分辨率流与移位窗口的稳定性、签名保持效果未验证。
- 转折步 \(k\) 目前是经验设定(10-30),对不同基座模型/不同 prompt 是否需要自适应调整、能否自动选择,留作开放问题。
- 1080p 与超分方法比较仅用 100 个样本,规模偏小;且与 GAN/扩散超分的对比存在「目标不同」的 caveat(超分追求贴近输入,SURF 追求贴近原模型签名),指标不完全可直接比大小。
相关工作与启发¶
- vs 步蒸馏(DMD / AccVideo):蒸馏靠减步数提速(DMD 也能到 12.4×),但缺乏大规模预训练数据访问,丢失签名导致肢体错位、颜色失真;SURF 速度相当(12.58×)但 SA 保持在 41.82,几乎不掉签名。
- vs 稀疏注意力(SVG / Jenga):它们在同尺度隐空间上靠硬件高效布局或动态 token carving 提速,冗余 token 削减有限(SVG 仅 1.29×),且内容偏离原模型;SURF 改在分辨率维度动手,加速幅度大得多且保签名。
- vs 级联/分阶段去噪(Tian、Yang 等):前人也做过 stage-wise 去噪,但局限于单模型、只支持两分辨率迁移,未研究不同步划分对质量的影响,加速收益有限;SURF 系统化为三段分辨率流并消融了步划分,且做成可插拔 plug-in。
- vs 视频超分(VEnhancer / STAR):扩散超分能补细节但常显著偏离输入、且巨慢(2467s);SURF 的 Refiner 通过双重退化训练既保真又快(76.5s/1080p)。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把「签名保持」立为加速评判维度,noise reshifting 免训练降分辨率的思路简洁有效。
- 实验充分度: ⭐⭐⭐⭐ 多基座 plug-in 验证 + 用户研究 + 步划分/步数/移位窗口消融齐全,仅 1080p 样本量偏小。
- 写作质量: ⭐⭐⭐⭐ 两阶段三段流讲得清晰,公式与图配合到位。
- 价值: ⭐⭐⭐⭐ 即插即用、对 Wan/Hunyuan 都有效,12× 加速且保质量,实用性强。