FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters¶

会议: CVPR 2026
arXiv: 2603.01685
代码: 无
领域: 视频生成
关键词: 视频生成加速, 步数蒸馏, 模型剪枝, 分布匹配, DiT压缩

一句话总结¶

FastLightGen 提出三阶段蒸馏算法，首次实现采样步数与模型大小的联合蒸馏，通过识别冗余层、动态概率剪枝和 well-guided teacher guidance 分布匹配，将 HunyuanVideo/WanX 压缩为 4 步 30% 参数剪枝的轻量生成器，实现约 35 倍加速且性能超越教师模型。

研究背景与动机¶

领域现状：大规模视频生成模型（HunyuanVideo、WanX）基于 DiT，130亿+参数，多步去噪。5秒视频在 H100 上约需 20 分钟。

核心问题： - 现有加速要么减步数（LCM/DMD）要么减参数（F3-Pruning/ICMD），无联合优化 - 极端步数蒸馏（1-2步）性能急剧下降 - 联合蒸馏可在同性能下更大加速（4步50%参数=50x vs 纯步数3步=33.3x）

本文方案：三阶段——识别冗余层、动态概率剪枝、well-guided teacher guidance 分布匹配

方法详解¶

整体框架¶

三阶段蒸馏管道：Stage I 识别不重要块，Stage II 动态概率剪枝训练，Stage III 精细分布匹配。

关键设计¶

1. Stage I: 识别不重要模型块¶

逐一跳过每个 DiT block，用 Tweedie 公式估计 ELBO 评估重要性。发现 U 型模式：初始层和末尾层最关键，中间层冗余。HunyuanVideo 的 double block 比 single block 更关键。

2. Stage II: 动态概率剪枝训练¶

不重要层按伯努利分布（p=0.5）随机跳过，构建参数共享的 unpruned/pruned 模型：

蒸馏损失：pruned 输出对齐 unpruned 输出（stop gradient）
关键发现：alpha=1（完全去除 GT 监督、仅用蒸馏）效果最佳，"软"监督优于"硬"GT
输出能在不同深度配置下都表现良好的鲁棒模型

3. Stage III: 精细分布匹配¶

基于 DMD2 框架引入 well-guided teacher guidance：

Real DiT 同时使用 pruned 和 unpruned 输出
beta_1（inter CFG）控制文本引导强度，beta_2（intra CFG）控制 unpruned 对 pruned 引导
从均匀分布采样 CFG 增强鲁棒性
避免过弱（无效）和过强（学生跟不上）教师的两种失败模式

损失函数 / 训练策略¶

Stage II: 16卡 H100, lr=1e-5, 4000 iter, ~64 GPU days
Stage III: lr=5e-7, 1000 iter, ~16 GPU days
最优配置：(alpha, beta_1, beta_2) = (1, 3.5, 0.25) for WanX
不宜过长训练（运动过剧烈/颜色过饱和）

实验关键数据¶

主实验¶

VBench-I2V 对比（WanX-TI2V, 表2）：

方法	motion smooth	dynamic deg	aesthetic	imaging	average	time
Euler (teacher)	0.982	0.461	0.653	0.711	0.790	885s
DMD2	0.977	0.160	0.583	0.683	0.716	35.4s
LCM	0.979	0.003	0.570	0.665	0.684	35.4s
MagicDistillation	0.980	0.561	0.634	0.701	0.798	35.4s
FastLightGen	0.983	0.500	0.656	0.717	0.794	28.3s

与开源VDM对比（表1）：

方法	average
CogVideoX-I2V	0.759
SVD-XT-1.0	0.789
WanX-TI2V (teacher)	0.790
FastLightGen	0.794

消融实验¶

蒸馏权重消融（表4）：

distill weight alpha	average
0.0	0.780
0.5	0.780
0.7	0.788
1.0	0.791

Intra CFG 消融（表5, beta_1=3.5）：

beta_2	dynamic deg	average
0.00	0.459	0.812
0.25	0.500	0.820
0.75	1.000	0.848 (有抖动)

关键发现¶

4步+30%剪枝（保留70%参数）最优性价比，约 35.71x 加速
联合蒸馏同性能下比单维度更快（50x vs 33.3x）
alpha=1 纯蒸馏是 Stage II 最佳
aesthetic 和 imaging quality 超越教师模型

亮点与洞察¶

联合蒸馏范式：首次证明步数+大小联合蒸馏优于单维度
Well-guided teacher：inter/intra CFG 独立控制两个正交维度
动态概率剪枝：单模型适应不同深度
U 型重要性：VDM 初末层最关键的普适发现

局限与展望¶

仅验证 TI2V 任务
训练成本高（~80 GPU days）
beta_2 大时运动异常
仅 block 级剪枝
数据质量敏感

评分¶

维度	分数 (1-5)	说明
创新性	4	联合蒸馏+well-guided teacher
技术深度	4	三阶段精细设计
实验完整性	4.5	多模型多指标充分消融
写作质量	4	图表清晰
实用价值	4.5	35x 加速意义重大
总分	4.2