DVD-Quant: Data-free Video Diffusion Transformers Quantization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3AnRMvlVDw
代码: 待开源（论文承诺 Code and models will be released）
领域: 模型压缩 / 训练后量化 / 视频扩散模型
关键词: Video DiT, 训练后量化(PTQ), 数据无关量化, W4A4, 混合精度, Hadamard 旋转

一句话总结¶

DVD-Quant 提出一套完全免标定（data-free）的视频扩散 Transformer 训练后量化框架，用权重网格细化（BGR）、自动缩放旋转量化（ARQ）和 δ 引导比特切换（δ-GBS）三件套，首次让 Video DiT 在 W4A4 下不掉画质，并在 HunyuanVideo 上实现约 2× 加速。

研究背景与动机¶

领域现状：扩散 Transformer（DiT）已成为视频生成的 SOTA 架构（Sora、HunyuanVideo、Wan2.1 等），但 50 步迭代去噪 + 全注意力带来的算力和显存开销让部署极其昂贵。训练后量化（PTQ）是无需重训、即插即用的加速路线，ViDiT-Q 等已能做到 W8A8 近乎无损。

现有痛点：把激活精度压到 8 bit 以下时，已有 PTQ 方法集体失效——VBench 指标暴跌 27.5%~61.3%。原因有两条：(1) 主流方法依赖离线标定（calibration）预缩放，既费时又无法适配 DiT 中随去噪时间步剧烈变化的激活尺度；(2) 直接做 W4A4 激进量化会让生成质量崩塌。

核心矛盾：DiT 量化的难点本质是时变性——激活分布在 50 个时间步上漂移巨大，而标定集只是某些时间步的快照，注定无法覆盖全程；同时权重呈类高斯分布，MinMax 固定范围把大量码位浪费在仅占 0.3% 的离群值上。

本文目标：彻底甩掉标定数据，在 W4A6 甚至 W4A4 下保住视频保真度并拿到实打实的加速。

核心 idea：作者从三个观察出发——(观察1) 权重类高斯分布适合迭代细化量化网格；(观察2) 激活尺度跨时间步剧变必须在线动态缩放而非离线静态；(观察3) 潜在特征在不同去噪步变化不均，给了按步自适应分配比特宽度的空间。三个设计分别对症下药。

方法详解¶

整体框架¶

DVD-Quant 由三个互补模块串成一条数据无关的量化流水线：BGR 负责权重侧，把类高斯权重的量化误差压下去；ARQ 负责激活侧，用 Hadamard 旋转 + 在线缩放替代离线标定；δ-GBS 负责调度，按特征变化在时间步层面动态切换激活比特宽度。三者协同后才能在 W4A4/W4A6 下保住画质。

flowchart LR
    W[权重 W<br/>类高斯分布] --> BGR[BGR<br/>边界初始化+网格迭代细化]
    A[激活 X<br/>跨时间步剧变] --> ARQ[ARQ<br/>Hadamard旋转+在线缩放]
    BGR --> Q[低比特 GEMM]
    ARQ --> Q
    DG[δ-GBS<br/>按L1特征变化切换比特] -.调度每步激活位宽.-> Q
    Q --> OUT[2× 加速 / 画质无损]

关键设计¶

1. BGR（Bounded-init Grid Refinement）：用闭式坐标下降把权重量化误差打下 86%。 MinMax 量化直接拿权重极值算步长 \(\Delta=(\max(W)-\min(W))/(2^b-1)\)，对类高斯权重极不友好——离群区吃掉过多码位、零均值密集区间隔又太粗。BGR 把目标重写成最小化 \(\|W-\Delta\odot(W_q-z)\|_F\)，并指出 MinMax 解只是个初始化。由于 PTQ 要避免梯度下降，作者采用固定两者优化第三者的坐标下降：先固定 \(z,W\)，对步长求最小二乘闭式解 \(\Delta'=\langle W_q-z,\,W\rangle_{\text{row}}\oslash\langle W_q-z,\,W_q-z\rangle_{\text{row}}\)；再固定 \(\Delta',W_q\) 把零点松弛到实数后取整 \(z'=\text{clamp}(W_q-W\oslash\Delta',0,2^b-1)\)；最后更新 \(W_q\)，循环到误差收敛。初始化不用裸 MinMax 而用搜索边界——逐步内缩裁剪上下界 \(W_c=\text{clamp}(W,\min(W)+\delta_l,\max(W)-\delta_u)\) 来排除离群值，给迭代一个更好的起点。整套流程纯权重侧离线完成，推理期零额外开销，在 HunyuanVideo 各层把量化误差平均降低约 86%~91%。

2. ARQ（Auto-scaling Rotated Quantization）：旋转压离群 + 在线缩放抗时变，干掉标定数据。 激活量化有两大死穴：跨时间步动态变化让离线缩放因子失效；纯旋转法虽能压制大离群值，却可能在变换空间放大某些激活反而引入新误差。ARQ 把旋转和缩放的长处合一：先用 Hadamard 矩阵 \(H\) 同时乘到激活和权重两侧保持计算不变性 \(Y=(XH)(H^\top W)\)（快速 Hadamard 变换，延迟开销极小），再在线逐通道算缩放因子并只作用到激活（不转移到权重）：

\[\widehat{X}=Q(XH\Lambda^{-1}),\quad \widehat{W}=\text{BGR}(WH),\quad Y=\widehat{X}\,\Lambda\,\widehat{W}^\top,\]

其中 \(s_j=\|\widetilde{X}_j\|_\infty\)、\(\Lambda=\text{diag}(s_1,\dots,s_c)\)。旋转负责把海量离群值打散到多个通道，旋转后的在线缩放再强化通道一致性、修掉旋转带来的副作用。关键是缩放因子每个时间步实时算，天然适配 DiT 激活的时变分布，无需任何标定集。实际部署时为对齐低比特 Tensor Core 的 GEMM 粒度，ARQ 采用与硬件对齐的 block-wise 缩放变体，论文所有延迟/精度数字都基于这一硬件友好配置。

3. δ-GBS（δ-Guided Bit Switching）：按特征变化在时间步上动态切位宽。 DiT 去噪过程中特征演化高度不均——很多冗余步特征几乎不变，少数关键步发生剧烈变换。统一位宽要么浪费算力要么在关键步掉质。δ-GBS 实时监控相邻输出的归一化 L1 距离 \(L_1(F,t)=\|F_t-F_{t-1}\|_1/\|F_{t-1}\|_1\)，对自上次重置以来的累计变化做阈值判断：

\[B_{t_i}=\begin{cases}b_{\text{low}}, & \sum_{t=t_p}^{t_i-1}L_1(F,t)<\delta\\[4pt] b_{\text{high}}, & \sum_{t=t_p}^{t_i-1}L_1(F,t)\ge\delta\end{cases}\]

累计特征变化低于 \(\delta\) 时说明该段冗余、用低位宽 \(b_{\text{low}}\)；一旦超过 \(\delta\) 就切到高位宽 \(b_{\text{high}}\) 保细节并把累计器清零。这种误差驱动的决策随输入 prompt 自适应，比静态时间步划分或固定模式更贴合实际内容。\(\delta\) 是性能-效率旋钮：\(\delta\to0\) 退化为全程 W4A8，\(\delta\to\infty\) 退化为 W4A4，中间值则在激活层面平滑插值，避免离散位宽突变带来的质量抖动。实验取 \(b_{\text{low}}=4,\,b_{\text{high}}=8\)，50 步平均位宽约 6（即 W4A6）。

实验关键数据¶

主实验表格（HunyuanVideo，VBench）¶

方法	W/A	Aesthetic	Imaging	Overall Consist.	Dynamic Degree
HunyuanVideo (FP)	16/16	62.53	64.78	25.86	51.39
MinMax	4/8	59.44	60.62	25.78	52.78
SmoothQuant	4/8	60.50	64.47	25.56	51.39
Quarot	4/8	58.80	56.86	25.33	55.56
ViDiT-Q	4/8	57.01	59.74	24.77	48.61
DVD-Quant	4/6	62.27	64.22	25.83	58.33
MinMax	4/4	24.20	24.78	4.27	0.00
SmoothQuant	4/4	48.41	59.46	21.09	1.39
Quarot	4/4	44.85	54.30	17.33	87.5
ViDiT-Q	4/4	45.36	40.10	19.66	0.00
DVD-Quant	4/4	61.96	61.82	25.68	56.94

W4A6 几乎追平 FP16 并全面超越所有 W4A8 baseline；W4A4 下其他方法集体崩溃（动态度归零或画质腰斩），DVD-Quant 仍保持稳定，是首个 W4A4 不掉画质的 Video DiT PTQ。

消融实验表格（BGR / ARQ）¶

BGR	ARQ	W/A	Aesthetic	Imaging	Subject Consist.
✓		W4A6	58.15	58.68	98.04
	✓	W4A6	57.85	57.72	98.23
✓	✓	W4A6	60.46	61.93	98.91
✓		W4A4	53.95	52.67	97.92
	✓	W4A4	43.26	58.31	95.36
✓	✓	W4A4	59.57	58.93	98.67

BGR、ARQ 缺一不可，二者协同才达最优；尤其 W4A4 下去掉任一模块都明显掉分。δ-GBS 对比 STP/ITP/ABS/SBA 四种固定模式混合精度策略，Imaging Quality（61.93）均居首。

关键发现¶

加速与显存：HunyuanVideo 上显存优化 3.68×；延迟 W4A8 加速 1.75×、W4A6 1.93×、W4A4 2.12×（约 2×）。
叠加 TeaCache 缓存技术后端到端加速进一步到 W4A8 4.01×、W4A4 4.85×，画质几乎不降。
δ 是平滑旋钮：\(\delta\) 从 0.06→0.18，平均位宽随之下降、Imaging Quality 从 62.11 平滑滑到 61.00，连续可调而非突变。

亮点与洞察¶

彻底数据无关是最大卖点：BGR 纯权重闭式细化、ARQ 在线算缩放、δ-GBS 实时监控特征，全程不碰任何标定集，直接破解了 DiT 激活时变 vs 标定快照的根本矛盾。
三模块各打一个观察，逻辑闭环干净：高斯权重→网格细化、时变激活→在线旋转缩放、不均特征→自适应位宽，没有冗余设计。
ARQ 把"旋转打散离群 + 在线缩放修旋转副作用"组合起来，且落到 Tensor Core 的 block-wise 粒度，是真能跑出加速的工程化方案而非纸面理论。
δ-GBS 用累计 L1 误差做触发器，天然随 prompt 内容自适应，且在 W4A8↔W4A4 之间提供连续插值，避免离散切换抖动——这是相比静态划分的实质优势。

局限与展望¶

主表只在 HunyuanVideo 上做，Wan2.1 结果挪到附录，跨更多视频 DiT（CogVideoX、Open-Sora 等）和文生图 DiT 的普适性还需更系统验证。
VBench 指标 vs 人眼：动态度等指标偶有反常（如 Quarot W4A4 动态度 87.5 却整体崩坏），单看自动指标可能误导，缺少大规模人评。
δ 阈值需手调，虽是单旋钮但不同模型/prompt 的最优 δ 仍要经验设定，离全自动还有距离。
ARQ 的 Hadamard 旋转和在线缩放虽"开销极小"，但在线缩放因子每步重算对极长视频/极多步数场景的累积开销值得进一步量化。

评分¶

新颖性: ⭐⭐⭐⭐ — 三模块组合新颖，首次实现 Video DiT 的 W4A4 无损 PTQ，"完全数据无关"是清晰的差异化卖点；单看每个技术（旋转、缩放、混合精度）有前作影子。
实验充分度: ⭐⭐⭐⭐ — VBench 八维度对比 + 充分消融 + 延迟/显存/TeaCache 叠加 + δ 敏感性扫描；但主表集中在单一模型、缺人评略减分。
写作质量: ⭐⭐⭐⭐ — 三观察→三设计的结构清晰，公式与算法完整，图表（误差对比、可视化）有力。
价值: ⭐⭐⭐⭐⭐ — 视频生成部署成本是真痛点，2× 加速 + W4A4 不掉画质 + 免标定即插即用，工程落地价值高，承诺开源。