Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity¶

会议: ACL 2026
arXiv: 2604.07402
代码: 无
领域: 视频生成
关键词: 自回归视频生成, 训练加速, 局部优化, 表示连续性, Lipschitz连续

一句话总结¶

提出 Local Optimization + Representation Continuity (ReCo) 训练策略，通过在局部窗口内优化并约束隐状态的平滑过渡，实现自回归视频生成模型训练速度提升 2 倍且不牺牲生成质量。

研究背景与动机¶

领域现状：自回归模型在图像生成中已展现出优于扩散模型的推理速度和性能，但在视频生成中由于视频token序列远长于图像序列，训练成本极高（需要在完整视频帧序列上进行全序列自回归建模）。

现有痛点：直觉上可以通过减少训练帧数来加速训练（Fewer-Frames方法），即只在短序列上训练然后推理时迭代生成。但实验发现这会导致严重的误差累积和时序不一致——因为推理时每个block只基于上一个（可能有误差的）block生成，缺乏全局上下文信息，误差呈指数级放大。

核心矛盾：训练效率与生成一致性之间存在trade-off。减少训练帧数能降低计算量，但会破坏视频帧间的时序连贯性，导致FVD大幅恶化（如FFS从73.65增至229.32）。

本文目标：在保持baseline水平的视频质量和时序一致性的前提下，将训练成本减半。

切入角度：作者从两个层面切入——(1) 训练策略层面：用局部窗口优化代替全序列优化，窗口外的上下文作为冻结条件输入；(2) 表示空间层面：从Lipschitz连续性出发，约束相邻时间步的隐状态变化幅度，抑制误差传播。

核心 idea：在随机采样的局部窗口内优化自回归损失（Local Opt.），同时用表示连续性损失（ReCo）约束隐状态平滑过渡，从而在训练阶段大幅减少计算量，同时在推理阶段保持全序列生成的一致性。

方法详解¶

整体框架¶

输入视频先经VQ-VAE（OmniTokenizer）编码为离散token序列，然后用自回归Transformer建模。训练时不在完整序列上计算损失，而是随机采样一个局部窗口进行优化，窗口外的前文token作为冻结上下文（stop-gradient）。同时对窗口内的隐状态施加连续性约束。推理时仍采用标准的全序列自回归生成。

关键设计¶

Local Optimization (局部优化):
- 功能：在随机采样的局部窗口内计算自回归损失，大幅减少每步训练的计算量
- 核心思路：给定完整token序列 \(\mathbf{E}\)，随机采样起始位置 \(s\) 和窗口长度 \(W\)，只在窗口 \(\mathbf{E}_\mathcal{W} = (\mathbf{e}_s, ..., \mathbf{e}_{s+W-1})\) 内计算交叉熵损失。窗口前的token \(\mathbf{E}_{<s}\) 作为冻结上下文（不回传梯度）。使用步长 \(S < W\) 创建重叠窗口，使token在不同上下文下被多次优化
- 设计动机：解决Fewer-Frames方法的两个核心问题——(1) 始终基于ground-truth上下文条件化，避免exposure bias；(2) 重叠窗口迫使模型学习更鲁棒的表示。推理时仍用标准全序列生成，不影响推理速度
First-Frame Balanced Sampling (首帧均衡采样):
- 功能：通过增加包含首帧的窗口采样比例，解决训练-生成分布不匹配问题
- 核心思路：分析发现Local Opt.模型在生成样本上的损失分布与训练样本存在显著差异，尤其首帧损失偏高。将包含首帧的窗口采样概率提升到0.5，使模型更多地优化视频开头部分
- 设计动机：首帧质量直接影响后续所有帧的生成。实验表明均衡采样后FVD从190.46降至127.11，同时训练速度进一步提升至2.0倍
Representation Continuity (ReCo, 表示连续性):
- 功能：约束相邻时间步的隐状态变化幅度，增强时序平滑性
- 核心思路：将自回归模型视为离散时间动力系统，受Lipschitz连续性启发，在窗口内对相邻隐状态施加连续性损失 \(\mathcal{L}_{ReCo} = \frac{1}{W-1}\sum_{i=s}^{s+W-2}\|\mathbf{h}_{i+1} - \mathbf{h}_i\|_2^2\)。总损失为 \(\mathcal{L}_{Total} = \mathcal{L}_{CE} + \lambda \cdot \mathcal{L}_{ReCo}\)
- 设计动机：Local Opt.聚焦独立窗口可能产生表示空间中的突变。通过约束小的局部Lipschitz常数，误差传播被限制在 \(\|\epsilon_{t+1}\| \leq L \cdot \|\epsilon_t\| + \delta_t\) 的线性增长范围内，而非指数放大

损失函数 / 训练策略¶

总损失由两部分组成：(1) 窗口内标准交叉熵损失 \(\mathcal{L}_{CE}\)；(2) 表示连续性正则项 \(\mathcal{L}_{ReCo}\)，权重 \(\lambda=0.1\)。首帧窗口采样概率设为0.5。训练300个epoch，学习率 \(1\times10^{-4}\)。

实验关键数据¶

主实验¶

数据集	指标	ReCo★	Baseline★	提升
FFS	FVD↓	42.5	46.1	-7.8%
SKY	FVD↓	58.8	62.7	-6.2%
UCF101	FVD↓	251.4	254.5	-1.2%
Taichi	FVD↓	98.3	105.5	-6.8%

训练速度：ReCo 约为 Baseline 的 2 倍。

消融实验¶

配置	FFS FVD↓	SKY FVD↓	训练速度
Baseline	73.65	89.09	1.0×
Fewer-Frames	229.32	292.41	2.5×
Local-Opt.	190.46	256.94	1.7×
Local-Opt. (w/ first frame)	134.73	186.63	1.7×
Local-Opt. (w/ balanced)	127.11	179.84	2.0×
ReCo (完整方法)	72.6	87.5	2.0×

关键发现¶

Fewer-Frames方法虽然训练快2.5倍但FVD恶化3倍以上，证实了误差累积理论分析的正确性
Local Opt.的首帧均衡采样策略贡献巨大，FVD从190降至127
ReCo进一步将FVD从127降至72.6，与Baseline（73.7）持平甚至更优，验证了Lipschitz正则化的有效性
在MSR-VTT文本到视频任务上，ReCo*以50%训练成本达到了与7B baseline相当的CLIP Score和FVD

亮点与洞察¶

动力系统视角的创新：将自回归模型视为离散动力系统，用Lipschitz连续性理论指导正则化设计，这一视角为理解和改进自回归生成提供了新工具
训练-推理解耦设计：Local Opt.只改变训练流程（局部窗口优化），推理时仍保持标准全序列生成，这种"训练trick不影响推理"的设计哲学值得借鉴
损失分布分析驱动的改进：通过对比训练/生成样本的loss分布发现首帧瓶颈，进而设计均衡采样策略，这种数据驱动的改进思路可迁移到其他序列生成任务

局限与展望¶

实验主要在小规模模型（110M-770M）和短视频（17帧）上验证，未在商用大模型上测试
ReCo的 \(\lambda\) 超参可能需要针对不同数据集和分辨率调优
文本到视频实验只在MSR-VTT上做了零样本评估，缺少更多text-to-video benchmark的验证
未探索ReCo与其他加速技术（如KV-cache压缩、量化）的组合效果

评分¶

新颖性: ⭐⭐⭐⭐ 动力系统视角+Lipschitz正则化在自回归视频生成中的应用较新颖，但核心思想（局部优化+平滑约束）在NLP序列建模中有先例
实验充分度: ⭐⭐⭐⭐ 4个数据集+2种模型规模+文本到视频扩展实验+详细消融，但缺少大规模验证
写作质量: ⭐⭐⭐⭐⭐ 从问题分析→理论证明→方法设计→实验验证的逻辑链非常清晰，图表设计直观有效