UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fLLCmC53u9
项目页: https://thu-ml.github.io/UltraViCo.github.io/
代码: 见项目页
领域: 视频生成 / 扩散模型
关键词: 视频长度外推, 注意力分散, RoPE, training-free, 扩散 Transformer

一句话总结¶

本文发现视频扩散 Transformer 在超出训练长度生成时出现的"周期性重复"和"通用质量退化"两种失败都源于同一个机制——注意力分散（超窗口的新 token 稀释了训练窗口内学到的注意力分布），并据此提出 training-free、即插即用的 UltraViCo：对窗口外 token 的注意力 logits 乘一个常数衰减因子，把外推极限从 2× 推到 4×（4× 下动态度和成像质量分别比前最优高 233% 和 40.5%）。

研究背景与动机¶

领域现状：以 DiT 为骨干的文生视频模型（Wan、HunyuanVideo、CogVideoX 等）已能合成高保真视频，但它们都在一个固定的最大序列长度上训练（如 5 秒），一旦要求模型一次前向生成超过训练时长的视频——即"视频长度外推"（video length extrapolation）——就会明显崩坏。这里强调的是模型内在的单次前向生成长视频的能力，与 FreeNoise / FIFO-Diffusion 等推理时滑窗拼接的方案正交。

现有痛点：外推时存在两种失败模式。其一是周期性内容重复：某些模型（HunyuanVideo、CogVideoX）会把一小段画面无限循环；其二是通用的质量退化：空间细节变糊、时间动态僵死（画面"冻住"），这在所有模型上都出现。两者都随外推倍率增大而加剧。

核心矛盾：以往工作（如 RIFLEx）只从位置编码（RoPE）的周期性去解释和修复重复，却忽略了质量退化，因此外推能力有限（普遍卡在 2×~3× 就崩）。作者认为位置编码只是间接因素——它通过扰动 query/key 来影响注意力；真正直接决定"上下文如何被聚合到输出"的是注意力图本身。把视角从位置编码挪到注意力图，才有可能同时解释两种失败。

本文目标：回答三个问题——为什么周期重复只在特定模型出现？质量退化的根因是什么？这两个看似独立的失败背后是否有统一原因？

切入角度：直接分析外推时的注意力图 \(P\in\mathbb{R}^{L'\times L'}\)。作者发现：当一个修复"重复"的干预手段被施加后，视频质量也意外变好了——这条线索把两种失败串到了一起。

核心 idea：两种失败统一于"注意力分散"；只要把超出训练窗口的 token 的注意力压低、让注意力重新聚焦回训练窗口，就能同时治好重复和退化，而且无需训练。

方法详解¶

整体框架¶

UltraViCo 的逻辑是一条"先诊断、再开药"的链路：先通过注意力图分析定位周期重复的成因（RoPE 谐波 → 周期注意力 → 周期输出），再发现修复重复的干预同时改善质量，从而把质量退化也归因到注意力分散这一统一机制；最后给出一个对窗口外 token 注意力 logits 乘衰减因子的简单修正，并配一个内存高效 CUDA 实现，使其能在长序列大模型上落地。输入是一个已训练好的视频 DiT（训练长度 \(L\)）和目标外推长度 \(L'=sL\)，输出是质量与动态都不崩的长视频，全程不改权重、不微调。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练视频 DiT<br/>训练长度 L、目标外推 L'=sL"] --> B["注意力分散<br/>超窗口 token 稀释训练窗口内注意力"]
    B -->|"RoPE 谐波对齐<br/>(特定模型)"| C["周期注意力<br/>谐波位置 mT 累积振幅"]
    B --> D["常数衰减因子 α<br/>压低窗口外正 logits、聚焦回中心窗口"]
    C -->|"周期位置额外更强抑制"| E["谐波位置定向衰减 β<br/>破坏周期、保时序一致"]
    D --> F["内存高效 CUDA 核<br/>融入 FlashAttention/SageAttention"]
    E --> F
    F --> G["高质量长视频<br/>外推极限 2× → 4×"]

关键设计¶

1. 注意力分散：把两种失败统一到一个根因

这是全文的诊断基石，针对的是"重复"和"质量退化"长期被当成两个独立问题、各打各的局面。作者先拆解重复：在 4× 外推的注意力图 \(P\) 上，HunyuanVideo 表现出两条性质——行向周期性 \(P_{i,j}\approx P_{i,j+T}\)（\(T\) 是观测到的重复周期）和 RoPE 带来的相对位置不变性 \(P_{i,j}\approx P_{i+p,j+p}\)；两者叠加可推出整行也周期重复 \(P_{i+T,j}\approx P_{i,j}\)，于是 \(O_{i+T}=\sum_j P_{i+T,j}V_j\approx\sum_j P_{i,j}V_j=O_i\)，输出在像素空间表现为内容循环。

关键转折在于：作者屏蔽掉谐波对齐位置 \(mT\) 的 token 来打断周期，结果不仅重复消失，画质也同步变好。对比注意力图发现，这个干预把原本弥散的注意力重新集中回中心训练窗口——因为屏蔽谐波峰后 softmax 重归一化会按比例抬高剩余分数、锐化分布。由此得到统一假设：外推时新增的窗口外 token 稀释了训练窗口内学到的注意力（即注意力分散），空间上让模型被迫去看遥远帧而无法聚焦细节（变糊），时间上把局部运动和无关运动混在一起（变静）。一个受控实验进一步证实：逐步屏蔽窗口外注意力分数、强迫注意力中心化，成像质量和动态度单调上升。至此"周期重复 = 注意力分散被组织成周期形态的特例"，根因收敛为一个。

2. 谐波 RoPE 频率：解释"为什么只有某些模型会重复"

针对的是第一个反常现象——重复只在 HunyuanVideo / CogVideoX 出现，Wan 不会。作者构造一个跨层、跨头、跨 query 位置取期望的统计行注意力 \(\bar S(\Delta t)\)（\(\Delta t\) 为同空间位置、相隔的潜在帧数），它可被分解为 RoPE 频率的三角函数线性组合：

\[\bar S(\Delta t)=\sum_{i=0}^{d/2-1} a_i\cos(\phi_i\Delta t+b_i)+C\]

其中 \(\{\phi_i\}\) 是 RoPE 频率，\(a_i,b_i,C\) 由 query/key 统计决定（\(b_i\) 通常近 0）。命题 1 给出周期性判据：当且仅当所有 \(\phi_i/\phi_{N-1}\in\mathbb{N}^+\)（构成一组谐波）时，\(\bar S\) 才是周期为 \(T_{N-1}=2\pi/\phi_{N-1}\) 的周期函数，且在谐波对齐位置 \(\Delta t=mT_{N-1}\) 处各频率振幅相干叠加、取到最大值。HunyuanVideo 恰好满足谐波条件，最大振幅频率 \(\phi_3\) 及其谐波在对齐位置累积，单一主成分贡献了总振幅的 79.6%，于是注意力强周期化；Wan 的频率非谐波对齐、频谱弥散（最大频率仅占 31.6%），因而无明显周期。这把"模型相关的重复"精确归因到 RoPE 频率是否谐波对齐。

3. 常数衰减因子 α + 谐波位置定向衰减 β：一招同治两病

这是真正的"药"，针对注意力分散。UltraViCo 给注意力 logits \(S_{ij}\) 乘一个位置相关衰减 \(\lambda_{ij}\) 得到修正 \(S'_{ij}=\lambda_{ij}\cdot S_{ij}\)：

\[\lambda_{ij}=\begin{cases}1,& |i-j|\le L/2 \ \text{或}\ S_{ij}<0\\ \alpha,& \text{否则}\end{cases}\]

窗口内（\(|i-j|\le L/2\)）保持 1，不动模型学到的核心动态；窗口外只压正 logits（\(\alpha<1\)），因为负 logits 乘 \(\alpha<1\) 反而会把它抬高、起反效果。作者试过线性、抛物线等衰减形状，发现常数形式就够了——关键在于区分窗口内/外，而非衰减曲线的形状。

但对会周期重复的模型，谐波对齐位置 \(mT\) 吸引了不成比例的高注意力，若对所有窗口外 token 一视同仁地用小 \(\alpha\)，会过度压制有用上下文、伤害时序一致性。于是对这些"危险位置"施加更强的衰减 \(\beta<\alpha\)：

\[\lambda_{ij}=\begin{cases}1,& |i-j|\le L/2\ \text{或}\ S_{ij}<0\\ \beta,& (i,j)\in P_{\text{risk}}\\ \alpha,& \text{否则}\end{cases}\]

其中 \(P_{\text{risk}}=\{(i,j)\mid mT-\gamma\le i-j\le mT+\gamma,\ m\in\mathbb{Z}\}\) 是谐波对齐位置 \(\pm\gamma\) 帧的邻域。这样既把注意力拉回可靠的窗口内上下文（治退化），又精准消掉虚假周期模式（治重复），两种失败一并解决。实现上取 \(\alpha=0.9\)；HunyuanVideo 取 \(\gamma=4\)、\(\beta\) 在 3× 时 0.6、4× 时 0.8。

4. 内存高效 CUDA 核：让方法在长序列上真能跑

UltraViCo 需要改注意力 logits，但标准 PyTorch 注意力在长序列下不可行：3× 外推下 HunyuanVideo 约 200K token，显式构造 \(200\text{K}\times200\text{K}\) 的 bf16 注意力掩码要 >80GB 显存，直接 OOM。作者把衰减逻辑融入基于 Triton 的 FlashAttention 和 SageAttention——它们的 online-softmax 形式天然避免显式掩码矩阵，从而得到可扩展、省显存的实现，让 UltraViCo 能用在大视频模型上。这一步虽是工程性的，但没有它整个方法无法落地。

实验关键数据¶

主实验¶

在 HunyuanVideo、Wan2.1-1.3B、CogVideoX-5B 上，用 VBench 采样 100 个 prompt，指标为成像质量（Qual.）、动态度（Dyn.）、整体一致性（Over.）、Consistency（Consist.）、NoRepeat 分数（NoRe.，越高越不重复）及用户排名（User，越低越好）。下表为 HunyuanVideo 在 3× / 4× 外推下的对比（节选）：

设置	方法	NoRe.↑	Dyn.↑	Qual.↑	Over.↑	User↓
训练长度参考	Normal.	–	71	69.31	26.81	–
3×	RIFLEx	73.97	17	50.57	21.22	4.67
3×	Ours	100.0	62	65.00	26.45	1.02
4×	RIFLEx	52.84	11	41.02	16.47	4.69
4×	Ours	99.87	42	66.54	24.52	1.02

在 Wan2.1-1.3B（无重复，故省 NoRepeat）上，4× 外推时各 baseline 普遍坍缩为静态视频（Dynamic Degree ≤ 12），UltraViCo 恢复到 47；3× 时同样从 baseline 的个位数动态度恢复到 46。作者据此宣称把实用外推极限从 2× 推到 4×，并在 4× 上比前最优方法把 Dynamic Degree、Imaging Quality 分别提升 233% 和 40.5%。

消融实验¶

配置	关键发现	说明
衰减形状（常数 / 线性 / 抛物线）	差异很小	说明关键是"区分窗口内外"，而非曲线形状，常数足矣
衰减强度 α	\(\alpha=0.9\) 最佳	\(\alpha\) 过小伤一致性（如车的备胎消失），\(\alpha\) 过大收益有限
α / β 敏感性	\(\alpha\ge0.9\)、\(\beta\ge0.6\) 稳定	此区间内质量/动态提升而一致性接近 baseline；低于阈值一致性骤降
屏蔽比例（中心聚焦程度）	单调正相关	屏蔽窗口外越多、注意力越集中，质量与动态单调变好（验证分散即根因）

关键发现¶

把"修重复"的干预（屏蔽谐波位置）施加后，画质同步变好——这是发现"注意力分散是统一根因"的关键反常线索。
衰减曲线形状几乎不重要，重要的是有没有区分训练窗口内/外，说明方法的有效性来自"注意力是否聚焦回窗口"这一核心机制，而非精细调参。
UltraViCo 与滑窗、FreeNoise、FIFO-Diffusion 等长视频方法正交：把它叠加上去（6× 外推生成 30 秒视频、相当于扩 3× 训练窗口）能稳定提升长程时序一致性而不损其他指标。
可零成本迁移到下游：基于 VACE，在可控生成和视频编辑上同样实现 3× 外推。

亮点与洞察¶

统一视角是最大亮点：把"周期重复"和"质量退化"两个原本各自为战的问题归结为同一个"注意力分散"，且证明前者只是后者被 RoPE 谐波组织成周期形态的特例——一个根因解释两类现象，干净且有说服力。
从位置编码视角切换到注意力视角：作者论证 RoPE 只是间接因素、注意力图才是直接决定输出聚合的量，这个视角转换是方法能同时治两病的前提，也是相比 RIFLEx 的根本差异。
极简且 training-free：核心修正就是给窗口外正 logits 乘个常数 \(\alpha\)，无需训练、即插即用，却把外推极限翻倍，性价比极高。
谐波 RoPE 频率分析可迁移：用统计行注意力 \(\bar S(\Delta t)\) 的三角分解 + 谐波判据来判断"某模型会不会周期重复"，这套频域分析工具可借鉴到其他基于 RoPE 的长序列外推诊断。

局限与展望¶

衰减阈值用的是硬截断（\(|i-j|\le L/2\) 为窗口内），窗口边界处的 token 取舍偏机械，对窗口外略有用的远程上下文是"一刀切"压制，可能在需要长程依赖的内容上偏保守。
谐波位置定向衰减需要知道周期 \(T\) 与 \(\gamma,\beta\) 等额外超参，且要先判断模型是否谐波对齐；对未知模型需要先做频域分析，自动化程度有限。
实验主要在 3×~4×（叠加长视频方法时到 6×）验证，更激进的外推（如 10×+）是否仍只靠常数衰减就稳，文中未充分探讨。
评测以 VBench 子集 + 10 人用户研究为主，规模偏小；动态度等指标的大幅相对提升建立在 baseline 几乎静态的低基数上，需结合可视化理解。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把两类外推失败统一到"注意力分散"并给出谐波频域解释，视角新且根因扎实
实验充分度: ⭐⭐⭐⭐ 覆盖三模型、多外推倍率、与下游任务/长视频方法的正交叠加，但评测集与用户研究规模偏小
写作质量: ⭐⭐⭐⭐⭐ 诊断—假设—验证—方法的逻辑链清晰，注意力分析与公式推导到位
价值: ⭐⭐⭐⭐⭐ training-free、即插即用、把实用外推极限翻倍，并能迁移到可控生成/编辑，落地价值高