Anchoring and Rescaling Attention for Semantically Coherent Inbetweening¶

会议: CVPR 2026
arXiv: 2603.17651
代码: 待确认
领域: 图像生成
关键词: 生成式帧插值, 注意力锚定, 时序RoPE缩放, 关键帧引导, 视频扩散模型

一句话总结¶

提出 KAB（Keyframe-Anchored Attention Bias）和 ReTRo（Rescaled Temporal RoPE）两个无需训练的推理时方法，基于 Wan2.1 视频扩散模型解决稀疏关键帧下大运动生成式帧插值（GI）中的语义不忠、帧不一致和节奏不稳问题，并构建首个文本条件 GI 评估基准 TGI-Bench。

研究背景与动机¶

生成式帧插值（Generative Inbetweening, GI）是指给定首尾两个关键帧，生成中间过渡帧序列。与传统光流插帧不同，GI 需要"想象"中间过程，在大运动、长时序场景下面临三大核心挑战：

语义不忠（Semantic Infidelity）：中间帧出现与关键帧不一致的物体或场景元素

帧间不一致（Frame Inconsistency）：相邻帧之间出现闪烁、突变

节奏不稳（Temporal Rhythm Instability）：运动速度不均匀，时序分布不自然

现有方法大多基于 Image-to-Video（I2V）模型改造，典型如 TRF 和 SEINE。但当关键帧间距增大（如 65、81 帧），这些方法的质量急剧下降。根本原因在于：

Cross-attention 机制对两端关键帧的关注度在长序列中稀释
Temporal attention 的位置编码未考虑首尾帧的锚定需求
缺乏统一的评估基准来衡量文本条件 GI 的质量

本文的出发点是：不修改模型权重，仅通过推理时的注意力操控来解决上述问题。

方法详解¶

整体框架¶

这篇论文要解决的是稀疏关键帧、大运动下的生成式帧插值——只给首尾两帧，让模型"脑补"出中间几十帧的过渡，而当首尾间隔拉到 65、81 帧时，现有 I2V 改造方法会语义跑偏、帧间闪烁、节奏忽快忽慢。作者整条思路是：不碰 Wan2.1（一个 DiT 架构的首尾帧到视频模型）的任何权重，只在去噪的每一步往注意力里"插一只手"。介入分两路互补：KAB 改写 cross-attention 的 logit 分布，把首尾关键帧的语义锚点按时间比例注入每个中间帧；ReTRo 改写 temporal self-attention 里 RoPE 的缩放系数，让靠近端点的帧和居中的帧用不同的位置编码尺度。两路都在前向推理时完成，不需要任何额外训练或反向传播。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["首尾关键帧 + 文本 prompt"] --> B["Wan2.1 去噪每一步<br/>DiT 架构, 权重冻结"]
    B -->|cross-attention| C["KAB<br/>首尾锚点按时间比例插值 → logit 偏置"]
    B -->|temporal self-attention| D["ReTRo<br/>两端紧 / 中间松 的 U 形 RoPE 缩放"]
    C --> E["Triple Isolated Cross-Attention<br/>首 / 尾 / 文本三路分算再融合"]
    E --> F["中间过渡帧序列<br/>语义忠实 + 帧间一致 + 节奏稳"]
    D --> F

关键设计¶

1. KAB（Keyframe-Anchored Attention Bias）：把关键帧的语义"锚"按时间比例插值进中间帧

它针对的是长序列里 cross-attention 对两端关键帧的关注被稀释、中间帧容易冒出与首尾不符的物体。做法是先在 cross-attention 层取出首帧 \(I_{\text{first}}\) 和尾帧 \(I_{\text{last}}\) 各自的注意力分布 \(A_{\text{first}}\)、\(A_{\text{last}}\)，把它们当作两个语义锚点；对第 \(t\) 帧，按时间位置把两个锚点线性插值出一个期望分布

\[\bar{A}(t) = \frac{T - t}{T}\, A_{\text{first}} + \frac{t}{T}\, A_{\text{last}}\]

再把它和目标 mask \(M(t)\) 之间的差转成一个加在 softmax 之前的 logit 偏置

\[B(t) = \log\big(M(t) + \varepsilon\big) - \log\big(\bar{A}(t) + \varepsilon\big)\]

其中 \(\varepsilon\) 防止取对数时溢出。因为这个 bias 只加在 logit 上、不动任何权重，它就能把中间帧的注意力"硬掰"到该聚焦的语义区域：比如序列推进到一半（\(t=T/2\)）时，\(\bar{A}\) 恰好是首尾锚点各占一半，中间帧的注意力被拉成首尾语义的平均，自然过渡而不偏向某一端。这条思路和 Classifier-Free Guidance 同源——都是用一个加性偏置去引导生成方向——区别是 CFG 作用在类别维度，KAB 作用在 attention map 的空间维度。

配套的 Triple Isolated Cross-Attention 解决的是另一种干扰：首帧、尾帧、文本 prompt 三种条件若挤在同一路 cross-attention 里算，信息会互相串味、中间帧偏向某一端。KAB 把三者拆成各算各的三路 cross-attention，再加权融合，从而对称地对待首尾两端。

2. ReTRo（Rescaled Temporal RoPE）：用"两端紧、中间松"的非均匀位置编码缩放，平衡保真与流畅

temporal self-attention 里的 RoPE 决定了帧与帧之间注意力随距离衰减的快慢，原版对所有帧一视同仁，结果要么保不住关键帧细节、要么中间帧连不起来。ReTRo 按帧的位置给 RoPE 不同的缩放系数：靠近首/尾的边缘帧用 \(s_{\text{edge}} > 1\)，放大位置编码频率、锐化局部注意力，让这些帧"更像"紧挨着的关键帧，把细节保住；居中的帧用 \(s_{\text{mid}} < 1\)，缩小频率、扩展感受野，让它们"看得更远"以维持帧间连贯。在时间轴上这个缩放系数形成一条"U 形"曲线——两端高、中间低，等于把保真度的需求压在端点、把流畅性的需求让给中段。消融里均匀缩放（\(s=1\)）直接退回 baseline，恰好说明起作用的就是这种非均匀分布。

损失函数 / 训练策略¶

整套方法 training-free：KAB 只往 cross-attention 的 logit 上加 bias，ReTRo 只改 RoPE 的缩放系数，两者都不引入新参数、不需要反向传播。额外开销仅来自关键帧 anchor 的提取与 bias 计算，相对整段去噪的推理时间可忽略。

实验关键数据¶

TGI-Bench（新基准）¶

首个文本条件生成式帧插值评估基准：

维度	规模
视频数量	220
序列长度	25 / 33 / 65 / 81 帧
挑战类别	4 类（大运动/遮挡/外观变化/场景切换）
评估指标	PSNR, SSIM, FVD, VBench

主实验¶

长序列（65/81 帧）性能对比：

方法	训练需求	PSNR↑	SSIM↑	FVD↓	VBench↑
TRF	需要	中	中	中	中
SEINE	需要	中	中	中	中
Wan2.1 (baseline)	-	中	中	中	中
KAB + ReTRo	不需要	最优	最优	最优	最优

关键观察：在短序列（25 帧）上各方法差距不大，但随着序列增长到 65/81 帧，KAB+ReTRo 的优势显著放大。

消融实验¶

配置	PSNR	SSIM	说明
Baseline (Wan2.1)	基线	基线	无干预
+ KAB only	↑	↑	语义一致性提升
+ ReTRo only	↑	↑	时序稳定性提升
+ KAB + ReTRo	↑↑	↑↑	两者互补，最优
KAB w/o Triple Isolation	↓	↓	首尾帧干扰导致退化
ReTRo 均匀缩放 (s=1)	→ 基线	→ 基线	等于不做缩放
\(s_{\text{edge}}\) 过大	↓	↑	过度锐化，失去流畅性
\(s_{\text{mid}}\) 过小	↓	↓	感受野过大，细节模糊

关键发现¶

KAB 和 ReTRo 解决不同问题：KAB 主攻语义忠实度，ReTRo 主攻时序一致性，组合效果最佳
长序列优势明显：序列越长（65/81帧），方法增益越大，说明针对的确实是长程依赖问题
Triple Isolation 不可或缺：不隔离首尾帧 attention 会导致信息串扰，中间帧偏向一端
ReTRo 的 U 形分布至关重要：均匀缩放无效，必须边缘紧中间松

亮点与洞察¶

Training-free 的设计极具实用性：无需收集配对数据、无需微调，即插即用
KAB 的 logit bias 思路与 Classifier-Free Guidance 异曲同工，但在空间维度（attention map）而非类别维度操作
ReTRo 对 RoPE 缩放的非均匀设计思路新颖，可推广到其他需要差异化时序建模的任务
Triple Isolated Cross-Attention 的对称设计体现了对首尾帧公平性的细致考量
TGI-Bench 填补了文本条件 GI 评估的空白，4 类挑战场景×4 种长度的设计科学全面
方法的可解释性强：每个组件的物理含义清晰，消融实验验证了各部分的独立贡献

局限与展望¶

依赖 Wan2.1 架构：KAB 和 ReTRo 的设计与 DiT + RoPE 紧密耦合，迁移到 U-Net 架构需适配
线性插值假设：target anchor 的线性插值假设运动均匀，对非线性运动（加速/减速）可能不理想
超参数敏感性：\(s_{\text{edge}}\) 和 \(s_{\text{mid}}\) 需要手动调整，缺乏自适应选择机制
计算成本未详细分析：虽然声称开销可忽略，但未给出具体的推理时间对比数据
仅限帧插值：方法针对首尾帧已知的场景，无法直接扩展到单帧外推或无条件生成
评估指标局限：PSNR/SSIM 侧重像素级，对感知质量的评估有限；VBench 覆盖面更广但不够细粒度

评分¶

新颖性: ⭐⭐⭐⭐⭐ KAB + ReTRo 组合新颖，training-free 设计思路独特
实验充分度: ⭐⭐⭐⭐⭐ TGI-Bench 新基准 + 4种长度×4类挑战的全面评测
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，图表丰富
价值: ⭐⭐⭐⭐⭐ 无需训练即插即用，视频生成社区直接受益