TGT: Text-Grounded Trajectories for Locally Controlled Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成
关键词: 可控视频生成, 轨迹控制, 局部文本, 交叉注意力, 文生视频

一句话总结¶

TGT 给文生视频里的每条点轨迹绑定一段局部文本，用一个即插即用的「位置感知交叉注意力（LACA）」把"哪个物体、长什么样、怎么动"对齐到轨迹邻域，再配双 CFG 分别调控全局/局部引导，在保持基础模型画质的前提下把轨迹误差（EPE）相比最强基线几乎砍半。

研究背景与动机¶

领域现状：文生视频（T2V）的画质和文本贴合度近年大幅提升，但纯文本 prompt 是个"钝器"——它很难精确指定"什么物体出现在哪、以多快速度、沿什么路径运动"。为加入细粒度控制，已有两条路线：一是结构化控制（bounding box / blob / 边缘图），几何对齐准但信号刚性、要逐帧密集标注，对长序列几乎不可手工编辑；二是点轨迹控制，用户给几个随时间演化的稀疏 2D 点，轻量直观。

现有痛点：点轨迹在图生视频（I2V）里很好用，因为源图像已经把物体的身份和外观锁死了；但搬到 T2V 就出问题——每条轨迹该对应"哪个实体"事先并不确定，模型只能从全局 caption 里去猜。多物体场景下这就导致接地模糊、身份串味（identity swap）、运动跑偏：你画了一条想让"猫"走的轨迹，模型可能让"狗"沿着它走。

核心矛盾：随着可控物体数量增加，单条轨迹 ↔ 单个视觉实体之间缺乏明确对应。结构化方法靠重监督勉强维持对应但太贵，点轨迹方法轻量却在 T2V 里让对应"欠定"。两者各执一端。

本文目标：在保留点轨迹"轻量、可拖拽"优势的同时，把每条轨迹的实体身份和外观也固定下来，做到运动与外观的解耦可控，且不破坏预训练大模型的画质与时序连贯。

切入角度：既然 T2V 里轨迹的"实体归属"丢失了，那就直接给每条轨迹配一段局部文本描述（"红色：一只猫"），把语义重新接回轨迹。这个"轨迹+局部文本"的配对监督此前不存在，所以还得自己造数据。

核心 idea：用"文本接地的轨迹（Text-Grounded Trajectories）"——每条点轨迹配一段局部文本，通过位置感知的交叉注意力让轨迹邻域的视觉 token 只关注它自己的局部文本，其余 token 关注全局 prompt，再用双 CFG 分别调控两路引导强度。

方法详解¶

整体框架¶

TGT 建在预训练的 DiT 文生视频骨干（Wan2.1 14B）之上，整体由三块拼成：一条离线数据管线负责从原始视频里造出"轨迹 ↔ 局部文本"的配对监督；一个插件式 LACA 分支在每个 DiT block 里把局部文本按位置注入到轨迹邻域的视觉 token；一套双 CFG + λ 平衡的推理策略让全局语义和局部控制各有一个旋钮。训练时只微调 LACA 分支、冻结骨干其余全部参数，因此能无损地嫁接到现成大模型上。

输入是若干条点轨迹（每点带 2D 坐标和可见性标志）+ 每条轨迹的局部文本 + 一个全局 prompt；输出是一段既贴合全局描述、又让各实体沿各自轨迹运动的视频。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始视频"] --> B["配对数据管线<br/>Grounded SAM 分割→采点<br/>蒸馏 VLM 标局部文本<br/>TAP 传播成轨迹"]
    B --> C["训练对：轨迹 + 局部文本"]
    U["用户输入：点轨迹<br/>+ 每条局部文本 + 全局 prompt"] --> D
    C -.训练监督.-> D["位置感知交叉注意力 LACA<br/>邻域 token 关注局部文本<br/>其余 token 关注全局 prompt"]
    D --> E["双 CFG + λ 平衡<br/>全局/局部各一个引导旋钮"]
    E --> F["VAE 解码<br/>可控视频"]

关键设计¶

1. 配对数据管线：从原始视频里造出"轨迹↔局部文本"监督

最大的拦路虎是没有现成数据——没人标过"这条轨迹对应的物体长什么样"。TGT 用一条两步管线自动生产。先解决"某个坐标点是什么实体"：拿 COCO 图像，在指定坐标 \((x,y)\) 画个小圈，让 GPT-4o 描述该点的实体（"一个骑车的男人"），得到 (图像, 点, 文本) 三元组；再用这些三元组蒸馏微调 Qwen2.5VL-3B，让这个小模型学会"给图+坐标，直接吐出该处实体的局部描述"，不再需要在图上画标记。有了这个轻量标注器，就能在原始视频帧上批量跑：先用 Grounded SAM 分割出实体掩码，按掩码大小在每个实体上采若干代表点，每个点喂给微调后的 Qwen2.5VL-3B 拿到局部文本；最后用 Tracking-Any-Point（TAP）把这些静态点沿后续帧传播成完整轨迹，并记录可见性标志（应对遮挡或移出画面）。全局 caption 则由 Qwen2.5-VL 生成。最终从 500 万素材里筛出 240 万条强运动片段作训练集。这条管线把"VLM 的强描述能力"蒸到小模型、再用 SAM+TAP 工业化铺开，正是补上了"局部文本接地到运动"这块此前缺失的监督。

2. 位置感知交叉注意力 LACA：让每个视觉 token 只关注属于它的那段文本

痛点是全局交叉注意力把整段 prompt 撒到所有视觉 token 上，细粒度的空间归属就糊了。LACA 在每个 DiT block 里额外加一条交叉注意力分支，做的是"按位置选源"的掩码注意力。一条轨迹记为 \(T=\{(p_t,m)\}\)，其中 \(p_t=(x_t,y_t,v_t)\) 含坐标和可见性，\(m\) 是这条轨迹的局部文本。局部文本特征 \(F_m=\Phi(m)\) 会被广播到该点邻域 \(B_r(x_t,y_t)\) 上，并按高斯核加权：\(G_t(i,j)=\exp\!\big(-\frac{(i-x_t)^2+(j-y_t)^2}{2\sigma^2}\big)\)，得到 \(F_t(i,j)=G_t(i,j)\,F_m\)。关键的"选源"规则是：

\[h_{t,ij}=\begin{cases}F_t(i,j), & v_t=1 \text{ 且 } (i,j)\in B_r(x_t,y_t)\\ F_{glob}, & \text{否则}\end{cases}\]

也就是说，当轨迹点可见、且 token 落在轨迹位置的高斯邻域内时，它去关注这条轨迹的局部文本；其余所有 token 仍关注全局 prompt。随后做标准注意力更新 \(H(z_{t,ij})=\sigma\big(\frac{Q'(z_{t,ij})K'(h_{t,ij})^\top}{\sqrt D}\big)V'(h_{t,ij})\)。高斯加权让"靠近轨迹中心的 token 受局部文本影响更强、远处平滑过渡"，避免硬边界伪影。LACA 是个轻量插件、不改骨干，因此既注入了空间定向的实体+运动，又不破坏对全局 prompt 的整体遵循。

3. 双 CFG + λ 平衡：全局语义和局部控制各给一个旋钮

如果全局和局部共用一个引导强度，就只能在"画面整体保真"和"局部精确控制"之间二选一。TGT 把两路解耦：训练时对全局 prompt 和局部文本独立做 dropout（全局 0.8、局部 0.1），从而推理时能用两个独立的 CFG 尺度。给定无条件、仅全局、仅局部、二者都给四种预测，引导输出为

\[\hat\epsilon=\epsilon_{none}+s_{glob}\big(\epsilon_{both}-\epsilon_{glob}\big)+s_{loc}\big(\epsilon_{both}-\epsilon_{loc}\big)\]

\(s_{glob}\)、\(s_{loc}\) 分别调控全局语义遵循与局部轨迹控制的强度（实验取 5 和 4）。此外，由于全局交叉注意力和 LACA 是两条独立分支，还能在隐状态层面显式加权：\(Z_{next}=(1-\lambda)\cdot\text{CrossAttn}+\lambda\cdot\text{LACA}\)。\(\lambda=0\) 时退化成标准 T2V 生成器，\(\lambda>0\)（实验取 0.5）则在全局与局部引导间显式平衡。两个旋钮一起，让"整体画质 ↔ 运动精度"成为可连续调节的 trade-off，而不是被锁死。

损失函数 / 训练策略¶

采用流匹配（flow-matching）速度预测目标，只优化 LACA、冻结骨干其余参数。设真值视频隐变量 \(X_1\)、高斯噪声 \(X_0\)，时刻 \(t\) 处 \(X_t=tX_1+(1-t)X_0\)，模型 \(v_\theta\) 预测速度 \(V_t=X_1-X_0\)，目标为 \(L(\theta)=\mathbb{E}\big[\lVert V_t-v_\theta(X_t,t\mid C)\rVert_2^2\big]\)，\(C\) 是全局 prompt 与文本接地轨迹的并集。训练分两阶段：先用稠密轨迹（约 40 条/视频、不加高斯与邻域约束）粗调，再用稀疏轨迹（≤5 条、\(\sigma=1\)、\(r=2\)）精调 200K 步。48 张 H100、AdamW（lr \(1\times10^{-5}\)、weight decay 0.01、梯度裁剪 10.0），分辨率 832×480、81 帧、16 fps。

实验关键数据¶

主实验¶

DAVIS 数据集上评测，取首帧 + 真值分割掩码导出中心点轨迹/bbox（每视频约 2~3 条）。指标：全局/局部 CLIP-T（语义对齐）、EPE（端点误差，越低运动控制越准）。

方法	CLIP-T(全局)↑	CLIP-T(局部)↑	EPE↓
Wan2.2 14B（仅全局）	0.3408	0.2308	265.03
Wan2.2（全局+局部 prompt）	0.3309	0.2394	180.36
MotionCtrl	0.3186	0.2291	74.33
TrailBlazer（bbox）	0.3145	0.2408	65.15
Tora	0.3288	0.2423	47.41
TGT（本文）	0.3314	0.2531	25.11

TGT 把 EPE 从最强基线 Tora 的 47.41 降到 25.11（近乎砍半），同时拿到最高局部 CLIP-T，全局 CLIP-T 与基础模型基本持平——即在不掉画质的前提下大幅提升运动可控性。用纯文本扩写运动描述的 Wan（全局+局部 prompt）EPE 仍高达 180.36，印证"光靠文本说不清运动"。

人评 GSB 偏好（正值=偏好 TGT，范围 [-100,100]）：

对比基线	视觉质量	运动控制	prompt 控制
Wan（全局+局部）	-35.0	65.0	51.7
MotionCtrl	96.7	61.7	68.3
TrailBlazer	98.3	78.3	81.7
Tora	73.3	38.3	38.3

对生成式专门方法（MotionCtrl/TrailBlazer/Tora）三项全面占优；唯一为负的是对 Wan 的视觉质量（-35.0），因为 Wan 是不加控制的基础大模型、画质天花板更高，但 TGT 在运动/prompt 控制上仍明显胜出。

消融实验¶

LACA 组件增量消融（Table 3）：

配置	CLIP-T(全局)↑	CLIP-T(局部)↑	EPE↓
仅稠密轨迹	0.3307	0.2394	58.01
+ 稀疏轨迹微调	0.3312	0.2447	45.28
+ 高斯掩码	0.3314	0.2527	25.11

CFG 策略消融（Table 4）：

配置	CLIP-T(全局)↑	CLIP-T(局部)↑	EPE↓
仅全局 CFG	0.3297	0.2480	91.38
仅局部 CFG	0.3117	0.2493	43.29
全局+局部合并条件	0.3307	0.2491	53.30
双 CFG（本文）	0.3314	0.2527	25.11

关键发现¶

高斯掩码贡献最大：从"+稀疏轨迹"到"+高斯掩码"，EPE 从 45.28 骤降到 25.11、局部 CLIP-T 从 0.2447 升到 0.2527，是 LACA 三步里最大的一跳——平滑邻域加权对运动精度至关重要。
双 CFG 是"既要又要"的关键：仅全局 CFG 画质好但 EPE 高达 91.38；仅局部 CFG 把 EPE 压到 43.29 却让全局 CLIP-T 掉到 0.3117（语义崩）；只有双 CFG 同时拿到最佳全局/局部 CLIP-T 和最低 EPE，证明"解耦引导"才能兼顾外观对齐与运动控制。
两阶段训练有效：先稠密粗调再稀疏精调，稀疏阶段在三个指标上都稳步改善。
TGT 还顺带支持两个应用：从参考视频抽稠密轨迹+局部文本做视频到视频复刻，以及小改局部文本做文本驱动的局部编辑（把"man"换成"werewolf"而保持原运动与布局）。

亮点与洞察¶

"给每条轨迹配一段文本"这一步直击 T2V 的痛点：I2V 靠源图像锁身份，T2V 没有源图像，作者敏锐地用局部文本把丢失的"实体归属"重新接回轨迹，思路朴素却正中要害。
LACA 的"按位置选源"很巧：不是给所有 token 灌同一段文本，而是用可见性+高斯邻域决定每个 token 该听全局还是听局部，天然解决多物体串味，且只加一条分支、冻结骨干，几乎零成本嫁接到任意预训练 DiT。
双 CFG 把"画质 vs 控制"从二选一变成可调旋钮：解耦两路引导尺度这个设计可迁移到任何"全局条件+局部条件"的可控生成任务（如可控图像生成、布局到视频）。
数据管线的蒸馏思路可复用：用强 VLM（GPT-4o）造三元组→蒸馏小 VLM→SAM+TAP 工业化铺开，是低成本造"点级语义标注"的通用配方。

局限与展望¶

训练集是 240 万条内部数据、48×H100，复现门槛高；公开评测只在 DAVIS 上、每视频仅 2~3 条轨迹，超密集/极多物体场景的可控性未充分验证。⚠️ 测试集规模与多样性以原文 appendix 为准。
数据质量被一串现成模型（Grounded SAM / Qwen2.5VL-3B / GPT-4o / TAP）的误差链式约束：分割漏检、VLM 描述错、点跟踪漂移都会污染监督，论文未量化这些噪声对最终效果的影响。
控制仍是 2D 屏幕空间轨迹，无法直接表达 3D 深度运动、相机与物体运动的解耦；高斯邻域是各向同性圆，对细长/形变物体的覆盖未必贴合。
改进方向：把可见性/遮挡建模做得更显式、引入 3D 或实例掩码轨迹、以及让 \(\sigma/r/\lambda\) 随物体尺度自适应而非全局固定。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把局部文本与点轨迹配对用于 T2V 的范式，LACA+双 CFG+配对数据管线三件套自洽。
实验充分度: ⭐⭐⭐⭐ 主实验+人评+两组消融+两个应用齐全，但仅 DAVIS、轨迹数偏少，缺多样基准。
写作质量: ⭐⭐⭐⭐ 动机层层递进、公式清晰、图示到位；部分实现细节压在 appendix。
价值: ⭐⭐⭐⭐⭐ 即插即用、冻结骨干、解耦运动与外观，对可控视频生成落地价值高。