跳转至

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

会议: ICLR 2026
arXiv: 2510.07940
代码: https://ttom-t2v.github.io/
领域: 视频生成 / 组合推理
关键词: 测试时优化, 组合视频生成, 参数记忆, 时空布局, 注意力对齐

一句话总结

提出 TTOM 框架,在推理时通过优化新增参数将视频生成模型的注意力与 LLM 生成的时空布局对齐,并用参数记忆机制保存历史优化上下文支持复用,在 T2V-CompBench 上相对提升 34%(CogVideoX)和 14%(Wan2.1)。

研究背景与动机

领域现状:文本到视频(T2V)模型在单物体场景表现优秀,但在组合场景(多物体+属性+运动+空间关系)中仍严重对齐不足。现有方法用 LLM 生成时空布局,再通过修改潜变量/注意力来引导生成。

现有痛点:(a) 直接干预潜变量/注意力会破坏特征分布→闪烁、坍塌;(b) 逐样本独立处理,不利用历史上下文;(c) 对一个样本的干预无法泛化到其他样本。

核心矛盾:需要精细控制组合布局,但不能破坏预训练模型的特征分布。

本文目标 以模型无关的方式在测试时对齐组合布局,同时复用历史优化结果。

切入角度:不修改潜变量,而是插入并优化新参数使注意力与布局对齐——优化后的参数保存到记忆中供未来复用。

核心 idea:优化参数而非潜变量来对齐布局,并用参数记忆实现跨样本的知识积累与复用。

方法详解

整体框架

流式设置:用户连续输入提示词。(1) LLM 生成时空布局(每个物体的bbox序列);(2) 检查记忆是否有匹配——有则加载参数(可选继续优化),无则初始化新参数;(3) 测试时优化(TTO)对齐注意力与布局;(4) 优化后参数存入记忆。

关键设计

  1. 注意力-布局相关性探测:

    • 功能:识别 DiT 中哪些层的注意力与最终视频布局高度相关
    • 核心思路:生成视频→用 GroundingDINO+SAM2 分割→计算各层注意力图与分割结果的 mIoU。发现不同层相关性差异很大
    • 设计动机:只优化高相关性层的参数,避免浪费和干扰
  2. 测试时优化(TTO):

    • 功能:插入新参数并优化使注意力对齐布局
    • 核心思路:在 VFM 中插入轻量参数 \(\phi\),用 JSD 损失 \(L_{align} = \frac{1}{N}\sum_i JSD(\bar{A}_i \| \bar{B}_i)\) 对齐注意力图和高斯平滑的布局掩码
    • 设计动机:优化 \(\phi\) 而非潜变量 \(z_t\),避免分布坍塌
  3. 参数记忆机制:

    • 功能:保存历史优化上下文供未来复用
    • 核心思路:记忆 \(\mathcal{M} = \{g(C): \phi^*_C\}\),键是场景抽象后的文本嵌入。支持 insert/read/update/delete 操作。容量满时 LFU 淘汰
    • 设计动机:相似场景的参数可直接加载跳过优化(效率),或作为好的初始化(质量)

损失函数 / 训练策略

无监督——测试时用 \(L_{align}\)(JSD)优化新增参数。LLM 生成布局时包含验证步骤确保一致性。有记忆匹配时可跳过优化直接推理。

实验关键数据

主实验

T2V-CompBench(7类组合视频生成):

模型 平均分 运动 数量 空间
CogVideoX-5B baseline
CogVideoX + TTOM +34% 显著提升 显著提升 显著提升
Wan2.1-14B baseline
Wan2.1 + TTOM +14% 提升 提升 提升

VBench 上也有一致的改进。

消融实验

配置 说明
优化潜变量 vs 优化参数 优化参数质量更好、不坍塌
有记忆 vs 无记忆 记忆显著提升效率和质量
层选择 仅优化高相关性层效果最好
记忆命中时跳过优化 效率大幅提升,质量仅微降
迁移性 TTOM 在一个场景优化的参数可迁移到类似场景

关键发现

  • TTOM 解耦了组合世界知识——优化后的参数展现出强迁移性和泛化性
  • 参数记忆使流式推理越用越好——历史积累的组合模式可被新场景复用
  • 模型无关——在 CogVideoX 和 Wan2.1 两种不同架构上都有效
  • JSD 损失比直接 L2 损失更稳定

亮点与洞察

  • 优化参数而非潜变量:避免了直接干预导致的特征分布破坏,是比"latent guidance"更优雅的控制方式
  • 参数记忆的"越用越好"性质:将测试时优化从一次性消耗变为知识积累,概念上类似于人类的经验学习
  • 流式设置的前瞻性:将视频生成放在连续服务而非独立请求的框架下,更贴合实际部署
  • 注意力-布局相关性探测:首次系统量化 DiT 各层注意力与最终布局的对应关系,有独立的分析价值

局限与展望

  • TTO 需要额外优化步骤——首次(cold start)推理速度较慢
  • LLM 生成的时空布局可能不准确——布局错误会传播到生成结果
  • 记忆的场景抽象(" drifts above ")可能过于粗糙
  • 仅在 T2V 上验证,未扩展到图像生成或3D场景
  • 记忆容量管理和 LFU 策略可能不是最优
  • 相关工作与启发

    • vs LLM-grounded Diffusion (Lian et al., 2023b): 它们优化潜变量导致质量退化。TTOM 优化新参数避免此问题
    • vs TTT layers (Sun et al., 2024): TTT 记忆是样本内(帧间),TTOM 是跨样本的参数记忆
    • vs Attend-and-Excite: 该方法用于图像级注意力控制。TTOM 扩展到视频的时空注意力
    • 对视频生成的启发:参数级控制+跨样本记忆的范式可推广到其他生成控制场景

    评分

    • 新颖性: ⭐⭐⭐⭐⭐ TTO+参数记忆的组合非常新颖,流式设置有前瞻性
    • 实验充分度: ⭐⭐⭐⭐ 两个基准+多种VFM+消融充分
    • 写作质量: ⭐⭐⭐⭐⭐ 动机层层递进,框架设计优雅
    • 价值: ⭐⭐⭐⭐⭐ 对组合视频生成有实质性推进,参数记忆范式有广泛应用前景