TTOM: Test-Time Optimization and Memorization for Compositional Video Generation¶

会议: ICLR 2026
arXiv: 2510.07940
代码: https://ttom-t2v.github.io/
领域: 视频生成 / 组合推理
关键词: 测试时优化, 组合视频生成, 参数记忆, 时空布局, 注意力对齐

一句话总结¶

提出 TTOM 框架，在推理时通过优化新增参数将视频生成模型的注意力与 LLM 生成的时空布局对齐，并用参数记忆机制保存历史优化上下文支持复用，在 T2V-CompBench 上相对提升 34%（CogVideoX）和 14%（Wan2.1）。

研究背景与动机¶

领域现状：文本到视频（T2V）模型在单物体场景表现优秀，但在组合场景（多物体+属性+运动+空间关系）中仍严重对齐不足。现有方法用 LLM 生成时空布局，再通过修改潜变量/注意力来引导生成。

现有痛点：(a) 直接干预潜变量/注意力会破坏特征分布→闪烁、坍塌；(b) 逐样本独立处理，不利用历史上下文；(c) 对一个样本的干预无法泛化到其他样本。

核心矛盾：需要精细控制组合布局，但不能破坏预训练模型的特征分布。

本文目标 以模型无关的方式在测试时对齐组合布局，同时复用历史优化结果。

切入角度：不修改潜变量，而是插入并优化新参数使注意力与布局对齐——优化后的参数保存到记忆中供未来复用。

核心 idea：优化参数而非潜变量来对齐布局，并用参数记忆实现跨样本的知识积累与复用。

方法详解¶

整体框架¶

流式设置：用户连续输入提示词。(1) LLM 生成时空布局（每个物体的bbox序列）；(2) 检查记忆是否有匹配——有则加载参数（可选继续优化），无则初始化新参数；(3) 测试时优化（TTO）对齐注意力与布局；(4) 优化后参数存入记忆。

关键设计¶

注意力-布局相关性探测:
- 功能：识别 DiT 中哪些层的注意力与最终视频布局高度相关
- 核心思路：生成视频→用 GroundingDINO+SAM2 分割→计算各层注意力图与分割结果的 mIoU。发现不同层相关性差异很大
- 设计动机：只优化高相关性层的参数，避免浪费和干扰
测试时优化（TTO）:
- 功能：插入新参数并优化使注意力对齐布局
- 核心思路：在 VFM 中插入轻量参数 \(\phi\)，用 JSD 损失 \(L_{align} = \frac{1}{N}\sum_i JSD(\bar{A}_i \| \bar{B}_i)\) 对齐注意力图和高斯平滑的布局掩码
- 设计动机：优化 \(\phi\) 而非潜变量 \(z_t\)，避免分布坍塌
参数记忆机制:
- 功能：保存历史优化上下文供未来复用
- 核心思路：记忆 \(\mathcal{M} = \{g(C): \phi^*_C\}\)，键是场景抽象后的文本嵌入。支持 insert/read/update/delete 操作。容量满时 LFU 淘汰
- 设计动机：相似场景的参数可直接加载跳过优化（效率），或作为好的初始化（质量）

损失函数 / 训练策略¶

无监督——测试时用 \(L_{align}\)（JSD）优化新增参数。LLM 生成布局时包含验证步骤确保一致性。有记忆匹配时可跳过优化直接推理。

实验关键数据¶

主实验¶

T2V-CompBench（7类组合视频生成）：

模型	平均分	运动	数量	空间
CogVideoX-5B	baseline	低	低	低
CogVideoX + TTOM	+34%	显著提升	显著提升	显著提升
Wan2.1-14B	baseline	中	中	中
Wan2.1 + TTOM	+14%	提升	提升	提升

VBench 上也有一致的改进。

消融实验¶

配置	说明
优化潜变量 vs 优化参数	优化参数质量更好、不坍塌
有记忆 vs 无记忆	记忆显著提升效率和质量
层选择	仅优化高相关性层效果最好
记忆命中时跳过优化	效率大幅提升，质量仅微降
迁移性	TTOM 在一个场景优化的参数可迁移到类似场景

关键发现¶

TTOM 解耦了组合世界知识——优化后的参数展现出强迁移性和泛化性
参数记忆使流式推理越用越好——历史积累的组合模式可被新场景复用
模型无关——在 CogVideoX 和 Wan2.1 两种不同架构上都有效
JSD 损失比直接 L2 损失更稳定

亮点与洞察¶

优化参数而非潜变量：避免了直接干预导致的特征分布破坏，是比"latent guidance"更优雅的控制方式
参数记忆的"越用越好"性质：将测试时优化从一次性消耗变为知识积累，概念上类似于人类的经验学习
流式设置的前瞻性：将视频生成放在连续服务而非独立请求的框架下，更贴合实际部署
注意力-布局相关性探测：首次系统量化 DiT 各层注意力与最终布局的对应关系，有独立的分析价值

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶