TiViBench: Benchmarking Think-in-Video Reasoning for Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（论文给出项目主页 TiViBench，未明确开源仓库 ⚠️ 以原文为准）
领域: 视频生成 / Benchmark / 视觉推理
关键词: 图生视频, 视觉推理评测, 测试时优化, 偏好优化, chain-of-frames

一句话总结¶

TiViBench 把"图生视频（I2V）模型到底会不会推理"做成一个分四维度、24 个任务、3 个难度、595 个样本的分层基准，发现商用模型（Sora 2、Veo 3.1）明显比开源模型强、但所有模型在需要规则/符号推理的任务上都崩；并配套提出一个不训练的测试时方法 VideoTPO，用 VLM 自我比较两条候选视频来迭代改写 prompt，把 Wan2.1 的整体准确率从 8.40% 拉到 18.15%。

研究背景与动机¶

领域现状：视频生成模型这两年的关注点正在从"画得像不像"转向"合不合物理、逻辑通不通"。Veo 3 抛出"chain-of-frames（帧链）推理"概念后，一个自然的问题浮上来：视频生成模型能不能像 LLM 那样一步步推理，成为通用视觉基础模型、迎来自己的"GPT 时刻"？

现有痛点：现有 I2V 评测（VBench++、各类 FVD/UCF101 基准）几乎全在量视觉保真度、时间平滑度、物理合理度和 prompt 服从度——这些都重要，但完全没有衡量高阶推理能力。同期工作 MME-CoF 虽然引入了 12 个推理维度，却把"旋转推理"这种简单任务和"长程因果推理"这种难任务一视同仁，缺少难度分层，没法揭示模型能力的细粒度边界。

核心矛盾：要评推理，光看一帧静态结果不够——推理是一个随时间展开的过程（初始态→中间态→目标态），需要既能验证过程、又能验证终态的可核验指标；而旧基准大多只保留初始推理图，丢掉了过程信息。

本文目标：(1) 造一个专门评 I2V 推理潜力、带难度分层、覆盖多类推理的基准；(2) 用它系统体检当前最强的商用/开源视频模型，定位推理失败的根因；(3) 在不额外训练的前提下，找一个能即插即用提升推理表现的方法。

切入角度：作者观察到视觉推理任务天然比一般生成任务更"可核验"——有明确的真值（初态/中间态/目标态），所以可以设计自动化验证指标；同时既然推理潜力可能被 prompt 偏好压制，那么"测试时改 prompt"就有希望在不动权重的情况下把潜力释放出来。

核心 idea：用一个分层基准 TiViBench 把视频推理能力量化出来，再用"测试时偏好优化"VideoTPO 在推理阶段免训练地提升表现。

方法详解¶

整体框架¶

这篇工作有两个相对独立又互补的产物：评测侧 TiViBench（怎么造基准、怎么打分）和方法侧 VideoTPO（怎么免训练提分）。TiViBench 沿着"定义推理维度 → 构造视觉化 prompt → 设计可核验指标"三步把一个模糊的"会不会推理"问题落成 595 个能自动评分的样本；VideoTPO 则是在拿到一个模型后，针对单个测试样本反复"生成两条候选→VLM 自评→改 prompt→再生成"地迭代，把模型本来就藏着的推理能力榨出来。

VideoTPO 是一个清晰的测试时迭代环路，配框架图如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：起始图 I + prompt P_t"] --> B["I2V 模型<br/>生成两条候选 V¹_t, V²_t"]
    B --> C["文本损失 L_t<br/>VLM 自评两条候选优劣"]
    C --> D["文本梯度 G_t<br/>VLM 把批评转成改写建议"]
    D --> E["Prompt 更新<br/>P_t+1 = M(P_t, G_t)"]
    E -->|未达停止条件，回灌新 prompt| B
    E -->|迭代结束| F["输出：优化后视频"]

关键设计¶

1. TiViBench 的四维分层推理体系：把"会不会推理"拆成可测的 24 个任务

旧基准的根本问题是把"推理"当成一个笼统的整体，难度也不分层，看不出模型在哪一类推理上崩。TiViBench 在 Veo 3 的图遍历/迷宫等测试任务基础上扩展，明确切成四个维度：❶结构推理与搜索（图遍历、迷宫、数字排序、时序排列、规则外推、棋类走子），❷空间与视觉模式推理（形状拼合、连色、模式识别、找不同、计数、视觉类比），❸符号与逻辑推理（简易数独、算术、符号推理、视觉演绎、传递推理、游戏规则推理），❹动作规划与任务执行（工具使用、机器人导航、目标导向规划、多步操作、视觉指令跟随、博弈策略）。每个维度约 150 个样本、6 个任务，再按 easy/medium/hard 三个难度分层，总计 24 个任务场景、595 个图-prompt 样本。这种"维度 × 任务 × 难度"的分层结构，正是它相对 MME-CoF 的关键改进——能看出模型是在"视觉演绎"这类弱依赖规则的任务上还行、却在"迷宫/数独"这类强规则任务上彻底失败。

2. 叙事式视觉 prompt 套件：用"留白 + 约束"逼模型自己补推理步骤

视觉推理 prompt 不能像 LLM 那样直白下指令（"找 A 到 B 的最优路径"），否则就退化成翻译题。作者主张 prompt 要主观、叙事化（"蓝球沿白色路径平滑滑动，停在红点"），既给足视觉细节引导推理、又留白让模型自己推断中间步骤，并用隐含约束施压（"蓝球绝不越过黑色区域"）。具体用 Gemini-2.5-Pro 作为助手、结合初态和目标态图像生成视觉锚定的 prompt，并针对四个维度定制原则（如结构推理强调"目标清晰但不给解法路径 + 隐含规则 + 时序连贯"，符号推理强调"隐式规则发现 + 符号-视觉融合"）。每条 prompt 经三位标注者人工复核，只要有一人觉得不清晰就重写、三人都通过才采用，保证基准本身不会因 prompt 含糊而误判模型。

3. 双类可核验指标：让视频推理像做题一样能自动判对错

视觉推理任务天然有明确真值，所以能设计自动化验证而非只靠人眼。作者把指标分两类，都聚焦"对不对"：过程-终态一致性（Process-and-Goal Consistency）同时验证推理过程和最终结果，比如迷宫导航用跟踪工具追踪主体逐帧轨迹、核对是否合规到达终点；终态验证（Final-State Validation）只看是否到达正确目标态、不管中间过程，比如数独完成用 OpenCV 对比生成网格与真值、序列补全用 DINO 特征对比。具体验证方法还会随任务格式变（数学填空题核对等号后答案、选择题核对选项）。这套指标和人工判断高度一致（Figure 7 左），提供了可靠的免人工评测替代。

4. VideoTPO：把 LLM 的测试时偏好优化搬到视频生成，免训练免奖励模型

诊断出失败根因后（规则建模不足 + 细粒度视觉特征丢失），作者要在不训练的前提下提分。已有 prompt 改写分两类：前置改写（pre-inference，靠 LLM 幻想细节丰富 prompt，但可能偏离用户意图）和后置改写（post-inference，根据生成结果改 prompt）——但它们都是单条候选单遍优化，粒度太粗。VideoTPO 借鉴 LLM 的测试时偏好优化（TPO），但做了关键简化：原版 TPO 要生成多条（如 4 条）样本、还依赖外部奖励模型排序，VideoTPO 每轮只生成两条候选 \(V^1_t, V^2_t\)，让一个 VLM（GPT-4o）做自我分析、直接产出"文本损失/文本梯度"，彻底免掉外部奖励模型。三步迭代：

文本损失：\(L_t = M(V^1_t, V^2_t, P_t)\)，VLM 比较两条候选优劣，给出偏好视频的优点和非偏好视频的缺点——是定性批评而非数值分数，因此更可解释；
文本梯度：\(G_t = M(P_t, L_t)\)，VLM 把批评转成可执行的改写建议，指明该怎么改 prompt 才能让生成更贴合期望推理；
prompt 更新：\(P_{t+1} = M(P_t, G_t)\)，迭代刷新 prompt 再喂回 I2V 模型。

这一环路把 LLM 里"loss→gradient→update"的优化范式整体类比到了 prompt 空间，"梯度"是文本而非数值，所以全程不动模型权重、不需新数据。一个值得注意的发现：用 HunyuanVideo 优化出的 prompt 直接喂给 Wan2.1（"w/ HYV Prompt"）几乎没提升甚至掉点，说明不同模型对 prompt 的偏好不同、VideoTPO 的逐模型在线优化是必要的。

实验关键数据¶

主实验¶

评测 7 个先进 I2V 模型（开源：Wan2.2/Wan2.1/HunyuanVideo/CogVideoX1.5；商用：Veo 3.1-fast/Sora 2/Kling 2.1），开源模型多随机种子下报 Pass@1 与 Pass@5，商用模型仅报 Pass@1。

模型	类型	结构搜索	空间模式	符号逻辑	规划执行	总体 Pass@1
CogVideoX1.5	开源	1.42	1.34	0.67	4.46	2.02
HunyuanVideo	开源	1.42	1.34	2.00	10.83	4.03
Wan2.1	开源	5.76	2.68	4.00	20.38	8.40
Wan2.2	开源	7.19	2.68	6.00	21.02	9.41
Kling 2.1	商用	5.04	5.37	8.00	26.75	11.60
Veo 3.1	商用	10.07	22.15	18.00	51.59	26.05
Sora 2	商用	18.71	31.76	22.00	38.22	27.90

可以看到：(1) 商用模型全面碾压开源，Sora 2 总体最高 27.9%、且难度上升时仍较稳；(2) 但即便最强模型，绝对准确率也很低（< 30%），说明视频推理远未解决；(3) 所有模型在"规划执行"维度普遍较高、在"结构搜索/符号逻辑"维度都很低。Pass@5 上开源模型（Wan2.2 从 9.41→16.47，Wan2.1 从 8.40→15.29）明显提升，说明它们有潜在推理能力但极不稳定，瓶颈在训练规模与数据多样性。

VideoTPO 提升（Table 3）¶

把 VideoTPO 应用到两个无内置改写器的开源模型，并与前置/后置改写基线对比：

模型配置	结构搜索	空间模式	符号逻辑	规划执行	总体
HunyuanVideo	1.42	1.34	2.00	10.83	4.03
+ Pre-Rewriter	2.16	2.01	3.33	10.83	4.71
+ Post-Rewriter	4.32	4.03	4.67	12.74	6.55
+ VideoTPO	7.91	5.37	6.67	22.93	10.25
Wan2.1	5.76	2.68	4.00	20.38	8.40
+ Pre-Rewriter	7.19	5.37	4.00	25.48	10.76
+ Post-Rewriter	9.35	7.38	4.67	26.11	12.10
+ VideoTPO	19.42	10.07	8.67	33.76	18.15

VideoTPO 在所有维度和难度上都稳定超过基模型和两类改写基线：HunyuanVideo 总体 4.03%→10.25%、Wan2.1 总体 8.40%→18.15%（翻倍多），且增益明显大于前置/后置改写，验证测试时缩放能有效释放视频生成的推理能力。

关键发现¶

推理潜力随规模涌现，而非生成模型的固有缺陷：商用模型的优势主要来自更大更多样的数据 + 更高参数量 + 更优架构（Takeaway ❶）；开源模型 Pass@5 远超 Pass@1，证明能生成对的解、只是不稳（Takeaway ❷）。
失败根因有二（Takeaway ❸）：(i) 模型读不懂高层规则——迷宫任务里 prompt 明确禁止越界、模型仍频繁违规；(ii) 符号推理需要精确视觉特征，但 VAE 等编码器过度压缩特征、丢掉了推理所需的关键细节。最差的四个任务是迷宫求解、时序排列、找不同、数独完成。
prompt 偏好是模型相关的：跨模型迁移优化后的 prompt 几乎无效甚至掉点，逐模型在线优化才有效（Figure 7 右）。

亮点与洞察¶

把"视频推理"从口号做成可核验的题库：抓住"视觉推理天然有真值（初/中/末态）"这一点设计自动化指标，让数独、迷宫这类任务能像做题一样自动判对错，避免了视频评测最头疼的人工主观打分——这是基准能 scale 的关键。
难度分层是相对同期工作最实在的改进：easy/medium/hard 三档让人看清模型能力的边界在哪、在什么难度上断崖，比"一刀切"的推理维度信息量大得多。
VideoTPO 把 LLM 的 loss→gradient→update 优雅类比到 prompt 空间：用"两条候选 + VLM 自评"替掉"多候选 + 外部奖励模型"，免训练、免奖励、免新数据，是个可直接迁移到任何黑盒 I2V 模型的实用 trick。
失败归因指向具体架构瓶颈："VAE 过度压缩丢失推理所需细节"这一观察，给后续做"推理友好的视频表征/编码器"指了明确方向。

局限与展望¶

绝对性能极低：最强模型也只有 ~28%，VideoTPO 提升后开源模型也才 ~18%，说明这条路离"视频生成会推理"还很远，基准当前更像"诊断工具"而非"竞赛榜"。
VideoTPO 依赖强 VLM 评判：用 GPT-4o 做自评和改写，评判质量直接决定优化效果；VLM 看视频本身的推理能力也有限，可能成为新的瓶颈，且每个样本多轮生成的推理成本不低。
每轮仅两候选：作者为"尽量简单"选了两候选自评，但这可能限制偏好信号的丰富度；候选数、迭代轮数与收益的权衡论文未充分展开。
评测仍部分依赖任务专用验证器（轨迹跟踪、OpenCV、DINO 等），不同任务验证方式不统一，扩展到新任务时需要为每类任务定制核验逻辑，迁移成本存在。
改进方向：作者建议显式任务规则编码、过程级强化学习优化、以及更细粒度的视觉特征表征与结构化处理。

评分¶

新颖性: ⭐⭐⭐⭐ 首个分层、可核验的 I2V 视觉推理基准，VideoTPO 的免奖励测试时偏好优化也算新颖落地。
实验充分度: ⭐⭐⭐⭐ 覆盖 7 个最强商用/开源模型、Pass@1/Pass@5、失败案例分析、指标-人类一致性、prompt 迁移分析，较全面。
写作质量: ⭐⭐⭐⭐ 结构清晰、RQ 驱动、takeaway 明确，但部分指标细节散落附录。
价值: ⭐⭐⭐⭐ 给"视频生成会不会推理"提供了可量化的标尺和一个即插即用的提分方法，对后续研究有锚定作用。