Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/tongjingqi/Thinking-with-Video
领域: 视频生成 / 多模态推理
关键词: 视频生成推理, Sora-2, 多模态统一, VideoThinkBench, 测试时扩展

一句话总结¶

本文提出"Thinking with Video"（用视频思考）这一新的多模态推理范式，主张让 Sora-2 这类视频生成模型把推理过程画进视频帧里，并构建了覆盖"几何直觉→视觉归纳→抽象规则→空间规划→语言推理"五级能力的 VideoThinkBench 来系统评测——发现 Sora-2 在 eyeballing 几何题上反超 GPT-5 约 10%，在 MATH 上拿到 92% 音频准确率，证明视频生成模型有望成为统一理解与生成的推理载体。

研究背景与动机¶

领域现状：当前提升大模型推理能力的两大主流范式是"Thinking with Text"（用文字思考，即 CoT 链式思维）和"Thinking with Images"（用图像思考，如 OpenAI o3 在思维链里插入图像、Nano Banana 在图中嵌字）。前者让 LLM 一步步写出文字推理，后者让 VLM 借助生成/编辑图像来辅助视觉推理。

现有痛点：这两种范式都有结构性短板。① 静态约束——图像只能捕捉单个瞬间，无法表达动态过程、时间演化或连续变换（比如"光线如何一路反射"这种过程，单张图画不出来）；② 模态割裂——文字和视觉被当成两套独立模态，缺乏一个能在统一时间结构里自然融合"文字推理"和"视觉推理"的框架。

核心矛盾：人类做空间/几何推理时其实是"边画边想、脑内模拟"的动态过程，而现有范式要么只有静态画面、要么文字视觉两张皮，没有一个连贯的时序媒介把二者统一起来。

本文目标：找一个天然能表达"动态过程 + 文字视觉融合"的媒介来承载推理，并系统验证它到底能不能推理、能推到什么程度。

切入角度：作者注意到视频生成模型（Sora-2）天生就在生成连续帧，既能画出动态过程（画线、变换），又能把文字直接嵌进画面里。那么——能不能把"生成一段解题视频"本身当作一次推理？

核心 idea：用"生成视频"代替"写文字/画单图"来做推理——让模型把解题过程一帧帧画出来（含写在画面上的文字与口播的答案），从而把动态推理和多模态融合统一在视频这一载体里。

方法详解¶

本文严格说不是一个"训练新模型"的方法论文，而是提出一个推理范式 + 配套一个评测体系 + 一套针对视频输出的评测方法学，并围绕它做了大量分析实验。所以"方法"主要落在三块：范式定义、VideoThinkBench 怎么搭、视频答案怎么评。

整体框架¶

整条 pipeline 是：把一道题（文本 prompt + 一张展示题面的参考图）喂给视频生成模型 → 模型生成一段"解题视频"（画面里画出推理过程/写出解答步骤，音轨口播最终答案）→ 从视频里抽取答案做评测。评测同时覆盖视觉中心任务（靠画图和想象解）和文本中心任务（靠写字推理解），并用三条评测路径（音频转写 / 末帧 / 多帧投票）把"视频里的答案"提取出来交给 LLM-as-Judge 判分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["题面输入<br/>文本 prompt + 参考图"] --> B["Thinking with Video 范式<br/>生成解题视频(画过程+写解答+口播答案)"]
    B --> C{"任务类型"}
    C -->|画图/想象| D["VideoThinkBench·视觉中心<br/>五级能力分层(前4级)"]
    C -->|写字推理| E["VideoThinkBench·文本中心<br/>语言概念理解与推理"]
    D --> F["三路评测 + Major Frame 去噪<br/>音频/末帧/多帧投票"]
    E --> F
    F --> G["LLM-as-Judge 判分"]
    G --> H["能力溯源分析<br/>测试集泄漏/书写质量/prompt rewriter"]

关键设计¶

1. Thinking with Video 范式：把"生成一段解题视频"当作一次多模态推理

针对"图像静态 + 文字视觉割裂"这两个痛点，本文不再让模型输出文字 CoT 或单张图，而是让它生成一段连续视频：画面里实时画出推理过程（如给光线一路画反射轨迹、给三条线延长画出交点并标红）、同时把文字解答写进帧里、音轨再口播一遍最终答案。视频天然是"带时间轴的多帧序列"，因此一举解决两个问题——动态过程能被逐帧展开（连续变换不再被压成一张静态图），文字与视觉也被统一进同一个时序载体（写在画面上的字和画出来的图共享同一帧空间），更贴近人类"边画边想、脑内模拟"的认知过程。这是全文的核心主张：视频生成模型可能是统一"理解 + 生成"的多模态推理基座。

2. VideoThinkBench 五级能力分层：用递进难度系统拆解"视频到底能推什么"

要验证范式不能只挑好做的题，作者构建了 VideoThinkBench，按推理能力从易到难排了一条递进链：① 几何直觉（eyeballing puzzles，判断简单空间关系）→ ② 视觉模式归纳（visual puzzles，从形状/颜色/布局找规律）→ ③ 抽象规则归纳（ARC-AGI-2，从输入输出对推变换规则）→ ④ 空间规划与搜索（迷宫，多步动作规划）→ ⑤ 语言概念理解与推理（GSM8K/MATH/MMMU 等文本题）。前四级是视觉中心任务、第五级是文本中心任务。其中 eyeballing puzzles（21 类、共 1050 样本，分 Point/Line/Shape 三大类）和迷宫是作者自建且可自动验证的，visual puzzles 改编自 PuzzleVQA，ARC-AGI-2 改编自原 benchmark。这套分层的价值在于：它不是简单刷分，而是提供了一把"视频模型能力边界"的尺子——能看出模型在几何直觉上很强、却在抽象规则归纳上很弱。

3. 三路评测 + Major Frame 去噪：解决"视频末尾会坏掉导致答案抽不准"

视频输出比文字/单图难评——答案藏在某些帧里，而视频结尾常被 SMPTE 彩条或黑屏污染，直接取末帧很容易抽错。作者设计三条评测路径：Audio（转写口播答案）、Last Frame（看末帧哪个选项被标红）、Major Frame（在视频时长上采样多帧、对结果取多数投票）。Major Frame 本质是把"沿时间轴采样 + 投票"当成一个去噪滤波器——避开被污染的结尾，捕捉模型在整段视频里最一致的"信念"。实验里这一招效果显著：Arc Connect 单次评测下，Last Frame 56% → Major Frame 68%；再叠加 5 次重试的多数投票，Major Frame 进一步从 68% 飙到 90%。这其实揭示了一个少有人探索的方向——视频生成推理任务上的测试时扩展（test-time scaling）：同一题多生成几段视频、再聚合，就能稳定涨点。

4. 文本推理能力溯源：用 Wan 2.5 的可控 rewriter 拆穿"是谁在真正解题"

Sora-2 在文本题上表现意外地好（GSM8K 音频 98.9%、MATH 92%），但这能力到底来自视频生成本身、还是来自背后某个看不见的文本模型？作者做了三层归因。① 排除测试集泄漏：用 Qwen3-235B / Gemini 2.5 Pro 把 GSM8K、MATH-500 题目换数值生成"派生题"，Sora-2 在派生题上成绩与原题几乎一致（GSM8K 派生题音频 100%），说明不是背答案。② 书写过程质量分析：人工标注 115 个 Sora-2 视频音频都答对的样本，发现只有 13.91% 的画面书写过程"完全正确"，43.48% 不可读或逻辑错——说明它常常"答案对、但视频里写的过程是糊的"。③ 关键反证：换用提供"是否启用 prompt 改写"开关的 Wan 2.5，关掉 rewriter 后文本推理准确率几乎归零（GSM8K 末帧从 78.4% → 0.0%），开启才恢复。由此推断 Sora-2 的文本推理能力很可能也来自内部的 prompt rewriter（一个文本模型先把题解好、再指导视频生成），而非视频生成组件自己在推理。这一节是全文最诚实、也最有价值的地方——没有把高分包装成"视频会算数学"，而是把功劳的真正来源挖了出来。

实验关键数据¶

主实验：与 SOTA VLM 全面对比（准确率 %）¶

下表为各二级任务汇总（视觉中心 Sora-2 取 Major Frame，文本中心取音频评测）：

任务	Sora-2	Gemini 2.5 Pro	GPT-5 high	Claude Sonnet 4.5
Eyeballing-Point	44.7	27.8	33.6	36.2
Eyeballing-Line	38.0	21.0	24.0	26.3
Maze	13.3	0.0	0.0	0.0
Visual-Symmetry	81.9	94.9	98.5	80.1
ARC-AGI-2	1.3	1.9	0.5	5.3
视觉中心平均	40.4	41.4	42.6	43.8
文本中心平均	68.6	82.3	83.2	86.2
总平均	49.8	55.0	56.1	56.2

关键看点：Sora-2 在 eyeballing 几何题（Point/Line）和迷宫上明显反超所有 VLM——迷宫上其它模型几乎全 0，Sora-2 拿到 13.3%；但在抽象规则归纳（ARC-AGI-2）和文本通识上落后。

文本中心任务细分（部分数据集，准确率 %）¶

数据集	Sora-2 末帧	Sora-2 音频	Gemini 2.5 Pro	GPT-5 high	Claude 4.5
GSM8K	75.7	98.9	98.9	100.0	100.0
MATH-500	67.0	92.0	99.0	99.0	98.0
MathVista	67.6	75.7	70.0	67.5	72.5
MMMU	38.3	69.2	79.0	77.0	82.0
AIME24	38.3	46.7	93.3	95.0	75.0

发现：Sora-2 音频准确率普遍高于末帧准确率（因为画面里写字容易出错，而口播答案更准），在 GSM8K、MathVista 上能追平 SOTA，但在 AIME、MMMU 这类硬题上差距明显。

消融/分析实验¶

分析项	配置	关键指标	说明
测试时扩展	Arc Connect 单次	末帧 56% / Major Frame 68%	多帧采样即去噪
测试时扩展	Arc Connect 5 次投票	Major Frame 90%	self-consistency 大幅涨点
In-context 学习	ARC-AGI-2 few-shot vs 1-shot	高准确区[0.65,1] 样本 130 vs 95	多示例 → 更强 ICL
测试集泄漏	GSM8K 原题 vs 派生题（音频）	98.9% vs 100.0%	成绩稳定，排除泄漏
能力溯源	Wan 2.5 关/开 rewriter（GSM8K 末帧）	0.0% vs 78.4%	文本推理几乎全靠 rewriter
书写质量	115 个答对样本人工标注	完全正确仅 13.91%	答案对但过程常不可读

关键发现¶

Major Frame + 多次投票贡献最大：把视频推理从"勉强能用"拉到 90%，证明"在时间轴和多次生成上聚合"是视频推理涨点的主路径，也指向一个新方向——视频生成的 test-time scaling。
去掉 prompt rewriter 文本推理直接归零：这是最反直觉也最重要的发现——Sora-2 文本题的高分大概率不是视频生成在算数学，而是背后的文本改写模型先解好了题。
几何强、抽象弱：Sora-2 在需要"画出来"的几何/空间任务上反超 VLM，但在 ARC-AGI-2 这种纯抽象规则归纳上只有 1.3%，能"抓到规则大意却执行不出精确网格"。

亮点与洞察¶

把"生成视频"重新定义成"一次推理"：最让人"啊哈"的是视角转换——视频生成模型一直被当作生成工具，本文把它当作推理器，且用画线/画反射轨迹这种"可验证的视觉解题"证明它确实在做空间推理，而不只是渲染。
Major Frame 去噪是个可复用 trick：任何"答案藏在视频某帧、但结尾会被彩条/黑屏污染"的视频评测场景，都可以用"沿时间轴多帧采样 + 投票"来稳健抽取答案，思路可迁移到视频 QA、视频 agent 的输出解析。
诚实的能力溯源方法学：用一个"能开关 rewriter"的对照模型（Wan 2.5）来拆穿"是谁真正在解题"，这种归因设计可以推广到任何"黑箱里疑似有隐藏文本模型"的多模态系统评测。

局限与展望¶

作者承认 Sora-2 的文本中心推理能力很可能来自内部 prompt rewriter，而非视频生成本身——这意味着"视频会做数学"这个结论需要打折扣，视频组件真正的语言推理能力仍存疑。
视频里书写过程质量很差（完全正确仅 13.91%，43.48% 不可读/逻辑错），说明当前模型"答案蒙对"和"过程讲清"之间差距很大，离真正的可解释推理还远。
⚠️ 评测严重依赖闭源 Sora-2，且部分任务（visual puzzles）是人工挑"最佳帧"评分，复现性和客观性受限；本文更像是一份"潜力探针 + benchmark"，而非可直接训练/优化的方法，离落地推理系统还有距离。
抽象规则归纳（ARC-AGI-2）几乎做不动，提示视频范式当前只在"可视化、可画出来"的任务上有优势。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把视频生成正式当作统一多模态推理范式并系统评测，视角开创性强
实验充分度: ⭐⭐⭐⭐⭐ 五级能力 benchmark + 4 大类分析（泄漏/书写/ICL/溯源），证据链完整
写作质量: ⭐⭐⭐⭐ 主张清晰、findings 编号明确，但部分评测细节散落在附录
价值: ⭐⭐⭐⭐ 开辟"视频推理 + 视频 test-time scaling"新方向，并诚实揭示了能力来源的 caveat