ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=xindJJLSr1
代码: 项目页见论文（Project Page）
领域: 多模态VLM / 视频理解 / LLM推理
关键词: 视频推理, RLVR, 智能体数据合成, ReAct, 过程奖励

一句话总结¶

针对复杂视频推理缺乏高质量训练数据这一瓶颈，本文用一条多阶段「智能体数据合成」流水线造出 ReWatch 数据集（分级字幕 + 高难度 QA + 重看式 CoT），再用 SFT + 带「观察与推理（O&R）」奖励的 RLVR 把 Qwen2.5-VL-7B 训成 ReWatch-R1，在五个高难视频推理基准上拿下同尺寸 SOTA。

研究背景与动机¶

领域现状：把「SFT + 可验证奖励强化学习（RLVR）」这套范式用到图像推理上已经很成熟，社区也开始往视频推理迁移——典型做法是先用现成的简单视频 QA 数据集合成一批 CoT 去做 SFT 冷启动，再上 RLVR。

现有痛点：作者指出主流开源视频推理数据有三个硬伤：(1) 字幕是「整段、无时间戳」的笼统描述，把时序结构抹平了；(2) QA 太简单、偏感知，看几帧短片段甚至靠文本常识就能答；(3) 合成的 CoT「视觉不忠实」，靠常识和排除法蒙答案而不是真去看视频。结果 SFT 根本教不会「基于视频内容的推理」，后续 RL 又因为只有「最终答案对不对」这一个奖励信号，没法惩罚中间步骤里的幻觉。

核心矛盾：视频推理的根基是「reasoning grounded in video content」，但现有数据和奖励都只盯最终答案，模型学到的是「编一条看起来合理的推理链」而非「真的去视频里检索证据并核对」。数据瓶颈和奖励瓶颈是一对耦合的死结。

本文目标：拆成两件事——(a) 造一个时序密集、难度高、且推理链真正落在视频证据上的数据集；(b) 设计一个能同时奖励「过程忠实」和「结果正确」的 RL 奖励。

切入角度：作者观察到人类回答复杂视频问题时会「重看（re-watch）」——带着问题反复定位、检索、核对片段。于是用多智能体 ReAct 框架去显式模拟这个「检索 + 验证」过程，把人类的重看行为变成可合成的、带 <action>/<observation> 标签的推理轨迹。

核心 idea：用「智能体合成的高保真数据」补数据瓶颈，用「观察与推理双重奖励」补奖励瓶颈，让模型学会先在视频里取证、再据证推理。

方法详解¶

整体框架¶

方法分两大块。第一块是 ReWatch 数据集构建：一条三阶段流水线，从原始长视频出发，依次产出 ReWatch-Caption-10k（时间戳密集的分级字幕）、ReWatch-QA-170k（对比生成 + 三层过滤的高难度 QA）、ReWatch-CoT-135k（双智能体 ReAct 合成的重看式推理链）。第二块是 两阶段后训练：先用三个子数据集做多任务 SFT，让模型同时具备视频-文本对齐、直接作答（non-thinking）和分步推理（thinking）三种能力；再以 GRPO + 新设计的 O&R 奖励做 RLVR，把「会写推理链的形」升级为「会基于证据推理的神」，最终得到 ReWatch-R1。

整条流水线四个贡献节点串成：分级字幕给后续一切提供高保真的文本底座 → 高难度 QA 提供「短片段答不出来」的难题 → 多智能体 CoT 把答题过程拆成可核对的检索-观察轨迹 → O&R 奖励在 RL 阶段拿这些轨迹算「观察是否落在视频上、推理是否足以导出答案」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["长视频语料<br/>(5 个公开数据集)"] --> B["分级动态帧率字幕<br/>语义切段→高帧率描述→时间戳重对齐"]
    B --> C["对比式高难度 QA + 三层过滤<br/>详细字幕能答、摘要答不出"]
    C --> D["双智能体 ReAct 重看式 CoT 合成<br/>Reasoner 出动作、Observer 取观察"]
    D -->|三数据集多任务 SFT| E["ReWatch-R1-SFT<br/>对齐 / 直答 / 分步推理"]
    E -->|GRPO + O&R 奖励| F["ReWatch-R1<br/>证据落地的视频推理"]

关键设计¶

1. 分级动态帧率字幕：把长视频拆成时序精确又不幻觉的文本底座

直接让 LVLM 一口气描述一整段长视频，要么丢时序、要么编内容（幻觉）。作者用 Hierarchical Dynamic Frame-Rate Generation 解决：先用一个分段模型 $M_{seg}$ 在低帧率下把视频按语义切成 $k$ 段 $S=\{s_1,\dots,s_k\}=M_{seg}(V)$，只对超过 10 分钟的长视频做切分，且每段约 10 分钟、保证叙事完整（不像定长切分会割裂事件）；再用强力 LVLM $M_{cap}$ 对每段 $s_i$ 在高帧率下生成带相对时间戳的细粒度描述 $D^{rel}_i=\{(c_{ij},\tau_{ij})\}_{j=1}^{m_i}$；最后用 $t_{ij}=t^{start}_i+\tau_{ij}$ 把段内相对时间戳还原成全局绝对时间戳，合并成整段字幕 $C_{detail}(V)$。「低帧率粗切、高帧率细描、再对齐时间戳」这套分级流程，既拿到了密集时序，又避免了 LVLM 直接处理长视频时的幻觉，给后面所有阶段提供了可信文本代理。

2. 对比式高难度 QA + 三层过滤：逼出「看短片段答不出来」的真难题

简单 QA 是 SFT/RL 学不会推理的根源，所以这一阶段专门造难题并把「能走捷径的题」全过滤掉。对比生成是关键 trick：先用轻量 LLM 把详细字幕压成摘要 $C_{sum}=M_{sum}(C_{detail})$，再让生成器 $M_{qa}(C_{detail},C_{sum})$ 专门造「详细字幕能答、但光看摘要答不出」的题，天然指向细粒度细节而排除掉琐碎题。接着是三层级联过滤：F1 答案核验，验证器确认答案在 $C_{detail}$ 下事实正确；F2 文本偏置消除，用一组探针 LLM $M_{probe}$ 直接问，只有当 $\frac{1}{|M_{probe}|}\sum_M \mathbf{1}(M(Q)\approx A)<\theta_{text}$（即靠常识答不出）才通过；F3 摘要偏置消除，同理要求 $\frac{1}{|M_{probe}|}\sum_M \mathbf{1}(M(Q,C_{sum})\approx A)<\theta_{sum}$（即靠摘要也答不出）。通过三层的 85k 题再被改写成多选题，最终得到 170k QA。这套设计把「文本先验」「摘要捷径」两条偷懒路径都堵死，保证问题真正依赖视频。

3. 双智能体 ReAct 重看式 CoT 合成：把人类「带问题反复定位核对」的过程变成可训练轨迹

要让 CoT「视觉忠实」，就得让推理链显式记录「去哪取证、看到了什么」。作者设两个智能体：Reasoner $A_R$ 负责产出思考 $T$ 和动作 $Act$，Observer $A_O$ 负责在字幕上执行动作、返回观察 $Obs$。每一步 $(T_t,Act_t)=A_R(H_{t-1})$ 依据历史决定下一步，$Obs_t=A_O(Act_t,C_{detail})$ 取回信息，循环直到给出答案。两个核心动作正是对「重看」的模拟：segment_retrieval(query) 用自然语言查某事件的时间戳，segment_query(timestamp) 按时间戳取该事件的细节描述。关键工程取舍是：Observer 从 Stage 1 的高保真字幕（而非原始像素）取证——人工核查确认分级字幕已足够细粒度，可当作视觉内容的高保真代理，这让数据合成的效率和可扩展性远高于逐像素方法。最后结构化轨迹 $T=\{(T_1,Act_1,Obs_1),\dots,(A_{final})\}$ 由 $M_{convert}$ 转成带 <action>/<observation> 标签的自然语言 CoT，直接可用于 SFT 和 O&R 奖励计算。

4. 观察与推理（O&R）奖励：同时奖励「观察落在视频上」和「推理足以导出答案」

只用最终答案准确率 $r_{acc}=M_{judge}(A,A_{gt})$ 当奖励，会放任模型用幻觉蒙对答案。作者把视频问答建模成「Video+Question → Observations+Reasoning → Answer」的序列流，拆出两路过程奖励。观察奖励：先 $\{Act_i,Obs_i\}_{i=1}^N=\text{Parse}(R)$ 解析出动作与观察，再 $r_{obs}=\text{mean}(\{M_{judge}(C_{detail},\{Act_i,Obs_i\})\}_{i=1}^N)$ 拿每条观察和详细字幕比对，度量「观察是不是真有视频依据」。推理奖励：用一个 LLM $A_{ao}=M_{infer}(Q,\{Act_i,Obs_i\}_{i=1}^N)$ 只凭动作和观察去答题，$r_{rea}=M_{judge}(A_{ao},A_{gt})$——如果光靠这些观察就能答对，说明推理过程有效且充分。最终奖励为 $$r_{O\&R} = r_{acc}\times(1+r_{obs}+r_{rea})+r_{fmt}$$ 其中 $r_{fmt}$ 是格式奖励（标签齐全为 1，否则 0）。乘性结构很讲究：只有答对（$r_{acc}=1$）时过程奖励才被放大，避免了「过程编得好看但答错」也拿高分；同时显式惩罚幻觉、强化证据链，比纯结果奖励更能逼出逻辑一致的推理。优化用 GRPO 完成。

损失函数 / 训练策略¶

SFT 阶段是多任务复合损失 $L_{SFT}=L_{Cap}+L_{QA}+L_{CoT}$：$L_{Cap}=-\mathbb{E}[\log\pi_\theta(C_{detail}|V)]$ 学视频-文本对齐；$L_{QA}=-\mathbb{E}[\log\pi_\theta(A|V,I_{direct},Q)]$ 学直接作答（non-thinking）；$L_{CoT}=-\mathbb{E}[\log\pi_\theta(R|V,I_{think},Q)]$ 学分步推理（thinking）。三任务并行优化，并用不同指令提示让模型在「直答 / 思考」两种模式间切换。RL 阶段在 ReWatch-QA 上用 GRPO + O&R 奖励微调该 SFT 策略。数据规模：10k 字幕 / 170k QA / 135k CoT。

实验关键数据¶

主实验¶

在 Qwen2.5-VL-7B 上训练，于五个视频推理基准上对比同尺寸 LVLM（192 帧设置，Thinking 模式）。

模型	VCR-Bench	MINERVA	Video Holmes	VideoMathQA	CG-AV-Counting	平均
Qwen2.5-VL-7B（base, 直答）	36.75	33.19	38.87	24.76	19.96	30.71
Video-R1	32.69	32.36	41.97	25.95	22.01	31.00
GLM4.1V-9B	34.53	33.75	38.98	27.38	21.32	31.19
LongVideoReason-RL†	35.30	35.01	43.49	23.57	20.55	31.58
ReWatch-R1-SFT	35.78	35.43	39.52	30.00	25.51	33.25
ReWatch-R1	40.14	35.70	43.00	30.71	24.73	34.86
ReWatch-R1 + O&R	40.43	36.05	43.88	31.67	25.51	35.51

要点：(1) 仅 SFT 的 ReWatch-R1-SFT（33.25%）就超过同配置的 Video-R1-SFT（29.74%）和 LongVideoReason-SFT（26.31%），说明 CoT 数据质量本身就是分水岭；(2) RL 把 33.25% → 34.86%，O&R 奖励再加到 35.51%，逐级抬升；(3) 对未训练的 base 开 Thinking 反而掉点（27.54% vs 直答 30.71%），证明「会思考」必须先「学会怎么思考」。

消融实验¶

CoT 数据与 QA 数据质量的消融（综合「All / Reasoning / Understanding」准确率）：

配置	All	Reasoning	Understanding	说明
ReWatch-R1（完整）	43.3	34.9	53.9	完整模型
用 Video-R1-CoT 做 SFT	39.8	30.3	51.7	换低质 CoT，掉 3~4.6 点
w/o SFT（直接 RL）	38.9	30.1	50.0	去掉 SFT 冷启动
w/o SFT & RL（base）	35.5	26.4	46.9	原始 base
RL on 我们的 QA	42.8	34.8	52.8	高难 QA 给的奖励信号更强
RL on baseline QA	42.0	34.3	51.7	简单 QA 信号弱

关键发现¶

SFT 是 RL 的必要前提：去掉 SFT 直接 RL 出现灾难性掉点，RL 需要一个强初始策略，光靠 RL 起不来。
CoT 数据质量决定上限：把自家 ReWatch-CoT 换成 Video-R1-CoT，Reasoning 从 34.9% 掉到 30.3%，验证多智能体框架产出的语料确实更适合复杂推理。
高难 QA 提供更强奖励信号：QA 复杂度分析显示 ReWatch-QA 平均 3.31 个 <action>、响应更长（398.75 vs 205.74），且「纯文本（不看视频）正确率」仅 29.4%，而 Video-R1-QA 高达 68.9%——后者大量题靠文本就能答，几乎给不了有效的视频推理奖励。
O&R 的乘性结构：过程奖励只在答对时放大，既奖励忠实观察又不奖励「编得好看却答错」的链。

亮点与洞察¶

用文本字幕当视觉代理来合成轨迹：Observer 在高保真字幕（而非像素）上检索，让「重看式」CoT 合成的成本和可扩展性都大幅下降，这是把 ReAct 用到视频数据合成上的关键工程取舍——而且作者指出这些 Thought-Action-Observation 轨迹可为未来「直接 query 视觉编码器」的 thinking-with-video 模型打底。
对比生成 + 三层过滤是一套可迁移的「难题构造器」：「详细能答、摘要答不出」加上「文本/摘要双偏置过滤」，本质是系统化剔除走捷径的题，这个思路可直接迁到任何需要造高难度、强依赖证据 QA 的模态。
过程奖励的「可恢复性」定义很巧：用「只给观察能否答对（$r_{rea}$）」来定义推理是否充分，把抽象的「推理质量」转成可验证信号，比纯启发式打分更扎实。

局限与展望¶

合成全程基于文本字幕：Observer 取证、O&R 算观察奖励都依赖 Stage 1 字幕的保真度，字幕一旦漏掉或编错事件，下游 QA/CoT/奖励会一路被污染；作者也承认当前是 text-based 模拟，尚未直接 query 视觉。
依赖多个外部大模型当裁判/探针：$M_{seg}/M_{cap}/M_{qa}/M_{verify}/M_{probe}/M_{judge}/M_{infer}$ 串成长链，过滤阈值 $\theta_{text},\theta_{sum}$ 与裁判一致性都会影响数据质量，复现成本高、对裁判偏差敏感。
只在 7B（Qwen2.5-VL）上验证：O&R 与数据在更大或异构骨干上的增益是否保持、对超长视频（>10 分钟切段策略）的鲁棒性，文中着墨有限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把多智能体 ReAct「重看」用于视频 CoT 合成 + O&R 双过程奖励，两条创新都直击数据/奖励双瓶颈。
实验充分度: ⭐⭐⭐⭐ 五推理 + 四理解基准、192/384 帧双设置、CoT/QA/SFT 多维消融，但仅单一 7B 骨干。
写作质量: ⭐⭐⭐⭐ 流水线与公式交代清晰，图 2/3/4 把数据对比和框架讲得直观。
价值: ⭐⭐⭐⭐⭐ 数据集（10k/170k/135k）+ 奖励范式可直接复用，对推动视频推理有实打实的工程价值。