Find, Fix, Reason: Context Repair for Video Reasoning¶

会议: ICML 2026
arXiv: 2604.16243
代码: 有 (FFR, 匿名链接)
领域: 多模态VLM / 视频推理 / 强化学习
关键词: 视频推理, GRPO, 工具集成教师, 上下文修复, 时空依赖

一句话总结¶

本文针对视频推理中"on-policy RL 在能力天花板停滞、off-policy 蒸馏又会熵塌缩"的两难，引入一个冻结的、工具集成的大教师模型在学生 rollout 失败时插入最小化的"证据补丁" (key-frame 区间、错误类型)，让学生在同一问题上重新作答，并把修复后的轨迹通过 chosen-rollout 机制纳入 GRPO 优化。

研究背景与动机¶

领域现状：基于 GRPO 的视频推理 LMM (Video-R1、VideoRFT、VideoChat-R1) 普遍走纯 on-policy RLVR 路线，奖励是验证答案正确性的 0/1 二元信号。这种范式在文本数学推理上成功了，但视频里时空依赖复杂、推理模板少，self-exploration 容易触到模型自身的能力上限就开始原地震荡。

现有痛点：三条已有"破壁"路线都有死穴：(a) hybrid policy (LUFFY、Replay) 把强教师轨迹塞进 buffer，缓解熵塌缩但仍是 wholesale imitation，且需要精心调正则；(b) 工具集成 reasoner (Pixel-Reasoner、Video-Thinker) 让小模型自己多轮调用工具检索证据，但能力上限被小模型的工具调用准确度卡住，常陷入 "self-doubt" 循环；(c) SFT teacher 蒸馏简单但会让学生失去 on-policy 探索能力。

核心矛盾：学生模型的能力上限 vs 教师指导带来的分布漂移之间的 trade-off——你给学生看的越多，它就越变成教师的复制品；你给得太少又突破不了自己的天花板。问题本质是 granularity of intervention：是应该改 reward？改 trajectory？改 observation？

本文目标：找一种"观察层级 (observation-level)"的干预，既不改任务、不改奖励、不改策略，只改学生看到的"证据"，从而保留 on-policy 性质又能向因果方向引导探索。

切入角度：作者观察到大模型 (GLM-4.5V) 在 instruction following 和工具使用上比 7B 学生强很多，能可靠地诊断"学生这次错在哪个时空依赖"，并通过简单工具 (frame range、object region) 快速定位证据。

核心 idea：让冻结的工具集成大教师扮演"诊断师"，对学生的失败 rollout 输出最小化证据补丁 \(c_i\) (e.g. "重新看第 13-17 帧、注意被举起的物体颜色")，但不直接告诉答案；学生在原问题 + 补丁条件下再答一次，把修复后的 trajectory 作为 chosen rollout 纳入 GRPO 更新。

方法详解¶

整体框架¶

每个 video-question pair \(x=(v,q)\) 走两阶段：① 学生用 \(\pi_{\theta_{old}}\) 采样 \(G\) 条 first-pass rollout \(\{\tau_i\}\) 并经 verifier 评分；② 对失败的 \(\tau_i\) (\(z_i=0\))，冻结教师 \(\mathcal{T}\) 输出错误类型 \(e_i\in\{\)temporal, spatial, attribute, counting, dynamics, logic\(\}\) 和证据补丁 \(c_i\)，学生用 \(\pi_{\theta_{old}}(\cdot|x,c_i)\) 重采得修复 rollout \(\tau_i^*\)；正确的 \(\tau_i\) 直接保留。最终用 "chosen rollout" \(\hat\tau_i\) (\(z_i=1\) 用 \(\tau_i\)，否则用 \(\tau_i^*\)) 计算 token-level importance ratio 做 GRPO 更新。

关键设计¶

零泄漏的教师证据补丁 (Teacher Negative Constraint Strategy):
- 功能：让教师诊断错误并给出引导，但绝不直接给答案选项或终态。
- 核心思路：教师收到的数据包 \(\mathcal{S}_i=(x,y,\tau_i)\) (含 GT) 或 \((x,\tau_i)\) (无 GT)，通过精心设计的 negative prompt + format constraint 输出 \((e_i,c_i)\)。例如 counting 任务里不允许说 "frame 15 里恰好 3 个人"，只能说 "请在 [13,17] 帧区间内重新计数"；temporal 任务里只给帧区间和事件描述，禁止暗示先后关系。作者人工验证 200 次交互，泄漏率从无约束的 39.5% 降到 0%。
- 设计动机：传统 metric 难以覆盖视频任务里所有"软泄漏"的边缘情况，所以利用教师自身的 ICL 能力，用 prompt 工程把"诊断"和"答案"分离——让学生被迫去重新观察，而不是直接套用答案。
Chosen Rollout 与鲁棒改进奖励 RIR:
- 功能：在 GRPO 框架里既只让"被采用的那条 rollout"反向传播，又让群组归一化的 advantage 把"修复成功"的 rollout 转化为有效梯度方向。
- 核心思路：定义 chosen rollout \(\hat\tau_i\) 后，每条样本的标量分数为 \(\tilde R_i=z_i(R(\tau_i)+R_{fmt}(\tau_i))+(1-z_i)(R(\tau_i^*)+R_{fmt}(\tau_i^*)-\kappa)\)，其中 \(\kappa\ge 0\) 是 patch tax 用于惩罚依赖教师补丁。在 \(G\) 条样本内做群组归一化得到 \(A_i=(\tilde R_i-\text{mean})/\text{std}\)，并用 token-level ratio \(r_{i,t}(\theta)\) 在 PPO clip 框架下更新。
- 设计动机：把"修复后的轨迹"等价为同一策略在不同 observation 下的 on-policy 样本，规避了 off-policy 重要性采样的不稳定；patch tax \(\kappa=0.3\) 是最优——太小学生过度依赖教师，太大教师指导被抵消。
交替错误分类驱动的工具调用:
- 功能：教师按错误类型 (temporal/spatial/attribute/counting/dynamics/logic) 选择对应工具，输出的证据是 textual error class + 可选 visual context (frame indices, region masks)。
- 核心思路：每种错误类型对应一组工具：temporal 输出帧区间，spatial 输出区域坐标，attribute 输出物体特征描述等。这些信号被组装成 \(c_i\) 注入到学生的 prompt 里。消融显示：去掉 visual context 后 Video-Holmes 掉 10.0 个点，去掉 GT reference 掉 7.6 个点，证明这两类信号互补且都关键。
- 设计动机：不同错误根因需要不同粒度的修复信号，统一格式 (only text) 或同质 (only visual) 都会丢信息；错误分类把"该看哪里"具象化。

损失函数 / 训练策略¶

GRPO 目标 \(\mathcal{J}_{FFR}(\theta)=\tfrac{1}{\sum|\hat\tau_i|}\sum_i\sum_{t\in\hat\tau_i}\text{CLIP}(r_{i,t}(\theta),A_i,\epsilon)-\beta D_{KL}[\pi_\theta\|\pi_{ref}]\)，只对 chosen rollout 的 token 计算 loss。训练数据 4000 样本，8 rollouts/sample，1 epoch，lr=5e-6，8×A100，教师默认 GLM-4.5V。

实验关键数据¶

主实验¶

在 4 个视频推理 (MMVU/VSI-Bench/VideoMMMU/Video-Holmes) + 4 个通用视频理解 (LongVideoBench/LVBench/MVBench/TempCompass) 基准上对比 7B 学生。

基线/方法	MMVU	VSI-Bench	Video-Holmes	LVBench
GPT-4o	75.4	34.0	42.0	48.9
GLM-4.5V (教师)	68.7	-	-	53.8
Video-R1	63.8	35.8	36.5	35.3
+ FFR	68.5	38.9	52.3	38.1
相对提升	+11.75%	+22.33%	+51.16%	+24.10%
VideoRFT	68.5	36.8	40.0	33.9
+ FFR	70.1	38.6	48.0	37.8

最惊人的是 Video-Holmes (因果叙事推理) 上 7B 学生反超 GPT-4o 10 个点。

消融实验¶

配置	MMVU	Video-Holmes
vanilla GRPO	60.3	45.6
SFT + T-GRPO (Video-R1)	63.8	36.5
FFR (no visual context)	64.4	42.3
FFR (no GT reference)	63.7	44.7
FFR Full	68.5	52.3
SFT-Teacher 32B	63.9	43.3
SFT-Teacher 235B	67.4	47.1
FFR (teacher=32B)	67.9	47.8
FFR (teacher=235B)	68.2	51.6

关键发现¶

FFR + 32B 教师 (51.2 平均) 已经超过 SFT + 235B 教师 (50.7)，说明"靶向干预"比"全量蒸馏"数据效率高得多。
干预比率从训练早期 26.3% 降到后期 13.7%，准确率却从 77.5% 升到 80.2%——学生确实把教师的诊断能力内化了，不是依赖性的"作弊"。
错误分布：misconception 41.2% > spatial 32% > temporal 26.8%；学生主要错在"理解问题问什么"而不是"看不到图像"，正好对应 FFR 的干预策略。

亮点与洞察¶

"observation-level intervention" 这个粒度是真正的创新点：之前的工作要么改 reward (改下游)、要么改 trajectory (改输出)、要么改 policy (改参数)，FFR 只改学生看到的东西——这是最轻量但最有针对性的干预。
教师"诊断 ≠ 答题"的反直觉发现：教师不需要回答正确，只需要诊断学生错在哪。这意味着可以用 "diagnostic-only" 蒸馏方式让小学生超过教师，文章里 Qwen3-VL-8B + FFR 在 Video-Holmes 上反超 32B 教师 6 个点就是证据。
patch tax \(\kappa\) 这个细节：用一个标量惩罚 "用了补丁才答对" 的样本，逼学生在 advantage 排序里把"独立答对"排到"靠教师答对"之前，巧妙地把模仿与探索的张力转化为一个可调超参。

局限与展望¶

教师每条失败 rollout 都要调用一次 (含图像理解 + 工具调用)，训练时计算开销大；论文用 GLM-4.5V 是基于 Pareto 最优的成本-精度权衡，但仍比纯 RLVR 贵几倍。
没有讨论教师本身有偏差时会怎样——比如教师在某类问题上系统错诊断，学生会被一路带偏；只靠 prompt 工程做泄漏防控，没数学保证。
实验只覆盖 Qwen2.5-VL 系列和 Qwen3-VL，对 InternVL、Llava 等其他架构的迁移性未验证。
"intervention ratio 下降"被解读为"能力内化"，但也可能是 reward 漂移或者数据分布漂移；没有 trajectory probing 实验严格区分。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "observation-level intervention" 这个粒度选择很新颖，配合 zero-leakage prompt design 与 chosen rollout，构成一个完整的新范式。
实验充分度: ⭐⭐⭐⭐⭐ 8 benchmark × 2 base model × 多种 teacher × 跨规模/跨架构的 ablation + 干预动态分析 + 错误分布分析，非常全面。
写作质量: ⭐⭐⭐⭐ Figure 1 把四种 paradigm 对比讲得很清晰，case study (Figure 3) 有教学价值；公式部分稍嫌密集。
价值: ⭐⭐⭐⭐⭐ 7B 学生超 GPT-4o 这个结果实用性很强，且方法可以无缝插入任何 GRPO 训练 pipeline。