Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress¶
会议: CVPR 2026
arXiv: 2603.17312
代码: HuggingFace
领域: 多模态VLM
关键词: 任务进度估计, 具身智能, 循环推理, Chain-of-Thought, 强化学习
一句话总结¶
提出 R²VLM,通过循环推理框架逐步处理本地视频片段,维护动态更新的 CoT 记录任务分解和完成状态,结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA,并支持策略学习、奖励建模、主动辅助等下游应用。
研究背景与动机¶
领域现状:具身智能体需要准确估计多步骤长时域任务的执行进度,以支持长程规划和上下文感知决策。
现有痛点: - GVL 和 ROVER 等方法仅利用 VLM 的视频理解能力和大上下文窗口,忽视了推理潜力 - 长视频轨迹的处理计算开销巨大(动辄数千帧),不适合实时部署 - 任务包含多个时间依赖的子任务,需要推理能力来对齐视觉观察与逻辑依赖
核心矛盾:全视频处理开销过大 vs 局部片段缺乏全局上下文;视频理解不足以处理复杂的时间逻辑依赖。
本文目标:高效、准确、可解释地估计长时域具身任务进度。
切入角度:像人类一样"看一段、想一下、记住关键信息"——循环处理视频片段并维护结构化记忆。
核心idea:循环推理 + 动态 CoT 作为跨时间步的记忆载体,避免处理全视频同时保持全局上下文。
方法详解¶
整体框架¶
输入视频被切成短片段 \(v_t\)(4s/2s),每次推理接收当前片段 \(v_t\) + 历史 CoT \(c_{t-1}\),输出更新后的 CoT \(c_t\) 和进度估计 \(p_t\):\(c_t, p_t = f_\theta(\tau, v_t, c_{t-1})\)。
关键设计¶
-
循环推理框架(Recurrent Reasoning):
- 初始迭代:用 VLM 的常识知识生成初始 CoT \(c_0\)(任务分解)
- 后续迭代:基于新视频片段动态调整任务分解(合并/拆分/重排步骤),更新完成状态
- 三大优势:(1) CoT 提升准确性和可解释性;(2) 历史 CoT 提供全局上下文;(3) 继承前轮推理保证逻辑一致性
- 设计动机:避免处理全长视频的冗余计算,通过 CoT 传递全局信息
-
CoT 结构设计:
- 三部分:(i) 任务分解(列出子任务);(ii) 关键步骤分析(已完成/待完成);(iii) 基于完成步骤比例的进度估计
- 每轮可以动态调整分解(环境部分可观察,分解可能与实际执行不完全对齐)
-
多维 RL 奖励系统(PPO):
- Format Reward (\(R_{fmt}\)):检查输出格式(think/answer标签),合格=1
- Bin Reward (\(R_{bin}\)):预测进度是否落在正确步骤区间,正确=1.0,相邻=0.25
- MAE Reward (\(R_{mae}\)):\(\max(1 - |p_t - p_t^{gt}|/\delta_1, 0)\),细粒度约束
- Improvement Reward (\(R_{imp}\)):鼓励新轮次预测误差小于前一轮,反映循环推理的自我修正能力
- Finish Reward (\(R_{fin}\)):正确判断任务是否完成
- 总奖励 \(R_{overall} = R_{fmt} \cdot (R_{bin} \cdot R_{mae} + \alpha R_{imp} + \beta R_{fin})\)
- 选择 PPO 而非 GRPO:因为多轮设置中 \(c_{t-1}\) 跨轨迹不同,不满足 GRPO 的同输入要求
损失函数 / 训练策略¶
两阶段:(1) SFT 学习推理模式;(2) 基于 cold-start checkpoint 的多轮 PPO 强化学习。
实验关键数据¶
主实验¶
| 模型 | 大小 | ALFRED \(p_{mae}\)↓ | ALFRED \(bin\)↑ | Ego4D \(p_{mae}\)↓ | Ego4D \(bin\)↑ |
|---|---|---|---|---|---|
| GPT-5 | - | 18.35 | 0.505 | 25.04 | 0.259 |
| Gemini-2.5-Pro | - | 16.27 | 0.481 | 28.22 | 0.217 |
| Qwen2.5-VL-72B | 72B | 24.88 | 0.342 | 26.88 | 0.254 |
| R²VLM (SFT+RL) | 7B | 6.34 | 0.758 | 11.88 | 0.526 |
消融实验¶
| 配置 | ALFRED \(p_{mae}\)↓ | 说明 |
|---|---|---|
| SFT only | 7.52 | 基础监督微调 |
| + RL (w/o \(R_{imp}\)) | 6.89 | 缺少跨轮次改进信号 |
| + RL (w/o \(R_{bin}\)) | 7.11 | 缺少粗粒度步骤约束 |
| Full R²VLM | 6.34 | 所有奖励组合最优 |
关键发现¶
- 7B 的 R²VLM 全面超越 GPT-5 和 Gemini-2.5-Pro,MAE 降低 65%+
- Improvement Reward 对多轮推理贡献显著,体现了循环推理中自我修正的价值
- 在进度增强策略学习、奖励建模、主动辅助三个下游任务中均展现强泛化
- 循环推理避免处理全视频,推理速度远快于全局方法
亮点与洞察¶
- 循环推理 + CoT 作为记忆:将 CoT 从一次性推理工具扩展为跨时间步的结构化记忆载体,既保持全局一致性又避免长视频计算,可以迁移到任何需要长时间跨度推理的 VLM 任务
- Improvement Reward 设计:奖励跨轮次的误差减少,直接度量模型的自我修正能力,这是多轮推理场景下的独特设计
- 自动化数据生成管线:将 ALFRED/Ego4D 的专家轨迹自动转化为视频片段+CoT 训练数据,包括 distractor 任务描述的生成策略
- 多下游应用验证:不仅做进度估计,还展示了作为 RL 奖励模型和主动辅助系统的价值
局限与展望¶
- CoT 的步骤分解质量严重依赖 VLM 的常识推理能力,复杂新任务可能分解不准确
- ALFRED 是仿真环境,真实世界(Ego4D)的性能仍有较大差距
- 每个片段固定长度(4s/2s),未考虑动态调整片段粒度
- 仅基于 Qwen2.5-VL-7B,在更大/更强模型上的效果未验证
相关工作与启发¶
- vs GVL / ROVER:它们依赖 VLM 的 ICL 和大上下文窗口,不做推理,性能在复杂长时域任务上受限。R²VLM 通过循环推理和 RL 显著提升
- vs 分层奖励方法:传统方法需要手动设计任务层次分解,R²VLM 通过训练自动习得分解和推理策略
补充分析¶
- 进度定义基于步骤比例而非时间比例,更好地反映长时域任务结构,因为不同步骤耗时差异很大
- Distractor 任务的生成策略很巧妙:强制前 \(n_r\) 步与原任务一致但后续步骤不同,使得进度可以精确控制
- 人工审核的 benchmark 保留率 ALFRED 93%、Ego4D 74%,说明自动生成的数据质量较高
- 选择 PPO 而非 GRPO 的原因是技术性的:GRPO 需要从同一输入生成多个候选,但循环设置中每条轨迹的 \(c_{t-1}\) 不同
- Improvement Reward 的不对称范围 [-1, 0.8] 放大了误差增加的惩罚,鼓励保守但稳定的进度估计
评分¶
- 新颖性: ⭐⭐⭐⭐ 循环推理+CoT记忆的框架设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集四个指标三个下游应用
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详尽
- 价值: ⭐⭐⭐⭐⭐ 对具身AI的进度估计和奖励建模具有重要意义