Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress¶

会议: CVPR 2026
arXiv: 2603.17312
代码: HuggingFace
领域: 多模态VLM
关键词: 任务进度估计, 具身智能, 循环推理, Chain-of-Thought, 强化学习

一句话总结¶

提出 R²VLM，通过循环推理框架逐步处理本地视频片段，维护动态更新的 CoT 记录任务分解和完成状态，结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA，并支持策略学习、奖励建模、主动辅助等下游应用。

研究背景与动机¶

领域现状：具身智能体需要准确估计多步骤长时域任务的执行进度，以支持长程规划和上下文感知决策。

现有痛点： - GVL 和 ROVER 等方法仅利用 VLM 的视频理解能力和大上下文窗口，忽视了推理潜力 - 长视频轨迹的处理计算开销巨大（动辄数千帧），不适合实时部署 - 任务包含多个时间依赖的子任务，需要推理能力来对齐视觉观察与逻辑依赖

核心矛盾：全视频处理开销过大 vs 局部片段缺乏全局上下文；视频理解不足以处理复杂的时间逻辑依赖。

本文目标：高效、准确、可解释地估计长时域具身任务进度。

切入角度：像人类一样"看一段、想一下、记住关键信息"——循环处理视频片段并维护结构化记忆。

核心idea：循环推理 + 动态 CoT 作为跨时间步的记忆载体，避免处理全视频同时保持全局上下文。

方法详解¶

整体框架¶

输入视频被切成短片段 \(v_t\)（4s/2s），每次推理接收当前片段 \(v_t\) + 历史 CoT \(c_{t-1}\)，输出更新后的 CoT \(c_t\) 和进度估计 \(p_t\)：\(c_t, p_t = f_\theta(\tau, v_t, c_{t-1})\)。

关键设计¶

循环推理框架（Recurrent Reasoning）:
- 初始迭代：用 VLM 的常识知识生成初始 CoT \(c_0\)（任务分解）
- 后续迭代：基于新视频片段动态调整任务分解（合并/拆分/重排步骤），更新完成状态
- 三大优势：(1) CoT 提升准确性和可解释性；(2) 历史 CoT 提供全局上下文；(3) 继承前轮推理保证逻辑一致性
- 设计动机：避免处理全长视频的冗余计算，通过 CoT 传递全局信息
CoT 结构设计:
- 三部分：(i) 任务分解（列出子任务）；(ii) 关键步骤分析（已完成/待完成）；(iii) 基于完成步骤比例的进度估计
- 每轮可以动态调整分解（环境部分可观察，分解可能与实际执行不完全对齐）
多维 RL 奖励系统（PPO）:
- Format Reward (\(R_{fmt}\))：检查输出格式（think/answer标签），合格=1
- Bin Reward (\(R_{bin}\))：预测进度是否落在正确步骤区间，正确=1.0，相邻=0.25
- MAE Reward (\(R_{mae}\))：\(\max(1 - |p_t - p_t^{gt}|/\delta_1, 0)\)，细粒度约束
- Improvement Reward (\(R_{imp}\))：鼓励新轮次预测误差小于前一轮，反映循环推理的自我修正能力
- Finish Reward (\(R_{fin}\))：正确判断任务是否完成
- 总奖励 \(R_{overall} = R_{fmt} \cdot (R_{bin} \cdot R_{mae} + \alpha R_{imp} + \beta R_{fin})\)
- 选择 PPO 而非 GRPO：因为多轮设置中 \(c_{t-1}\) 跨轨迹不同，不满足 GRPO 的同输入要求

损失函数 / 训练策略¶

两阶段：(1) SFT 学习推理模式；(2) 基于 cold-start checkpoint 的多轮 PPO 强化学习。

实验关键数据¶

主实验¶

模型	大小	ALFRED \(p_{mae}\)↓	ALFRED \(bin\)↑	Ego4D \(p_{mae}\)↓	Ego4D \(bin\)↑
GPT-5	-	18.35	0.505	25.04	0.259
Gemini-2.5-Pro	-	16.27	0.481	28.22	0.217
Qwen2.5-VL-72B	72B	24.88	0.342	26.88	0.254
R²VLM (SFT+RL)	7B	6.34	0.758	11.88	0.526

消融实验¶

配置	ALFRED \(p_{mae}\)↓	说明
SFT only	7.52	基础监督微调
+ RL (w/o \(R_{imp}\))	6.89	缺少跨轮次改进信号
+ RL (w/o \(R_{bin}\))	7.11	缺少粗粒度步骤约束
Full R²VLM	6.34	所有奖励组合最优

关键发现¶

7B 的 R²VLM 全面超越 GPT-5 和 Gemini-2.5-Pro，MAE 降低 65%+
Improvement Reward 对多轮推理贡献显著，体现了循环推理中自我修正的价值
在进度增强策略学习、奖励建模、主动辅助三个下游任务中均展现强泛化
循环推理避免处理全视频，推理速度远快于全局方法

亮点与洞察¶

循环推理 + CoT 作为记忆：将 CoT 从一次性推理工具扩展为跨时间步的结构化记忆载体，既保持全局一致性又避免长视频计算，可以迁移到任何需要长时间跨度推理的 VLM 任务
Improvement Reward 设计：奖励跨轮次的误差减少，直接度量模型的自我修正能力，这是多轮推理场景下的独特设计
自动化数据生成管线：将 ALFRED/Ego4D 的专家轨迹自动转化为视频片段+CoT 训练数据，包括 distractor 任务描述的生成策略
多下游应用验证：不仅做进度估计，还展示了作为 RL 奖励模型和主动辅助系统的价值

局限与展望¶

CoT 的步骤分解质量严重依赖 VLM 的常识推理能力，复杂新任务可能分解不准确
ALFRED 是仿真环境，真实世界（Ego4D）的性能仍有较大差距
每个片段固定长度（4s/2s），未考虑动态调整片段粒度
仅基于 Qwen2.5-VL-7B，在更大/更强模型上的效果未验证

补充分析¶

进度定义基于步骤比例而非时间比例，更好地反映长时域任务结构，因为不同步骤耗时差异很大
Distractor 任务的生成策略很巧妙：强制前 \(n_r\) 步与原任务一致但后续步骤不同，使得进度可以精确控制
人工审核的 benchmark 保留率 ALFRED 93%、Ego4D 74%，说明自动生成的数据质量较高
选择 PPO 而非 GRPO 的原因是技术性的：GRPO 需要从同一输入生成多个候选，但循环设置中每条轨迹的 \(c_{t-1}\) 不同
Improvement Reward 的不对称范围 [-1, 0.8] 放大了误差增加的惩罚，鼓励保守但稳定的进度估计

评分¶

新颖性: ⭐⭐⭐⭐ 循环推理+CoT记忆的框架设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集四个指标三个下游应用
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详尽
价值: ⭐⭐⭐⭐⭐ 对具身AI的进度估计和奖励建模具有重要意义