跳转至

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

会议: CVPR 2026
arXiv: 2603.17312
代码: HuggingFace
领域: 多模态VLM
关键词: 任务进度估计, 具身智能, 循环推理, Chain-of-Thought, 强化学习

一句话总结

提出 R²VLM,通过循环推理框架逐步处理本地视频片段,维护动态更新的 CoT 记录任务分解和完成状态,结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA,并支持策略学习、奖励建模、主动辅助等下游应用。

研究背景与动机

领域现状:具身智能体需要准确估计多步骤长时域任务的执行进度,以支持长程规划和上下文感知决策。

现有痛点: - GVL 和 ROVER 等方法仅利用 VLM 的视频理解能力和大上下文窗口,忽视了推理潜力 - 长视频轨迹的处理计算开销巨大(动辄数千帧),不适合实时部署 - 任务包含多个时间依赖的子任务,需要推理能力来对齐视觉观察与逻辑依赖

核心矛盾:全视频处理开销过大 vs 局部片段缺乏全局上下文;视频理解不足以处理复杂的时间逻辑依赖。

本文目标:高效、准确、可解释地估计长时域具身任务进度。

切入角度:像人类一样"看一段、想一下、记住关键信息"——循环处理视频片段并维护结构化记忆。

核心idea:循环推理 + 动态 CoT 作为跨时间步的记忆载体,避免处理全视频同时保持全局上下文。

方法详解

整体框架

输入视频被切成短片段 \(v_t\)(4s/2s),每次推理接收当前片段 \(v_t\) + 历史 CoT \(c_{t-1}\),输出更新后的 CoT \(c_t\) 和进度估计 \(p_t\)\(c_t, p_t = f_\theta(\tau, v_t, c_{t-1})\)

关键设计

  1. 循环推理框架(Recurrent Reasoning):

    • 初始迭代:用 VLM 的常识知识生成初始 CoT \(c_0\)(任务分解)
    • 后续迭代:基于新视频片段动态调整任务分解(合并/拆分/重排步骤),更新完成状态
    • 三大优势:(1) CoT 提升准确性和可解释性;(2) 历史 CoT 提供全局上下文;(3) 继承前轮推理保证逻辑一致性
    • 设计动机:避免处理全长视频的冗余计算,通过 CoT 传递全局信息
  2. CoT 结构设计:

    • 三部分:(i) 任务分解(列出子任务);(ii) 关键步骤分析(已完成/待完成);(iii) 基于完成步骤比例的进度估计
    • 每轮可以动态调整分解(环境部分可观察,分解可能与实际执行不完全对齐)
  3. 多维 RL 奖励系统(PPO):

    • Format Reward (\(R_{fmt}\)):检查输出格式(think/answer标签),合格=1
    • Bin Reward (\(R_{bin}\)):预测进度是否落在正确步骤区间,正确=1.0,相邻=0.25
    • MAE Reward (\(R_{mae}\))\(\max(1 - |p_t - p_t^{gt}|/\delta_1, 0)\),细粒度约束
    • Improvement Reward (\(R_{imp}\)):鼓励新轮次预测误差小于前一轮,反映循环推理的自我修正能力
    • Finish Reward (\(R_{fin}\)):正确判断任务是否完成
    • 总奖励 \(R_{overall} = R_{fmt} \cdot (R_{bin} \cdot R_{mae} + \alpha R_{imp} + \beta R_{fin})\)
    • 选择 PPO 而非 GRPO:因为多轮设置中 \(c_{t-1}\) 跨轨迹不同,不满足 GRPO 的同输入要求

损失函数 / 训练策略

两阶段:(1) SFT 学习推理模式;(2) 基于 cold-start checkpoint 的多轮 PPO 强化学习。

实验关键数据

主实验

模型 大小 ALFRED \(p_{mae}\) ALFRED \(bin\) Ego4D \(p_{mae}\) Ego4D \(bin\)
GPT-5 - 18.35 0.505 25.04 0.259
Gemini-2.5-Pro - 16.27 0.481 28.22 0.217
Qwen2.5-VL-72B 72B 24.88 0.342 26.88 0.254
R²VLM (SFT+RL) 7B 6.34 0.758 11.88 0.526

消融实验

配置 ALFRED \(p_{mae}\) 说明
SFT only 7.52 基础监督微调
+ RL (w/o \(R_{imp}\)) 6.89 缺少跨轮次改进信号
+ RL (w/o \(R_{bin}\)) 7.11 缺少粗粒度步骤约束
Full R²VLM 6.34 所有奖励组合最优

关键发现

  • 7B 的 R²VLM 全面超越 GPT-5 和 Gemini-2.5-Pro,MAE 降低 65%+
  • Improvement Reward 对多轮推理贡献显著,体现了循环推理中自我修正的价值
  • 在进度增强策略学习、奖励建模、主动辅助三个下游任务中均展现强泛化
  • 循环推理避免处理全视频,推理速度远快于全局方法

亮点与洞察

  • 循环推理 + CoT 作为记忆:将 CoT 从一次性推理工具扩展为跨时间步的结构化记忆载体,既保持全局一致性又避免长视频计算,可以迁移到任何需要长时间跨度推理的 VLM 任务
  • Improvement Reward 设计:奖励跨轮次的误差减少,直接度量模型的自我修正能力,这是多轮推理场景下的独特设计
  • 自动化数据生成管线:将 ALFRED/Ego4D 的专家轨迹自动转化为视频片段+CoT 训练数据,包括 distractor 任务描述的生成策略
  • 多下游应用验证:不仅做进度估计,还展示了作为 RL 奖励模型和主动辅助系统的价值

局限与展望

  • CoT 的步骤分解质量严重依赖 VLM 的常识推理能力,复杂新任务可能分解不准确
  • ALFRED 是仿真环境,真实世界(Ego4D)的性能仍有较大差距
  • 每个片段固定长度(4s/2s),未考虑动态调整片段粒度
  • 仅基于 Qwen2.5-VL-7B,在更大/更强模型上的效果未验证

相关工作与启发

  • vs GVL / ROVER:它们依赖 VLM 的 ICL 和大上下文窗口,不做推理,性能在复杂长时域任务上受限。R²VLM 通过循环推理和 RL 显著提升
  • vs 分层奖励方法:传统方法需要手动设计任务层次分解,R²VLM 通过训练自动习得分解和推理策略

补充分析

  • 进度定义基于步骤比例而非时间比例,更好地反映长时域任务结构,因为不同步骤耗时差异很大
  • Distractor 任务的生成策略很巧妙:强制前 \(n_r\) 步与原任务一致但后续步骤不同,使得进度可以精确控制
  • 人工审核的 benchmark 保留率 ALFRED 93%、Ego4D 74%,说明自动生成的数据质量较高
  • 选择 PPO 而非 GRPO 的原因是技术性的:GRPO 需要从同一输入生成多个候选,但循环设置中每条轨迹的 \(c_{t-1}\) 不同
  • Improvement Reward 的不对称范围 [-1, 0.8] 放大了误差增加的惩罚,鼓励保守但稳定的进度估计

评分

  • 新颖性: ⭐⭐⭐⭐ 循环推理+CoT记忆的框架设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集四个指标三个下游应用
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 对具身AI的进度估计和奖励建模具有重要意义