跳转至

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

会议: ICCV 2025
arXiv: 2503.08525
代码: GitHub 链接见论文
领域: VLM Agent / 强化学习
关键词: 思维坍塌, CoT推理, 过程引导, PPO, VLM Agent

一句话总结

发现RL训练VLM Agent时的"思维坍塌"现象——CoT推理迅速退化为与状态无关的模板化思维并导致无效动作,提出GTR框架用VLM纠正器自动修正思维(SFT) + PPO优化动作的双目标训练,在24点游戏和ALFWorld上实现3-5倍的成功率提升。

研究背景与动机

  • 领域现状:RLVR在LLM数学推理中成功缩放了CoT能力,但在VLM Agent的视觉环境决策中效果有限。
  • 现有痛点:纯结果奖励的RL训练中,长链的思维过程未被评估和监督,在复杂任务中CoT推理迅速退化——多样性丧失、状态无关、不完整推理。
  • 核心矛盾:RL奖励仅基于动作结果 vs CoT思维是决策的基础但完全无监督。
  • 本文目标:防止VLM Agent RL训练中的思维坍塌。
  • 切入角度:过程引导——用外部VLM纠正器提供信息丰富的过程监督替代粗粒度数值奖励。
  • 核心 idea:用VLM纠正器自动修正坍塌的思维轨迹 + DAgger缓解分布偏移 = 思维和动作同时优化。

方法详解

整体框架

RL训练循环中:VLM Agent生成(思维,动作)→VLM纠正器评估并修正思维→环境执行动作返回奖励→思维token用SFT损失训练,动作token用PPO损失训练。DAgger聚合历史修正数据。

关键设计

设计1:VLM纠正器(过程引导) - 功能:评估Agent每步思维的视觉识别准确性和推理正确性,并生成修正版思维。 - 核心思路:利用现成VLM(如GPT-4o),给定观测和Agent思维输出,评估后输出修正思维。不需要人工标注。 - 设计动机:数值奖励(VLM-as-judge/长度奖励)信息不足以引导有效RL训练;纠正器提供的是"正确思维示例"而非分数。

设计2:双目标训练(PPO+SFT) - 功能:思维token用SFT对齐纠正器输出,动作token用PPO优化环境奖励。 - 核心思路\(\min_\theta \mathbb{E}[\mathcal{L}_{PPO}(o,a) + \mathcal{L}_{SFT}(o, \pi_{corr}(o,th))]\)。PPO保证动作探索优化,SFT保证思维合理性。 - 设计动机:纯PPO会导致思维坍塌,纯SFT不能超越纠正器水平;双目标组合取长补短。

设计3:DAgger聚合+数据质量控制 - 功能:聚合所有历史修正数据进行SFT采样,避免非i.i.d.训练的分布偏移。 - 核心思路:PPO每轮丢弃旧数据但DAgger缓冲区保留所有修正数据。加上格式奖励和重复惩罚提升数据质量。纠正器可调用工具(如Python计算器)提升修正准确性。 - 设计动机:交互式模仿学习(DAgger)已被证明可收敛到专家策略。

损失函数/训练策略

PPO: 标准裁剪目标。SFT: 标准自回归交叉熵。动作log概率中思维token用缩放因子λ平衡长度。训练15K步(24点)/5K步(ALFWorld),单GPU LoRA约30小时。

实验关键数据

主实验

24点游戏(GPT-4o纠正器)

模型 成功率% 回报
GPT-4V 0 -4.39
GPT-4o 2.5 -6.35
GPT-4o+Tool 13.5 -3.59
LLaVA-7b-SFT 3.0 -15.30
RL4VLM 2.5 -12.95
SFT-only 11.0 -2.88
GTR 17.5 -2.17

消融实验

过程引导方式 成功率
无引导(RL4VLM) 2.5%
VLM-as-judge ~3%
长度奖励 ~3%
SFT-only 11.0%
GTR(纠正器+RL) 17.5%

关键发现

  1. GTR超越了纠正器模型本身(GPT-4o+Tool 13.5%),证明RL让Agent超越模仿。
  2. 思维坍塌在7B和13B规模、15K和30K步上均出现,不随规模/训练量消失。
  3. VLM-as-judge的数值奖励几乎无效——信息量不足且易被reward hacking。
  4. 在Qwen2.5-VL-7B上GTR使Agent达到o3级别性能。

亮点与洞察

  1. "思维坍塌"是RL训练VLM Agent的核心瓶颈——首次系统定义和分析。
  2. 纠正器替代PRM/数值奖励的思路信息量更大且不需要标注数据。
  3. Agent可以通过RL超越其"老师"(纠正器),体现了RL的探索发现价值。

局限与展望

  1. 依赖外部纠正器(GPT-4o)的API调用成本。
  2. 纠正器本身在某些领域知识上有限,需要工具增强。
  3. 仅在卡牌游戏和ALFWorld上验证,更复杂的embodied环境未测试。

相关工作与启发

  • RL4VLM首次用RL微调VLM但在复杂任务上受限于思维坍塌。
  • 启发:过程监督比结果监督更重要,但监督形式应是"示例"而非"分数"。

评分

维度 评分
创新性 ★★★★★
实用性 ★★★★☆
实验充分性 ★★★★☆
写作清晰度 ★★★★★