GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training¶
会议: ICCV 2025
arXiv: 2503.08525
代码: GitHub 链接见论文
领域: VLM Agent / 强化学习
关键词: 思维坍塌, CoT推理, 过程引导, PPO, VLM Agent
一句话总结¶
发现RL训练VLM Agent时的"思维坍塌"现象——CoT推理迅速退化为与状态无关的模板化思维并导致无效动作,提出GTR框架用VLM纠正器自动修正思维(SFT) + PPO优化动作的双目标训练,在24点游戏和ALFWorld上实现3-5倍的成功率提升。
研究背景与动机¶
- 领域现状:RLVR在LLM数学推理中成功缩放了CoT能力,但在VLM Agent的视觉环境决策中效果有限。
- 现有痛点:纯结果奖励的RL训练中,长链的思维过程未被评估和监督,在复杂任务中CoT推理迅速退化——多样性丧失、状态无关、不完整推理。
- 核心矛盾:RL奖励仅基于动作结果 vs CoT思维是决策的基础但完全无监督。
- 本文目标:防止VLM Agent RL训练中的思维坍塌。
- 切入角度:过程引导——用外部VLM纠正器提供信息丰富的过程监督替代粗粒度数值奖励。
- 核心 idea:用VLM纠正器自动修正坍塌的思维轨迹 + DAgger缓解分布偏移 = 思维和动作同时优化。
方法详解¶
整体框架¶
RL训练循环中:VLM Agent生成(思维,动作)→VLM纠正器评估并修正思维→环境执行动作返回奖励→思维token用SFT损失训练,动作token用PPO损失训练。DAgger聚合历史修正数据。
关键设计¶
设计1:VLM纠正器(过程引导) - 功能:评估Agent每步思维的视觉识别准确性和推理正确性,并生成修正版思维。 - 核心思路:利用现成VLM(如GPT-4o),给定观测和Agent思维输出,评估后输出修正思维。不需要人工标注。 - 设计动机:数值奖励(VLM-as-judge/长度奖励)信息不足以引导有效RL训练;纠正器提供的是"正确思维示例"而非分数。
设计2:双目标训练(PPO+SFT) - 功能:思维token用SFT对齐纠正器输出,动作token用PPO优化环境奖励。 - 核心思路:\(\min_\theta \mathbb{E}[\mathcal{L}_{PPO}(o,a) + \mathcal{L}_{SFT}(o, \pi_{corr}(o,th))]\)。PPO保证动作探索优化,SFT保证思维合理性。 - 设计动机:纯PPO会导致思维坍塌,纯SFT不能超越纠正器水平;双目标组合取长补短。
设计3:DAgger聚合+数据质量控制 - 功能:聚合所有历史修正数据进行SFT采样,避免非i.i.d.训练的分布偏移。 - 核心思路:PPO每轮丢弃旧数据但DAgger缓冲区保留所有修正数据。加上格式奖励和重复惩罚提升数据质量。纠正器可调用工具(如Python计算器)提升修正准确性。 - 设计动机:交互式模仿学习(DAgger)已被证明可收敛到专家策略。
损失函数/训练策略¶
PPO: 标准裁剪目标。SFT: 标准自回归交叉熵。动作log概率中思维token用缩放因子λ平衡长度。训练15K步(24点)/5K步(ALFWorld),单GPU LoRA约30小时。
实验关键数据¶
主实验¶
24点游戏(GPT-4o纠正器)
| 模型 | 成功率% | 回报 |
|---|---|---|
| GPT-4V | 0 | -4.39 |
| GPT-4o | 2.5 | -6.35 |
| GPT-4o+Tool | 13.5 | -3.59 |
| LLaVA-7b-SFT | 3.0 | -15.30 |
| RL4VLM | 2.5 | -12.95 |
| SFT-only | 11.0 | -2.88 |
| GTR | 17.5 | -2.17 |
消融实验¶
| 过程引导方式 | 成功率 |
|---|---|
| 无引导(RL4VLM) | 2.5% |
| VLM-as-judge | ~3% |
| 长度奖励 | ~3% |
| SFT-only | 11.0% |
| GTR(纠正器+RL) | 17.5% |
关键发现¶
- GTR超越了纠正器模型本身(GPT-4o+Tool 13.5%),证明RL让Agent超越模仿。
- 思维坍塌在7B和13B规模、15K和30K步上均出现,不随规模/训练量消失。
- VLM-as-judge的数值奖励几乎无效——信息量不足且易被reward hacking。
- 在Qwen2.5-VL-7B上GTR使Agent达到o3级别性能。
亮点与洞察¶
- "思维坍塌"是RL训练VLM Agent的核心瓶颈——首次系统定义和分析。
- 纠正器替代PRM/数值奖励的思路信息量更大且不需要标注数据。
- Agent可以通过RL超越其"老师"(纠正器),体现了RL的探索发现价值。
局限与展望¶
- 依赖外部纠正器(GPT-4o)的API调用成本。
- 纠正器本身在某些领域知识上有限,需要工具增强。
- 仅在卡牌游戏和ALFWorld上验证,更复杂的embodied环境未测试。
相关工作与启发¶
- RL4VLM首次用RL微调VLM但在复杂任务上受限于思维坍塌。
- 启发:过程监督比结果监督更重要,但监督形式应是"示例"而非"分数"。
评分¶
| 维度 | 评分 |
|---|---|
| 创新性 | ★★★★★ |
| 实用性 | ★★★★☆ |
| 实验充分性 | ★★★★☆ |
| 写作清晰度 | ★★★★★ |