GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training¶

会议: ICCV 2025
arXiv: 2503.08525
代码: GitHub 链接见论文
领域: VLM Agent / 强化学习
关键词: 思维坍塌, CoT推理, 过程引导, PPO, VLM Agent

一句话总结¶

发现RL训练VLM Agent时的"思维坍塌"现象——CoT推理迅速退化为与状态无关的模板化思维并导致无效动作，提出GTR框架用VLM纠正器自动修正思维(SFT) + PPO优化动作的双目标训练，在24点游戏和ALFWorld上实现3-5倍的成功率提升。

研究背景与动机¶

领域现状：RLVR在LLM数学推理中成功缩放了CoT能力，但在VLM Agent的视觉环境决策中效果有限。
现有痛点：纯结果奖励的RL训练中，长链的思维过程未被评估和监督，在复杂任务中CoT推理迅速退化——多样性丧失、状态无关、不完整推理。
核心矛盾：RL奖励仅基于动作结果 vs CoT思维是决策的基础但完全无监督。
本文目标：防止VLM Agent RL训练中的思维坍塌。
切入角度：过程引导——用外部VLM纠正器提供信息丰富的过程监督替代粗粒度数值奖励。
核心 idea：用VLM纠正器自动修正坍塌的思维轨迹 + DAgger缓解分布偏移 = 思维和动作同时优化。

方法详解¶

整体框架¶

RL训练循环中：VLM Agent生成(思维,动作)→VLM纠正器评估并修正思维→环境执行动作返回奖励→思维token用SFT损失训练，动作token用PPO损失训练。DAgger聚合历史修正数据。

关键设计¶

设计1：VLM纠正器（过程引导） - 功能：评估Agent每步思维的视觉识别准确性和推理正确性，并生成修正版思维。 - 核心思路：利用现成VLM（如GPT-4o），给定观测和Agent思维输出，评估后输出修正思维。不需要人工标注。 - 设计动机：数值奖励（VLM-as-judge/长度奖励）信息不足以引导有效RL训练；纠正器提供的是"正确思维示例"而非分数。

设计2：双目标训练（PPO+SFT） - 功能：思维token用SFT对齐纠正器输出，动作token用PPO优化环境奖励。 - 核心思路：\(\min_\theta \mathbb{E}[\mathcal{L}_{PPO}(o,a) + \mathcal{L}_{SFT}(o, \pi_{corr}(o,th))]\)。PPO保证动作探索优化，SFT保证思维合理性。 - 设计动机：纯PPO会导致思维坍塌，纯SFT不能超越纠正器水平；双目标组合取长补短。

设计3：DAgger聚合+数据质量控制 - 功能：聚合所有历史修正数据进行SFT采样，避免非i.i.d.训练的分布偏移。 - 核心思路：PPO每轮丢弃旧数据但DAgger缓冲区保留所有修正数据。加上格式奖励和重复惩罚提升数据质量。纠正器可调用工具（如Python计算器）提升修正准确性。 - 设计动机：交互式模仿学习(DAgger)已被证明可收敛到专家策略。

损失函数/训练策略¶

PPO: 标准裁剪目标。SFT: 标准自回归交叉熵。动作log概率中思维token用缩放因子λ平衡长度。训练15K步(24点)/5K步(ALFWorld)，单GPU LoRA约30小时。

实验关键数据¶

主实验¶

24点游戏（GPT-4o纠正器）

模型	成功率%	回报
GPT-4V	0	-4.39
GPT-4o	2.5	-6.35
GPT-4o+Tool	13.5	-3.59
LLaVA-7b-SFT	3.0	-15.30
RL4VLM	2.5	-12.95
SFT-only	11.0	-2.88
GTR	17.5	-2.17

消融实验¶

过程引导方式	成功率
无引导(RL4VLM)	2.5%
VLM-as-judge	~3%
长度奖励	~3%
SFT-only	11.0%
GTR(纠正器+RL)	17.5%

关键发现¶

GTR超越了纠正器模型本身(GPT-4o+Tool 13.5%)，证明RL让Agent超越模仿。
思维坍塌在7B和13B规模、15K和30K步上均出现，不随规模/训练量消失。
VLM-as-judge的数值奖励几乎无效——信息量不足且易被reward hacking。
在Qwen2.5-VL-7B上GTR使Agent达到o3级别性能。

亮点与洞察¶

"思维坍塌"是RL训练VLM Agent的核心瓶颈——首次系统定义和分析。
纠正器替代PRM/数值奖励的思路信息量更大且不需要标注数据。
Agent可以通过RL超越其"老师"(纠正器)，体现了RL的探索发现价值。

局限与展望¶

依赖外部纠正器(GPT-4o)的API调用成本。
纠正器本身在某些领域知识上有限，需要工具增强。
仅在卡牌游戏和ALFWorld上验证，更复杂的embodied环境未测试。

评分¶

维度	评分
创新性	★★★★★
实用性	★★★★☆
实验充分性	★★★★☆
写作清晰度	★★★★★