跳转至

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

会议: CVPR 2026
arXiv: 2512.13043
代码: https://github.com/TongWei1105/GTR-Turbo
领域: 多模态VLM / Agent / 强化学习
关键词: VLM智能体, 多轮强化学习, 模型合并, 知识蒸馏, 自我进化

一句话总结

本文提出 GTR-Turbo,通过将 RL 训练过程中的历史 checkpoint 经 TIES 合并产生"免费教师模型"来指导后续训练(可选 SFT 或 KL 蒸馏方式),在多个视觉智能体任务上匹配甚至超过依赖 GPT-4o 等外部教师的 GTR 方法,同时减少 50% 训练时间和 60% 计算成本。

研究背景与动机

  1. 领域现状:基于 VLM 的多轮强化学习(RLVR)是训练视觉智能体的新范式,但面临奖励稀疏、长时域信用分配等核心挑战。GTR 等方法引入外部教师模型(如 GPT-4o)在每一步提供思维过程指导,有效解决了"思维崩塌"(thought collapse)问题。
  2. 现有痛点:GTR 依赖昂贵的外部教师(GPT-4o),训练 15000 步需要约 $147、86 小时;使用较弱教师(如 Qwen2.5-VL-7B)则完全无法提供有效指导;换用 72B 模型虽然可行但更慢(110h)且仍需 API 费用。
  3. 核心矛盾:要获得好的训练效果必须有强大教师,但强大教师意味着高成本和低可扩展性。能否让模型"自产自销"——从自己的训练历史中获得教师?
  4. 本文目标:消除对外部特权模型的依赖,实现自包含、可扩展的 VLM 智能体自我进化训练。
  5. 切入角度:关键洞察——RL 训练过程中产生的历史 checkpoint 经合并后,性能稳定地优于当前模型(如图2所示),天然可充当教师。这源于模型合并在更平滑的损失曲面上优化、有效保留历史经验的特性。
  6. 核心 idea:将 RL 训练过程中的历史 checkpoint 合并为免费教师模型,替代昂贵的外部 API 教师。

方法详解

整体框架

GTR-Turbo 在标准的多轮 PPO 训练循环之上增加了三个关键步骤:(1) 每次 RL 更新后保存 checkpoint 到缓冲区;(2) 使用 TIES 合并方法将缓冲区中的所有 checkpoint 合并为一个教师模型;(3) 用该合并教师指导后续 RL 训练(通过 SFT 损失或 KL 散度)。整个过程不需要任何外部模型调用。

关键设计

  1. TIES 合并生成教师模型:

    • 功能:从 RL 训练的历史 checkpoint 中构造一个性能稳定优于当前模型的"免费"教师
    • 核心思路:对第 \(k\) 次更新,合并模型为 \(\pi_{\text{merged}}^{(k)} = \sum_{i=1}^{k-1} w_i \pi_\theta^{(i)}\)。使用 TIES 方法避免参数干扰:先修剪(只保留变化幅度 top-k% 的参数),再选举符号(对每个参数用多数投票确定正负号),最后只对符号一致的参数做选择性平均。权重策略支持简单移动平均(SMA,等权)和指数移动平均(EMA,偏向新模型)。
    • 设计动机:直接平均所有 checkpoint 会引入冗余参数的有害干扰。TIES 通过修剪+符号选举的三步法有效缓解此问题,实验证实(图13)其优于简单线性平均。
  2. SFT 指导(GTR-Turbo-SFT):

    • 功能:通过监督微调损失让学生模型模仿合并教师的思维过程
    • 核心思路:在每步 RL 后,将同样的观测输入送给合并教师生成参考思维 \(\hat{th}\),存入重放缓冲,然后在 PPO 更新时加入 SFT 损失:\(\min_\theta \mathbb{E}\mathcal{L}_{\text{PPO}}(o,a) + \mathbb{E}\mathcal{L}_{\text{SFT}}(o, \hat{th})\)。同时保留格式奖励和 DAgger 技术。
    • 设计动机:直接继承 GTR 的结构,只是将外部教师替换为合并教师,最小改动实现免费指导。
  3. KL 散度蒸馏(GTR-Turbo-KL):

    • 功能:通过 softlogit 蒸馏更高效地传递教师知识,同时鼓励探索
    • 核心思路:不生成教师的自回归输出(省去解码开销),而是直接做一次前向传播得到 logits。计算智能体与教师在思维 token 上的反向 KL 散度,取负值作为辅助奖励加入 PPO 的优势函数:\(A' = A^{\pi_\theta}(o,a) - \text{RevKL}(\pi_\theta, \pi_{\text{merged}}; th)\)。KL 值经过 clip 到 \([0, +\infty)\) 避免负值产生误导。
    • 设计动机:SFT 是 one-hot 监督,丢失了概率分布信息;KL 蒸馏捕获所有候选 token 的概率信息,约束更柔和、更鼓励探索。且只需一次前向传播而非自回归生成,训练速度更快。

损失函数 / 训练策略

  • 基座模型:Qwen2.5-VL-7B(SFT 初始化)
  • 使用 LoRA 微调智能体,合并教师部署在另一块 GPU 上
  • Points24 训练 30000 步,ALFWorld 训练 20000 步(分别为前人工作的 2x 和 4x 预算)
  • 2 块 40GB NVIDIA GPU

实验关键数据

主实验 — Points24 卡牌博弈

方法 成功率(%) 回合回报
GPT-4o 2.5 -6.35
Qwen2.5-VL-72B 5.6 -5.69
RL4VLM 3.5 -13.3
GTR (GPT-4o教师) 44.5 0.53
GTR-Turbo (SFT) 48.0 1.32
GTR-Turbo (KL) 53.5 2.39

效率对比

环境 方法 成功率 训练时间 额外成本
Points24 GTR 41% 191h $307.78
Points24 GTR-Turbo(KL) 54% 89h $114.81
ALFWorld GTR 16% 164h $145.76
ALFWorld GTR-Turbo(KL) 15% 78h $100.62

消融实验

配置 关键发现
静态初始模型做KL参考 无法实现稳定提升,验证了动态合并的必要性
Rejection Sampling 在 Points24 上完全失败,无法生成正确轨迹供模仿
指导思维+动作 效果变差,因为限制了动作探索的自由度
线性平均 vs TIES TIES 更优,有效缓解冗余参数干扰
KL clip vs abs vs K3 clip 方法最优,控制 KL 值的幅度实现更细粒度更新

关键发现

  • KL 蒸馏版本全面优于 SFT 版本——更快、更强、更省
  • 只指导思维(thinking)不指导动作(action)至关重要,因为智能体需要行为探索来发现新策略
  • 合并教师持续自我进化:随着训练进行,合并教师也越来越强,形成正反馈循环
  • GTR-Turbo(KL) 的训练时间与最简单的 RL4VLM 相当,但效果远超

亮点与洞察

  • "免费午餐"的巧妙发现:RL 训练的历史 checkpoint 合并后天然是比当前模型更好的教师,这个洞察简单而深刻。类似于 SWA(Stochastic Weight Averaging)在监督学习中的泛化提升效果
  • KL 蒸馏替代自回归生成:一次前向传播替代完整的自回归解码,不仅更快且效果更好。说明 soft 标签比 hard 标签在自我进化场景中更有效
  • 思路可迁移:这个"历史 checkpoint 合并做教师"的 trick 理论上适用于任何多轮 RL 训练场景,不限于 VLM 智能体

局限与展望

  • 在 ALFWorld 这种极长时域(50+ 步)任务上,合并教师的优势不如 Points24 明显,因为缺乏外部 domain knowledge
  • 仍需额外一块 GPU 部署合并教师,虽然比 API 便宜但不是零成本
  • 合并间隔、TIES 参数的选择需要调优
  • 未探索将合并教师与小规模外部教师结合使用的混合方案

相关工作与启发

  • vs GTR: GTR 用 GPT-4o 作教师,效果好但极贵。GTR-Turbo 用自身合并 checkpoint 免费替代,成本降 60%,Points24 上效果反而更好
  • vs RL4VLM: 直接 PPO 训练导致思维崩塌,模型输出变得重复模板化。GTR-Turbo 通过思维指导有效解决此问题
  • vs Rejection Sampling: RS 依赖模型自身能生成正确轨迹,但在困难任务中这一前提不成立。RL 探索 + 合并教师指导是更好的组合

评分

  • 新颖性: ⭐⭐⭐⭐ 合并 checkpoint 做教师的想法简洁优雅,KL蒸馏替代SFT也是好设计
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个环境、多种消融、成本分析、训练曲线全面
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰,图示直观
  • 价值: ⭐⭐⭐⭐⭐ 大幅降低 VLM 智能体训练成本,实用性极强