GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training¶

会议: CVPR 2026
arXiv: 2512.13043
代码: https://github.com/TongWei1105/GTR-Turbo
领域: 多模态VLM / Agent / 强化学习
关键词: VLM智能体, 多轮强化学习, 模型合并, 知识蒸馏, 自我进化

一句话总结¶

本文提出 GTR-Turbo，通过将 RL 训练过程中的历史 checkpoint 经 TIES 合并产生"免费教师模型"来指导后续训练（可选 SFT 或 KL 蒸馏方式），在多个视觉智能体任务上匹配甚至超过依赖 GPT-4o 等外部教师的 GTR 方法，同时减少 50% 训练时间和 60% 计算成本。

研究背景与动机¶

领域现状：基于 VLM 的多轮强化学习（RLVR）是训练视觉智能体的新范式，但面临奖励稀疏、长时域信用分配等核心挑战。GTR 等方法引入外部教师模型（如 GPT-4o）在每一步提供思维过程指导，有效解决了"思维崩塌"（thought collapse）问题。
现有痛点：GTR 依赖昂贵的外部教师（GPT-4o），训练 15000 步需要约 $147、86 小时；使用较弱教师（如 Qwen2.5-VL-7B）则完全无法提供有效指导；换用 72B 模型虽然可行但更慢（110h）且仍需 API 费用。
核心矛盾：要获得好的训练效果必须有强大教师，但强大教师意味着高成本和低可扩展性。能否让模型"自产自销"——从自己的训练历史中获得教师？
本文目标：消除对外部特权模型的依赖，实现自包含、可扩展的 VLM 智能体自我进化训练。
切入角度：关键洞察——RL 训练过程中产生的历史 checkpoint 经合并后，性能稳定地优于当前模型（如图2所示），天然可充当教师。这源于模型合并在更平滑的损失曲面上优化、有效保留历史经验的特性。
核心 idea：将 RL 训练过程中的历史 checkpoint 合并为免费教师模型，替代昂贵的外部 API 教师。

方法详解¶

整体框架¶

GTR-Turbo 在标准的多轮 PPO 训练循环之上增加了三个关键步骤：(1) 每次 RL 更新后保存 checkpoint 到缓冲区；(2) 使用 TIES 合并方法将缓冲区中的所有 checkpoint 合并为一个教师模型；(3) 用该合并教师指导后续 RL 训练（通过 SFT 损失或 KL 散度）。整个过程不需要任何外部模型调用。

关键设计¶

TIES 合并生成教师模型:
- 功能：从 RL 训练的历史 checkpoint 中构造一个性能稳定优于当前模型的"免费"教师
- 核心思路：对第 $k$ 次更新，合并模型为 $\pi_{\text{merged}}^{(k)} = \sum_{i=1}^{k-1} w_i \pi_\theta^{(i)}$。使用 TIES 方法避免参数干扰：先修剪（只保留变化幅度 top-k% 的参数），再选举符号（对每个参数用多数投票确定正负号），最后只对符号一致的参数做选择性平均。权重策略支持简单移动平均（SMA，等权）和指数移动平均（EMA，偏向新模型）。
- 设计动机：直接平均所有 checkpoint 会引入冗余参数的有害干扰。TIES 通过修剪+符号选举的三步法有效缓解此问题，实验证实（图13）其优于简单线性平均。
SFT 指导（GTR-Turbo-SFT）:
- 功能：通过监督微调损失让学生模型模仿合并教师的思维过程
- 核心思路：在每步 RL 后，将同样的观测输入送给合并教师生成参考思维 $\hat{th}$，存入重放缓冲，然后在 PPO 更新时加入 SFT 损失：$\min_\theta \mathbb{E}\mathcal{L}_{\text{PPO}}(o,a) + \mathbb{E}\mathcal{L}_{\text{SFT}}(o, \hat{th})$。同时保留格式奖励和 DAgger 技术。
- 设计动机：直接继承 GTR 的结构，只是将外部教师替换为合并教师，最小改动实现免费指导。
KL 散度蒸馏（GTR-Turbo-KL）:
- 功能：通过 softlogit 蒸馏更高效地传递教师知识，同时鼓励探索
- 核心思路：不生成教师的自回归输出（省去解码开销），而是直接做一次前向传播得到 logits。计算智能体与教师在思维 token 上的反向 KL 散度，取负值作为辅助奖励加入 PPO 的优势函数：$A' = A^{\pi_\theta}(o,a) - \text{RevKL}(\pi_\theta, \pi_{\text{merged}}; th)$。KL 值经过 clip 到 $[0, +\infty)$ 避免负值产生误导。
- 设计动机：SFT 是 one-hot 监督，丢失了概率分布信息；KL 蒸馏捕获所有候选 token 的概率信息，约束更柔和、更鼓励探索。且只需一次前向传播而非自回归生成，训练速度更快。

损失函数 / 训练策略¶

基座模型：Qwen2.5-VL-7B（SFT 初始化）
使用 LoRA 微调智能体，合并教师部署在另一块 GPU 上
Points24 训练 30000 步，ALFWorld 训练 20000 步（分别为前人工作的 2x 和 4x 预算）
2 块 40GB NVIDIA GPU

实验关键数据¶

主实验 — Points24 卡牌博弈¶

方法	成功率(%)	回合回报
GPT-4o	2.5	-6.35
Qwen2.5-VL-72B	5.6	-5.69
RL4VLM	3.5	-13.3
GTR (GPT-4o教师)	44.5	0.53
GTR-Turbo (SFT)	48.0	1.32
GTR-Turbo (KL)	53.5	2.39

效率对比¶

环境	方法	成功率	训练时间	额外成本
Points24	GTR	41%	191h	$307.78
Points24	GTR-Turbo(KL)	54%	89h	$114.81
ALFWorld	GTR	16%	164h	$145.76
ALFWorld	GTR-Turbo(KL)	15%	78h	$100.62

消融实验¶

配置	关键发现
静态初始模型做KL参考	无法实现稳定提升，验证了动态合并的必要性
Rejection Sampling	在 Points24 上完全失败，无法生成正确轨迹供模仿
指导思维+动作	效果变差，因为限制了动作探索的自由度
线性平均 vs TIES	TIES 更优，有效缓解冗余参数干扰
KL clip vs abs vs K3	clip 方法最优，控制 KL 值的幅度实现更细粒度更新

关键发现¶

KL 蒸馏版本全面优于 SFT 版本——更快、更强、更省
只指导思维（thinking）不指导动作（action）至关重要，因为智能体需要行为探索来发现新策略
合并教师持续自我进化：随着训练进行，合并教师也越来越强，形成正反馈循环
GTR-Turbo(KL) 的训练时间与最简单的 RL4VLM 相当，但效果远超

亮点与洞察¶

"免费午餐"的巧妙发现：RL 训练的历史 checkpoint 合并后天然是比当前模型更好的教师，这个洞察简单而深刻。类似于 SWA（Stochastic Weight Averaging）在监督学习中的泛化提升效果
KL 蒸馏替代自回归生成：一次前向传播替代完整的自回归解码，不仅更快且效果更好。说明 soft 标签比 hard 标签在自我进化场景中更有效
思路可迁移：这个"历史 checkpoint 合并做教师"的 trick 理论上适用于任何多轮 RL 训练场景，不限于 VLM 智能体

局限与展望¶

在 ALFWorld 这种极长时域（50+ 步）任务上，合并教师的优势不如 Points24 明显，因为缺乏外部 domain knowledge
仍需额外一块 GPU 部署合并教师，虽然比 API 便宜但不是零成本
合并间隔、TIES 参数的选择需要调优
未探索将合并教师与小规模外部教师结合使用的混合方案

评分¶

新颖性: ⭐⭐⭐⭐ 合并 checkpoint 做教师的想法简洁优雅，KL蒸馏替代SFT也是好设计
实验充分度: ⭐⭐⭐⭐⭐ 两个环境、多种消融、成本分析、训练曲线全面
写作质量: ⭐⭐⭐⭐ 动机推导清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 大幅降低 VLM 智能体训练成本，实用性极强