Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches¶
会议: NeurIPS 2025
arXiv: 2509.19924
代码: 无
领域: 强化学习
关键词: foundation models, exploration, reinforcement-learning, VLM, knowing-doing gap
一句话总结¶
系统评测 LLM/VLM 在经典 RL 探索任务(bandit、Gridworld、Atari)上的零样本能力,发现 VLM 存在"知行差距"(knowing-doing gap)——高层推理正确但低层控制失败,并提出简单的 VLM-RL 混合框架在理想条件下可显著加速学习。
研究背景与动机¶
RL 中的探索问题在稀疏奖励环境下极具挑战性。基础模型(LLM/VLM)具备强大的语义先验和推理能力,能否用于改善探索效率?
现有研究的不足:
评测范围窄:MAB 实验仅关注复杂 prompt 技巧,未研究简单指令措辞的影响
环境层次不全:缺乏从简单(bandit)到复杂(Atari)的系统性渐进评测
失败模式不明:VLM 在视觉环境中为何失败?是理解问题还是执行问题?
本文通过三级递进评测(MAB → Gridworld → Atari)系统化回答这些问题,并通过定性分析揭示失败的根本原因。
方法详解¶
整体框架¶
三级评测体系: 1. 多臂 Bandit(隔离探索-利用权衡):对比隐式 vs. 显式 prompt 对 LLM 探索行为的影响 2. Gridworld(引入状态转移和记忆需求):测试 LLM 在确定性/随机环境中的空间导航能力 3. Atari 硬探索游戏(高维视觉输入 + 稀疏奖励):评测 GPT-4o 的零样本游戏能力 4. 混合框架:VLM 定期接管 PPO agent 的控制,作为语义探索引导
关键设计¶
Prompt 设计的对比实验: - 隐式(v1):"Your goal is to maximize the total reward by pulling the arm with the highest probability" → 要求 LLM 自行推断需要探索 - 显式(v2):"Your goal is to maximize the total reward by finding out which arm has the highest probability" → 直接指示探索
Atari 的时序信息处理:引入 \(m=6\) 步的帧间隔(而非连续 4 帧),增加时序多样性,帮助 VLM 推断运动方向。对所有游戏使用统一的 minimal prompt。
混合算法: - PPO agent 以概率 \(\epsilon\) 被 VLM 接管控制,持续 \(T\) 步 - VLM 作为"语义探索器"将 agent 引导到有前途的状态区域 - PPO 从新状态恢复标准 on-policy 学习
损失函数 / 训练策略¶
- 混合框架使用标准 PPO 损失
- VLM 零样本推理,无训练
- 对比基线:PPO + RND(Random Network Distillation)作为强探索基线
- 评测指标:累积奖励、遗憾、学习曲线
实验关键数据¶
MAB 实验¶
| 模型 | 隐式 prompt (v1) | 显式 prompt (v2) | UCB | Thompson Sampling |
|---|---|---|---|---|
| GPT-3.5 | 高遗憾 | 中等遗憾 | 低遗憾 | 低遗憾 |
| GPT-4 | 中等遗憾 | 接近最优 | 低遗憾 | 低遗憾 |
| Gemini 1.0 | 高遗憾 | 中等遗憾 | — | — |
| Gemini 1.5 | 中等遗憾 | 中等偏低 | — | — |
次优性差距分析(GPT-4 显式 prompt):
| \(\Delta\) | GPT-4 vs. UCB/TS |
|---|---|
| 0.6 | 竞争力强 |
| 0.4 | 竞争力强 |
| 0.2 | 明显落后 |
Atari 零样本实验¶
| 游戏 | GPT-4o | RB 250K | RB 2.5M | RB 25M | 人类 |
|---|---|---|---|---|---|
| Freeway | 21 | 8 | 32 | 32 | 29.6 |
| Gravitar | 500 | 64 | 199 | 2405 | 3351 |
| Montezuma | 0 | 0 | 50 | 544 | 4753 |
| Pitfall | -158 | -26 | -7 | -7 | 6464 |
| Private Eye | -1000 | 503 | 125 | 1573 | 69571 |
| Solaris | 600 | 681 | 1137 | 2093 | 12326 |
| Venture | 0 | 8 | 20 | 1513 | 1188 |
Gridworld 结果¶
| 设置 | Action Only | Simple Plan | Focused Plan | PPO/RecPPO |
|---|---|---|---|---|
| 确定性 | LLM 表现良好 | LLM 优秀 | LLM 优秀 | 收敛慢 |
| 随机(部分可观测) | 严重退化 | 有改善 | 有改善 | 最终收敛 |
混合框架实验(Freeway)¶
| 方法 | 100K 步后得分 | 收敛速度 |
|---|---|---|
| Vanilla PPO | ~5 | 慢 |
| PPO + RND | ~15 | 中等 |
| PPO + VLM | ~25 | 快 |
关键发现¶
- 显式 prompt 显著改善探索:LLM 不会自行推断探索需求,需要明确指示
- Knowing-doing gap:VLM 在 Freeway 识别"向上走",在 Gravitar 识别敌人并开火(+250分),但在需要精确时序控制的游戏中完全失败
- 失败模式分类:
- 精确控制失败:Montezuma(正确推理"拿钥匙"但无法执行跳跃)
- 自我识别失败:Venture(无法识别粉色方块是玩家角色)
- 时序推理失败:Pitfall(理解"跳过坑"但时机把握不对)
- 混合框架在理想条件下有效:在 VLM 策略正确且控制简单的 Freeway 中,显著超越 PPO+RND
亮点与洞察¶
- "知行差距"的精确刻画:不是 VLM 不理解游戏,而是无法将理解转化为精确的低层动作——这是当前 VLM 作为自主 agent 的根本瓶颈
- 渐进式评测设计:从 MAB(无状态转移)到 Gridworld(空间推理)到 Atari(视觉+稀疏奖励),层层递进地暴露 FM 能力边界
- 诚实的实验设计:混合框架选择 Freeway(VLM 已知表现好的游戏)作为上界分析,明确声明不是通用解决方案
- 实用启示:FM 更适合作为 RL 的"语义加速器"而非端到端控制器
局限与展望¶
- 混合框架仅在 Freeway 一个游戏验证,泛化性未知
- VLM 推理成本高(每步调用 GPT-4o),与样本效率的权衡未量化
- Atari 评测仅用 GPT-4o 一个模型,未对比开源 VLM
- 缺乏自适应介入机制——何时让 VLM 接管、何时交还给 RL 的决策应基于不确定性
- 未探索 VLM 作为奖励塑造器或状态抽象器的替代整合方式
相关工作与启发¶
- Atari-GPT(Waytowich et al.):评测 VLM 在密集奖励 Atari 中的表现,本文聚焦稀疏奖励硬探索游戏
- BALROG(Paglieri et al.):在 NetHack 中发现知行差距,本文在 Atari 中独立验证了同一现象
- TextAtari(Li et al.):去除视觉瓶颈后 LLM 推理能力大幅提升 → 验证低层控制是主要瓶颈
- Intelligent Go-Explore(Lu et al.):用 GPT-4 替代手工启发式选择回访状态,比本文的直接控制方式更成功
- Motif(Klissarov et al.):LLM 作为内在奖励函数而非直接控制器 → 更好地利用了语义理解能力
评分¶
- 新颖性: 7/10 — 系统评测有价值,但知行差距概念已有先例
- 实验充分度: 7/10 — 渐进评测设计好,混合框架验证不够充分
- 实用性: 6/10 — 混合框架过于简单,更多作为概念验证
- 写作质量: 8/10 — 结构清晰,定性分析生动有图