跳转至

LMGame-Bench: How Good are LLMs at Playing Games?

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qeziG97WUZ
代码: 待确认
领域: LLM 评测 / 游戏智能体基准
关键词: 游戏基准, LLM/VLM 评测, 智能体脚手架, 数据污染, 能力解耦

一句话总结

LMGame-Bench 用统一 Gym 风格 API 把 6 款经典游戏做成一个可插拔模块化的评测基准,通过感知/记忆/推理三类脚手架(harness)按需开关来单独探测视觉感知、长程规划、反思等能力,并配套数据污染检测与提示词标准化,让 13 个前沿模型在不饱和的前提下被清晰区分。

研究背景与动机

领域现状:互动游戏正成为评测 LLM/VLM 的有力测试床——规则明确、结果可量化、自带由易到难的难度梯度,天然不容易被现有模型刷爆。从 TD-Gammon、AlphaGo 到 OpenAI Gym,游戏一直是研究规划与序贯决策的经典环境,近年又被用来评测 LLM 智能体。

现有痛点:以往的游戏基准把多种能力纠缠在一起——视觉感知、推理、记忆同时被考——导致一旦模型失败,根本说不清是"看不懂画面"还是"不会规划",失败模式被掩盖。更糟的是难度两极分化:要么像 VideoGameBench 太难、模型毫无进展,要么像 LMAct 一半任务已被现有模型解掉、失去区分度。

核心矛盾:直接用"截图→动作"的朴素设定去评测,会发现连最强的推理模型也常常逼近随机基线(40% 的无脚手架 run 跑不过随机策略),分数太低且被游戏随机性淹没,数值上根本分不开模型。要既保持挑战性、又能把单项能力隔离出来做细粒度诊断,二者难以兼得。

本文目标:造一个模块化的游戏基准,既不饱和又能解耦能力,同时解决数据污染与提示词方差两个让评测不可靠的工程问题。

核心 idea「可插拔脚手架做能力探针」——把感知、记忆、推理写成独立模块挂到智能体工作流上,固定底层游戏不变,通过逐一开关模块来隔离每种技能(如感知 vs 规划),从而在保持游戏原始难度的同时把模型的强弱项一一拆开。

方法详解

整体框架

LMGame-Bench 把每款游戏抽象为一个(部分/完全可观测的)MDP:状态空间 \(S\)、动作空间 \(A\)、奖励 \(R: S \times A \times S \to \mathbb{R}\),模型 \(M\) 在多轮交互中不断接收状态 \(s_i\)、生成动作 \(a_i\) 以最大化奖励。在这个统一接口之上,框架分两层:底层是 6 款原汁原味的游戏(覆盖平台跳跃、解谜、叙事三大类),上层是一套可开关的脚手架模块(感知/记忆/推理)外加污染检测与提示词标准化两个增强组件。

flowchart LR
    Game[6款游戏<br/>Gym风格统一API] -->|状态 s_i| Harness
    subgraph Harness[可插拔脚手架]
        Perc[感知模块<br/>图像→符号表]
        Mem[记忆模块<br/>历史+反思]
        Reason[推理模块<br/>long-CoT开关]
    end
    Harness -->|动作 a_i| Game
    Game --> Robust[鲁棒性增强]
    subgraph Robust[ ]
        Contam[污染检测<br/>视觉/文本]
        Prompt[提示词标准化<br/>SIMBA优化]
    end

关键设计

1. 六款难度可缩放的游戏选型:用经典游戏天然的难度梯度做区分度。 作者刻意复用 Super Mario Bros(平台跳跃,考空间-时序推理与目标规划)、Tetris / Sokoban / Candy Crush / 2048(网格解谜,考模式识别、空间推理、长程规划)和 Ace Attorney(法庭叙事视觉小说,考长上下文理解与因果演绎)。选型沿两个维度刻画难度:容错度(低=一步错即败如 Sokoban;中=可累积可恢复;高=容忍多次失误)和状态-动作空间复杂度。保留原始游戏设定意味着保留了人类认知设计者精心打磨的挑战性,使基准不易饱和。奖励分两类:对线性/无固定终点的游戏给渐进奖励(如马里奥水平距离、2048 累计合并分),对多步目标给长程奖励(如 Sokoban 解完所有箱子、Ace Attorney 走完一段庭审),统一映射为连续原始分。

2. 三类可开关脚手架——基准的能力探针核心。 这是全文最关键的设计。感知模块把多模态 UI 转成符号/文本:网格游戏直接从游戏后端读出坐标-对象表(如 "Box at (2,3)")替代原始图像,绕开视觉瓶颈;对马里奥这类复杂画面则用 o3 生成文本描述。记忆模块含两个可选组件——瞬时记忆(记录最近 \(N\) 个状态-动作)和反思模块(把失败教训编码成显式经验,避免重复无效动作),专门对付 Sokoban、Tetris 这类决策空间随进程爆炸的游戏。推理模块允许在带/不带 long-CoT 之间切换。固定游戏、逐一开关模块,就能把"感知差"和"规划差"这种本来混在一起的失败拆开诊断。实验显示打开脚手架后 86.7% 的 run 能超过随机基线(无脚手架时只有 60%),配对 t 检验确认提升显著。

3. 数据污染检测与缓解——区分"理解"还是"背诵"。 因为复用公开游戏素材,图像/脚本可能已进入预训练数据。作者对素材广为流传的两款做污染测试:视觉级在 Super Mario Bros 上让模型重排打乱的 RGB 帧,发现只有少数模型有中等正相关、且不显著影响排名,说明模型靠局部感知而非背诵帧序列;文本级在 Ace Attorney 上用 Sentence-BERT 测输出与公开粉丝逐字稿的相似度,发现强相关——于是施加结构化缓解(实体掩码、改写、强制推理),相关性消失,排名转而对齐"被判定的推理质量"。其余组合爆炸型游戏(Tetris/2048/Candy Crush/Sokoban)则因状态空间巨大,与训练数据重叠可忽略。

4. 两阶段提示词标准化——压低评测方差。 即便经验调过的提示词,分数也能波动超过 \(\pm 1\sigma\)。作者先固定一个规范化的智能体输入格式 \([\{J_{[\min(0,i-N):i-1]}\}, R_{i-1}, s_i] \mapsto a_i\)\(J\) 是最近 \(N\) 轮轨迹、\(R_{i-1}\) 是记忆反思),再用 DSPy 的 SIMBA 优化器以游戏奖励为信号迭代精炼提示词。三次运行下,2048 等游戏的提示词方差降低 33.8%–63.5%,让跨模型比较更一致。

实验关键数据

主实验表格(13 个模型,原始分,部分摘录)

模型 Harness Sokoban Mario Tetris 2048 Candy Crush Ace Attorney
o3-2025-04-16 No 2.0 1955 31.0 128.2 106.0 8.0
o3-2025-04-16 Yes 8.0 2267 42.0 128.6 647.0 11.3
o1-2024-12-17 Yes 2.3 855 35.0 128.9 159.0 16.0
Gemini-2.5-pro Yes 4.3 1498 23.3 117.3 416.3 7.7
Claude-3.7(think) Yes 2.3 1419 16.3 113.3 484.0 7.0
GPT-4.1 Yes 0.0 2126 13.7 105.7 182.0 3.3
Random 0.0 987 10.2 100.4 116.5 0.0
Human (avg) 9.7 4333 353.3 115.5 283.3 17.3

结论:o3 与 o1 包揽全游戏 Top-2,其后是 Gemini-2.5-pro 与 Claude-3.7-Sonnet;非推理模型中 GPT-4.1 领先。基准远未饱和(人类在 Tetris 拿 353 分而最强模型仅 42 分)。

消融实验表格(按推理/非推理模型分组的脚手架贡献)

模型组 游戏 ZS +记忆 +感知 +两者
推理模型 Sokoban 0.9 0.9 4.0 4.0
推理模型 Tetris 13.4 15.1 26.4 21.6
推理模型 Candy Crush 138.1 161.1 229.7 462.5
非推理模型 2048 57.6 102.5 71.1 107.0
非推理模型 Candy Crush 36.1 97.6 66.3 127.3

结论:感知模块在 Sokoban/Tetris/Candy Crush 上对推理模型增益最大(结构化空间输入解锁了图像下表达不出的规划能力);记忆模块对非推理模型在 2048/Candy Crush 这类长程游戏上提升最猛,既抬均值又降方差。

关键发现

  • 能力相关性:Sokoban 强相关数学/编程基准,Tetris/2048 对齐 EnigmaEval、NYT-Connections 等模式识别任务,Candy Crush 关联编程(算法推理),Ace Attorney 关联 LiveBench-Language(叙事理解)。低秩矩阵分解把游戏拆成 4 个潜在能力(语言多任务、编程、符号解谜、物理推理)的稀疏组合,证明游戏考的是复合能力而非孤立技能
  • 暴露的四大缺陷:(1) VLM 难以从图像直接抽取棋盘状态(Tetris/Sokoban 这种人类秒懂的任务都做不好);(2) 非推理模型频繁陷入重复无效动作循环(2048 反复尝试不可能的合并),靠记忆+反思才能自纠;(3) 空间选择与时序动态错位(马里奥跳跃帧数不对);(4) 长上下文检索失败(Ace Attorney 证据就在窗口里却调不出来)。

亮点与洞察

  • "脚手架开关 = 能力探针"是真正的方法论贡献:把评测从"打一个总分"升级为"固定游戏、逐模块消融、定位单项能力",这比堆更多游戏更有诊断价值。
  • 把污染问题当一等公民处理:视觉级 + 文本级双路检测,并用缓解前后相关性是否消失来验证有效性,方法论扎实,回应了"游戏素材在预训练里"这个最容易被质疑的点。
  • 量化把游戏和已有基准连起来:相关分析 + 低秩分解给出"哪款游戏考哪种能力"的可解释框架,让游戏分数不再是黑箱。

局限与展望

  • 部分可观测游戏方差仍高:Super Mario Bros 因随机动态,模型与人类都方差大,难以稳定区分。
  • 计算成本高:多轮交互产生大量高度重复的长推理链,运营开销可观,呼唤更高效的推理。
  • 马里奥感知模块收益有限:文本描述与真正需要的空间-时序信息之间仍有鸿沟,复杂画面的感知瓶颈未被脚手架根本解决。

相关工作与启发

  • 游戏作为 AI 测试床:从 TD-Gammon、AlphaGo 到 Gym,再到近年的 BALROG(网格导航+文本推理)、LMAct(看专家演示数量)、VideoGameBench(3D 但太难);本文在游戏选型(自带难度梯度)、脚手架设计、污染缓解、量化评测四点上做出差异化。
  • LLM 智能体基准:相比代码编辑(SWE-bench)、网页浏览、GUI 控制等领域专用基准,游戏提供了既可扩展又技能多样的互补设定。
  • 启发:模块化脚手架的"逐项开关做消融"思路可迁移到任何多能力纠缠的智能体评测;污染检测中"缓解前后相关性是否消失"是验证 benchmark 可信度的好范式。

评分

  • 新颖性: ⭐⭐⭐⭐ 模块化脚手架做能力探针 + 污染检测 + 量化能力分解的组合在游戏评测里属首创,虽然单个组件(Gym 接口、DSPy 优化)是已有工具。
  • 实验充分度: ⭐⭐⭐⭐ 13 模型 × 6 游戏 × 多脚手架配置,配人类基线、配对 t 检验、相关分析与低秩分解,覆盖面广;但部分模型/游戏因成本只跑单次,方差大。
  • 写作质量: ⭐⭐⭐⭐ 动机—痛点—设计逻辑清晰,图表与失败案例分析到位,能力解耦的叙事完整。
  • 价值: ⭐⭐⭐⭐ 给社区一个不饱和、可诊断、抗污染的游戏评测框架,且明确指出视觉抽取、反思、时空推理、长上下文四个改进方向,实用价值高。