Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning¶

会议: ICLR 2026
代码: https://github.com/tongjingqi/Game-RL
领域: 多模态视觉语言模型 / 强化学习 / 推理数据合成
关键词: VLM, GRPO, 可验证奖励, 游戏数据, Code2Logic, 泛化推理

一句话总结¶

把电子游戏的代码反向"蒸馏"成带步骤解析的可验证 VQA 数据（GameQA，30 个游戏 / 158 个任务 / 14 万题），只用游戏数据做 GRPO 强化学习，就能让多个 VLM 在 7 个完全 out-of-domain 的通用视觉推理基准上一致涨点。

研究背景与动机¶

领域现状：视觉语言强化学习（vision-language RL）这两年靠可验证奖励（RLVR）涨了不少推理能力，但训练场景高度集中在几何题和图表推理这种窄领域——因为这些领域天然有标准答案、好判对错。其它能给 VLM 提供丰富视觉元素和可验证反馈的训练资源基本没人挖。

现有痛点：电子游戏其实是个被忽视的金矿——它有丰富的视觉场景和文字、机制规则简单到能被程序精确验证、环境完全可控（难度随便调）。但已有工作（ING-VP、BALROG、VideoGameBench、VCbench）都只把游戏当评测 benchmark 用，没人真正把游戏数据拿来训练。原因很直接：他们没把游戏过程转成可训练的 VQA 格式。

核心矛盾：游戏天然适合做 RLVR 训练数据，可手工标注游戏推理过程成本高、规模上不去，而且容易出错；想要"无限量、可控难度、答案可验证"三者兼得，靠人标根本做不到。

本文目标：构造一套能从游戏自动合成大规模可验证推理数据的方法，证明"只训游戏数据"也能提升 VLM 的通用（跨领域）推理能力。

核心 idea（Code2Logic + Game-RL）：游戏代码本身就编码了"状态→动作→新状态"的完整逻辑链。只要把游戏代码映射成推理逻辑，就能让代码当数据引擎自动批量产出带正确步骤解析的题目，再用 GRPO 做纯游戏数据的强化学习。

方法详解¶

整体框架¶

方法分两层：Code2Logic 负责把游戏代码合成成 GameQA 数据集，Game-RL 负责在 GameQA 上跑 GRPO 训练。Code2Logic 的核心洞察是"游戏代码 = 推理逻辑的可执行形式"，于是用三步把代码变成数据；Game-RL 则用一个 LLM-as-judge 给出 0/1 结果奖励驱动 GRPO。

flowchart TD
    A[Prompt: 造一个游戏] --> B[Step1 游戏代码构建<br/>state space + move 等核心函数]
    B --> C[Step2 任务与QA模板设计<br/>每个模板=一种推理模式]
    B --> D[Step3 数据引擎构建<br/>复用游戏核心函数]
    C --> D
    D --> E[批量执行 → 填模板<br/>生成带步骤解析的VQA]
    E --> F[质量校验+LLM改写增广+过滤]
    F --> G[GameQA: 30游戏/158任务/140K题]
    G --> H[Game-RL: GRPO训练<br/>LLM-as-judge 0/1 奖励]
    H --> I[7个OOD通用视觉基准一致涨点]

关键设计¶

1. Code2Logic 三步把游戏代码变可验证数据：从"会写代码"到"会出题+判对错"。 第一步游戏代码构建，用 Claude 3.5 / GPT-4o 一句话提示就能生成像 Sokoban 这种简单游戏的完整代码——代码里定义了状态空间（墙/玩家/箱子/目标）和编码转移规则的核心函数（如 move），这些函数后面会被反复复用。第二步任务与 QA 模板设计，基于游戏的视觉元素和动作空间设计任务，比如 Sokoban 的"走若干步后玩家在哪"，把具体问答抽象成带占位符的问题模板和答案模板，一个模板就浓缩了游戏里的一类推理模式；任务被归为目标感知（Target Perception）、状态预测（State Prediction）、策略优化（Strategy Optimization）三型。第三步数据引擎构建，让 LLM 基于第一步的游戏代码写一个程序，由"环境初始化 / 提出任务实例 / 求解任务实例 / 构造 QA"四个模块组成——关键是求解模块直接复用游戏代码里的 move 逻辑来模拟每一步（含碰撞、推箱），所以产出的步骤解析天然正确。执行数据引擎就能无限批量填模板出题。

2. 用游戏代码做"求解器"保证步骤解析正确，再 LLM 改写去模板味。 因为答案是由确定性的游戏代码逐步模拟生成的，每道题不光给最终答案，还附带完整的中间推理轨迹（如"Move 1 - Left: (2,3)→(2,2) … Final position"），这正是 RL 想要的 process-style 监督信号。但纯模板生成的解析文字重复、套路化，于是用 LLM 做释义增广（paraphrasing）让表达多样，再过数据过滤保证增广后答案仍正确、长度合适、无过度重复。每一步还配人工校验：游戏代码靠手动跑程序查 bug、数据引擎初版人工测、复杂游戏特性会检索开源代码喂给 LLM。

3. GameQA：30 游戏 × 4 认知类别 × 3 难度，且 in/out-of-domain 拆分。 最终数据集 30 个游戏、158 个任务、约 14 万题，按解题所需核心能力分四类——3D 空间感知与理解、模式识别与匹配、多步推理、策略规划。题型全是多选（7-8 选项）或填空（数字/坐标），都可机器验证。难度有两个维度可调：QA Level（问题本身难度）和 Plot Level（图像复杂度，如棋盘大小，由代码参数控制）。关键是 30 个游戏被分成 20 个 in-domain 用于训练 + 10 个 out-of-domain 完全留作测试泛化，这样才能干净地证明"训游戏 A 能泛化到没见过的游戏 B 乃至通用基准"。

4. Game-RL：GRPO + LLM-as-judge 的纯结果奖励。 训练用 DeepSeek 标准形式的 GRPO，损失为 $$J_{GRPO}(\theta)=\mathbb{E}\Big[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}\big(\min[r_{i,t}\hat{A}_{i,t},\,\text{clip}(r_{i,t},1-\epsilon,1+\epsilon)\hat{A}_{i,t}]-\beta D_{KL}[\pi_\theta\|\pi_{ref}]\big)\Big]$$ 其中 $r_{i,t}=\pi_\theta(o_{i,t}|q,o_{i,<t})/\pi_{\theta_{old}}(o_{i,t}|q,o_{i,<t})$。奖励只看最终答案对不对：用 Qwen2.5-32B-Instruct-AWQ 当裁判判断模型答案是否与 ground truth 语义等价，对则 reward=1 否则 0。之所以不用规则匹配，是因为同一答案有多种写法（如 (2,3) vs x=2,y=3），规则判错率高；人工抽查 300 例确认裁判 100% 准确。GRPO 超参：每题 rollout 12 个样本、训 1 epoch、学习率 2e-7、$\epsilon=0.2$、$\beta=0.04$。

实验关键数据¶

主实验表格（纯游戏数据训练 → 通用基准泛化）¶

在 5K GameQA 样本上用 GRPO 微调三个 VLM，在 7 个通用视觉基准上的平均分：

模型	Avg.	MathVista	MathVerse	MMBench	MMMU	CharXiv	MathVision	MMMU-Pro
Qwen2.5-VL-7B	50.00	66.62	45.10	84.05	49.78	37.92	30.17	36.32
+Game-RL	52.65 (+2.65)	68.48	48.60	85.00	51.96	42.08	32.48	39.99
InternVL2.5-8B	45.80	57.43	35.85	81.90	47.92	31.68	28.62	37.20
+Game-RL	48.40 (+2.60)	62.38	38.72	82.18	48.91	35.66	31.87	39.08
InternVL3-8B	54.15	68.72	49.76	85.98	56.85	38.92	35.24	43.59
+Game-RL	56.05 (+1.90)	73.24	51.40	86.36	57.82	40.75	38.05	45.10

三个模型在全部 7 个基准上都涨，证明学到的是可迁移的视觉理解与推理能力，而非记游戏。

消融实验表格（GameQA vs 通用推理数据集）¶

基于 Qwen2.5-VL-7B 同样 GRPO，对比各数据集（OOD 游戏 + 通用基准两侧平均）：

训练数据	OOD Games Avg.(↑)	General Bench Avg.(↑)
原始 Qwen2.5-VL-7B	27.09	49.94
+MAVIS-8K	27.61 (+0.52)	51.53 (+1.59)
+Multimodal-Open-R1-8K	28.33 (+1.24)	51.86 (+1.92)
+MultiMath-8K	28.38 (+1.29)	52.81 (+2.87)
+GameQA-5K	29.87 (+2.78)	52.31 (+2.37)
+GameQA-5K & MultiMath-8K	30.93 (+3.84)	53.23 (+3.29)

只用 5K 游戏数据，效果与用 8K 几何/数学数据（对通用基准而言已属 in-domain）相当甚至更好；游戏数据和数学数据混训还能叠加增益。

关键发现¶

Takeaway 1：纯游戏数据训练能泛化到未见游戏、交互式游戏环境（ING-VP）和 7 个通用视觉基准，说明学到的是可迁移能力。
Takeaway 2：游戏数据带来的提升与几何/函数等通用推理数据集相当，游戏可作为高质量训练资源。
规模效应（双维度）：把训练游戏的数量（多样性）从 4 个扩到 20 个、或把数据量扩到 20K，通用基准分数都呈一致上升趋势——两个维度的 scaling 都有效。
可验证性：LLM-as-judge 在 300 个抽样上达到 100% 验证准确率，奖励信号干净可靠。

亮点与洞察¶

"代码即推理逻辑"的反向蒸馏很巧：不是让模型玩游戏，而是把游戏代码当成可执行的求解器来批量生产带正确步骤的题，天然解决了"无限量 + 难度可控 + 答案可验证"三难。
OOD 泛化的实验设计干净：训练只用 in-domain 游戏，通用基准全部是 out-of-domain，涨点不存在数据泄漏争议，结论说服力强。
填补了 RLVR 训练场景的空白：把视觉 RL 从几何/图表的窄领域扩展到游戏这个富视觉、强可验证的新场景，给"用合成数据 scale RL"提供了一条新路。

局限与展望¶

论文里的游戏多为格点/棋盘类（Sokoban、数独、七巧板等），视觉风格相对程式化，离真实照片/复杂自然场景仍有差距，迁移到真实世界感知的边界还需验证。
涨点幅度虽一致但绝对值有限（+1.9~+2.65 Avg.），是否能随更大模型/更大数据持续放大尚需更长 scaling 曲线支撑。
依赖 LLM 生成游戏代码 + LLM 当裁判，复杂游戏代码的正确性仍需人工兜底，pipeline 自动化程度对"难游戏"会下降。
奖励只用最终答案 0/1，未利用已有的步骤解析做 process reward，未来可探索过程级奖励进一步榨取游戏数据的监督价值。

评分¶

新颖性: ⭐⭐⭐⭐ — "把游戏代码反向蒸馏成可验证 VQA 训练数据"这个角度新颖且实用，首次将游戏从评测用途转为训练用途。
实验充分度: ⭐⭐⭐⭐ — 3 个模型 × 7 个 OOD 基准 + 与 3 个通用数据集对比 + 数量/多样性双维度 scaling + 混训实验，相当扎实；略缺更大模型规模验证。
写作质量: ⭐⭐⭐⭐ — 动机清晰、Code2Logic 三步配图解释到位、takeaway 提炼明确，易读。
价值: ⭐⭐⭐⭐ — 提供了可复现的开源数据集+方法，为"用合成可验证数据 scale 视觉 RL"开辟了新资源方向，实用价值高。