MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GCd5v3ehmr
代码: 已开源（Project Page + Code，见 OpenReview）
领域: 多智能体 / LLM 强化学习
关键词: 多智能体推理, 自博弈, GRPO, 信用分配, 优势估计, 策略博弈

一句话总结¶

MARSHAL 用一套针对「多轮 + 多智能体」改造的 GRPO（先求回报再归一化的 turn-level 优势估计 + 按角色分组的优势归一化），让 Qwen3-4B 在合作与竞争的策略博弈里自博弈训练，习得的策略能力能零样本迁移到 MAD/AutoGen 等多智能体系统并在数学/QA 推理基准上稳定涨点。

研究背景与动机¶

领域现状：RL（GRPO/PPO）已被证明能显著增强单智能体 LLM 的推理能力（DeepSeek-R1 等），但现实中的谈判、博弈、协同开发都是多个智能体长时间交互的多智能体系统（MAS）。把 RL 扩展到多轮、多智能体场景仍是空白。
现有痛点：直接把 GRPO 套到多智能体自博弈上有两个硬伤。其一是长程信用分配——一局游戏由多轮动作组成，每轮可能有即时奖励，但最终只有一个稀疏的胜负结果，把整局结果平摊给每个 token（朴素 GRPO 做法）无法分辨哪一步动作真正起了作用。其二是角色异质性导致的优势方差——不同游戏角色（先手/后手、合作中的不同位置）信息不对称、收益尺度不同，混在一起做归一化会引入方差、破坏训练稳定性。
核心矛盾：自博弈天然产生多轮、多角色轨迹，而现成的单轮 RL 优势估计假设「一条响应 = 一个 turn、一个角色」，结构上不匹配。
本文目标：设计一个端到端 RL 框架，让 LLM 通过在多样化策略博弈中自博弈，习得可泛化的多智能体推理能力，且能迁移到游戏之外的真实多智能体系统。
核心 idea：自博弈 + 两项针对多轮多智能体的 GRPO 改造——把策略博弈建模成 turn-level MDP，用「先累加回报、再归一化」的 turn-level 优势估计做细粒度信用分配，并按玩家角色分子组独立归一化优势。

方法详解¶

整体框架¶

MARSHAL 把一整局策略博弈视作一个 episode（turn-level MDP）：高层状态 $s_k$ 是第 $k$ 轮开始时的局面（棋盘、手牌等），高层动作 $a_k$ 是 LLM 当轮的完整输出（含推理 + 落子），它本身又是底层自回归策略逐 token 生成的序列，目标是最大化整局总回报 $R=\sum_{k=1}^{K} r_k$。在 GRPO 基础上，先通过自博弈让同一模型扮演所有玩家、生成各角色的多轮轨迹，再用两项改造把轨迹奖励转成准确的 token 级优势喂给 GRPO 更新。

flowchart LR
    A[同一模型自博弈<br/>合作/竞争策略博弈] --> B[各角色多轮轨迹<br/>turn-level rewards r_k]
    B --> C[Turn-Level 优势估计<br/>先累加回报 R_k 再归一化]
    C --> D[Agent-Specific 归一化<br/>按玩家角色分子组]
    D --> E[token 级优势 → GRPO 更新]
    E --> A

关键设计¶

1. 多轮自博弈下的 GRPO 朴素推广：先定义问题的「baseline 写法」。 自博弈中所有玩家由同一模型控制，每局给每个角色产出一条多轮轨迹。把一个博弈环境内的所有轨迹 $\{(s^i_k,a^i_k)_{k=1}^{K_i}\}_{i=1}^{G}$ 当作一组响应、以整局总回报 $R_i$ 作为终止奖励，GRPO 就能加一层对轮的求和直接推广，优势取 $A^i_{k,t}=\frac{R_i-\mathrm{mean}(r)}{\mathrm{std}(r)}$。但这等于把整条多轮轨迹的所有 token 都赋同一个优势，正是长程信用分配失效的根源——本文的两项改造都是冲着修这个来的。

2. Turn-level 优势估计：把「先归一化再累加」反转成「先累加再归一化」。 原始 GRPO 的过程监督做法是先在整个 batch 上归一化每轮奖励 $\tilde r^i_k=(r^i_k-\mathrm{mean}(r))/\mathrm{std}(r)$，再做累加和 $A^i_k=\sum_{\hat k=k}^{K}\tilde r^i_{\hat k}$。问题在于不同轮的中间奖励分布差异很大，把它们当成单一分布做全局归一化并不合适。MARSHAL 把两步顺序倒过来：先算从第 $k$ 轮起的蒙特卡洛累计回报 $R^i_k=\sum_{\hat k=k}^{K} r^i_{\hat k}$，再对这些回报做去均值归一化 $A^i_{k,t}=R^i_k-\mathrm{mean}(R)$。这一形式等价于 $\gamma=1,\lambda=1$ 的 GAE，价值函数 $V(s_k)$ 被一个简单有效的 baseline——batch 回报的经验均值 $\mathbb{E}[R]$ ——近似，从而让优势被恰当地居中，给多轮决策提供更稳定的学习信号。

3. Agent-specific 优势归一化：按角色分子组、各算各的 baseline。 很多博弈里期望回报严重依赖玩家角色（先手 vs 后手、合作中的不同分工），把不同角色的优势放在一起归一化会把所有玩家拉向一个共享 baseline，统计上不合理还会淹没角色特有的学习信号。MARSHAL 把 batch 轨迹按玩家角色 $p$ 划成子组 $G_p$，在每个子组内部独立套用上面的 turn-level 估计，最终目标变为 $$A^{p,i}_{k,t}=R^{p,i}_k-\mathrm{mean}(R^p),\quad R^p\ \text{为子组}\ G_p\ \text{的累计回报集合}$$ 保证每个动作的优势是相对该角色平均结果算出来的，在多智能体场景下给出更准确、更稳定的信用分配。

4. 极简奖励设计 + 课程化博弈选取：让信号尽量来自胜负本身。 主信号是内在博弈结果（井字棋胜/负/和 ±1、Kuhn Poker 赢/输筹码、Mini Hanabi 每打出一张牌共享 +1），多游戏混训时把各游戏最大奖励统一缩放到 4。另加两个辅助奖励稳训练：格式奖励（合法格式 +0.05，非法直接 −10 并终局）、长度惩罚 $r_{\text{length}}(l)=\alpha\cdot\max(0,1-\frac{l-l_{\min}}{l_{\max}-l_{\min}})$（$l_{\min}=11,l_{\max}=2048,\alpha=0.5$）鼓励简洁。博弈则按「训练集 → 更复杂的留出集」分三类：完美信息竞争（井字棋→四子棋）、不完美信息竞争（Kuhn Poker→Leduc Hold'em）、不完美信息合作（Mini Hanabi→Simple Hanabi），覆盖确定性规划、不确定性决策、意图识别/心智理论等多种推理能力。

实验关键数据¶

主实验表格（多智能体系统内的下游推理，Average）¶

设置	模型	Average
Single Agent	Qwen3-4B	60.74
Single Agent	SPIRAL	63.75
Single Agent	MARSHAL Generalist	62.79
MAD（竞争）	Qwen3-4B	72.45
MAD（竞争）	SPIRAL	73.41
MAD（竞争）	MARSHAL Generalist	75.96（+3.51）
AutoGen（合作）	Qwen3-4B	79.14
AutoGen（合作）	SPIRAL	80.05
AutoGen（合作）	MARSHAL Generalist	82.15

代表性单项增益：MAD 框架下 generalist 在 GPQA-Diamond 提升 7.57%；AutoGen 框架下 generalist 在 AIME 提升 10.00%。

消融实验表格（井字棋专家，训练/留出游戏归一化回报，竞争游戏为先手/后手）¶

模型	Tic-Tac-Toe	Kuhn Poker	Mini Hanabi	Connect Four	Leduc Hold'em	Simple Hanabi
MARSHAL	75.30/32.10	74.15/3.42	50.48	30.65/14.85	58.36/27.65	29.75
w/o Turn-Level	74.60/24.15	80.26/28.35	34.80	26.75/12.30	48.34/41.34	19.05
w/o Agent-Specific	82.70/31.20	70.89/11.24	44.10	25.40/10.50	51.04/49.88	21.72
w/ fixed opponent	88.00/41.95	63.15/28.84	34.93	20.35/5.65	47.38/35.55	12.22

关键发现¶

专家 → 留出游戏的 OOD 泛化成立：井字棋专家不仅在训练域超越基线，还能迁移到更复杂的四子棋，甚至在 OOD 的 Mini Hanabi 上平滑提升，说明学到的是「轮流规划」这类基础技能。
Generalist 最稳：在全部游戏上整体表现最强，Leduc Hold'em 提升 28.7%、Simple Hanabi 提升 22.9%。
两项设计都不可或缺：去掉 turn-level 估计或 agent-specific 归一化，留出游戏（尤其合作 Hanabi）性能明显回退。
自博弈 >> 固定对手：对固定专家对手训练会过拟合静态环境/对手（Kuhn Poker 专家固定对手变体在多数留出游戏直接归零）。
失败模式归因：在 GPQA-Diamond + MAD 上，MARSHAL 把「智能体间错位」（Inter-Agent Misalignment）降低 11.5%（远大于系统设计类问题的 ~7%），主要来自「任务跑偏」和「忽视其他智能体输入」的减少，印证模型确实在「倾听同伴、保持目标」。

亮点与洞察¶

把策略博弈的结构差异讲透：单轮 math 是「一条响应=一个 turn」，而策略博弈是 turn-level MDP，论文据此精准定位 GRPO 失配的两处并对症下药，方法动机干净。
「先累加再归一化」的小反转：一个看似微小的步骤顺序调整，背后对应 GAE($\gamma=1,\lambda=1$）且用 batch 均值近似价值函数，理论上自洽、工程上零额外开销。
跨域泛化是真卖点：游戏里练出的「角色理解」「意图识别（心智理论）」能零样本迁移到 MAD/AutoGen 的辩论/协作场景，并有定性 think 轨迹 + 定量失败模式双重佐证。

局限与展望¶

仅在 Qwen3-4B 单一规模、六个相对简化的二人博弈上验证，更大模型 / 更复杂多人博弈是否同样有效未知。
下游迁移仅在 MAD / AutoGen 两个框架、数学与 QA 基准上测试，向更开放的工具调用、长程协作任务的泛化仍待考察。
辅助奖励（格式、长度惩罚）和奖励缩放仍需人工设定，跨游戏统一尺度的做法在更多异质游戏混训时可能需要重新调参。

评分¶

新颖性: ⭐⭐⭐⭐ 把多轮多智能体自博弈的两处 GRPO 失配定位清晰，「先累加再归一化 + 按角色分组归一化」是简洁而有效的针对性改造。
实验充分度: ⭐⭐⭐⭐ 覆盖六游戏 OOD 泛化、两类 MAS 框架、多个数学/QA 基准、消融、固定对手对比、失败模式归因，链条完整。
写作质量: ⭐⭐⭐⭐ 问题动机—方法—实验逻辑顺畅，图表与定性轨迹分析互补，公式推导到位。
价值: ⭐⭐⭐⭐ 给「如何训练可泛化多智能体推理 LLM」提供了可复现的端到端范式，对多智能体系统社区有实际参考价值。