The Stackelberg Speaker: Optimizing Persuasive Communication in Social Deduction Games¶
会议: ACL 2026
arXiv: 2510.09087
代码: https://3dagentworld.github.io/leader_follower
领域: 强化学习 / 社交推理游戏
关键词: 说服性通信, 社交推理游戏, Stackelberg博弈, GRPO, LLM智能体
一句话总结¶
本文将社交推理游戏中的回合制对话建模为 Stackelberg 博弈,当前玩家作为 leader 通过度量下一玩家的响应分布来优化话语的说服力影响,使用 GRPO 训练 Refiner 模型在狼人杀、阿瓦隆等四个游戏基准上显著超越基线。
研究背景与动机¶
领域现状:LLM 智能体在社交推理游戏(SDGs)如狼人杀、阿瓦隆等中取得了显著进展。现有方法主要聚焦信息处理(推断其他玩家角色)和策略选择(选择最优行动)。
现有痛点:现有方法忽视了说服性通信的核心作用——在 SDGs 中,成功不仅取决于做出正确推断,更取决于说服他人按照自己的意图行动。现有 RL 方法(如 SLA、LSPO)将丰富的自然语言空间简化为有限动作分类问题,无法在连续语言空间中优化话语。
核心矛盾:SDGs 的核心挑战不是"知道什么是对的",而是"让别人相信自己是对的"。说服性维度是游戏成功和真实人类交互的核心,但在当前研究中几乎未被触及。
本文目标:显式建模和优化社交推理游戏中的说服性通信,使智能体能主动引导对话流向有利结果。
切入角度:借用博弈论中的 Stackelberg 博弈框架——如果 leader 充分理解 follower 对不同行动的响应分布,就可以选择最大化自身效用的行动。在回合制对话中,当前说话者就是 leader。
核心 idea:训练一个 Refiner 模型将基础话语精炼为更具说服力的版本,奖励信号基于该话语对下一玩家响应概率分布的偏移量(增加期望响应概率、减少不期望响应概率)。
方法详解¶
整体框架¶
分三步:(1) 意图识别——API LLM 分析当前局势,生成期望/不期望的 follower 响应各 K=3 组;(2) 影响度量——API LLM 生成基础话语,Refiner 将其精炼为多个候选,Measurer 计算每个候选对 follower 响应分布的偏移作为奖励;(3) 策略优化——用 GRPO 优化 Refiner 使其最大化说服力影响。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["输入:游戏规则 + 状态 + 对话历史 + 隐藏角色"] --> B["Stackelberg 建模与意图识别<br/>后端 LLM 生成期望 / 不期望响应各 K=3"]
B --> C["后端 LLM 生成基础话语"]
subgraph OPT["GRPO 策略优化"]
direction TB
D["Refiner 精炼出 n=8 候选话语"]
F["GRPO 更新<br/>组内相对优势 + KL 正则"]
end
C --> D
D --> E["说服力影响度量<br/>Measurer 算 follower 响应分布偏移作奖励"]
E --> F
F -->|迭代训练| D
F --> G["输出:更具说服力的话语"]
关键设计¶
1. Stackelberg 建模与意图识别:把"说服"翻译成可优化的目标
社交推理游戏里最难量化的就是"说服力"——它既不是胜率(太滞后、太稀疏),也不是简单的动作分类(SLA、LSPO 那样把丰富的自然语言压成有限候选,等于把说服这一维度直接抹掉)。本文借 Stackelberg 博弈给它一个清晰的载体:每个说话回合中,当前玩家 \(p_t\) 是 leader、下一玩家 \(p_{t+1}\) 是 follower,leader 的目标就是"知道 follower 会怎么反应,然后挑最有利的话来说"。落地时,后端 LLM 综合游戏规则 \(\mathcal{R}\)、状态 \(G_t\)、对话历史 \(D_t\) 和隐藏角色 \(r_t\),生成各 \(K=3\) 组的期望响应 \(\hat{u}_{t+1}^{+,(k)}\) 和不期望响应 \(\hat{u}_{t+1}^{-,(k)}\)。这一步把模糊的"我想让他相信我"具象成一组明确的目标响应,为后面用概率偏移来打分铺好了路。
2. 说服力影响度量:在 follower 的概率空间里给每句话打分
有了目标响应,还得有个客观的标尺衡量"某句话到底有多说服人"——人工标注主观又贵,启发式评估又不可靠。本文的做法是用 Qwen2.5-72B 作为 Measurer 去模拟 follower 的响应模式,直接在它的概率空间里度量:对候选话语 \(u_t^{(i)}\),奖励为期望响应的对数概率之和减去不期望响应的对数概率之和
也就是说,一句话越能抬高对方说出"我们想要的话"的概率、越能压低"我们不想要的话"的概率,分数就越高。用一个独立可访问概率的大模型来当 follower,还顺手绕开了 GPT-4o 这类 API LLM 拿不到 token 概率的限制。
3. GRPO 策略优化:让小模型专做"话术增强"
有了奖励信号,就用它来训练 Refiner——一个 Qwen2.5-7B + LoRA(rank 16)的小模型,职责单一:把后端强 LLM 生成的基础话语精炼成更有说服力的版本。每条基础话语采样 \(n=8\) 个候选,用 GRPO 算组内相对优势做策略更新,并加 KL 散度正则防止跑偏。选 GRPO 是因为它不需要额外的 critic,直接拿这一批 8 个候选的奖励分布算相对优势就能更新。这种"强 API LLM 管语义理解、小 Refiner 管说服力增强"的分工,让方法可以叠加在任意现有策略之上而非取而代之。
损失函数 / 训练策略¶
GRPO 目标函数:\(\mathcal{J}(\theta) = \mathbb{E}_c[\frac{1}{n}\sum_i \mathcal{L}_i - \beta D_{KL}(\pi_\theta || \pi_{ref})]\),n=8, ε=0.2, β=0.04。每游戏 500 局自对弈,选 4000 实例训练。后端 LLM 随机选自 GPT-4o/Gemini-2.5-Flash/Claude-3.5-Haiku。学习率 \(1 \times 10^{-6}\),4×A800 训练 3 epochs 约 50 小时。
实验关键数据¶
主实验¶
| 游戏 | 方法 | 总体胜率 |
|---|---|---|
| 狼人杀 | LSPO | 38.6% |
| 狼人杀 | Ours + LSPO | 44.7% |
| 阿瓦隆 | Strategist | 57.4% |
| 阿瓦隆 | Ours + Strategist | 61.3% |
| ONUW | RL-ins. | 48.5% |
| ONUW | Ours + RL-ins. | 51.5% |
消融实验¶
| 奖励变体 | 狼人杀 Avg | 阿瓦隆 Avg | ONUW Avg |
|---|---|---|---|
| ReAct (基线) | 49.0 | 44.0 | 48.0 |
| Pos-Only + ReAct | 64.0 | 58.0 | 60.0 |
| Neg-Only + ReAct | 49.0 | 46.0 | 47.0 |
| Ours + ReAct | 70.0 | 61.0 | 61.0 |
关键发现¶
- 正向奖励(增加期望响应概率)比负向奖励(减少不期望响应概率)贡献大得多
- Refiner 与强基线结合效果更好,说明方法是补充而非替代现有策略
- 在欺骗角色上提升尤为显著——狼人杀中狼人胜率从 79% 提升到 84.2%
- 方法成功泛化到 Sotopia 社交模拟环境,不限于 SDGs
亮点与洞察¶
- Stackelberg 博弈建模回合制对话非常自然——将说服力量化为"对方响应概率偏移"比直接优化胜率更精细
- 用独立大模型模拟 follower 响应分布巧妙绕过了 API LLM 无法获取概率的限制
- Refiner 作为"话语精炼器"的定位很实用——保留强 API LLM 语义理解,小模型做说服力增强
局限与展望¶
- Measurer 用固定大模型模拟 follower,实际对手行为可能不同
- 训练时使用完整信息(对手角色已知),推理时不可用
- 每个游戏需单独训练 checkpoint,跨游戏迁移未探索
相关工作与启发¶
- vs SLA/LSPO: 它们将语言简化为有限候选选择,本文直接在连续语言空间优化。Refiner 可叠加使用
- vs Cicero: Cicero 在外交游戏中寻全局均衡,本文用局部 Stackelberg 优化避免计算不可行
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Stackelberg 建模+说服力奖励的组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 三个 SDGs + Sotopia、多基线叠加、消融完整
- 写作质量: ⭐⭐⭐⭐ 理论清晰但部分公式密集
- 价值: ⭐⭐⭐⭐ 为 LLM 智能体说服性通信提供可行框架