The Stackelberg Speaker: Optimizing Persuasive Communication in Social Deduction Games¶
会议: ACL 2026
arXiv: 2510.09087
代码: https://3dagentworld.github.io/leader_follower
领域: 强化学习 / 社交推理游戏
关键词: 说服性通信, 社交推理游戏, Stackelberg博弈, GRPO, LLM智能体
一句话总结¶
本文将社交推理游戏中的回合制对话建模为 Stackelberg 博弈,当前玩家作为 leader 通过度量下一玩家的响应分布来优化话语的说服力影响,使用 GRPO 训练 Refiner 模型在狼人杀、阿瓦隆等四个游戏基准上显著超越基线。
研究背景与动机¶
领域现状:LLM 智能体在社交推理游戏(SDGs)如狼人杀、阿瓦隆等中取得了显著进展。现有方法主要聚焦信息处理(推断其他玩家角色)和策略选择(选择最优行动)。
现有痛点:现有方法忽视了说服性通信的核心作用——在 SDGs 中,成功不仅取决于做出正确推断,更取决于说服他人按照自己的意图行动。现有 RL 方法(如 SLA、LSPO)将丰富的自然语言空间简化为有限动作分类问题,无法在连续语言空间中优化话语。
核心矛盾:SDGs 的核心挑战不是"知道什么是对的",而是"让别人相信自己是对的"。说服性维度是游戏成功和真实人类交互的核心,但在当前研究中几乎未被触及。
本文目标:显式建模和优化社交推理游戏中的说服性通信,使智能体能主动引导对话流向有利结果。
切入角度:借用博弈论中的 Stackelberg 博弈框架——如果 leader 充分理解 follower 对不同行动的响应分布,就可以选择最大化自身效用的行动。在回合制对话中,当前说话者就是 leader。
核心 idea:训练一个 Refiner 模型将基础话语精炼为更具说服力的版本,奖励信号基于该话语对下一玩家响应概率分布的偏移量(增加期望响应概率、减少不期望响应概率)。
方法详解¶
整体框架¶
分三步:(1) 意图识别——API LLM 分析当前局势,生成期望/不期望的 follower 响应各 K=3 组;(2) 影响度量——API LLM 生成基础话语,Refiner 将其精炼为多个候选,Measurer 计算每个候选对 follower 响应分布的偏移作为奖励;(3) 策略优化——用 GRPO 优化 Refiner 使其最大化说服力影响。
关键设计¶
-
Stackelberg 建模与意图识别:
- 功能:将每个说话回合建模为 leader-follower 交互,明确优化目标
- 核心思路:当前玩家 \(p_t\) 作为 leader,下一玩家 \(p_{t+1}\) 作为 follower。leader 根据游戏规则 \(\mathcal{R}\)、游戏状态 \(G_t\)、对话历史 \(D_t\) 和隐藏角色 \(r_t\),用后端 LLM 生成 K=3 组期望响应 \(\hat{u}_{t+1}^{+,(k)}\) 和不期望响应 \(\hat{u}_{t+1}^{-,(k)}\)
- 设计动机:显式定义"什么是好的说服效果",将模糊的说服目标转化为可度量的概率偏移
-
说服力影响度量(Impact Measurement):
- 功能:为每个候选话语计算其对 follower 行为的说服力奖励
- 核心思路:用 Qwen2.5-72B 作为 Measurer 模拟 follower 的响应模式。对候选话语 \(u_t^{(i)}\),奖励 \(R(u_t^{(i)}) = \sum_k \log P_\mathcal{F}(\hat{u}_{t+1}^{+,(k)} | \text{ctx} \cup \{u_t^{(i)}\}) - \sum_k \log P_\mathcal{F}(\hat{u}_{t+1}^{-,(k)} | \text{ctx} \cup \{u_t^{(i)}\})\)
- 设计动机:直接在 follower 的概率空间中度量说服效果,比人工标注或启发式评估更客观
-
GRPO 策略优化:
- 功能:训练 Refiner 在自然语言空间中优化话语的说服力
- 核心思路:Qwen2.5-7B + LoRA (rank 16) 作为 Refiner,采样 n=8 个候选,用 GRPO 计算组内相对优势进行策略优化,KL 散度正则化防止偏离过远
- 设计动机:GRPO 无需额外 critic 模型,直接利用批次内奖励分布计算相对优势
损失函数 / 训练策略¶
GRPO 目标函数:\(\mathcal{J}(\theta) = \mathbb{E}_c[\frac{1}{n}\sum_i \mathcal{L}_i - \beta D_{KL}(\pi_\theta || \pi_{ref})]\),n=8, ε=0.2, β=0.04。每游戏 500 局自对弈,选 4000 实例训练。后端 LLM 随机选自 GPT-4o/Gemini-2.5-Flash/Claude-3.5-Haiku。学习率 \(1 \times 10^{-6}\),4×A800 训练 3 epochs 约 50 小时。
实验关键数据¶
主实验¶
| 游戏 | 方法 | 总体胜率 |
|---|---|---|
| 狼人杀 | LSPO | 38.6% |
| 狼人杀 | Ours + LSPO | 44.7% |
| 阿瓦隆 | Strategist | 57.4% |
| 阿瓦隆 | Ours + Strategist | 61.3% |
| ONUW | RL-ins. | 48.5% |
| ONUW | Ours + RL-ins. | 51.5% |
消融实验¶
| 奖励变体 | 狼人杀 Avg | 阿瓦隆 Avg | ONUW Avg |
|---|---|---|---|
| ReAct (基线) | 49.0 | 44.0 | 48.0 |
| Pos-Only + ReAct | 64.0 | 58.0 | 60.0 |
| Neg-Only + ReAct | 49.0 | 46.0 | 47.0 |
| Ours + ReAct | 70.0 | 61.0 | 61.0 |
关键发现¶
- 正向奖励(增加期望响应概率)比负向奖励(减少不期望响应概率)贡献大得多
- Refiner 与强基线结合效果更好,说明方法是补充而非替代现有策略
- 在欺骗角色上提升尤为显著——狼人杀中狼人胜率从 79% 提升到 84.2%
- 方法成功泛化到 Sotopia 社交模拟环境,不限于 SDGs
亮点与洞察¶
- Stackelberg 博弈建模回合制对话非常自然——将说服力量化为"对方响应概率偏移"比直接优化胜率更精细
- 用独立大模型模拟 follower 响应分布巧妙绕过了 API LLM 无法获取概率的限制
- Refiner 作为"话语精炼器"的定位很实用——保留强 API LLM 语义理解,小模型做说服力增强
局限与展望¶
- Measurer 用固定大模型模拟 follower,实际对手行为可能不同
- 训练时使用完整信息(对手角色已知),推理时不可用
- 每个游戏需单独训练 checkpoint,跨游戏迁移未探索
相关工作与启发¶
- vs SLA/LSPO: 它们将语言简化为有限候选选择,本文直接在连续语言空间优化。Refiner 可叠加使用
- vs Cicero: Cicero 在外交游戏中寻全局均衡,本文用局部 Stackelberg 优化避免计算不可行
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Stackelberg 建模+说服力奖励的组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 三个 SDGs + Sotopia、多基线叠加、消融完整
- 写作质量: ⭐⭐⭐⭐ 理论清晰但部分公式密集
- 价值: ⭐⭐⭐⭐ 为 LLM 智能体说服性通信提供可行框架
代码: 待确认
领域: reinforcement_learning
关键词: 待补充
一句话总结¶
待深读论文后补充
研究背景与动机¶
待深读论文后补充
方法详解¶
待深读论文后补充
实验关键数据¶
待深读论文后补充
亮点与洞察¶
待深读论文后补充
局限性 / 可改进方向¶
待深读论文后补充
相关工作与启发¶
待深读论文后补充
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评