Adaptive Social Learning via Mode Policy Optimization for Language Agents¶
会议: ICLR 2026
arXiv: 2505.02156
代码: https://github.com/MozerWang/AMPO
领域: LLM推理
关键词: social intelligence, adaptive reasoning, mode selection, reinforcement-learning, token efficiency
一句话总结¶
提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。
研究背景与动机¶
领域现状:LLM agent 在社交交互(谈判、合作等)中需要动态调整推理深度,但现有方法要么不做推理(直接回复),要么统一使用长 CoT,存在过度推理或推理不足的问题。
现有痛点:大推理模型(o1、R1 等)在社交任务上表现反而不如 GPT-4o——它们不分场景地进行穷举推理,导致 overthinking、推理链冗长、目标意识弱。GRPO 训练后模型也倾向于收敛到单一推理模式(总用最深的 Mode 4)。
核心矛盾:社交交互是动态的,不同回合、不同场景需要不同深度的推理。简单场景(双方目标已达成)只需直觉回应,复杂场景(双方冲突未解决)才需要深度策略推演。但现有 RL 方法(GRPO)的优势估计是"模式盲"的,无法学到这种自适应能力。
本文目标 如何让 LLM agent 在社交交互中根据上下文动态选择合适的推理深度,同时保持高效和高效果?
切入角度:借鉴认知科学的层级认知控制理论(HCCT),设计四个层次的推理模式,并在 GRPO 基础上引入模式级优势估计来引导模式选择。
核心 idea:用层级推理模式 + 模式感知的 RL 优化(AMPO)让社交 agent 学会"该快则快、该慢则慢"的自适应推理。
方法详解¶
整体框架¶
ASL 分三步:(1) 设计四种推理模式(M1-M4,从简到复杂);(2) 行为克隆(BC)让模型学会遵循各模式的格式;(3) AMPO 强化学习让模型学会根据场景自适应选择模式并优化推理质量。输入是社交对话上下文,输出是以模式控制 token 开头的推理+回答。
关键设计¶
-
四种层级推理模式(基于 HCCT):
- 功能:为不同复杂度的社交场景定义从浅到深的推理结构
- 核心思路:M1(直觉回应)仅输出答案,无推理;M2(意图分析)分析对方意图 + 说话风格 + 回应;M3(策略适应)额外引入历史分析、目标明晰、情境评估、策略制定;M4(前瞻推演)在 M3 基础上生成多个策略并通过模拟推演择优。每个模式用特殊控制 token
<MODE_k>标识 - 设计动机:对应认知科学的四层级认知控制——从感觉运动到长情景控制,让模型拥有从 System 1 到 System 2 的完整推理谱系
-
Adaptive Mode Policy Optimization (AMPO):
- 功能:在 GRPO 基础上引入模式级优势 \(A^{\mathcal{M}}\) + 样本级优势 \(A^{\mathcal{S}}\) 的双层优势估计
- 核心思路:模式级优势通过比较各模式的平均 reward 来引导模式选择;当各模式 reward 相近时,转为以 token 长度为信号,鼓励更短的模式(用 tanh 归一化)。样本级优势则在选定模式内比较各样本质量。最终优势 = \(A^{\mathcal{M}} + A^{\mathcal{S}}\),嵌入 PPO-clip 目标函数
- 设计动机:解决 GRPO 的"模式盲"问题——GRPO 只按 reward 排序样本,不感知模式差异,导致模型收敛到高 reward 但低效的 M4 模式。AMPO 让模型在 reward 相同时偏好更简洁的模式
-
奖励设计(三维奖励):
- 功能:提供 answer reward(评估目标完成度)+ format reward(模式格式约束,违反则 -2)+ answer length reward(答案长度惩罚,超过目标长度时平滑衰减到 0-1 区间)
- 设计动机:仅用 answer reward 会导致模型生成冗长但无实质策略提升的答案;length reward 鼓励简洁,配合模式级优势实现深度自适应
损失函数 / 训练策略¶
两阶段训练:(1) BC 冷启动,用专家 LLM 生成各模式的训练数据做 SFT;(2) AMPO 在线策略优化,对每个 prompt 采样 G 个 rollout(覆盖不同模式),用双层优势估计 + PPO-clip + KL 正则化更新策略。采用 single-turn 训练范式提高效率。
实验关键数据¶
主实验¶
| 方法 | SOTOPIA Goal↑ | Hard Goal↑ | Hard Overall↑ | Avg Tokens↓ |
|---|---|---|---|---|
| GPT-4o | 8.19 | 6.97 | 3.46 | - |
| DeepSeek-R1 | 7.97 | 5.86 | 2.73 | 711 |
| QwQ-32B | 7.70 | 5.35 | 2.41 | 973 |
| Qwen-7B + GRPO | 8.87 | 7.44 | 3.41 | 905 |
| Qwen-7B + AMPO | 8.95 | 7.85 | 3.54 | 647 |
| Llama-8B + GRPO | 8.86 | 7.59 | 3.44 | 865 |
| Llama-8B + AMPO | 9.08 | 8.06 | 3.68 | 581 |
消融实验¶
| 配置 | Hard Goal | Hard Overall | Avg Tokens |
|---|---|---|---|
| AMPO + 4 Modes (完整) | 7.85 | 3.54 | 647 |
| AMPO w/o length reward | 7.56 | 3.56 | 1617 |
| 仅 M1 | 7.08 | 3.40 | 101 |
| 仅 M4 | 7.62 | 3.31 | 972 |
| GRPO + 无模式 | 7.32 | 3.16 | 866 |
| GRPO + 4 模式 | 7.44 | 3.41 | 905 |
关键发现¶
- 大推理模型在社交任务上全面落败:o1、R1、QwQ 在 SOTOPIA-Hard 上均显著低于 GPT-4o,说明穷举推理对社交智能有害
- 模式分布随交互回合自适应变化:M4 集中在前 4 轮(53%),M1 在后期飙升(50% in 14-20 轮),符合"先深后浅"的认知直觉
- 去掉 length reward 后 token 暴增 2.5 倍(647→1617),但 Goal 反而下降(7.85→7.56),证实冗长推理不等于好推理
- 混合模式比单一模式显著更优:AMPO+4模式 比最好的单模式(M4)Goal 高 3%,token 少 33%
亮点与洞察¶
- 推理深度自适应是关键洞察:不是所有场景都需要 Long-CoT,社交交互中自适应推理深度比统一深度推理更有效,这个发现可以推广到很多非确定性答案的任务
- 模式级优势估计的设计很巧妙:当 reward 区分度够时选高 reward 模式,当 reward 相近时选效率更高的模式,两个分支的切换自然优雅
- 认知科学指导 AI 设计:HCCT 四层级到四种推理模式的映射关系清晰,经验上也得到验证,说明认知科学理论对 AI agent 设计有指导价值
局限与展望¶
- single-turn 训练范式可能限制了长程策略一致性,尽管作者做了分析但仍是潜在弱点
- 四种模式是人工设计的,模式数量和结构可能不是最优的,自动发现推理模式可能更好
- 评估依赖 GPT-4o 打分(虽然有人工验证),可能存在 evaluator bias
- 目前仅在社交交互任务上验证,推广到其他需要自适应推理的场景(如开放域 QA、创意写作)尚未验证
相关工作与启发¶
- vs GRPO: AMPO 在 GRPO 基础上引入模式级优势估计,解决了 GRPO 的模式盲问题,实现了更好的性能-效率 trade-off
- vs 大推理模型 (o1/R1): 这些模型在社交任务上的失败说明,无差别的 Long-CoT 不适合需要社交智能的开放式交互,需要更结构化的推理方式
- vs EPO/DSI: 外挂策略模块或策略注入虽有提升但幅度有限,端到端的自适应推理学习(ASL)更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 层级推理模式设计新颖,AMPO 的双层优势估计有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、消融充分、人工评估、OOD 验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但公式较多偏密集
- 价值: ⭐⭐⭐⭐ 自适应推理深度的思想有广泛适用性,社交智能方向的重要工作