Adaptive Social Learning via Mode Policy Optimization for Language Agents¶

会议: ICLR 2026
arXiv: 2505.02156
代码: https://github.com/MozerWang/AMPO
领域: LLM推理
关键词: social intelligence, adaptive reasoning, mode selection, reinforcement-learning, token efficiency

一句话总结¶

提出 Adaptive Social Learning（ASL）框架，设计四种层次化推理模式（从直觉回应到深度推演），并通过 AMPO 算法（融合模式级和样本级优势估计）让 LLM agent 根据社交场景复杂度自适应切换推理深度，在社交智能任务上比 GPT-4o 高 15.6%，比 GRPO 高 7.0% 且 token 用量减少 32.8%。

研究背景与动机¶

领域现状：LLM agent 在社交交互（谈判、合作等）中需要动态调整推理深度，但现有方法要么不做推理（直接回复），要么统一使用长 CoT，存在过度推理或推理不足的问题。

现有痛点：大推理模型（o1、R1 等）在社交任务上表现反而不如 GPT-4o——它们不分场景地进行穷举推理，导致 overthinking、推理链冗长、目标意识弱。GRPO 训练后模型也倾向于收敛到单一推理模式（总用最深的 Mode 4）。

核心矛盾：社交交互是动态的，不同回合、不同场景需要不同深度的推理。简单场景（双方目标已达成）只需直觉回应，复杂场景（双方冲突未解决）才需要深度策略推演。但现有 RL 方法（GRPO）的优势估计是"模式盲"的，无法学到这种自适应能力。

本文目标 如何让 LLM agent 在社交交互中根据上下文动态选择合适的推理深度，同时保持高效和高效果？

切入角度：借鉴认知科学的层级认知控制理论（HCCT），设计四个层次的推理模式，并在 GRPO 基础上引入模式级优势估计来引导模式选择。

核心 idea：用层级推理模式 + 模式感知的 RL 优化（AMPO）让社交 agent 学会"该快则快、该慢则慢"的自适应推理。

方法详解¶

整体框架¶

ASL 分三步：(1) 设计四种推理模式（M1-M4，从简到复杂）；(2) 行为克隆（BC）让模型学会遵循各模式的格式；(3) AMPO 强化学习让模型学会根据场景自适应选择模式并优化推理质量。输入是社交对话上下文，输出是以模式控制 token 开头的推理+回答。

关键设计¶

四种层级推理模式（基于 HCCT）:
- 功能：为不同复杂度的社交场景定义从浅到深的推理结构
- 核心思路：M1（直觉回应）仅输出答案，无推理；M2（意图分析）分析对方意图 + 说话风格 + 回应；M3（策略适应）额外引入历史分析、目标明晰、情境评估、策略制定；M4（前瞻推演）在 M3 基础上生成多个策略并通过模拟推演择优。每个模式用特殊控制 token <MODE_k> 标识
- 设计动机：对应认知科学的四层级认知控制——从感觉运动到长情景控制，让模型拥有从 System 1 到 System 2 的完整推理谱系
Adaptive Mode Policy Optimization (AMPO):
- 功能：在 GRPO 基础上引入模式级优势 \(A^{\mathcal{M}}\) + 样本级优势 \(A^{\mathcal{S}}\) 的双层优势估计
- 核心思路：模式级优势通过比较各模式的平均 reward 来引导模式选择；当各模式 reward 相近时，转为以 token 长度为信号，鼓励更短的模式（用 tanh 归一化）。样本级优势则在选定模式内比较各样本质量。最终优势 = \(A^{\mathcal{M}} + A^{\mathcal{S}}\)，嵌入 PPO-clip 目标函数
- 设计动机：解决 GRPO 的"模式盲"问题——GRPO 只按 reward 排序样本，不感知模式差异，导致模型收敛到高 reward 但低效的 M4 模式。AMPO 让模型在 reward 相同时偏好更简洁的模式
奖励设计（三维奖励）:
- 功能：提供 answer reward（评估目标完成度）+ format reward（模式格式约束，违反则 -2）+ answer length reward（答案长度惩罚，超过目标长度时平滑衰减到 0-1 区间）
- 设计动机：仅用 answer reward 会导致模型生成冗长但无实质策略提升的答案；length reward 鼓励简洁，配合模式级优势实现深度自适应

损失函数 / 训练策略¶

两阶段训练：(1) BC 冷启动，用专家 LLM 生成各模式的训练数据做 SFT；(2) AMPO 在线策略优化，对每个 prompt 采样 G 个 rollout（覆盖不同模式），用双层优势估计 + PPO-clip + KL 正则化更新策略。采用 single-turn 训练范式提高效率。

实验关键数据¶

主实验¶

方法	SOTOPIA Goal↑	Hard Goal↑	Hard Overall↑	Avg Tokens↓
GPT-4o	8.19	6.97	3.46	-
DeepSeek-R1	7.97	5.86	2.73	711
QwQ-32B	7.70	5.35	2.41	973
Qwen-7B + GRPO	8.87	7.44	3.41	905
Qwen-7B + AMPO	8.95	7.85	3.54	647
Llama-8B + GRPO	8.86	7.59	3.44	865
Llama-8B + AMPO	9.08	8.06	3.68	581

消融实验¶

配置	Hard Goal	Hard Overall	Avg Tokens
AMPO + 4 Modes (完整)	7.85	3.54	647
AMPO w/o length reward	7.56	3.56	1617
仅 M1	7.08	3.40	101
仅 M4	7.62	3.31	972
GRPO + 无模式	7.32	3.16	866
GRPO + 4 模式	7.44	3.41	905

关键发现¶

大推理模型在社交任务上全面落败：o1、R1、QwQ 在 SOTOPIA-Hard 上均显著低于 GPT-4o，说明穷举推理对社交智能有害
模式分布随交互回合自适应变化：M4 集中在前 4 轮（53%），M1 在后期飙升（50% in 14-20 轮），符合"先深后浅"的认知直觉
去掉 length reward 后 token 暴增 2.5 倍（647→1617），但 Goal 反而下降（7.85→7.56），证实冗长推理不等于好推理
混合模式比单一模式显著更优：AMPO+4模式比最好的单模式（M4）Goal 高 3%，token 少 33%

亮点与洞察¶

推理深度自适应是关键洞察：不是所有场景都需要 Long-CoT，社交交互中自适应推理深度比统一深度推理更有效，这个发现可以推广到很多非确定性答案的任务
模式级优势估计的设计很巧妙：当 reward 区分度够时选高 reward 模式，当 reward 相近时选效率更高的模式，两个分支的切换自然优雅
认知科学指导 AI 设计：HCCT 四层级到四种推理模式的映射关系清晰，经验上也得到验证，说明认知科学理论对 AI agent 设计有指导价值

局限与展望¶

single-turn 训练范式可能限制了长程策略一致性，尽管作者做了分析但仍是潜在弱点
四种模式是人工设计的，模式数量和结构可能不是最优的，自动发现推理模式可能更好
评估依赖 GPT-4o 打分（虽然有人工验证），可能存在 evaluator bias
目前仅在社交交互任务上验证，推广到其他需要自适应推理的场景（如开放域 QA、创意写作）尚未验证

评分¶

新颖性: ⭐⭐⭐⭐ 层级推理模式设计新颖，AMPO 的双层优势估计有创新
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、消融充分、人工评估、OOD 验证
写作质量: ⭐⭐⭐⭐ 结构清晰，但公式较多偏密集
价值: ⭐⭐⭐⭐ 自适应推理深度的思想有广泛适用性，社交智能方向的重要工作