跳转至

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality

会议: ICML 2025

arXiv: 2503.02077

代码: 未公开

领域: LLM对齐

关键词: 多智能体强化学习, 人类反馈, 奖励设计, LLM解析, 自适应权重, 混合质量反馈

一句话总结

提出 M³HF 框架,在多智能体强化学习训练过程中整合多阶段、混合质量的人类自然语言反馈,利用 LLM 解析反馈并通过预定义模板和自适应权重更新奖励函数,显著提升多智能体协作性能。

研究背景与动机

多智能体强化学习(MARL)中的奖励函数设计是核心挑战。在复杂协作环境中,手工设计的奖励函数往往导致次优或错位行为。现有方法面临以下问题:

稀疏奖励困境:协作任务(如烹饪、足球)的最终奖励信号稀疏,智能体难以通过试错学习有效协作

奖励工程困难:手工设计密集奖励需要大量领域知识,且设计不当易导致奖励黑客

单阶段反馈局限:传统 RLHF 方法仅在训练前或训练后收集反馈,无法根据智能体实际行为动态调整

反馈质量不一:不同人类评估者的专业水平差异巨大,需要处理混合质量的反馈

M³HF 的核心洞察是:通过在训练过程中多次暂停、收集人类反馈、并自适应地整合不同质量的反馈,可以更高效地引导多智能体学习协作策略。

方法详解

整体框架

M³HF 扩展了标准马尔可夫博弈(Markov Game)为多阶段人类反馈马尔可夫博弈(MHF-MG),包含以下流程:

  1. 训练阶段:智能体正常训练一段时间
  2. 暂停评估:策略性地暂停训练,展示智能体行为录像给人类
  3. 反馈收集:人类提供自然语言反馈(如"把食材放到中间桌子上")
  4. LLM 解析:用 LLM 将自然语言反馈转化为结构化奖励信号
  5. 奖励更新:通过预定义模板生成奖励函数,用自适应权重整合
  6. 继续训练:用更新后的奖励函数继续训练

关键设计:LLM 反馈解析

人类反馈通过 LLM 解析为结构化格式,包含:

  • 目标智能体:反馈针对哪个/哪些智能体
  • 奖励类型:匹配预定义的奖励模板(如基于距离、基于动作等)
  • 参数设置:模板中的具体参数值

预定义奖励模板包括: - 距离类:奖励智能体靠近/远离特定位置 - 动作类:奖励执行特定动作序列 - 协作类:奖励多智能体间的配合行为

关键设计:自适应权重调整

在第 \(k\) 代,组合奖励函数为:

\[\hat{R}_k = \sum_{m=0}^{k} w_m^k R_m\]

其中 \(R_0\) 为原始环境奖励,\(R_m\) (\(m > 0\)) 为人类反馈生成的奖励。权重更新机制包括:

  1. 权重衰减(Weight Decay):随时间逐步降低旧反馈的影响,使系统更关注最新反馈
  2. 基于性能的调整(Performance-based Adjustment):如果引入新反馈后性能下降(\(\Delta r_k < 0\)),自动将该反馈权重裁剪为零
  3. 增量验证:通过 rollout 评估新奖励函数的实际效果,仅保留有益反馈

理论保证

命题 4.2(对有缺陷反馈的鲁棒性):在任意 \(K\) 轮反馈后:

\[J_{\text{ori}}(\pi_K) - J_{\text{ori}}(\pi_0) \geq \sum_{j=1}^{n(K)} \Delta r_{i_j} - \delta\]

其中 \(\delta\) 为有界正常数,\(i_j\) 是第 \(j\) 个有效反馈的索引。这表明算法从每个高质量反馈中获益,而性能退化最多只对应最后一个错误反馈。

实验关键数据

主实验:Overcooked 环境

方法 Layout A (简单) Layout B (复杂) Layout C (最复杂)
IPPO 19.2 ± 4.5 23.1 ± 2.7 27.4 ± 4.9
MAPPO 低于 IPPO 低于 IPPO 低于 IPPO
Mac-based 中等 中等 中等
M³HF 164.8 ± 1.2 显著优于基线 显著优于基线

M³HF 在所有布局和食谱设置下均显著优于基线,在复杂任务中性能提升可达 50%。

鲁棒性与消融实验

实验 发现
混合质量反馈 即使包含错误反馈,M³HF 性能仍接近基线,不会显著退化
故意误导反馈 自适应权重机制有效抑制了误导性反馈的负面影响
去除 LLM 解析 性能下降,验证了 LLM 解析环节的必要性
固定权重 vs 自适应权重 自适应权重明显优于固定权重策略
VLM 替代人类 Gemini-1.5-Pro 可生成类人反馈,但在具体性上仍弱于人类
Google Football 5v5 M³HF 在更复杂环境中继续优于标准 MARL 基线

训练效率

  • 反馈轮次:仅需 2-5 轮人类反馈
  • 训练加速:3×-6× 加速(15k eps vs 80k-100k eps 的传统方法)
  • 人力成本:每轮反馈约 3-5 分钟,总计不超过 25 分钟
  • 节省时间:节约 10-15 小时训练时间

亮点与洞察

  1. 人机协作范式:不同于传统 RLHF 的离线偏好收集,M³HF 实现了训练过程中的在线人类指导,反馈与策略行为紧密耦合
  2. 混合质量处理:自适应权重机制巧妙地处理了不同质量反馈的整合问题,使非专家也能有效参与
  3. LLM 作为桥梁:用 LLM 将自然语言反馈转化为结构化奖励,降低了人类提供反馈的门槛
  4. 实用性强:极少的人类反馈轮次(2-5 轮)即可显著提升性能,实际部署成本低
  5. VLM 替代探索:初步验证了用 VLM 替代人类反馈的可行性,为完全自动化奠定基础

局限性

  1. 奖励模板依赖领域知识:预定义模板需要针对新环境手动设计
  2. 环境验证有限:主要在 Overcooked 上验证,虽已扩展至 Football,但更多复杂环境的泛化性尚需验证
  3. 理论假设较强:高斯噪声假设和遍历性假设可能在实际场景中不成立
  4. VLM 反馈精度不足:当前 VLM 生成的反馈过于笼统(如"改善协调"),缺乏具体指导
  5. 与其他人类反馈 MARL 方法缺少直接比较:如 PbMARL 等使用偏好比较的方法

相关工作与启发

  • RLHF for LLM(Ouyang et al.):M³HF 将 RLHF 思想推广到多智能体+多阶段场景
  • LLM 驱动的奖励设计(Motif 等):M³HF 的创新在于多阶段+多智能体的反馈分配
  • MARL(MAPPO/IPPO):M³HF 是这些基础方法的正交增强
  • 启发:多阶段反馈收集策略可推广到单智能体 LLM 对齐,通过在训练中间点收集反馈可能比仅在训练前/后更高效

评分

  • 新颖性:⭐⭐⭐⭐ — 多阶段多智能体人类反馈整合是新颖的问题设定
  • 实验完整性:⭐⭐⭐ — 消融充分但环境多样性有限(主要是 Overcooked)
  • 实用价值:⭐⭐⭐⭐ — 极少反馈即可大幅提升性能,部署成本低
  • 推荐指数:⭐⭐⭐⭐ — 推荐关注 MARL 和 RLHF 交叉领域的研究者阅读