ICML 2025 LLM对齐多智能体强化学习人类反馈奖励设计 LLM解析自适应权重混合质量反馈

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality¶

会议: ICML 2025

arXiv: 2503.02077

代码: 未公开

领域: LLM对齐

关键词: 多智能体强化学习, 人类反馈, 奖励设计, LLM解析, 自适应权重, 混合质量反馈

一句话总结¶

提出 M³HF 框架，在多智能体强化学习训练过程中整合多阶段、混合质量的人类自然语言反馈，利用 LLM 解析反馈并通过预定义模板和自适应权重更新奖励函数，显著提升多智能体协作性能。

研究背景与动机¶

多智能体强化学习（MARL）中的奖励函数设计是核心挑战。在复杂协作环境中，手工设计的奖励函数往往导致次优或错位行为。现有方法面临以下问题：

稀疏奖励困境：协作任务（如烹饪、足球）的最终奖励信号稀疏，智能体难以通过试错学习有效协作

奖励工程困难：手工设计密集奖励需要大量领域知识，且设计不当易导致奖励黑客

单阶段反馈局限：传统 RLHF 方法仅在训练前或训练后收集反馈，无法根据智能体实际行为动态调整

反馈质量不一：不同人类评估者的专业水平差异巨大，需要处理混合质量的反馈

M³HF 的核心洞察是：通过在训练过程中多次暂停、收集人类反馈、并自适应地整合不同质量的反馈，可以更高效地引导多智能体学习协作策略。

方法详解¶

整体框架¶

M³HF 扩展了标准马尔可夫博弈（Markov Game）为多阶段人类反馈马尔可夫博弈（MHF-MG），包含以下流程：

训练阶段：智能体正常训练一段时间
暂停评估：策略性地暂停训练，展示智能体行为录像给人类
反馈收集：人类提供自然语言反馈（如"把食材放到中间桌子上"）
LLM 解析：用 LLM 将自然语言反馈转化为结构化奖励信号
奖励更新：通过预定义模板生成奖励函数，用自适应权重整合
继续训练：用更新后的奖励函数继续训练

关键设计：LLM 反馈解析¶

人类反馈通过 LLM 解析为结构化格式，包含：

目标智能体：反馈针对哪个/哪些智能体
奖励类型：匹配预定义的奖励模板（如基于距离、基于动作等）
参数设置：模板中的具体参数值

预定义奖励模板包括： - 距离类：奖励智能体靠近/远离特定位置 - 动作类：奖励执行特定动作序列 - 协作类：奖励多智能体间的配合行为

关键设计：自适应权重调整¶

在第 \(k\) 代，组合奖励函数为：

\[\hat{R}_k = \sum_{m=0}^{k} w_m^k R_m\]

其中 \(R_0\) 为原始环境奖励，\(R_m\) (\(m > 0\)) 为人类反馈生成的奖励。权重更新机制包括：

权重衰减（Weight Decay）：随时间逐步降低旧反馈的影响，使系统更关注最新反馈
基于性能的调整（Performance-based Adjustment）：如果引入新反馈后性能下降（\(\Delta r_k < 0\)），自动将该反馈权重裁剪为零
增量验证：通过 rollout 评估新奖励函数的实际效果，仅保留有益反馈

理论保证¶

命题 4.2（对有缺陷反馈的鲁棒性）：在任意 \(K\) 轮反馈后：

\[J_{\text{ori}}(\pi_K) - J_{\text{ori}}(\pi_0) \geq \sum_{j=1}^{n(K)} \Delta r_{i_j} - \delta\]

其中 \(\delta\) 为有界正常数，\(i_j\) 是第 \(j\) 个有效反馈的索引。这表明算法从每个高质量反馈中获益，而性能退化最多只对应最后一个错误反馈。

实验关键数据¶

主实验：Overcooked 环境¶

方法	Layout A (简单)	Layout B (复杂)	Layout C (最复杂)
IPPO	19.2 ± 4.5	23.1 ± 2.7	27.4 ± 4.9
MAPPO	低于 IPPO	低于 IPPO	低于 IPPO
Mac-based	中等	中等	中等
M³HF	164.8 ± 1.2	显著优于基线	显著优于基线

M³HF 在所有布局和食谱设置下均显著优于基线，在复杂任务中性能提升可达 50%。

鲁棒性与消融实验¶

实验	发现
混合质量反馈	即使包含错误反馈，M³HF 性能仍接近基线，不会显著退化
故意误导反馈	自适应权重机制有效抑制了误导性反馈的负面影响
去除 LLM 解析	性能下降，验证了 LLM 解析环节的必要性
固定权重 vs 自适应权重	自适应权重明显优于固定权重策略
VLM 替代人类	Gemini-1.5-Pro 可生成类人反馈，但在具体性上仍弱于人类
Google Football 5v5	M³HF 在更复杂环境中继续优于标准 MARL 基线

训练效率¶

反馈轮次：仅需 2-5 轮人类反馈
训练加速：3×-6× 加速（15k eps vs 80k-100k eps 的传统方法）
人力成本：每轮反馈约 3-5 分钟，总计不超过 25 分钟
节省时间：节约 10-15 小时训练时间

亮点与洞察¶

人机协作范式：不同于传统 RLHF 的离线偏好收集，M³HF 实现了训练过程中的在线人类指导，反馈与策略行为紧密耦合
混合质量处理：自适应权重机制巧妙地处理了不同质量反馈的整合问题，使非专家也能有效参与
LLM 作为桥梁：用 LLM 将自然语言反馈转化为结构化奖励，降低了人类提供反馈的门槛
实用性强：极少的人类反馈轮次（2-5 轮）即可显著提升性能，实际部署成本低
VLM 替代探索：初步验证了用 VLM 替代人类反馈的可行性，为完全自动化奠定基础

局限性¶

奖励模板依赖领域知识：预定义模板需要针对新环境手动设计
环境验证有限：主要在 Overcooked 上验证，虽已扩展至 Football，但更多复杂环境的泛化性尚需验证
理论假设较强：高斯噪声假设和遍历性假设可能在实际场景中不成立
VLM 反馈精度不足：当前 VLM 生成的反馈过于笼统（如"改善协调"），缺乏具体指导
与其他人类反馈 MARL 方法缺少直接比较：如 PbMARL 等使用偏好比较的方法

评分¶

新颖性：⭐⭐⭐⭐ — 多阶段多智能体人类反馈整合是新颖的问题设定
实验完整性：⭐⭐⭐ — 消融充分但环境多样性有限（主要是 Overcooked）
实用价值：⭐⭐⭐⭐ — 极少反馈即可大幅提升性能，部署成本低
推荐指数：⭐⭐⭐⭐ — 推荐关注 MARL 和 RLHF 交叉领域的研究者阅读