Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents¶

会议: ACL 2025
arXiv: 2506.21252
代码: 有 (GitHub)
领域: 多模态VLM
关键词: reward modeling, multimodal agent, benchmark, safety, planning

一句话总结¶

本文提出Agent-RewardBench，首个评估多模态LLM作为agent奖励模型能力的基准，覆盖感知/规划/安全三个维度和7个真实场景，包含1,136条高质量step-level样本，实验揭示即使最强模型GPT-4o也仅达61.4%准确率，且强模型在安全维度反而表现更差。

研究背景与动机¶

领域现状：多模态agent在网页导航、具身智能等任务中展现潜力，目前主流增强方法是模仿学习（SFT），使用专家标注轨迹进行微调。近期研究开始探索用奖励模型（RM）提供反馈来提升agent能力。
现有痛点：虽然奖励模型在指导agent训练和搜索中至关重要，但目前没有基准来评估MLLM作为agent奖励模型的能力。现有奖励基准（如RewardBench）聚焦于对话/数学/检索场景，不覆盖agent特有的感知、规划和安全能力。
核心矛盾：agent任务需要多维度的奖励反馈（感知是否准确、规划是否合理、行为是否安全），但我们不知道哪些MLLM适合做agent的奖励模型，也不知道它们在各维度上的能力差异。
本文目标 (1) 构建覆盖多维度、多场景的agent奖励基准；(2) 支持step-level奖励评估而非仅评估最终结果；(3) 通过难度控制和人工验证确保数据质量。
切入角度：从agent任务的三个核心能力维度（感知、规划、安全）出发，收集7个真实场景数据，通过10个模型采样响应+小模型难度过滤+人工验证的三阶段流程构建benchmark。
核心 idea：首次系统评估MLLM在agent任务中的奖励建模能力，揭示"强模型≠好奖励模型"的反直觉发现。

方法详解¶

整体框架¶

输入是来自7个真实agent场景的任务prompt，对每个中间步骤从10个不同MLLM采样多个响应，构建正负样本对 \((r^+, r^-)\)，经过小模型难度过滤和人工验证后得到1,136条高质量评估样本。评估时让目标MLLM判断哪个响应更好。

关键设计¶

三维度七场景的数据来源设计:
- 功能：全面覆盖agent任务所需的核心能力
- 核心思路：感知维度从SeeClick（web/mobile/desktop视觉定位）和MFE-ETP（具身空间感知）选取数据；规划维度从Mind2Web（网页多步规划）、PCA（Minecraft/自动驾驶/虚拟家庭）和TravelPlanner（旅行规划）选取；安全维度从弹窗攻击场景和MSSBench（具身安全）选取。共初始约1,682条样本
- 设计动机：agent奖励模型需要同时具备视觉理解、序列决策和安全对齐能力，仅评估单一维度不足以反映真实应用需求
Step-level奖励评估:
- 功能：在任务的每个中间步骤进行细粒度奖励评估
- 核心思路：对agent任务的每个步骤分别采样响应，构建该步骤的正负样本对，让被评估模型判断哪个步骤响应更好。这比仅评估最终结果提供了更细致的反馈
- 设计动机：agent规划具有明确的步骤划分，step-level评估能发现模型在规划过程中的具体薄弱环节
三阶段数据构建流程（采样→难度控制→人工验证）:
- 功能：确保评估数据质量高且难度适中
- 核心思路：首先从5个闭源+5个开源模型采样响应，每个query采样10对正负样本；然后用3个小模型（Pixtral-12B、LLaVA-OneVision-7B、InternVL2-8B）进行双向难度过滤，去掉过难和过易的样本；最后3名AI方向研究生进行人工验证，剔除标注错误的样本。原始1,443条经过滤后保留1,136条
- 设计动机：过易的数据区分度低，过难的数据可能有标注噪声——难度控制确保基准在有效区分不同模型能力的同时保持高质量

实验关键数据¶

主实验¶

模型	感知Avg	规划Avg	安全Avg	总体Avg
gemini-1.5-pro	73.4	69.6	37.7	61.6
gpt-4o	65.9	73.2	39.2	61.4
claude-3.5-sonnet	73.3	71.2	22.4	57.9
Qwen2-VL-72B	69.1	60.1	34.3	55.3
gemini-1.5-flash	66.1	64.7	47.8	60.2
Qwen2-VL-7B	57.5	51.8	38.7	49.7
Llama-3.2-11B	53.5	50.6	38.0	47.8

安全维度细分¶

模型	Web安全	具身安全	安全Avg
gemini-1.5-flash	26.0	69.5	47.8
gpt-4o	17.5	61.0	39.2
claude-3.5-sonnet	15.0	29.9	22.4
gpt-4o-mini	35.0	56.7	45.9

关键发现¶

即使最强闭源模型（gemini-1.5-pro），在Agent-RewardBench上也仅达61.6%准确率，说明agent奖励建模仍是一个巨大挑战
强模型不等于强安全奖励模型：GPT-4o总体排名靠前，但安全维度仅39.2%；Claude-3.5-Sonnet安全更低至22.4%。反而gpt-4o-mini在Web安全上更好（35.0% vs GPT-4o的17.5%）
开源模型（如Llama-3.2-11B）在感知（53.5%）和规划（50.6%）上接近随机水平，说明专门的agent奖励训练必不可少
规划维度上，GPT-4o（73.2%）显著优于其他模型，但在具身场景中的规划能力（68.2%）弱于旅行规划（76.2%），说明视觉+物理推理对规划的额外挑战

亮点与洞察¶

"强模型≠好安全奖励模型"是本文最重要的反直觉发现——这暗示安全对齐需要专门的训练策略，不能简单依赖模型通用能力的提升
Step-level评估的设计思路非常实用——可以直接迁移到LLM推理过程的reward modeling中（如process reward model的评估）
三阶段数据构建流程（多模型采样→小模型过滤→人工验证）提供了构建高质量benchmark的通用范式

局限与展望¶

仅评估了奖励建模的判别能力（选择更好的响应），未评估生成式奖励（给出分数或文本反馈）
安全维度样本量较少（Web安全仅100条、具身安全82条），可能影响统计稳定性
未验证Agent-RewardBench得分与实际agent性能提升之间的相关性（即奖励模型好是否真的能带来更好的agent）
数据来源偏向英语场景，跨语言agent的奖励评估未覆盖
未探索组合多个弱奖励模型来获得更好的奖励信号（ensemble策略）
benchmark的更新机制未讨论——随着模型进步，数据集可能需要定期更新以保持区分度

评分¶

总体评价: 开创性工作，为agent领域从RL角度提供了关键评估设施，安全维度发现尤其重要
新颖性: ⭐⭐⭐⭐⭐ 首个专注agent奖励建模的基准，填补重要空白
实验充分度: ⭐⭐⭐⭐ 覆盖8个模型的全面评估，但安全维度样本量偏少
写作质量: ⭐⭐⭐⭐ 结构清晰，motivation阐述充分
价值: ⭐⭐⭐⭐⭐ 对agent领域从SFT向RL过渡提供了关键评估工具