ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 多模态VLM / 对齐RLHF
关键词: 多模态奖励模型, agentic 工具调用, think-act-verify, GRPO, 证据接地判定

一句话总结¶

ARM-Thinker 把多模态奖励模型从"一次性打分"改造成一个会主动调工具（裁剪放大、文档检索、指令校验）去找证据的 agent，用"先鼓励调工具、再精炼准确率"的两阶段 GRPO 训练，让 7B 模型在奖励建模、think-with-images、通用推理三类基准上分别平均涨 +16.2% / +9.6% / +4.2%，并在奖励/工具基准上追平甚至超过 GPT-4o。

研究背景与动机¶

领域现状：奖励模型（reward model, RM）是把 LLM / LVLM 对齐到人类偏好的核心部件。随着任务越来越跨模态、开放式、细粒度，判定一个回答对不对，越来越依赖"语义理解 + 证据接地"，而不是跟稀缺、模糊的标准答案做字符串匹配。

现有痛点：现有奖励信号有两条路，都在复杂多模态任务上翻车。其一是规则验证器（rule-based verifier），对改写脆弱、给不了部分分、标准答案主观时根本没法用；其二是生成式奖励模型，通常一次前向、不用工具就给分，导致幻觉式理由、位置/长度偏置，而且没法去检索或核对它引用的内容——它奖励"流畅但无依据"的回答，惩罚"简洁但有证据"的回答。

核心矛盾：现代多模态判定本质是个多步、证据接地的过程——要跨页检索、要在裁剪/缩放后维持空间定位、要区分"看似合理但无支撑"和"真有证据"的回答；同时 agentic 判定本身是个规划问题：判官得决定何时思考、调哪个工具、传什么参数、怎么把中间结果整合进一条无幻觉的因果链。而现有 RM 既没有 think–act–verify 闭环，也没有对"工具决策"的信用分配，训练行为和推理行为是错位的。

本文目标：让奖励模型像 agent 一样，在判定前能主动检索、定位、核对证据，并把分数建立在"它真正能验证的东西"上；同时造一个能评测这种 agentic 判定能力的基准。

核心 idea：用一个显式的 think–act–verify 循环 + 多模态工具集替代静态打分，把"判定"变成可验证的 agentic 过程，并用多阶段 RL 联合优化"工具调用决策"和"判定准确率"。

方法详解¶

整体框架¶

ARM-Thinker 的核心是把一个普通 LVLM（Qwen2.5-VL-7B）变成会调工具的判官 agent。给定一个多模态查询（问题 + 图像 + 若干候选回答），模型不是直接输出哪个回答好，而是进入一个 ReAct 风格的 think–act–observe 循环：每一步先在 <think> 里规划/推理，再在 <tool_call> 里调一个工具（或用 <answer> 终止给出最终判定），环境执行后把结果（文本 + 图像）包在 <tool_response> 里返回，模型再据此修正下一步思考。形式上一条长度为 \(L\) 的轨迹写成 \(\tau = \{(\theta_0,t_0,o_0),(\theta_1,t_1,o_1),\ldots,(\theta_L,t_L,o_L)\}\)，其中 \(\theta_i\) 是思考、\(t_i\) 是选中的工具调用、\(o_i\) 是观测，直到 emit 出 Finish 动作产出最终推理迹 \(\theta^*\) 和答案 \(a^*\)。

模型怎么"学会"这套行为，是另一条线：先用偏好数据 + 难度过滤造高质量带工具调用的 CoT 轨迹做 SFT/冷启动，再用两阶段 GRPO 强化——第一阶段先鼓励它去调工具，第二阶段再用可验证奖励精炼准确率与工具效率。下图把"agent 推理回路"和"训练管线"两条线串起来：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>问题 + 图像 + 候选回答"] --> B["think–act–observe 工具 agent 回路<br/>三类工具 + 索引记忆图"]
    B -->|未给出判定| B
    B -->|emit Finish| C["证据接地的判定 + 可解释理由"]
    D["可验证偏好数据生成<br/>正负样本 + 难度过滤 + 轨迹三筛"] --> E["SFT & 冷启动<br/>注入推理与工具行为"]
    E --> F["两阶段 GRPO 奖励设计<br/>Stage1 鼓励调工具→Stage2 精炼准确率"]
    F -.训练得到.-> B

关键设计¶

1. 多模态工具 agent 回路：think–act–observe + 三类工具 + 索引记忆图

这一设计直接打的是"现有 RM 一次前向、无法核对引用内容"这个痛点。ARM-Thinker 不再被动打分，而是按 ReAct + WebWatcher 的结构化工具调用格式，在 <think>/<tool_call>/<answer> 与 <tool_response> 之间反复迭代，每次观测都更新 agent 的理解，把"一次性预测"变成"逐步精炼"。它集成三类工具，分别覆盖文本、图像、文档三种交互：(1) 指令遵循校验工具——19 个文本验证器，按 MM-IFEngine 的校验 schema 检查词数、句数范围、关键词使用等约束；(2) 图像裁剪/放大工具——对高分辨率图做局部聚焦细看，作者明确把它视为 "think-with-images" 范式的实现，让模型在推理中动态移动注意力、反复重看图像；(3) 文档检索工具——doc_page_retrieval_by_query 和 by_index，按语义查询或页码从长文档里取回相关页面。

为了在多轮推理里不丢状态，它额外维护一张轻量 索引记忆图（indexed memory map）：一个 texts map 存候选回答（如 resp_1、resp_2），一个 imgs map 存可访问的图像路径（如 img_0、img_1）。这样模型能稳定地引用"第几个回答""第几张裁剪图"，给跨轮的证据检索提供结构化抓手——这是支撑长链条判定不混乱的关键脚手架。

2. 可验证偏好数据生成 + 难度过滤 + 轨迹三筛：解决 agentic 监督标签稀缺

agentic 奖励训练最大的卡点是没有现成的"带工具调用的判定轨迹"标签。作者用一条可扩展的数据管线来造。先构造偏好对：通用判定监督用 LLaVA-Critic，但它缺 agentic 交互、也不覆盖这三类工具，于是补三类任务数据——DeepEyes（裁剪放大）、MM-IFEngine（指令校验）、MP-DocVQA（文档检索）。由于这些数据多是 (问题, 图像, 标准答案) 三元组，作者用 GPT-4o-mini 针对正样本 \(r^+\) 生成语义相关但有缺陷的负样本 \(r^-\)，得到偏好对 \(\mathcal{D}_{\text{pair}}=\{(q,I,r^+,r^-)\}\)，其中 \(r^+\succ r^-\)；再删掉过于相似的对，保证每个偏好对有清晰、有信息量的对比。

光有偏好对还不够，得把它变成"带工具调用的推理轨迹"。这里有两个关键过滤：其一是难度过滤——基模型在 5 次 rollout 里全对（100%）的样本直接丢掉，让训练聚焦在更有信息量的难例上，这条规则贯穿后续所有训练阶段；其二是用更强的 LVLM 在 agent 回路里生成多模态 CoT 轨迹后做三维筛选：格式（format）、准确率（accuracy）、行为（behavior，即是否真的成功调了工具）。三关都过的才进入 SFT / 冷启动语料。

3. 两阶段 GRPO 奖励设计：先鼓励调工具，再分层精炼准确率

这一设计针对的是 agentic RL 的核心张力——既要让模型敢于调工具，又不能让它无脑滥调。ARM-Thinker 把奖励拆成两阶段。Stage 1（工具调用鼓励）：早期目标是让模型主动探索工具，奖励定义为 \(\mathcal{R}_{\text{tool}}=\mathcal{R}_{\text{f}}+\mathcal{R}_{\text{try}}\,\mathbb{I}_{tool\_calls>0}\)，其中 \(\mathcal{R}_{\text{f}}\) 约束 think–act–observe 的输出格式，\(\mathcal{R}_{\text{try}}\) 在模型做出合理工具调用尝试时给正信号，引导它进入有效的工具使用模式而不过拟合到某种成功标准。

Stage 2（准确率精炼）：等模型学会正确调工具后，奖励转向事实正确性和"工具是否真的有用"，用一个分层条件奖励：

\[ \mathcal{R}_{\text{acc}} = \begin{cases} \mathcal{R}_{\text{f}}+\mathcal{R}_{\text{try}}, & \mathcal{R}_{\text{a}}=0 \text{ 且 } tool\_calls>0;\\ \mathcal{R}_{\text{f}}+\mathcal{R}_{\text{a}}, & \mathcal{R}_{\text{a}}>0 \text{ 且 } succ\_tool\_calls=0;\\ \mathcal{R}_{\text{f}}+\mathcal{R}_{\text{a}}+\mathcal{R}_{\text{succ}}, & \mathcal{R}_{\text{a}}>0 \text{ 且 } succ\_tool\_calls>0. \end{cases} \]

这里 \(\mathcal{R}_{\text{a}}\) 评最终答案的事实正确性，\(\mathcal{R}_{\text{succ}}\) 在"工具调用直接促成了正确预测"时给额外信用，\(\mathcal{R}_{\text{f}}\) 与 \(\mathcal{R}_{\text{try}}\) 继续维持格式一致与鼓励合理探索。这个条件式奖励恰好镜像了它的可验证监督逻辑：答错就只奖励格式/尝试，答对但工具没起作用就只奖励答案，答对且工具确实帮上忙才给满额奖励。把"学会用工具"和"学会准确推理"分两阶段、用分层奖励隔开，是它在 GRPO 下能稳定训练、并避免"为拿固定工具奖励而滥调工具"的关键。

损失函数 / 训练策略¶

基模型为 Qwen2.5-VL-7B。流程为 SFT & 冷启动（LLaVA-Critic 数据强化通用判定能力，agentic 工具数据作为冷启动注入结构化推理与正确工具行为）→ 两阶段 GRPO（每个样本 rollout \(n\) 条轨迹 \(\mathcal{G}=\{(\tau_i,a_i)\}_{i=1}^n\)，按上面 Stage 1 / Stage 2 奖励优化）。难度过滤在所有阶段一致施加。

实验关键数据¶

主实验¶

奖励建模基准（VL-RewardBench 多模态 / RewardBench-2 纯文本 / 自建 ARMBench-VL）：

模型	VL-RewardBench(Avg)	RewardBench-2	ARMBench-VL(Avg)	三基准均值
Qwen2.5-VL-7B（基线）	50.1	47.1	46.1	47.8
InternVL3.5-8B	50.9	53.7	55.5	53.4
Qwen3-VL-8B	66.0	58.9	50.6	58.5
GPT-4o	65.8	65.5	63.3	64.9
ARM-Thinker-7B	67.8 (+17.7)	59.6 (+12.5)	64.6 (+18.5)	64.0 (+16.2)

视觉工具使用（Think-with-Images）基准：

模型	V*	HRBench-4K	HRBench-8K	MME-RW	Avg
Qwen2.5-VL-7B（基线）	75.4	69.1	64.6	58.5	66.9
Mini-o3†	88.2	77.5	73.3	65.5	76.1
Qwen3-VL-8B	82.2	76.8	70.4	63.1	73.1
ARM-Thinker-7B	86.4 (+11.0)	80.1 (+11.0)	73.7 (+9.1)	65.8 (+7.3)	76.5 (+9.6)

通用数学/逻辑推理（6 基准均值）：ARM-Thinker-7B 49.0 vs 基线 44.8（+4.2），其中 WeMath +10.9、LogicVista +8.7 涨幅最大。值得注意：奖励/工具基准上 7B 的 ARM-Thinker 总分超过 GPT-4o（64.0 vs 64.9 接近、且 FP/IF/Doc 更均衡；工具基准 76.5 也追平专门的 Mini-o3），说明"显式训练 RM 用工具推理"比"只靠通用多模态能力"更有效。

消融实验¶

工具开关消融（Tab. 5）——基线开工具反而掉点，ARM-Thinker 开工具稳定涨点：

配置	ARMBench-VL	V*	HR-4K	HR-8K	说明
Qwen2.5-VL-7B	46.1	75.4	69.1	64.6	基线（默认不调工具）
Qwen2.5-VL-7B w/ tool	44.3	50.3	60.1	51.8	基线开工具，全面掉点
ARM-Thinker-7B	59.2	82.2	76.6	70.5	不开工具已强于基线
ARM-Thinker-7B w/ tool	64.6 (+5.4)	86.4 (+4.2)	80.1 (+3.5)	73.7 (+3.2)	开工具进一步稳定提升

奖励函数设计消融（Fig. 4，GRPO 训练曲线）：

奖励设计	准确率	工具调用频率	现象
仅 Acc & Fmt	77.5%（早停）	≈0.7	工具欠用
Fixed Tool（固定奖励）	78.5%	升到 ≈1.15	工具滥用
ARM-Thinker（自适应）	最高	稳定 ≈1.12，54 步后微缩	按上下文效用调工具

关键发现¶

工具能力不是免费午餐：基线模型直接开工具会大幅掉点（V* 75.4→50.3），因为它"不会用"——尤其放大、页检索这类复杂工具；ARM-Thinker 学会了"何时该用、怎么用"，所以开工具才稳定增益。这说明工具调用必须被显式训练。
自适应奖励是平衡欠用/滥用的关键：只奖准确率会让工具欠用（call rate≈0.7，77.5% 早早停滞），固定工具奖励会让滥调（≈1.15 却只到 78.5%）；ARM-Thinker 奖励既拿到最高准确率，工具调用又稳定在 ≈1.12 并在 54 步后略收缩，说明它学的是"按上下文效用调用"而非追逐固定 bonus。
判定能力会外溢到通用推理：面向"验证"的训练在 WeMath/LogicVista 上分别 +10.9/+8.7，作者认为判别回答质量本身就需要细致的逻辑分析与错误检测，因而能迁移到一般推理。

亮点与洞察¶

把"奖励模型"重定义为"agent"：最让人"啊哈"的是它不把 RM 当打分器，而当一个会 think–act–verify 的判官——分数建立在"它真正能验证的证据"上，从根上治理了生成式 RM 的幻觉理由和无依据奖励。
两阶段 + 分层奖励解工具张力：先鼓励调工具、再用"答对且工具有用才满额"的分层奖励精炼，是一个很可复用的 agentic RL 配方，能直接迁移到其他需要工具的 agent 训练（搜索、代码、检索增强判定）。
可验证监督 ↔ 奖励结构对齐：数据侧用 counterfactual 造负样本 + 三维轨迹过滤，奖励侧的条件分支恰好镜像"是否答对、工具是否起作用"，训练信号和验证逻辑严丝合缝，这种对齐设计本身就值得借鉴。
小模型追平闭源：7B 在奖励/工具基准上追平甚至超过 GPT-4o，提示"会用工具的专门判官"比"通用大模型直接判"更具性价比。

局限与展望¶

作者承认当前工具集仍偏少（裁剪/放大、页检索、指令校验三类），计划扩展到更广的工具与任务。
⚠️ 论文很多关键细节（采样统计、工具精确定义、各阶段数据配比、模型细节）都放在 supplementary，正文无法核对，复现门槛偏高。
负样本由 GPT-4o-mini 生成，偏好数据质量受这个生成器能力上限约束；若负样本"看似错实则对"会污染奖励信号——作者虽做了过滤，但生成式造负样本的系统偏差仍可能残留。
评测主要在自建 ARMBench-VL 和若干 think-with-images 基准上，奖励基准之间任务难度/题型（2-way / 4-way / single-rm）不一，跨基准的涨幅数值不宜直接横向比大小。
工具调用频率稳定在 ≈1.12，意味着平均每次判定只调约一次工具，长链多跳证据（如真正的多页交叉核对）下的极限能力还需更难基准检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把多模态奖励模型做成 agentic think–act–verify、并配套首个 agentic 奖励基准 ARMBench-VL
实验充分度: ⭐⭐⭐⭐ 覆盖奖励/工具/通用三类基准 + 工具开关与奖励设计两组消融，但大量细节藏在 supplementary
写作质量: ⭐⭐⭐⭐ 动机与 think–act–verify 框架讲得清楚，公式与奖励分层定义完整
价值: ⭐⭐⭐⭐⭐ 7B 追平 GPT-4o，给"会用工具的奖励模型"提供了可复用的数据+奖励配方