Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=Vjruxvp1Xd
代码: https://github.com/mbzuai-oryx/Agent-X
领域: 多模态VLM / Agent / 评测基准
关键词: 视觉中心 Agent、深度多模态推理、工具调用、步级评测、benchmark

一句话总结¶

Agent-X 是一个面向「视觉中心 agent」的大规模评测基准，用 828 个真实多模态任务（图像/多图/视频/指令文本）覆盖 6 类场景，配上一套细粒度的「步级 + 推理链 + 结果」三模评测指标，结果显示连 GPT/Gemini/Qwen 系列最强模型的全链路成功率都不到 50%，暴露出当前大模型在多步视觉推理和工具调用上的硬伤。

研究背景与动机¶

领域现状：把大多模态模型（LMM）当作「控制器」、再挂上一堆可调用的外部工具，让它感知输入、规划步骤、执行动作，已经是构建 agent 的主流范式（LangChain、AutoGPT、各种 vision-centric agent 都是这个套路）。要把复杂任务做对，光有感知和工具还不够，关键在「推理」——能在文本、图像、视频、时序上下文之间做逻辑推断、做决策、随情境调整。

现有痛点：但评测跟不上。现有 agentic benchmark 几乎都是文本为主，多模态支持很弱；少数扩到多模态的，也大多局限在静态单图、合成环境或窄领域。更要命的是两点：一是查询往往「全合成 + 单轮」，且直接把要用的工具名/步骤写进 query（比如「数一数图里有几个物体」直接暗示了 ObjectCounter），模型根本不用自己规划；二是只看最终答案对不对，没有原则性的指标去衡量「多步推理是否逻辑自洽」。这导致没法区分一条推理链到底是真的层层递进，还是看着合理、实则各步脱节的「confabulation（一本正经地胡说）」。

核心矛盾：真实世界的 agent 任务是「视觉优先、多步、需要自主规划工具链」的，而现有评测要么不考视觉深度、要么不考推理链质量，要么靠纯合成/纯人工标注（前者不真实、后者不可扩展），三者很难同时兼顾。

本文目标：造一个同时满足「大规模真实多模态输入 + 工具增强的步级推理评测 + 跨多种真实场景」的基准，并给出能拆开看每一步对错的细粒度指标。

切入角度：强调两条原则——多模态推理（multimodal reasoning）和视觉优先评测（vision-first evaluation）。任务来自真实用户式查询、不显式列工具，逼模型自己想；评测则把「中间步骤」和「整体连贯性」都拆出来打分，而不是只盯最终答案。

核心 idea：用「真实多模态任务 + 不剧透工具的查询 + 三模细粒度指标」去逼近真实 agent 场景，把当前 LMM agent 在深度推理和工具使用上的瓶颈量化出来。

方法详解¶

整体框架¶

Agent-X 不是一个模型，而是一个 benchmark + 评测协议，所以「方法」要讲清三件事：任务长什么样、数据怎么造出来、用什么指标去评。

任务被形式化为一个结构化元组 \(S_i = (V_i, Q_i, T_i, R_i, A_i, J_i)\)：\(V_i\) 是多模态上下文（单图 / 文本 / 多图 / 视频帧），\(Q_i\) 是需要多步深度推理 + 调用外部工具才能解的查询，\(T_i \subseteq T_c=\{t_k\}_{k=1}^{N}\) 是解题用到的工具子集（\(T_c\) 是预定义的工具库，本文 \(N=14\) 个工具，覆盖感知、视觉操作、数学、生成等），\(R_i=\{(t_j, a_j, r_j)\}_{j=1}^{m}\) 是深度推理轨迹——每一步是「用的工具 \(t_j\)、输入参数 \(a_j\)、输出 \(r_j\)」三元组，\(A_i\) 是最终答案，\(J_i\) 是用自然语言给出的理由（提升可解释性）。查询本身分三类：factual（答案唯一，如一个数/短语）、interpretive（描述性文本，不唯一但表达一个概念）、generative（生成类，因为 LMM 只能描述不能真出图，所以这类 \(A_i=\varnothing\)，只评工具参数）。

整套数据由一条半自动流水线产出，再用一套三模指标去评。下面分别讲清楚。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实多模态数据<br/>图像 / 多图 / 视频 / 文本"] --> B["半自动任务流水线<br/>LMM 生成→人工精修验证"]
    B --> C["不剧透工具的查询设计<br/>逼模型自主规划"]
    C --> D["828 个验证过的 agentic 任务"]
    D --> E["三模细粒度评测<br/>步级 / 深度推理 / 结果"]
    E --> F["10+ LMM 横评<br/>暴露瓶颈"]

关键设计¶

1. 视觉优先、不剧透工具的真实任务设计：让评测逼近真实 agent 而非填空题

这是 Agent-X 区别于 GAIA、GTA 等基准的根本立场。每个任务必须满足三条铁律：(a) 能被工具子集 \(T \subseteq T_c\) 解出来，保证任务在工具能力范围内可解；(b) 查询 \(Q_i\) 绝不显式列出要用哪些工具、按什么顺序——比如「数一下图里有几个物体」这种直接点名 ObjectCounter 的写法被刻意避开，改成「视频里这家店是什么、画面里穿着打扮对应正常情况下的什么角色」这类需要自己拆解的问法，逼模型独立规划与推理；(c) 任务扎根真实有意义的场景。视觉输入全部来自公开数据集，覆盖 6 大环境：通用视觉推理、网页浏览、安防监控、自动驾驶、体育、数学推理，且每个视觉输入不跨任务复用。这条设计直接打在「现有 benchmark 把工具/步骤剧透、模型不用规划」的痛点上。

2. LMM 生成 + 人工精修的半自动流水线：兼顾规模与质量

纯人工标注不可扩展、纯合成不真实，本文走中间路线。流程分两阶段：先是查询构造——给 LMM 喂视觉输入 \(V_i\) 和完整工具集 \(T_c\)，对 1021 个初始视觉输入各生成 3 个候选查询，标注员从每组里挑最好的，得到 1021 个原始查询，再按「不能光看输入直接答出、必须真用工具、可扩展、支持多步推理」逐条审，淘汰不合格的，最终留下 828 个验证任务；对网页搜索类还额外加两道保险（必须靠实时搜索而非静态知识、必须引可信来源）。第二阶段是工具链构造——把 query + 视觉输入 + 工具集喂回 LMM，生成 JSON 风格的推理轨迹（工具调用序列、输入参数、中间输出）、最终答案 \(A\) 和理由 \(J\)，人工审核员再严格校验逻辑一致性、工具选用正确性、答案与推理过程的事实对齐，纠错、替换不当工具、过滤无法可靠求解的任务。最终规模：828 任务、2807 次工具调用、平均每任务 3.4 步、716 图 + 112 视频输入、5 个标注员每人约 50 小时、约 800K API token。

3. 三模式细粒度评测指标：把「最终答案对不对」拆成「每一步对不对」

为了能区分真推理和「胡说但听着对」，本文不只看终点，而是设计了三种评测模式、共 10 个指标（用 GPT-4o 做主裁判，并用 Qwen-14B 和人工交叉复核）。步级模式（Step-by-Step）衡量单步是否扎实：Grounding Score \(G_s\)（是否正确指认输入里的对象/区域/属性）、Tool Precision \(T_p\)（每步是否选对工具）、Tool Accuracy \(T_a\)（工具输入输出是否用对）。深度推理模式（Deep Reasoning）衡量整条链的质量：Faithfulness \(F_{acc}\)（推理过程逻辑是否自洽）、Context Score \(C_s\)（是否有效用上多模态与常识上下文）、Factual Precision \(F_p\)（事实是否正确、有没有幻觉）、Semantic Accuracy \(S_{acc}\)（语义必要元素是否覆盖全）。结果模式（Outcome）衡量终点：Goal Accuracy \(G_{acc}\)（factual/interpretive 查询的最终答案准确率，前者精确匹配、后者用 GPT-4o 做描述性匹配）、Goal Accuracy w/ImgGen \(G^{*}_{acc}\)（生成类查询只评预测输入参数是否正确，因为假定参数对了图就合理）、Toolset Accuracy \(T^{s}_{acc}\)（整体工具选用的 F1）。指标本身做了 bias-aware 处理（解耦语法与语义、归一化工具参数），任务种子在严格 QA 下重写以防泄漏。

一个完整示例¶

以一条真实任务为例感受「不剧透 + 多步」长什么样。输入是一张雷达图 AgentX_181.jpg，查询「哪个模型在 Visual Knowledge Acquisition 上表现最好？图里一共有几个不同的模型？」——注意它没说该用 OCR 还是 SceneDescriber。一个理想的 5 步轨迹会这样走：先用 SceneDescriber 描述图像理解结构 → 再定位 Visual Knowledge Acquisition 这条轴上的最高值找到最佳模型 → 用 LocateObjectByText / OverlayText 把峰值标出来确认 → 用 OCR 把所有模型名枚举出来 → 最后用 Calculator 数出去重后的模型总数。理想输出是 {'best_model': 'Bard', 'total_models': 12}，并附理由。Agent-X 评测时会对这 5 步逐一打 \(G_s/T_p/T_a\)（每步有没有指对、选对、用对工具），对整条链打 \(F_{acc}/C_s/F_p/S_{acc}\)（推理是否自洽、有没有幻觉），最后对终点打 \(G_{acc}\)。这样即便模型最终答案蒙对了，中间偷工减料（跳步、幻觉工具、JSON 格式崩）也会在步级/推理指标上被扣分暴露。

实验关键数据¶

主实验¶

作者横评了 10+ 个主流 LMM（开源 + 闭源），三模 10 指标。核心结论是「最强模型也远没达标」：

模型	\(G_s\) 步级接地	\(T^{s}_{acc}\) 工具集	\(F_{acc}\) 忠实度	\(G_{acc}\) 目标准确率
OpenAI o4-mini	0.42	0.63	0.71	0.45（最高）
GPT-4o	0.60	0.68	0.81	0.37
Gemini-2.5-Pro	0.40	0.62	0.72	0.40
Qwen2.5-VL-7B	0.54	0.67	0.75	0.36（开源最强）
InternVL2.5-8B	0.45	0.58	0.68	0.28
Phi-4-VL-Instruct	0.13	0.42	0.61	0.11

最关键的一个数字：没有任何模型的 \(G_{acc}\) 超过 50%，最好的 o4-mini 也只有 45%，多数开源模型不到 30%。

消融实验¶

这篇是 benchmark 论文，没有传统意义上的模型消融，但通过错误类型分解（Table 5）拆出了三类典型失败，等价于对「模型在哪一环节崩」的归因分析：

错误类型	GPT-4o	Gemini-1.5-Pro	InternVL3-8B	说明
Planning：无动作无响应	157 (17.6%)	3 (0.2%)	172 (12.8%)	直接摆烂不出招
Formatting：JSON 参数格式非法	235 (26.4%)	755 (44.5%)	454 (33.8%)	占比最高的硬伤
Formatting：单步里塞多次工具调用	118 (13.2%)	172 (10.1%)	126 (9.4%)	不守步级协议
Reasoning：误读视觉内容	165 (18.5%)	581 (34.3%)	189 (14.1%)	看错对象

关键发现¶

真实工具任务整体很难（Insight 1）：所有模型 \(G_{acc}\) 都 <50%，说明「工具使用 + 最终答案一致性」在真实场景里仍是普遍短板。
推理强 → 任务成功率高（Insight 2）：在推理类指标上稳的模型更可能做对终点。GPT-4o 的 \(F_{acc}=0.81\)、\(F_p=0.79\) 对应较高的 \(G_{acc}=0.37\)；Qwen2.5（\(C_s=0.57\)、\(S_{acc}=0.67\)）拿到 \(G_{acc}=0.36\)，跑赢多数开源同行——深度推理和结构化执行确实能撑起任务成功率。
工具调用与参数预测是核心瓶颈（Insight 3）：工具类指标方差最大。即便 GPT 系推理强，Toolset Accuracy 仍偏低；参数格式化和工具串联是最薄弱的一环，会拖垮整条 pipeline 的可靠性。
四类典型错误：视频任务里跳帧/跳步的浅推理；幻觉/误用 metadata 里没定义的工具；输出违反格式（非 JSON、不完整）；以及规划层面的答案错误。其中 JSON 格式错误是占比最高的单一问题。

亮点与洞察¶

把「推理链质量」做成可量化指标：最值得借鉴的是把评测从「终点对错」拆成步级 + 推理链 + 结果三层，专门设计 Faithfulness / Context Score 等指标去抓「听着对实则脱节」的 confabulation——这套思路可迁移到任何需要评 CoT 质量的任务，而不只是 agent。
「不剧透工具」是个简单却关键的设计：现有 benchmark 把工具名写进 query 等于送分，本文刻意让查询模糊化，逼模型自己规划，一下子把难度拉回真实场景，也才让 <50% 这个数字有说服力。
半自动流水线的性价比：LMM 批量生成候选 + 人工精修验证，用约 800K token + 5 人 ×50 小时就造出 828 个高质量任务，是「规模 vs 质量」之间一个可复制的折中模板。
错误分类法本身有价值：把失败归成 Planning / Formatting / Reasoning 三大类，直接告诉社区「先把 JSON 格式和工具参数这种工程问题解决掉，比堆推理能力更立竿见影」。

局限与展望¶

生成类任务评测被绕开：因为 LMM 只能描述不能真出图，generative 查询直接令 \(A_i=\varnothing\)、只评输入参数，等于没真正考核生成能力，这是 vision-centric 评测的一块缺口。
依赖 LMM 做裁判：主指标用 GPT-4o 打分，虽然有 Qwen-14B 和人工交叉复核且排名一致，但裁判模型自身的偏好/盲区可能影响细粒度分数，尤其 interpretive 这类没有唯一答案的查询。
工具库规模有限：14 个工具虽覆盖面广，但真实 agent 可调用的工具远不止此，扩到更大、更动态的工具集后结论是否稳定还需验证。
半自动构造的天花板：查询和推理轨迹的初稿都由 LMM 生成，即便人工精修，仍可能继承生成模型的思维定式（比如倾向某些工具组合），多样性边界受限于种子 LMM。

评分¶

新颖性: ⭐⭐⭐⭐ 「视觉优先 + 不剧透工具 + 三模细粒度指标」组合在 agentic 评测里确实新，单项指标多为已有思想的整合。
实验充分度: ⭐⭐⭐⭐⭐ 10+ 模型横评、三裁判交叉复核、四类错误定量分解，作为 benchmark 论文相当扎实。
写作质量: ⭐⭐⭐⭐ 结构清晰、表格信息密度高，部分指标定义需翻附录才完整。
价值: ⭐⭐⭐⭐⭐ 给出了「最强模型全链路成功率 <50%」这一有冲击力的结论，并明确指向工具调用/格式化这一可立即攻坚的瓶颈。