PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HtpjSCs3g5
代码: https://github.com/microsoft/PixelCraft
领域: 多智能体 / 多模态VLM / 视觉推理
关键词: 结构化图像、多智能体、高保真定位、图像记忆、自我批判

一句话总结¶

PixelCraft 用一套「调度器 + 规划器 + 推理器 + 双批判器 + 视觉工具智能体」的多智能体系统，把微调出来的像素级定位模型当「眼睛」、传统 CV 算子当「手」，再配上可回溯分支的图像记忆，让 GPT-4o / Claude 等 MLLM 在图表和几何这类结构化图像上的推理准确率显著提升（CharXiv 上 +5.6~9.5 个点）。

研究背景与动机¶

领域现状：图表、几何图这类「结构化图像」对多模态大模型（MLLM）一直是硬骨头。它们和自然图像不同，编码的是坐标、数据点、连线、数值标注这类符号化、结构化元素，需要的是精确的符号抽象而非纹理/物体级的模式识别，且对粒度极敏感——把某根柱子的高度读错一点点，下游结论就全错。主流做法从纯文本 CoT 微调，发展到用中间「视觉线索」（visual CoT）来引导推理，比如把图裁一裁、标一标再喂回去。

现有痛点：现有 visual CoT 方法有两个硬伤。其一是图像处理保真度低：它们要么依赖图表的源代码（现实中往往拿不到），要么用粗糙的轮廓/直线检测，只能覆盖很窄的一类图，在 CharXiv、ChartQAPro 这类真实复杂 benchmark 上掉链子。其二是推理范式僵硬：大多是「一步编辑」或链式线性推理，每张中间图只能从上一张派生，模型被迫单向独白，无法像人那样「提出假设 → 视觉验证 → 遇矛盾回溯改前提」。少数自然图工作虽有 zoom-in、多区域标注的非线性苗头，但撑不起结构化图像所需的递归探索。

核心矛盾：结构化图像推理同时要「高保真感知」和「灵活多步推理」，而现有方法在这两点上都不到位——低保真的工具喂进来的中间图本身就不可靠，线性范式又没法纠错和换路。更糟的是，把所有历史图无脑塞进上下文，既造成长上下文开销，又会让 MLLM 在多图输入下性能退化。

本文目标：(1) 造一套对各类图表/几何图都管用的高保真图像处理工具；(2) 让推理过程能分支、回溯、动态调整，而不被历史图淹没。

切入角度：作者把「感知」和「操作」解耦——用一个小 MLLM 微调成精确的像素级定位模型当「smart eye」负责把文字指代映射到坐标，再让经典 CV 算子当「robotic hands」按坐标做精确编辑；同时把推理组织成一个以规划器为中心、多角色讨论 + 自我批判的非线性工作流，并引入一块「认知白板」式的图像记忆。

核心 idea：用「微调定位模型 + CV 算子」换掉低保真工具，用「规划器管理的图像记忆 + 多智能体讨论 + 双层批判」换掉线性 visual CoT，从而在结构化图像上做到高保真且可回溯的视觉推理。

方法详解¶

整体框架¶

PixelCraft 是一个多模态多智能体系统：MLLM 同时扮演调度器（dispatcher）、规划器（planner）、推理器（reasoner）和两个批判器（planning critic / visual critic），再外挂一组专用视觉工具智能体（tool agents）。给定一张结构化图像和一个问题，系统跑一个三阶段动态工作流：① 调度器做 query-aware 的工具筛选，只激活与问题相关的工具智能体；② 规划器主持「角色驱动的讨论」，把复杂问题拆成子问题，逐步调用工具智能体处理图像、调用推理器做分析，期间 visual critic 实时校验中间图；③ 生成初步答案后，planning critic 复盘整条轨迹，发现错误就触发第二轮重答。

贯穿全程的是规划器管理的图像记忆：所有中间视觉产物（处理后的图 + 文字描述）都存进记忆，规划器可以按需自适应地召回任意历史图，从而支持探索不同推理分支、回溯修正，而不是把图无脑流式塞进上下文。工具智能体的「高保真」则来自一个在合成语料上微调的 Qwen2.5-VL-3B 定位模型——它给出像素级坐标，驱动 CV 算子做精确裁剪/遮罩/画线。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["结构化图像 + 问题"] --> B["调度器<br/>query-aware 工具筛选"]
    B --> C["规划器主持讨论<br/>拆子问题 + 调度智能体"]
    C --> D["高保真工具智能体<br/>定位模型给坐标 + CV 算子编辑"]
    C --> E["推理器<br/>对子问题做分析"]
    D --> F["视觉批判器<br/>校验目标达成/可答性"]
    F -->|不通过回灌错误| C
    F -->|通过| E
    E --> G["图像记忆<br/>存中间图 + 召回回溯"]
    G --> C
    E --> H["规划批判器<br/>复盘整条轨迹"]
    H -->|有错触发重答| C
    H -->|通过| I["最终答案"]

关键设计¶

1. 高保真工具智能体：用微调定位模型 + CV 算子做像素级编辑

针对「现有视觉工具保真度低、只能覆盖窄类图」的痛点，作者把工具拆成「眼睛 + 手」两层。直接让 LLM 自动生成工具会失败——要么因为缺精确的 grounding 坐标而无效，要么代码本身就跑错、产出错误的视觉输出。于是作者采用半自动方案：先在精心构造的数据集上微调一个紧凑的 Qwen2.5-VL-3B 作为定位模型，把文字指代精确映射到像素坐标；这些坐标再驱动经典 CV 算子完成实际编辑，无效工具则人工修正。

图表场景配了四个工具：子图裁剪（按「第 2 行第 1 列」这类文字描述裁出单个子图）、区域放大（带 x/y 轴刻度地放大局部）、添加辅助线、按图例遮罩数据（识别某图例项对应的颜色，把无关数据系列遮掉）。几何场景基于点/线及其关系配了点连接、作垂线、作平行线，外加一个代码执行工具做数值计算。这套设计的关键在于：grounding 由专门微调的模型保证，编辑由确定性的 CV 算子保证，二者协同把中间图的可靠性从源头拉满——消融显示定位模型把 IoU 从 0.26 提到 0.93。

2. 规划器中心的非线性工作流 + 图像记忆：让推理能分支和回溯

针对「线性 visual CoT 僵硬、无法回溯」的痛点，作者把推理交给规划器统一编排。规划器像乐团指挥，把复杂 query 拆成可处理的子问题，逐步决定下一个该激活哪个智能体（工具智能体或推理器），并给工具智能体下达具体目标（如「裁第 1 行第 1 列的子图」）、给推理器抛精确子问题，处理后的图与文字信息都经由规划器在智能体间流转。

真正解锁灵活性的是图像记忆这块「认知白板」：传统做法把所有历史图都塞进上下文，既有严重长上下文开销，又把推理锁死成链式；PixelCraft 则把所有中间视觉产物存进记忆，规划器可以在任意一步自适应召回某张历史图，从而探索另一条推理分支、回溯修正早先假设。这让推理摆脱了「一次性、单向」的本质，又顺带压低了上下文开销——controlled 对比显示，同样的工具和 prompt 下，这套「图像记忆 + 图像选择」的设计比单规划器单体处理的 visual CoT 在 CharXiv 上 65.0→68.1。

3. 双层批判器：把视觉错误挡在传播之前，再事后纠错

视觉工具不像确定性代码，会引入错误，一旦错误中间图被当作事实喂下去就会级联崩盘。作者因此设计了两个工作在不同阶段的批判器。视觉批判器（visual critic）做 in-loop 校验：工具处理完图后，它检查「目标达成度」（这次裁剪/遮罩是否真的完成了规划器下达的目标）；中间图连同子问题送给推理器前，它再检查这张图的「可答性」；一旦发现问题就把错误警报回灌给规划器重新规划。规划批判器（planning critic）做 post-hoc 复盘：初步答案生成后，它审视整条工具使用序列和逻辑步骤，找出用了次优工具、推理路径有缺陷之类的问题，提出增删工具、改写子问题等修正建议，作为第二轮重答的额外输入。两层批判一前一后形成稳健的纠错闭环——消融里 VC 和 PC 各自都带来稳定的正向增益。

一个完整示例¶

以论文 Fig. 1/2 的问题为例：「右上子图（n=80, K=5）和中左子图（n=20, K=10）中 HOVz 从头到尾的下降幅度之差是多少？（四舍五入到 0.1）」。流程是：调度器判断该题需要「子图裁剪」和「按图例遮罩数据」两个工具并激活之；规划器拆出第一个子问题——裁出右上子图，工具智能体用定位坐标裁图，视觉批判器确认「裁剪成功、可答」后交给推理器读出该子图的下降幅度（如 0.9→0.4，降 0.5）；规划器随后从图像记忆里换出中左子图、必要时遮罩无关曲线，推理器读出另一段降幅（0.9→0.3，降 0.6），算出差值 0.1；最后规划批判器复盘整条轨迹确认工具使用、推理过程和最终答案均正确，输出 0.1。整个过程中规划器靠图像记忆在两个子图间来回切换，而不是把所有图一次性堆进上下文。

损失函数 / 训练策略¶

定位模型的训练把结构化图像 grounding 形式化为自回归序列预测：给定图像 \(I\) 和文字 prompt \(P\)，模型生成序列 \(Y=(y_1,\dots,y_T)\)，联合编码文字答案与对应边界框，空间位置用绝对坐标表示以对齐模型原生 grounding 格式。训练数据是一个混合数据集：程序化合成图表（用 GPT-4o 产结构化 JSON 规格 + 改写 Matplotlib 模板渲染，渲染时插桩抽取所有元素精确坐标，单面板 43k + 多面板 2~16 子图组合 10k，共 53k 标注对）加上 Inter-GPS 的 2,000 个几何样本（抽取几何点坐标及文字标签，用于点级几何工具），在此之上微调 Qwen2.5-VL-3B。

实验关键数据¶

主实验¶

三个挑战性图表 benchmark（CharXiv 取 reasoning 子集、ChartQAPro 和 EvoChart 全测试集），用 GPT-4.1-mini 做 LLM-as-a-judge，跨三个 backbone 评测：

Backbone	Benchmark	CoT	之前最好基线	PixelCraft	提升(vs Direct)
GPT-4o	CharXiv	51.1	52.4 (Reconcile)	55.2	+5.6
GPT-4o	ChartQAPro	56.52	56.52 (CoT)	58.83	+6.32
GPT-4o	EvoChart	68.64	68.64 (CoT)	70.24	+7.60
GPT-4.1-mini	CharXiv	63.8	63.8 (CoT)	68.1	+9.5
GPT-4.1-mini	ChartQAPro	62.21	62.21 (CoT)	65.56	+7.71
Claude-3.7	CharXiv	68.3	68.5 (Reconcile)	73.9	+6.8

值得注意的是，纯多智能体方法（Debate / Reconcile）几乎没增益，说明没有专用视觉工具的多智能体根本搞不定图表视觉推理；Refocus 这类「LLM + 图表工具」表现不稳定，多处甚至不如 CoT，印证其视觉工具不足以处理复杂结构化图像。几何方面，在 Geometry3K 辅助线子集上 PixelCraft 同样全面领先（GPT-4.1-mini 34.38、Claude 33.59，均为各 backbone 最高）。

消融实验¶

逐角色累加消融（GPT-4.1-mini）：

配置	CharXiv	ChartQAPro	说明
CoT (无组件)	63.8	62.21	基线
+工具智能体 TA	65.0	63.66	增益最大，专用工具是刚需
+TA +调度器 Disp	65.9	64.43	过滤无关工具→工具使用更准
+TA +视觉批判 VC	66.0	63.96	过滤无效中间图
+TA +Disp +VC	67.5	64.89	三者协同
全模型 (+规划批判 PC)	68.1	65.56	最佳

关键发现¶

工具智能体贡献最大：从 CoT 到 +TA 在 CharXiv 上直接 +1.2，是单组件里增益最高的，印证「专用高保真工具」才是结构化图像推理的核心瓶颈。
定位精度直接决定上游天花板：微调定位模型把 IoU 从 0.26 拉到 0.93，对应下游 agent 系统准确率显著高于用 base 模型；base 模型和 Refocus 在示例里都定位失败，而本文模型能准确框出目标子图。
工具调用高度 query/image 驱动且不均衡：CharXiv 上「子图裁剪」被调 351 次（因多为多图、问单子图深析或子图对比），几何上「点连接」56 次最高；但每个工具在其被激活的子集上都带来增益，「按图例遮罩」在 CharXiv 上 +18.4%、「作平行线」在 Geometry3K 上 +50%。
自我批判能精准识别错误答案：三轮复盘里识别出的多为真阳性（base 阶段 39 TP / 仅 3 FP / 1），重答后准确率稳步抬升，说明 planning critic 的纠错是有效而非噪声。

亮点与洞察¶

「眼睛 + 手」解耦：把感知（微调定位模型给坐标）和操作（确定性 CV 算子做编辑）分开，绕过了「让 LLM 直接生成可靠视觉工具」这个老大难——这是把 LLM 自动生成工具的失败教训直接转化成的设计选择，可迁移到任何「需要精确空间操作」的 agent 工具链。
图像记忆当「认知白板」：用按需召回替代「历史图全塞上下文」，一举解决了线性 visual CoT 的「不能回溯」和「多图退化 + 长上下文开销」两个问题，思路很干净。
双层批判分工明确：visual critic 管「图对不对」（in-loop），planning critic 管「路走得对不对」（post-hoc），把视觉错误和逻辑错误分层拦截，比单一 critic 更可控。
小模型也能当高保真组件：3B 的定位模型 IoU 0.93，证明在 agent 系统里，专精的小模型 + 经典算法的组合可以比硬堆大模型更划算。

局限与展望¶

作者承认自动生成的工具大量无效，最终仍需人工修正工具、且工具集是为图表/几何手工设计的，工具的可扩展性和通用性仍受限——换个结构化图像域（如电路图、乐谱）可能要重做工具和定位数据。
系统是多智能体多轮讨论 + 多轮批判重答，计算/调用开销相对单次 CoT 明显更高（效率分析放在附录），实时性场景未必划算。
定位模型依赖程序化合成图表 + Inter-GPS 几何标注，合成数据与真实复杂图（如手绘、扫描、信息图）的分布差异可能影响泛化（作者在附录补了 infographics 泛化分析，但正文主战场仍是图表/几何）。
geometry 评测仅 128 个筛选样本，样本量偏小，结论稳健性有待更大规模验证。

评分¶

新颖性: ⭐⭐⭐⭐ 「定位模型 + CV 算子」高保真工具与「图像记忆支持回溯」的组合在结构化图像推理上是有辨识度的系统级创新
实验充分度: ⭐⭐⭐⭐ 三 benchmark × 三 backbone + 几何任务 + 逐角色消融 + 工具频率/纠错分析，证据链完整，仅几何样本偏少
写作质量: ⭐⭐⭐⭐ 动机推导清晰，「眼睛/手」「认知白板」等比喻到位，工作流讲得明白
价值: ⭐⭐⭐⭐ 即插即用地提升多种 MLLM 在图表/几何上的推理，且代码开源，实用性强