InfoDet: A Dataset for Infographic Element Detection¶

会议: ICLR 2026
arXiv: 2505.17473
代码: https://github.com/InfoDet2025/InfoDet
领域: 目标检测 / 文档理解
关键词: 信息图检测, 图表理解, 数据集, Grounded CoT, VLM

一句话总结¶

构建了一个大规模信息图元素检测数据集（101,264 张信息图、1420 万标注），涵盖图表和人类可识别对象两大类，并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。

研究背景与动机¶

领域现状：图表理解是 VLM 的重要应用场景（如 ChartQA），但现有方法让 VLM 直接从原始图像推理，忽略了结构化的视觉元素信息。

现有痛点：(a) 缺少大规模信息图检测数据集——现有基础模型（DINO-X, Grounding DINO）在信息图元素检测上的 AP < 15%，几乎完全失败；(b) 信息图包含大量非自然场景的元素（如图标、图表组件），与 COCO/Objects365 训练的检测器领域差距大。

核心矛盾：信息图元素的检测是图表理解的基础，但当前检测器在该域上完全不可用。

本文目标 (a) 构建大规模信息图检测数据集，(b) 验证检测结果如何提升 VLM 的图表推理。

切入角度：结合合成数据（9 万张，模板化生成）和真实数据（1.1 万张，model-in-the-loop 标注），覆盖 75 种图表类型。

核心 idea：将元素检测作为图表理解的"视觉提示"——先检测再推理（Thinking-with-Boxes）。

方法详解¶

整体框架¶

这篇工作要解决的是「检测器在信息图上集体失灵、VLM 又只能盯着原始像素硬猜」这两件事，因此它同时给出一个数据集和一套用法。前半部分构建 InfoDet——10.1 万张信息图、1420 万个标注，把元素分成图表组件（Chart）和人类可识别对象（HRO，如图标）两大类；这个数据集用来训出一个真正能在信息图上工作的检测器。后半部分提出 Grounded CoT，把检测器吐出的元素框当成「视觉提示 + 文本描述」喂回 VLM，让它先看清元素再推理（Thinking-with-Boxes）。串起来就是：先靠合成+真实两路数据建库、训检测器，再把检测器接到推理期——原始信息图经检测器标出所有元素后，框和属性被拼成提示喂给 VLM，由 VLM 引用这些带标识的元素逐步作答。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph BUILD["数据集构建"]
        direction TB
        SYN["合成 9 万张<br/>VizNet 表格→模板渲染<br/>SVG 程序化抽框"]
        REAL["真实 1.1 万张<br/>10 平台采集→CLIP 去重<br/>→GPT-4o 把关"]
        SYN --> DET["训练信息图检测器"]
        REAL -->|"model-in-the-loop<br/>预标→专家修正→回灌"| DET
    end
    DET --> SET["InfoDet<br/>10.1 万图 / 1420 万标注"]
    IMG["原始信息图"] --> GR
    SET -.训练好的检测器.-> GR
    subgraph GCOT["Grounded CoT"]
        direction TB
        GR["检测全部元素<br/>(Chart / HRO / 文本)"]
        GR --> VIS["双层视觉提示<br/>图表层 + 文本层<br/>叠框+字母标识"]
        GR --> TXT["文本描述清单<br/>逐元素列属性"]
        VIS --> VLM["VLM 走 grounded CoT<br/>逐步引用带标识元素"]
        TXT --> VLM
    end
    VLM --> ANS["图表问答输出"]

关键设计¶

1. 数据集构建：用合成数据撑规模、用真实数据保真实性

信息图里大量元素是 COCO/Objects365 从没见过的非自然场景对象，纯靠人工标注既贵又慢，所以 InfoDet 走「合成兜底 + 真实精修」两条腿。合成侧造了 90,000 张：从 VizNet 的 3100 万张表格里采样数据，套进 1072 个设计模板渲染成信息图，由于图本身是 SVG 程序生成的，Chart 与 HRO 的标注能直接从绘图程序里程序化抽取，整个过程零人工。真实侧 11,264 张则从 10 个平台采集，先用 CLIP 相似度去重、再用 GPT-4o 把关质量；标注采用 model-in-the-loop 迭代精化——先拿合成数据训出一个检测器去预标真实图，专家只做修正，修正后的样本再回灌去改进检测器，如此多轮收敛。这样既绕开了纯人工的成本，又让真实样本的标注质量逼近自然图基准，最终精确率 93.9%、召回率 96.7%，与 COCO/Objects365 同级。

2. Grounded Chain-of-Thought：把检测框变成 VLM 能引用的"视觉锚点"

VLM 在多图表、密集信息图上推理时常常漏看或张冠李戴元素，光靠像素自己脑补很不稳。Grounded CoT 的做法是把检测结果显式注入两路提示：视觉一路在原图上叠加检测框并给每个框打上字母标识，关键是采用双层分离——图表层和文本层分开渲染，避免框线和字母标注挤在一起互相遮挡；文本一路则把每个元素的属性逐条列成清单。两路提示拼好后，让 VLM 走 CoT 逐步推理，并在每一步直接引用带字母标识的元素。和让 VLM 从原图直接答题相比，它相当于先给模型架好一副"放大镜"，把"哪里有什么"这件事从模糊感知变成可被文字引用的确定锚点，所以在复杂图表上的遗漏和混淆明显减少。

训练策略¶

检测器在 InfoDet 上做标准训练（Co-DETR、RTMDet），无特殊技巧。VLM 端完全不训练，Grounded CoT 是纯推理期的免训练增强。

实验关键数据¶

检测结果¶

模型	预训练	Chart AP	HRO AP	Chart AR	HRO AR
Co-DETR	Zero-shot	0.4%	1.1%	5.6%	4.8%
Co-DETR	InfoDet	81.8%	64.5%	88.2%	76.8%

Grounded CoT 结果（ChartQAPro 基准，增强松弛准确率）¶

模型	方法	信息图单图	信息图多图	总体
o1	Direct	66.4%	66.0%	61.4%
o1	CoT	64.3%	67.6%	61.9%
o1	Grounded CoT	67.8%	71.9%	64.1%

消融实验¶

Grounded CoT 组件	准确率
仅视觉提示	62.8%
仅文本描述	61.6%
组合（单层）	62.3%
组合（双层）	64.1%

关键发现¶

零样本检测器在信息图上几乎失效（AP < 1.1%），说明该数据集填补了检测器在信息图域的空白
InfoDet 预训练后 AP 提升到 81.8%，且能迁移到其他文档理解任务（Rico +8.5 AP, DocGenome +5.4 AP）
Grounded CoT 在信息图场景提升 3-6% 准确率，在简单图表上提升有限
双层分离的视觉提示比单层高 1.8%，避免了框和文字标注重叠

亮点与洞察¶

数据集的稀缺性填补：1420 万标注的大规模信息图检测数据集，是该领域的重要资源贡献。
Thinking-with-Boxes 范式：先检测再推理的思路简单有效，类似于给 VLM 戴上"放大镜"。可迁移到任何视觉推理任务。
合成+真实的数据构建：模板化合成（自动标注） + model-in-the-loop（高效标真实数据），平衡了规模和质量。

局限与展望¶

合成数据与真实数据的域差距仍存在（合成更简单），需要更多真实数据
HRO（人类可识别对象）的检测 AP（64.5%）远低于 Chart（81.8%），说明图标检测更难
Grounded CoT 的提升在简单图表上不明显，可能引入了信息过载
双层分离策略是手工设计的，更自适应的布局策略值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 数据集和 Grounded CoT 任务定义新颖，方法本身较直接
实验充分度: ⭐⭐⭐⭐⭐ 检测 + 图表理解 + 迁移学习全覆盖
写作质量: ⭐⭐⭐⭐⭐ 数据集构建描述详尽
价值: ⭐⭐⭐⭐⭐ 大规模数据集 + 开源，社区价值极高