InfoDet: A Dataset for Infographic Element Detection¶
会议: ICLR 2026
arXiv: 2505.17473
代码: https://github.com/InfoDet2025/InfoDet
领域: 目标检测 / 文档理解
关键词: 信息图检测, 图表理解, 数据集, Grounded CoT, VLM
一句话总结¶
构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。
研究背景与动机¶
领域现状:图表理解是 VLM 的重要应用场景(如 ChartQA),但现有方法让 VLM 直接从原始图像推理,忽略了结构化的视觉元素信息。
现有痛点:(a) 缺少大规模信息图检测数据集——现有基础模型(DINO-X, Grounding DINO)在信息图元素检测上的 AP < 15%,几乎完全失败;(b) 信息图包含大量非自然场景的元素(如图标、图表组件),与 COCO/Objects365 训练的检测器领域差距大。
核心矛盾:信息图元素的检测是图表理解的基础,但当前检测器在该域上完全不可用。
本文目标 (a) 构建大规模信息图检测数据集,(b) 验证检测结果如何提升 VLM 的图表推理。
切入角度:结合合成数据(9 万张,模板化生成)和真实数据(1.1 万张,model-in-the-loop 标注),覆盖 75 种图表类型。
核心 idea:将元素检测作为图表理解的"视觉提示"——先检测再推理(Thinking-with-Boxes)。
方法详解¶
整体框架¶
这篇工作要解决的是「检测器在信息图上集体失灵、VLM 又只能盯着原始像素硬猜」这两件事,因此它同时给出一个数据集和一套用法。前半部分构建 InfoDet——10.1 万张信息图、1420 万个标注,把元素分成图表组件(Chart)和人类可识别对象(HRO,如图标)两大类;这个数据集用来训出一个真正能在信息图上工作的检测器。后半部分提出 Grounded CoT,把检测器吐出的元素框当成「视觉提示 + 文本描述」喂回 VLM,让它先看清元素再推理(Thinking-with-Boxes)。串起来就是:先靠合成+真实两路数据建库、训检测器,再把检测器接到推理期——原始信息图经检测器标出所有元素后,框和属性被拼成提示喂给 VLM,由 VLM 引用这些带标识的元素逐步作答。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
subgraph BUILD["数据集构建"]
direction TB
SYN["合成 9 万张<br/>VizNet 表格→模板渲染<br/>SVG 程序化抽框"]
REAL["真实 1.1 万张<br/>10 平台采集→CLIP 去重<br/>→GPT-4o 把关"]
SYN --> DET["训练信息图检测器"]
REAL -->|"model-in-the-loop<br/>预标→专家修正→回灌"| DET
end
DET --> SET["InfoDet<br/>10.1 万图 / 1420 万标注"]
IMG["原始信息图"] --> GR
SET -.训练好的检测器.-> GR
subgraph GCOT["Grounded CoT"]
direction TB
GR["检测全部元素<br/>(Chart / HRO / 文本)"]
GR --> VIS["双层视觉提示<br/>图表层 + 文本层<br/>叠框+字母标识"]
GR --> TXT["文本描述清单<br/>逐元素列属性"]
VIS --> VLM["VLM 走 grounded CoT<br/>逐步引用带标识元素"]
TXT --> VLM
end
VLM --> ANS["图表问答输出"]
关键设计¶
1. 数据集构建:用合成数据撑规模、用真实数据保真实性
信息图里大量元素是 COCO/Objects365 从没见过的非自然场景对象,纯靠人工标注既贵又慢,所以 InfoDet 走「合成兜底 + 真实精修」两条腿。合成侧造了 90,000 张:从 VizNet 的 3100 万张表格里采样数据,套进 1072 个设计模板渲染成信息图,由于图本身是 SVG 程序生成的,Chart 与 HRO 的标注能直接从绘图程序里程序化抽取,整个过程零人工。真实侧 11,264 张则从 10 个平台采集,先用 CLIP 相似度去重、再用 GPT-4o 把关质量;标注采用 model-in-the-loop 迭代精化——先拿合成数据训出一个检测器去预标真实图,专家只做修正,修正后的样本再回灌去改进检测器,如此多轮收敛。这样既绕开了纯人工的成本,又让真实样本的标注质量逼近自然图基准,最终精确率 93.9%、召回率 96.7%,与 COCO/Objects365 同级。
2. Grounded Chain-of-Thought:把检测框变成 VLM 能引用的"视觉锚点"
VLM 在多图表、密集信息图上推理时常常漏看或张冠李戴元素,光靠像素自己脑补很不稳。Grounded CoT 的做法是把检测结果显式注入两路提示:视觉一路在原图上叠加检测框并给每个框打上字母标识,关键是采用双层分离——图表层和文本层分开渲染,避免框线和字母标注挤在一起互相遮挡;文本一路则把每个元素的属性逐条列成清单。两路提示拼好后,让 VLM 走 CoT 逐步推理,并在每一步直接引用带字母标识的元素。和让 VLM 从原图直接答题相比,它相当于先给模型架好一副"放大镜",把"哪里有什么"这件事从模糊感知变成可被文字引用的确定锚点,所以在复杂图表上的遗漏和混淆明显减少。
训练策略¶
检测器在 InfoDet 上做标准训练(Co-DETR、RTMDet),无特殊技巧。VLM 端完全不训练,Grounded CoT 是纯推理期的免训练增强。
实验关键数据¶
检测结果¶
| 模型 | 预训练 | Chart AP | HRO AP | Chart AR | HRO AR |
|---|---|---|---|---|---|
| Co-DETR | Zero-shot | 0.4% | 1.1% | 5.6% | 4.8% |
| Co-DETR | InfoDet | 81.8% | 64.5% | 88.2% | 76.8% |
Grounded CoT 结果(ChartQAPro 基准,增强松弛准确率)¶
| 模型 | 方法 | 信息图单图 | 信息图多图 | 总体 |
|---|---|---|---|---|
| o1 | Direct | 66.4% | 66.0% | 61.4% |
| o1 | CoT | 64.3% | 67.6% | 61.9% |
| o1 | Grounded CoT | 67.8% | 71.9% | 64.1% |
消融实验¶
| Grounded CoT 组件 | 准确率 |
|---|---|
| 仅视觉提示 | 62.8% |
| 仅文本描述 | 61.6% |
| 组合(单层) | 62.3% |
| 组合(双层) | 64.1% |
关键发现¶
- 零样本检测器在信息图上几乎失效(AP < 1.1%),说明该数据集填补了检测器在信息图域的空白
- InfoDet 预训练后 AP 提升到 81.8%,且能迁移到其他文档理解任务(Rico +8.5 AP, DocGenome +5.4 AP)
- Grounded CoT 在信息图场景提升 3-6% 准确率,在简单图表上提升有限
- 双层分离的视觉提示比单层高 1.8%,避免了框和文字标注重叠
亮点与洞察¶
- 数据集的稀缺性填补:1420 万标注的大规模信息图检测数据集,是该领域的重要资源贡献。
- Thinking-with-Boxes 范式:先检测再推理的思路简单有效,类似于给 VLM 戴上"放大镜"。可迁移到任何视觉推理任务。
- 合成+真实的数据构建:模板化合成(自动标注) + model-in-the-loop(高效标真实数据),平衡了规模和质量。
局限与展望¶
- 合成数据与真实数据的域差距仍存在(合成更简单),需要更多真实数据
- HRO(人类可识别对象)的检测 AP(64.5%)远低于 Chart(81.8%),说明图标检测更难
- Grounded CoT 的提升在简单图表上不明显,可能引入了信息过载
- 双层分离策略是手工设计的,更自适应的布局策略值得探索
相关工作与启发¶
- vs ChartQA/ChartQAPro: 提供问答基准,本文在其上验证 Grounded CoT
- vs Grounding DINO: 零样本在信息图上失败,说明需要领域特化数据
- vs DocGenome: 文档布局检测数据集,InfoDet 预训练可迁移提升其性能
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集和 Grounded CoT 任务定义新颖,方法本身较直接
- 实验充分度: ⭐⭐⭐⭐⭐ 检测 + 图表理解 + 迁移学习全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 数据集构建描述详尽
- 价值: ⭐⭐⭐⭐⭐ 大规模数据集 + 开源,社区价值极高