SlideAgent: Hierarchical Agentic Framework for Multi-Page Visual Document Understanding¶
会议: ACL 2026
arXiv: 2510.26615
代码: SlideAgent
领域: Information Retrieval / Document Understanding
关键词: 多页文档理解, 层次化智能体, 视觉文档问答, 幻灯片理解, 元素级推理
一句话总结¶
提出 SlideAgent,一个层次化智能体框架,通过全局、页面、元素三级专用 agent 构建结构化知识表示,显著提升多页视觉文档(尤其是幻灯片)的细粒度理解能力。
研究背景与动机¶
领域现状:多页视觉文档(如财务报告、学术演示文稿、技术手册)广泛存在于金融、科学、教育等高风险领域。这些文档不仅包含文本,还依赖版面布局、图标、颜色编码和跨页引用来传达信息。
现有痛点:当前多模态大语言模型(MLLMs)在处理多页视觉文档时面临三大挑战:(1) 细粒度推理不足 — MLLMs 倾向于整体性处理每页,忽略元素级细节(如图表中的具体数据段);(2) 领域特定视觉语义缺失 — 预训练主要基于自然图像,对文档中的专业图表、图标含义和空间布局理解不足;(3) 依赖元数据 — 很多系统依赖干净的文档元数据(如图表位置标注、层级标签),但现实中这些信息经常缺失或损坏。
核心矛盾:MLLM 在对整页进行整体推理时可能出错(如误数图表中的类别),但当把相关图表裁剪出来后却能正确识别——说明模型具备推理能力,只是缺乏有效的细粒度信息提取机制。
本文目标:构建一个无需依赖文档元数据、能同时处理多页多模态文档的通用智能体框架,通过层次化知识构建和选择性 agent 激活实现精准的文档理解。
核心idea:借鉴人类信息处理模型,将文档理解分解为全局(整体主题)、页面(单页特征+跨页关系)、元素(图表/文本块/图标的细粒度解析)三个层级,各级配备专用 agent,在知识构建和推理两个阶段协同工作。
方法详解¶
整体框架¶
SlideAgent 分为两个阶段运作:(1) 知识构建阶段 — 自顶向下地构建层次化、与查询无关的知识库 \(\mathcal{K}=\{\mathcal{K}_g, \mathcal{K}_p, \mathcal{K}_e\}\);(2) 推理阶段 — 根据用户查询分类并选择性激活对应层级的 agent,进行多级检索和答案合成。整个框架是模型无关的,可搭配 GPT-4o 或 InternVL3-8B 等不同骨干模型。
关键设计¶
-
三级知识构建(Hierarchical Knowledge Construction):
- 功能:为文档构建与查询无关的结构化知识表示
- 核心思路:全局 agent \(\mathcal{M}_g\) 通过采样前三页生成文档级摘要和主题;页面 agent \(\mathcal{M}_p\) 顺序处理每页,条件化于全局知识和前一页知识生成页面级知识 \(\mathcal{K}_p^i = \mathcal{M}_p(v_i, \mathcal{K}_g^{(0)}, \mathcal{K}_p^{i-1})\);元素 agent \(\mathcal{M}_e\) 通过布局解析将每页分解为文本块、图表、图标等元素,并生成每个元素的语义角色和功能描述
- 设计动机:全局知识提供主题框架,页面知识提供顺序上下文和跨页关联,元素知识提供细粒度的空间和内容信息——三者互补,缺一不可
-
查询分类与选择性激活(Query Classification & Selective Activation):
- 功能:根据查询类型精准激活所需的 agent 子集,避免不必要的计算和噪声引入
- 核心思路:将查询分为四类——全局理解(仅激活全局 agent)、事实查询(激活页面+元素 agent)、多跳推理(激活全部 agent)、布局/视觉关系(激活元素 agent)。对于无法分类的查询,默认激活全部 agent
- 设计动机:不同查询需要不同粒度的信息,过度激活 agent 会增加计算开销且可能引入噪声,选择性激活在效率和准确性之间取得平衡
-
子查询生成与多级检索(Subquery Generation & Multi-level Retrieval):
- 功能:将原始查询扩展为多个子查询,在页面和元素层面进行精准检索
- 核心思路:从查询中提取关键实体生成子查询,将原始查询和子查询拼接后联合检索 top-k 页面及其元素。支持稀疏检索器(BM25)、稠密检索器(SFR)和多模态检索器(COLPALI)
- 设计动机:原始查询通常较短,直接检索会产生噪声;子查询生成增强了检索的语义覆盖,尤其有利于多跳推理场景
损失函数 / 训练策略¶
本文采用无需训练的方案——所有 agent 基于现有 MLLM 通过提示工程实现,无需额外训练或微调。知识构建阶段使用精心设计的提示模板引导各级 agent 生成结构化知识。全局知识通过 refine 步骤(单次全字段重写)确保从所有页面综合全局信息,减少对前几页的偏差。
实验关键数据¶
主实验¶
| 数据集 | 指标 | SlideAgent(GPT-4o) | GPT-4o | 提升 |
|---|---|---|---|---|
| SlideVQA | Overall | 84.9 | 77.0 | +7.9% |
| TechSlides | Overall | 70.9 | 63.4 | +7.5% |
| FinSlides | Overall | 85.5 | 80.0 | +5.5% |
| InfoVQA | Overall | 79.6 | 69.0 | +10.6% |
| SlideVQA (InternVL3) | Overall | 72.7 | 63.0 | +9.8% |
消融实验¶
| 配置 | 关键指标(Overall) | 说明 |
|---|---|---|
| w/o Page Agent | -6.3 (GPT-4o) | 下降最大,页面级推理对跨页连贯性至关重要 |
| w/o Element Agent | -4.6 (GPT-4o) | 细粒度推理对数值问题尤为关键 |
| w/o Global Agent | -2.8 (GPT-4o) | 下降最小,因低层 agent 已部分嵌入全局上下文 |
| w/o Subquery | -5.0 (GPT-4o) | 检索场景下影响尤其显著 |
关键发现¶
- 层次化知识构建不仅提升 QA 性能,还显著改善页面级检索效果(文本检索器 SFR 获得 +6.4 MRR 提升)
- 多跳推理类查询获得最大提升(+9.8%),证明结构化知识引导对复杂推理的价值
- 在提供 ground-truth 页面的 oracle 设置下仍有 +7.7% 提升,说明元素级检索本身就有独立价值
- 仅12.5%的错误可归因于 OCR/解析失败,大部分错误来自问题歧义和答案标注问题
亮点与洞察¶
- 层次化分治策略:借鉴人类认知的"全局-页面-元素"三级处理模型,既系统又直觉,在工程上也便于模块化扩展
- 无需训练的即插即用设计:完全基于提示工程和现有 MLLM,对任何骨干模型均可直接应用
- 元素级推理的必要性:通过 Figure 1 的直观案例展示了 MLLM 在整页推理中的失败和元素级裁剪后的成功,非常具有说服力
- 知识构建对检索的增益:生成的结构化知识(页面描述和子查询)不仅用于 QA,还作为检索的增强信号,实现一举两得
- 模型无关性:在 GPT-4o 和 InternVL3-8B 两种截然不同的骨干模型上均获得一致的显著提升
局限与展望¶
- 元素边界依赖 OCR 和布局解析工具,解析质量可能因工具而异
- 全局知识初始化仅采样前三页,可能对长文档的代表性不足,未来可探索基于内容的页面选择
- 主要使用文本检索器(SFR),多模态检索器的潜力有待进一步挖掘
- 未处理多轮对话场景,扩展到交互式文档问答是重要方向
- 知识构建阶段的计算开销较高,需要为每页单独调用 MLLM
相关工作与启发¶
- vs ViDoRAG:ViDoRAG 也采用多 agent 架构,但 SlideAgent 的三级层次设计和元素级解析更为细致,在所有数据集上全面超越
- vs VDocRAG:VDocRAG 结合检索和推理但缺少元素级分解,SlideAgent 在数值推理(Num)上优势尤为明显
- vs COLPALI:纯多模态检索方法,SlideAgent 展示了文本检索+结构化知识的组合可以匹敌甚至超越多模态检索
评分¶
- 新颖性: ⭐⭐⭐⭐ 层次化 agent + 元素级推理的组合设计在文档理解领域较为新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、15+基线模型、详尽的消融和错误分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,案例分析直观,方法描述严谨
- 价值: ⭐⭐⭐⭐ 框架通用性强,对企业级文档理解场景有直接应用价值 待深读论文后补充
研究背景与动机¶
待深读论文后补充
方法详解¶
待深读论文后补充
实验关键数据¶
待深读论文后补充
亮点与洞察¶
待深读论文后补充
局限性 / 可改进方向¶
待深读论文后补充
相关工作与启发¶
待深读论文后补充
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评