跳转至

SlideAgent: Hierarchical Agentic Framework for Multi-Page Visual Document Understanding

会议: ACL 2026
arXiv: 2510.26615
代码: SlideAgent
领域: Information Retrieval / Document Understanding
关键词: 多页文档理解, 层次化智能体, 视觉文档问答, 幻灯片理解, 元素级推理

一句话总结

提出 SlideAgent,一个层次化智能体框架,通过全局、页面、元素三级专用 agent 构建结构化知识表示,显著提升多页视觉文档(尤其是幻灯片)的细粒度理解能力。

研究背景与动机

领域现状:多页视觉文档(如财务报告、学术演示文稿、技术手册)广泛存在于金融、科学、教育等高风险领域。这些文档不仅包含文本,还依赖版面布局、图标、颜色编码和跨页引用来传达信息。

现有痛点:当前多模态大语言模型(MLLMs)在处理多页视觉文档时面临三大挑战:(1) 细粒度推理不足 — MLLMs 倾向于整体性处理每页,忽略元素级细节(如图表中的具体数据段);(2) 领域特定视觉语义缺失 — 预训练主要基于自然图像,对文档中的专业图表、图标含义和空间布局理解不足;(3) 依赖元数据 — 很多系统依赖干净的文档元数据(如图表位置标注、层级标签),但现实中这些信息经常缺失或损坏。

核心矛盾:MLLM 在对整页进行整体推理时可能出错(如误数图表中的类别),但当把相关图表裁剪出来后却能正确识别——说明模型具备推理能力,只是缺乏有效的细粒度信息提取机制。

本文目标:构建一个无需依赖文档元数据、能同时处理多页多模态文档的通用智能体框架,通过层次化知识构建和选择性 agent 激活实现精准的文档理解。

核心idea:借鉴人类信息处理模型,将文档理解分解为全局(整体主题)、页面(单页特征+跨页关系)、元素(图表/文本块/图标的细粒度解析)三个层级,各级配备专用 agent,在知识构建和推理两个阶段协同工作。

方法详解

整体框架

SlideAgent 分为两个阶段运作:(1) 知识构建阶段 — 自顶向下地构建层次化、与查询无关的知识库 \(\mathcal{K}=\{\mathcal{K}_g, \mathcal{K}_p, \mathcal{K}_e\}\);(2) 推理阶段 — 根据用户查询分类并选择性激活对应层级的 agent,进行多级检索和答案合成。整个框架是模型无关的,可搭配 GPT-4o 或 InternVL3-8B 等不同骨干模型。

关键设计

  1. 三级知识构建(Hierarchical Knowledge Construction):

    • 功能:为文档构建与查询无关的结构化知识表示
    • 核心思路:全局 agent \(\mathcal{M}_g\) 通过采样前三页生成文档级摘要和主题;页面 agent \(\mathcal{M}_p\) 顺序处理每页,条件化于全局知识和前一页知识生成页面级知识 \(\mathcal{K}_p^i = \mathcal{M}_p(v_i, \mathcal{K}_g^{(0)}, \mathcal{K}_p^{i-1})\);元素 agent \(\mathcal{M}_e\) 通过布局解析将每页分解为文本块、图表、图标等元素,并生成每个元素的语义角色和功能描述
    • 设计动机:全局知识提供主题框架,页面知识提供顺序上下文和跨页关联,元素知识提供细粒度的空间和内容信息——三者互补,缺一不可
  2. 查询分类与选择性激活(Query Classification & Selective Activation):

    • 功能:根据查询类型精准激活所需的 agent 子集,避免不必要的计算和噪声引入
    • 核心思路:将查询分为四类——全局理解(仅激活全局 agent)、事实查询(激活页面+元素 agent)、多跳推理(激活全部 agent)、布局/视觉关系(激活元素 agent)。对于无法分类的查询,默认激活全部 agent
    • 设计动机:不同查询需要不同粒度的信息,过度激活 agent 会增加计算开销且可能引入噪声,选择性激活在效率和准确性之间取得平衡
  3. 子查询生成与多级检索(Subquery Generation & Multi-level Retrieval):

    • 功能:将原始查询扩展为多个子查询,在页面和元素层面进行精准检索
    • 核心思路:从查询中提取关键实体生成子查询,将原始查询和子查询拼接后联合检索 top-k 页面及其元素。支持稀疏检索器(BM25)、稠密检索器(SFR)和多模态检索器(COLPALI)
    • 设计动机:原始查询通常较短,直接检索会产生噪声;子查询生成增强了检索的语义覆盖,尤其有利于多跳推理场景

损失函数 / 训练策略

本文采用无需训练的方案——所有 agent 基于现有 MLLM 通过提示工程实现,无需额外训练或微调。知识构建阶段使用精心设计的提示模板引导各级 agent 生成结构化知识。全局知识通过 refine 步骤(单次全字段重写)确保从所有页面综合全局信息,减少对前几页的偏差。

实验关键数据

主实验

数据集 指标 SlideAgent(GPT-4o) GPT-4o 提升
SlideVQA Overall 84.9 77.0 +7.9%
TechSlides Overall 70.9 63.4 +7.5%
FinSlides Overall 85.5 80.0 +5.5%
InfoVQA Overall 79.6 69.0 +10.6%
SlideVQA (InternVL3) Overall 72.7 63.0 +9.8%

消融实验

配置 关键指标(Overall) 说明
w/o Page Agent -6.3 (GPT-4o) 下降最大,页面级推理对跨页连贯性至关重要
w/o Element Agent -4.6 (GPT-4o) 细粒度推理对数值问题尤为关键
w/o Global Agent -2.8 (GPT-4o) 下降最小,因低层 agent 已部分嵌入全局上下文
w/o Subquery -5.0 (GPT-4o) 检索场景下影响尤其显著

关键发现

  • 层次化知识构建不仅提升 QA 性能,还显著改善页面级检索效果(文本检索器 SFR 获得 +6.4 MRR 提升)
  • 多跳推理类查询获得最大提升(+9.8%),证明结构化知识引导对复杂推理的价值
  • 在提供 ground-truth 页面的 oracle 设置下仍有 +7.7% 提升,说明元素级检索本身就有独立价值
  • 仅12.5%的错误可归因于 OCR/解析失败,大部分错误来自问题歧义和答案标注问题

亮点与洞察

  • 层次化分治策略:借鉴人类认知的"全局-页面-元素"三级处理模型,既系统又直觉,在工程上也便于模块化扩展
  • 无需训练的即插即用设计:完全基于提示工程和现有 MLLM,对任何骨干模型均可直接应用
  • 元素级推理的必要性:通过 Figure 1 的直观案例展示了 MLLM 在整页推理中的失败和元素级裁剪后的成功,非常具有说服力
  • 知识构建对检索的增益:生成的结构化知识(页面描述和子查询)不仅用于 QA,还作为检索的增强信号,实现一举两得
  • 模型无关性:在 GPT-4o 和 InternVL3-8B 两种截然不同的骨干模型上均获得一致的显著提升

局限与展望

  • 元素边界依赖 OCR 和布局解析工具,解析质量可能因工具而异
  • 全局知识初始化仅采样前三页,可能对长文档的代表性不足,未来可探索基于内容的页面选择
  • 主要使用文本检索器(SFR),多模态检索器的潜力有待进一步挖掘
  • 未处理多轮对话场景,扩展到交互式文档问答是重要方向
  • 知识构建阶段的计算开销较高,需要为每页单独调用 MLLM

相关工作与启发

  • vs ViDoRAG:ViDoRAG 也采用多 agent 架构,但 SlideAgent 的三级层次设计和元素级解析更为细致,在所有数据集上全面超越
  • vs VDocRAG:VDocRAG 结合检索和推理但缺少元素级分解,SlideAgent 在数值推理(Num)上优势尤为明显
  • vs COLPALI:纯多模态检索方法,SlideAgent 展示了文本检索+结构化知识的组合可以匹敌甚至超越多模态检索

评分

  • 新颖性: ⭐⭐⭐⭐ 层次化 agent + 元素级推理的组合设计在文档理解领域较为新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、15+基线模型、详尽的消融和错误分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,案例分析直观,方法描述严谨
  • 价值: ⭐⭐⭐⭐ 框架通用性强,对企业级文档理解场景有直接应用价值 待深读论文后补充

研究背景与动机

待深读论文后补充

方法详解

待深读论文后补充

实验关键数据

待深读论文后补充

亮点与洞察

待深读论文后补充

局限性 / 可改进方向

待深读论文后补充

相关工作与启发

待深读论文后补充

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评