A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends¶

会议: ACL 2026
arXiv: 2507.09861
代码: 无
领域: Document Understanding / Multimodal LLM
关键词: 视觉丰富文档理解, 多模态大语言模型, OCR-free, 文档信息抽取, 检索增强生成

一句话总结¶

系统综述基于多模态大语言模型（MLLM）的视觉丰富文档理解（VRDU），从特征表示/融合和训练范式两个维度梳理OCR-based和OCR-free方法，并讨论数据稀缺、多页文档、多语言支持、RAG和智能体等新兴方向。

领域现状：视觉丰富文档理解（VRDU）旨在从包含复杂视觉、文本和布局元素的文档中自动提取和理解信息，在金融、医疗、教育等领域有广泛应用。随着MLLM的快速发展，该领域正经历从传统方法到MLLM-based方法的范式转变。

现有痛点：(1) 早期方法依赖OCR管道，误差会级联传播；(2) 文档的多模态性（文本、视觉、布局）增加了特征融合的复杂性；(3) 标注数据稀缺制约了监督学习方法；(4) 多页、多语言文档处理仍是难题。

核心矛盾：MLLM在通用视觉-语言任务上表现出色，但文档理解有其特殊性——需要理解精确的布局关系、表格结构和印刷/手写文本，通用MLLM难以直接胜任。

本文目标：提供一个全面的MLLM-based VRDU综述，覆盖方法分类、训练策略、挑战和未来方向，为研究者提供系统性路线图。

切入角度：从两个核心维度组织——(1) 文本、视觉、布局特征的表示与融合技术；(2) 预训练、指令微调和训练策略。

核心 idea：MLLM-based VRDU正从OCR-dependent向OCR-free演进，同时从单页静态理解向多页动态交互（RAG、智能体）扩展。

综述将MLLM-based VRDU方法分为两大类：OCR-Dependent（需要外部OCR输出作为文本输入）和OCR-Free（端到端从文档图像直接理解），并在每类中按特征融合方式和LLM骨干进行细分。

OCR-Dependent方法:
- 功能：利用外部OCR引擎提供的文本和布局信息，结合LLM进行文档理解
- 核心思路：典型代表包括DocLLM（使用交叉注意力融合文本和布局）、ICL-D3IE（利用GPT-3的in-context learning处理文档IE）、LayoutLLM（结合LayoutLMv3的布局编码和Vicuna的生成能力）
- 设计动机：OCR提供精确的文本内容，但引入了OCR误差传播和管道复杂性的trade-off
OCR-Free方法:
- 功能：直接从文档图像端到端地理解文档，无需外部OCR
- 核心思路：代表方法如mPLUG-DocOwl系列（基于视觉编码器直接感知文档图像）、TextMonkey（使用sliding window处理高分辨率文档）、InternVL-based方法（动态分辨率处理）
- 设计动机：消除OCR误差传播，实现真正端到端，但需要视觉编码器能精确识别文档中的细粒度文本
训练范式分类:
- 功能：系统化MLLM的训练流程
- 核心思路：三阶段范式——预训练（PT）学习文档表示基础，指令微调（IT）对齐任务指令理解，下游微调（FT）适配特定任务。不同方法采用不同的阶段组合
- 设计动机：理解训练策略的选择对最终性能的影响，帮助研究者做出informed的设计决策

综述覆盖的方法使用多种训练策略：标准自回归语言建模损失、对比学习（如CLIP-style）、文本-布局对齐损失等。预训练通常使用大规模文档-文本对，指令微调使用结构化QA格式。

方法	类型	任务	模态	LLM骨干	多页
DocLLM	OCR-Dep	KIE, QA, DC	T, L	Custom	单页
LayoutLLM	OCR-Dep	KIE, QA	T, V, L	Vicuna-7B	单页
mPLUG-DocOwl	OCR-Free	QA	V	mPLUG-Owl	单页
TextMonkey	OCR-Free	QA	V	Qwen-VL	单页
InternVL-Doc	OCR-Free	QA, KIE	V	InternVL	多页
DocThinker	OCR-Free	QA, KIE	T, V	Qwen2.5-VL	单页