跳转至

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

会议: ACL 2026 Findings
arXiv: 2507.09861
代码: 无
领域: Document Understanding / Multimodal LLM
关键词: 视觉丰富文档理解, 多模态大语言模型, OCR-free, 文档信息抽取, 检索增强生成

一句话总结

系统综述基于多模态大语言模型(MLLM)的视觉丰富文档理解(VRDU),从特征表示/融合和训练范式两个维度梳理OCR-based和OCR-free方法,并讨论数据稀缺、多页文档、多语言支持、RAG和智能体等新兴方向。

研究背景与动机

领域现状:视觉丰富文档理解(VRDU)旨在从包含复杂视觉、文本和布局元素的文档中自动提取和理解信息,在金融、医疗、教育等领域有广泛应用。随着MLLM的快速发展,该领域正经历从传统方法到MLLM-based方法的范式转变。

现有痛点:(1) 早期方法依赖OCR管道,误差会级联传播;(2) 文档的多模态性(文本、视觉、布局)增加了特征融合的复杂性;(3) 标注数据稀缺制约了监督学习方法;(4) 多页、多语言文档处理仍是难题。

核心矛盾:MLLM在通用视觉-语言任务上表现出色,但文档理解有其特殊性——需要理解精确的布局关系、表格结构和印刷/手写文本,通用MLLM难以直接胜任。

本文目标:提供一个全面的MLLM-based VRDU综述,覆盖方法分类、训练策略、挑战和未来方向,为研究者提供系统性路线图。

切入角度:从两个核心维度组织——(1) 文本、视觉、布局特征的表示与融合技术;(2) 预训练、指令微调和训练策略。

核心 idea:MLLM-based VRDU正从OCR-dependent向OCR-free演进,同时从单页静态理解向多页动态交互(RAG、智能体)扩展。

方法详解

整体框架

综述将MLLM-based VRDU方法分为两大类:OCR-Dependent(需要外部OCR输出作为文本输入)和OCR-Free(端到端从文档图像直接理解),并在每类中按特征融合方式和LLM骨干进行细分。

关键设计

1. OCR-Dependent 方法:把外部 OCR 的文本/布局喂给 LLM,识字精度高但有级联误差

这一类承接传统文档 IE 的思路——先用 OCR 引擎把文档图像里的文字和坐标抽出来,再交给 LLM 做理解。代表工作各有侧重:DocLLM 用交叉注意力把文本与布局两路特征融合,ICL-D3IE 直接借 GPT-3 的 in-context learning 来处理文档信息抽取,LayoutLLM 则把 LayoutLMv3 的布局编码接到 Vicuna 的生成能力上。它们的共同好处是 OCR 给出了精确的文本内容,省去模型从像素里认字的负担;代价是 OCR 一旦认错,误差会沿管道一路往下传播,而且多了一段外部依赖,这正是 OCR-Free 路线想绕开的痛点。

2. OCR-Free 方法:视觉编码器直接读图,端到端但要求细粒度识字能力

为了甩掉 OCR 这段管道、消除误差传播,OCR-Free 让视觉编码器直接感知文档图像、端到端输出理解结果。难点在于文档文字往往又小又密,所以这一类的演进主线就是「怎么把高分辨率文档喂进视觉编码器」:mPLUG-DocOwl 系列直接对文档图像建模,TextMonkey 用 sliding window 切块处理高分辨率页面,InternVL-based 方法则靠动态分辨率适配不同尺寸的文档。它实现了真正的端到端,但反过来把识字的担子全压到视觉编码器上,对其细粒度识别能力提出了更高要求。

3. 训练范式:预训练 → 指令微调 → 下游微调的三阶段及其组合

综述把 MLLM 的训练流程拆成三个阶段——预训练(PT)学文档表示的基础、指令微调(IT)对齐对任务指令的理解、下游微调(FT)适配具体任务,不同方法按需选用其中的阶段组合。把训练流程显式拆段,是为了让读者看清「某个方法的性能差异到底来自哪一阶段」,从而在设计新方法时做出有依据的取舍,而不是把训练当成一个黑箱去调。

损失函数 / 训练策略

综述覆盖的方法使用多种训练策略:标准自回归语言建模损失、对比学习(如CLIP-style)、文本-布局对齐损失等。预训练通常使用大规模文档-文本对,指令微调使用结构化QA格式。

实验关键数据

主要模型对比

方法 类型 任务 模态 LLM骨干 多页
DocLLM OCR-Dep KIE, QA, DC T, L Custom 单页
LayoutLLM OCR-Dep KIE, QA T, V, L Vicuna-7B 单页
mPLUG-DocOwl OCR-Free QA V mPLUG-Owl 单页
TextMonkey OCR-Free QA V Qwen-VL 单页
InternVL-Doc OCR-Free QA, KIE V InternVL 多页
DocThinker OCR-Free QA, KIE T, V Qwen2.5-VL 单页

挑战与趋势

挑战 当前状态 未来方向
数据稀缺 合成数据+迁移学习 自监督预训练+少样本学习
多页文档 少数方法支持 动态页面选择+检索增强
多语言 英语为主 多语言预训练+跨语言迁移
RAG集成 初步探索 文档检索+生成pipeline
智能体框架 新兴方向 多工具协作的文档理解agent

关键发现

  • OCR-Free方法正快速追赶OCR-Dependent方法,尤其在高分辨率视觉编码器的支持下
  • 多页文档理解是当前最大瓶颈,大多数方法仍仅支持单页
  • RAG和智能体框架的引入为文档理解提供了从"理解"到"应用"的新路径

亮点与洞察

  • 综述的分类维度设计清晰:从OCR依赖性×特征融合×训练范式三个维度构建了完整的方法空间
  • 模型总结表格非常实用,涵盖LLM骨干、视觉编码器、训练阶段、多页支持、prompt格式等关键信息
  • 对新兴方向(RAG、智能体)的前瞻性讨论为后续研究指明方向

局限与展望

  • 综述截至2025年中的方法,未来MLLM的快速发展可能很快使部分内容过时
  • 缺少统一benchmark上的定量对比,难以直接比较不同方法的性能
  • 对计算成本和效率的讨论不够深入
  • 未来方向:(1) 统一的多任务多页文档理解框架;(2) 可信赖的文档理解(幻觉控制);(3) 文档理解与知识图谱的结合

相关工作与启发

  • vs 传统文档理解综述: 聚焦MLLM时代的新方法,涵盖更多OCR-free和生成式方法
  • vs 通用MLLM综述: 深入文档理解的特殊需求(布局感知、表格理解、高分辨率)
  • vs 文档AI应用综述: 更注重技术方法分类而非应用场景

评分

  • 新颖性: ⭐⭐⭐ 综述类文章,重在系统性而非原创性
  • 实验充分度: ⭐⭐⭐ 全面的方法覆盖,但缺少统一定量对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分类维度合理,表格信息密度高
  • 价值: ⭐⭐⭐⭐ 对VRDU领域的研究者有重要参考价值