ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction¶
会议: ACL2026
arXiv: 2604.23813
代码: https://github.com/ythere-y/ShredBench
领域: 多模态VLM / 文档理解 / 多模态推理
关键词: 文档重建, MLLM评测, 碎片化文档, 语义推理, OCR鲁棒性
一句话总结¶
ShredBench 构造了一个“把文档撕碎后让多模态大模型复原内容”的评测基准,证明当前 MLLM 即使在常规 OCR 上很强,也普遍缺乏把视觉碎片、阅读顺序和语义上下文合在一起推理的能力。
研究背景与动机¶
领域现状:多模态大模型在文档理解任务上已经覆盖 OCR、表格解析、信息抽取和图文问答等场景,常见评测大多假设输入文档清晰、完整、排版稳定。模型只需要在高分辨率图像里读文字、解析布局,再输出结构化内容。
现有痛点:真实文档处理并不总是面对完美扫描件。纸张可能被撕裂、遮挡、折叠或打乱,模型不仅要识别局部文字,还要推断碎片之间的顺序关系。现有 OCR 或文档解析基准通常只测“看清楚了没有”,很少测“能否把断裂的视觉证据和语言常识拼起来”。
核心矛盾:碎片文档重建介于视觉拼图和语言推理之间。传统 jigsaw 更依赖边缘匹配,而文档碎片经常是白底黑字、边界信息稀疏,真正可用的线索反而是语法、语义、代码结构和表格二维布局。MLLM 是否能把这些线索融合,是一个尚未被系统评测的问题。
本文目标:作者希望构造一个自动化、可扩展、可控污染风险的评测集,覆盖自然语言、代码和表格,并通过不同碎片数量观察模型能力如何随结构破坏程度退化。
切入角度:论文把文档复原定义成 set-to-sequence 任务:输入是一组无序碎片图像,输出是原始文档文本。这样既保留了视觉输入的复杂性,又能用文本相似度和结构指标进行可重复评测。
核心 idea:用可控物理渲染管线生成碎片化文档,让模型必须依靠跨碎片语义桥接而不是干净 OCR 或简单边缘匹配完成复原。
方法详解¶
整体框架¶
ShredBench 的流程可以分成三步。第一步收集多源文档,包括英文新闻、中文新闻、C++/Java/Python 代码和科学表格;第二步把原始内容渲染成高分辨率页面,并用 Voronoi 切割与 3D 物理渲染生成不规则碎片;第三步把散落碎片作为单张视觉输入交给 MLLM,让模型输出尽可能接近原始文档的文本或表格内容。
数据集共包含 756 个文档,每个文档生成 8、12、16 三种碎片粒度。作者特别强调数据源可以灵活替换为最新或未见文本,以降低训练集污染对评测有效性的影响。
关键设计¶
-
物理化碎片生成管线:
- 功能:把普通 Markdown 或文本内容转成接近真实撕裂纸张的视觉输入。
- 核心思路:先用浏览器把文本渲染为 1600px 宽的页面,再随机采样 \(N \in \{8,12,16\}\) 个 Voronoi 种子点切割图像;随后在 Blender 中加入纸张厚度、褶皱、阴影和随机旋转,最终输出 4K 画布上的散落碎片。
- 设计动机:普通矩形裁剪会保留过强的像素连续性,模型可能通过低级边缘匹配绕过语义推理;物理化渲染能减少这种捷径,让任务更接近真实损坏文档。
-
跨模态语义复原任务:
- 功能:评估模型能否从无序碎片中恢复完整文本序列,而不是只识别每个碎片上的局部文字。
- 核心思路:给定碎片集合 \(\mathcal{I}=\{f_1,\dots,f_N\}\),模型需要生成与原始文档 \(D\) 内容一致的文本 \(\hat{T}\)。任务不要求显式预测碎片坐标,而是通过最终文本质量衡量隐式拼接能力。
- 设计动机:这能同时考察 OCR、阅读顺序、语言模型先验、代码语法和表格空间结构,比单纯文档 OCR 更能暴露 MLLM 的全局推理短板。
-
多维评测与语义依赖消融:
- 功能:从文本相似度、表格结构和代码结构多个角度衡量复原质量。
- 核心思路:普通文本使用 NED、BLEU、ROUGE-L,表格额外使用 TEDS,代码附录中补充 CodeBLEU;同时构造“无意义文本”控制集,保持布局和字符长度不变,只移除真实语义。
- 设计动机:如果模型靠视觉边缘解决任务,那么无意义文本不应显著变差;实际结果大幅下降,说明模型成功时主要依赖语义先验,而视觉匹配远远不够。
损失函数 / 训练策略¶
这篇论文不提出新训练方法,而是做 benchmark 与评测。推理时采用统一 zero-shot 提示,要求模型忽略物理噪声并逐字复原内容;温度设为 0 或 API 支持的最低值,输出再经过统一后处理,以保证指标主要反映复原内容而不是格式噪声。
实验关键数据¶
主实验¶
整体结果显示,Gemini 3 Pro 和 Gemini 3 Flash 明显领先,但即便最强模型也会随碎片数增加而退化。开源模型和专用 OCR 模型在碎片复原上整体较弱,说明“能 OCR”并不等于“能重建”。
| 模型 | 8片 NED↓ / BLEU↑ / ROUGE↑ | 12片 NED↓ / BLEU↑ / ROUGE↑ | 16片 NED↓ / BLEU↑ / ROUGE↑ | 观察 |
|---|---|---|---|---|
| Gemini 3 Pro | 0.33 / 0.51 / 0.83 | 0.37 / 0.48 / 0.81 | 0.41 / 0.44 / 0.76 | 全局最强,碎片增加时退化相对平缓 |
| Gemini 3 Flash | 0.34 / 0.47 / 0.82 | 0.40 / 0.44 / 0.77 | 0.44 / 0.41 / 0.74 | 接近 Pro,表格场景甚至更强 |
| Qwen-VL-Plus | 0.59 / 0.26 / 0.58 | 0.63 / 0.22 / 0.53 | 0.65 / 0.20 / 0.50 | 中等水平,碎片增多后明显掉点 |
| GLM-4.6v | 0.67 / 0.20 / 0.45 | 0.70 / 0.17 / 0.40 | 0.71 / 0.15 / 0.37 | 能恢复部分语义,但全局顺序不稳 |
| DeepSeek-OCR | 0.86 / 0.02 / 0.12 | 0.87 / 0.01 / 0.09 | 0.87 / 0.01 / 0.10 | 专用 OCR 遇到碎片化输入几乎失效 |
不同文档类型的表现也很有启发。代码中 Java 和 C++ 的平均 NED 优于 Python,作者认为大括号、分号等显式结构提供了更多复原锚点;表格场景里 Gemini 3 Flash 的 NED 为 0.49,反而优于 Gemini 3 Pro 的 0.59,说明语义优先的模型未必最擅长刚性二维布局。
消融实验¶
附录的语义消融直接回答了模型是否只是在做视觉拼图。作者构造 50 个无意义文本文档,保留版式、字符长度和碎片化流程,在 16 片条件下重新评测。
| 模型 | 真实英文 ROUGE↑ | 无意义文本 ROUGE↑ | ROUGE 下降 | 真实英文 NED↓ | 无意义文本 NED↓ | 解释 |
|---|---|---|---|---|---|---|
| Gemini 3 Pro | 0.73 | 0.33 | -0.40 | 0.35 | 0.65 | 最强模型也高度依赖语义桥接 |
| Gemini 3 Flash | 0.67 | 0.29 | -0.38 | 0.41 | 0.71 | 无语义时视觉线索不足以复原 |
| Qwen-VL-Plus | 0.38 | 0.13 | -0.25 | 0.65 | 0.75 | 中等模型同样明显退化 |
| GLM-4.6v | 0.30 | 0.18 | -0.12 | 0.70 | 0.74 | 原本语义利用较弱,下降幅度较小 |
| GPT-5.1 | 0.15 | 0.08 | -0.07 | 0.80 | 0.81 | 整体复原能力偏弱,控制集差距较小 |
关键发现¶
- 碎片数量是稳定的难度旋钮:Gemini 3 Pro 从 8 片到 16 片 NED 只增加 0.08,而 Qwen-VL-Plus 增加约 0.14,说明强模型的退化曲线更平缓。
- 中文新闻比英文新闻更难,原因既有汉字信息密度高、单字被切断后语义损失大的问题,也有 BLEU/ROUGE 对中文分词边界更敏感的问题。
- 代码复原失败主要来自行顺序错误和内容遗漏,尤其是窄条碎片容易被模型当成视觉噪声忽略。
- 语义消融说明模型不是简单通过边缘拼图完成任务;没有真实语义后,各模型收敛到相似的低性能区间。
亮点与洞察¶
- 这篇论文把“文档理解鲁棒性”从噪声、模糊、旋转推进到结构破坏层面,任务设定非常自然,也比传统 OCR 基准更接近真实受损文档处理。
- 数据生成管线设计得比较聪明:用可替换文本源降低污染风险,用 3D 渲染削弱视觉捷径,用三种碎片粒度形成连续难度梯度。
- 对代码和表格的分析很有价值,因为它说明语义推理不是万能的。代码需要语法约束,表格需要二维结构约束,未来模型可能需要显式结构搜索或约束解码。
- “无意义文本”消融是最关键的洞察:当前 MLLM 的成功高度依赖语言先验,但当语义被移除时,纯视觉拼接能力依然薄弱。
局限与展望¶
- 数据仍然是合成的,虽然使用了物理渲染,但真实碎纸可能包含遮挡、折叠、污渍、纸张材质变化和扫描角度偏差。
- 评测主要关注最终文本相似度,没有显式评价碎片排序或几何重建过程,因此难以区分模型是先拼后读,还是边读边猜。
- 表格和代码的指标仍有不完美之处,字符串指标会惩罚格式差异,结构指标又未必覆盖语义等价。
- 后续可以把 ShredBench 与搜索式重排、OCR 候选图、程序语法检查器或表格结构解析器结合,构造更强的多阶段文档复原系统。
相关工作与启发¶
- vs OmniDocBench / WildDoc: 这些基准关注完整文档的解析或自然场景文档鲁棒性,ShredBench 则把输入结构彻底打乱,强调跨碎片语义桥接。
- vs Jigsaw-Puzzles / RePAIR: 传统重建任务更依赖视觉或几何匹配,ShredBench 的核心在于文本、代码和表格语义对拼接的约束。
- vs 纯 OCR 模型: DeepSeek-OCR 和 Hunyuan-OCR 在普通文本识别上可能强,但在碎片输入上表现很差,说明文档复原需要全局推理模块。
- 启发: 对自动化研究系统而言,未来处理论文扫描件、破损表格或低质量 PDF 时,可以把“结构破坏鲁棒性”作为文档解析模型的重要评测维度。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 基准任务新颖且设定清晰,把碎片化文档作为 MLLM 语义推理探针很有辨识度。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 756 文档、4 类场景、3 种碎片粒度、14 个模型,并有语义消融和代码结构指标补充。
- 写作质量: ⭐⭐⭐⭐☆ 论文逻辑顺畅,图表信息密集;部分模型命名和未来时间线略显设定化,但不影响主线理解。
- 价值: ⭐⭐⭐⭐⭐ 对文档理解、OCR 鲁棒性、多模态推理和真实世界损坏文档恢复都有直接参考价值。