ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction¶

会议: ACL2026
arXiv: 2604.23813
代码: https://github.com/ythere-y/ShredBench
领域: 多模态VLM / 文档理解 / 多模态推理
关键词: 文档重建, MLLM评测, 碎片化文档, 语义推理, OCR鲁棒性

一句话总结¶

ShredBench 构造了一个“把文档撕碎后让多模态大模型复原内容”的评测基准，证明当前 MLLM 即使在常规 OCR 上很强，也普遍缺乏把视觉碎片、阅读顺序和语义上下文合在一起推理的能力。

研究背景与动机¶

领域现状：多模态大模型在文档理解任务上已经覆盖 OCR、表格解析、信息抽取和图文问答等场景，常见评测大多假设输入文档清晰、完整、排版稳定。模型只需要在高分辨率图像里读文字、解析布局，再输出结构化内容。

现有痛点：真实文档处理并不总是面对完美扫描件。纸张可能被撕裂、遮挡、折叠或打乱，模型不仅要识别局部文字，还要推断碎片之间的顺序关系。现有 OCR 或文档解析基准通常只测“看清楚了没有”，很少测“能否把断裂的视觉证据和语言常识拼起来”。

核心矛盾：碎片文档重建介于视觉拼图和语言推理之间。传统 jigsaw 更依赖边缘匹配，而文档碎片经常是白底黑字、边界信息稀疏，真正可用的线索反而是语法、语义、代码结构和表格二维布局。MLLM 是否能把这些线索融合，是一个尚未被系统评测的问题。

本文目标：作者希望构造一个自动化、可扩展、可控污染风险的评测集，覆盖自然语言、代码和表格，并通过不同碎片数量观察模型能力如何随结构破坏程度退化。

切入角度：论文把文档复原定义成 set-to-sequence 任务：输入是一组无序碎片图像，输出是原始文档文本。这样既保留了视觉输入的复杂性，又能用文本相似度和结构指标进行可重复评测。

核心 idea：用可控物理渲染管线生成碎片化文档，让模型必须依靠跨碎片语义桥接而不是干净 OCR 或简单边缘匹配完成复原。

方法详解¶

整体框架¶

ShredBench 的流程可以分成三步。第一步收集多源文档，包括英文新闻、中文新闻、C++/Java/Python 代码和科学表格；第二步把原始内容渲染成高分辨率页面，并用 Voronoi 切割与 3D 物理渲染生成不规则碎片；第三步把散落碎片作为单张视觉输入交给 MLLM，让模型输出尽可能接近原始文档的文本或表格内容。

数据集共包含 756 个文档，每个文档生成 8、12、16 三种碎片粒度。作者特别强调数据源可以灵活替换为最新或未见文本，以降低训练集污染对评测有效性的影响。

关键设计¶

物理化碎片生成管线:
- 功能：把普通 Markdown 或文本内容转成接近真实撕裂纸张的视觉输入。
- 核心思路：先用浏览器把文本渲染为 1600px 宽的页面，再随机采样 \(N \in \{8,12,16\}\) 个 Voronoi 种子点切割图像；随后在 Blender 中加入纸张厚度、褶皱、阴影和随机旋转，最终输出 4K 画布上的散落碎片。
- 设计动机：普通矩形裁剪会保留过强的像素连续性，模型可能通过低级边缘匹配绕过语义推理；物理化渲染能减少这种捷径，让任务更接近真实损坏文档。
跨模态语义复原任务:
- 功能：评估模型能否从无序碎片中恢复完整文本序列，而不是只识别每个碎片上的局部文字。
- 核心思路：给定碎片集合 \(\mathcal{I}=\{f_1,\dots,f_N\}\)，模型需要生成与原始文档 \(D\) 内容一致的文本 \(\hat{T}\)。任务不要求显式预测碎片坐标，而是通过最终文本质量衡量隐式拼接能力。
- 设计动机：这能同时考察 OCR、阅读顺序、语言模型先验、代码语法和表格空间结构，比单纯文档 OCR 更能暴露 MLLM 的全局推理短板。
多维评测与语义依赖消融:
- 功能：从文本相似度、表格结构和代码结构多个角度衡量复原质量。
- 核心思路：普通文本使用 NED、BLEU、ROUGE-L，表格额外使用 TEDS，代码附录中补充 CodeBLEU；同时构造“无意义文本”控制集，保持布局和字符长度不变，只移除真实语义。
- 设计动机：如果模型靠视觉边缘解决任务，那么无意义文本不应显著变差；实际结果大幅下降，说明模型成功时主要依赖语义先验，而视觉匹配远远不够。

损失函数 / 训练策略¶

这篇论文不提出新训练方法，而是做 benchmark 与评测。推理时采用统一 zero-shot 提示，要求模型忽略物理噪声并逐字复原内容；温度设为 0 或 API 支持的最低值，输出再经过统一后处理，以保证指标主要反映复原内容而不是格式噪声。

实验关键数据¶

主实验¶

整体结果显示，Gemini 3 Pro 和 Gemini 3 Flash 明显领先，但即便最强模型也会随碎片数增加而退化。开源模型和专用 OCR 模型在碎片复原上整体较弱，说明“能 OCR”并不等于“能重建”。

模型	8片 NED↓ / BLEU↑ / ROUGE↑	12片 NED↓ / BLEU↑ / ROUGE↑	16片 NED↓ / BLEU↑ / ROUGE↑	观察
Gemini 3 Pro	0.33 / 0.51 / 0.83	0.37 / 0.48 / 0.81	0.41 / 0.44 / 0.76	全局最强，碎片增加时退化相对平缓
Gemini 3 Flash	0.34 / 0.47 / 0.82	0.40 / 0.44 / 0.77	0.44 / 0.41 / 0.74	接近 Pro，表格场景甚至更强
Qwen-VL-Plus	0.59 / 0.26 / 0.58	0.63 / 0.22 / 0.53	0.65 / 0.20 / 0.50	中等水平，碎片增多后明显掉点
GLM-4.6v	0.67 / 0.20 / 0.45	0.70 / 0.17 / 0.40	0.71 / 0.15 / 0.37	能恢复部分语义，但全局顺序不稳
DeepSeek-OCR	0.86 / 0.02 / 0.12	0.87 / 0.01 / 0.09	0.87 / 0.01 / 0.10	专用 OCR 遇到碎片化输入几乎失效

不同文档类型的表现也很有启发。代码中 Java 和 C++ 的平均 NED 优于 Python，作者认为大括号、分号等显式结构提供了更多复原锚点；表格场景里 Gemini 3 Flash 的 NED 为 0.49，反而优于 Gemini 3 Pro 的 0.59，说明语义优先的模型未必最擅长刚性二维布局。

消融实验¶

附录的语义消融直接回答了模型是否只是在做视觉拼图。作者构造 50 个无意义文本文档，保留版式、字符长度和碎片化流程，在 16 片条件下重新评测。

模型	真实英文 ROUGE↑	无意义文本 ROUGE↑	ROUGE 下降	真实英文 NED↓	无意义文本 NED↓	解释
Gemini 3 Pro	0.73	0.33	-0.40	0.35	0.65	最强模型也高度依赖语义桥接
Gemini 3 Flash	0.67	0.29	-0.38	0.41	0.71	无语义时视觉线索不足以复原
Qwen-VL-Plus	0.38	0.13	-0.25	0.65	0.75	中等模型同样明显退化
GLM-4.6v	0.30	0.18	-0.12	0.70	0.74	原本语义利用较弱，下降幅度较小
GPT-5.1	0.15	0.08	-0.07	0.80	0.81	整体复原能力偏弱，控制集差距较小

关键发现¶

碎片数量是稳定的难度旋钮：Gemini 3 Pro 从 8 片到 16 片 NED 只增加 0.08，而 Qwen-VL-Plus 增加约 0.14，说明强模型的退化曲线更平缓。
中文新闻比英文新闻更难，原因既有汉字信息密度高、单字被切断后语义损失大的问题，也有 BLEU/ROUGE 对中文分词边界更敏感的问题。
代码复原失败主要来自行顺序错误和内容遗漏，尤其是窄条碎片容易被模型当成视觉噪声忽略。
语义消融说明模型不是简单通过边缘拼图完成任务；没有真实语义后，各模型收敛到相似的低性能区间。

亮点与洞察¶

这篇论文把“文档理解鲁棒性”从噪声、模糊、旋转推进到结构破坏层面，任务设定非常自然，也比传统 OCR 基准更接近真实受损文档处理。
数据生成管线设计得比较聪明：用可替换文本源降低污染风险，用 3D 渲染削弱视觉捷径，用三种碎片粒度形成连续难度梯度。
对代码和表格的分析很有价值，因为它说明语义推理不是万能的。代码需要语法约束，表格需要二维结构约束，未来模型可能需要显式结构搜索或约束解码。
“无意义文本”消融是最关键的洞察：当前 MLLM 的成功高度依赖语言先验，但当语义被移除时，纯视觉拼接能力依然薄弱。

局限与展望¶

数据仍然是合成的，虽然使用了物理渲染，但真实碎纸可能包含遮挡、折叠、污渍、纸张材质变化和扫描角度偏差。
评测主要关注最终文本相似度，没有显式评价碎片排序或几何重建过程，因此难以区分模型是先拼后读，还是边读边猜。
表格和代码的指标仍有不完美之处，字符串指标会惩罚格式差异，结构指标又未必覆盖语义等价。
后续可以把 ShredBench 与搜索式重排、OCR 候选图、程序语法检查器或表格结构解析器结合，构造更强的多阶段文档复原系统。

评分¶

新颖性: ⭐⭐⭐⭐☆ 基准任务新颖且设定清晰，把碎片化文档作为 MLLM 语义推理探针很有辨识度。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 756 文档、4 类场景、3 种碎片粒度、14 个模型，并有语义消融和代码结构指标补充。
写作质量: ⭐⭐⭐⭐☆ 论文逻辑顺畅，图表信息密集；部分模型命名和未来时间线略显设定化，但不影响主线理解。
价值: ⭐⭐⭐⭐⭐ 对文档理解、OCR 鲁棒性、多模态推理和真实世界损坏文档恢复都有直接参考价值。