TABLET: A Large-Scale Dataset for Robust Visual Table Understanding¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5UbeQDlYDj
论文: OpenReview
代码: https://github.com/alonsoapp/TABLET
领域: 多模态VLM / 文档智能 / 视觉表格理解
关键词: 视觉表格理解、表格数据集、文档智能、视觉问答、多模态训练

一句话总结¶

TABLET 将 14 个表格理解种子数据集重新组织成 400 万条视觉表格指令样本，并尽量找回真实网页或文档中的原始表格截图，使 VLM 在合成渲染表格之外也能学习真实表格的版式、颜色、合并单元格和图像线索。

研究背景与动机¶

领域现状：表格理解长期把表格当作结构化文本处理，常见做法是把 HTML、Markdown 或图结构线性化后交给语言模型；近两年 VLM 能直接读取截图、PDF 页面和网页界面，视觉表格理解（Visual Table Understanding, VTU）开始变成更自然的范式。对 GUI agent、网页 agent 和文档智能系统来说，很多表格本来就是像素输入，模型必须从屏幕上看到的版式里理解行列关系、视觉强调和嵌入图片。

现有痛点：已有 VTU 训练集和 benchmark 往往把序列化表格重新渲染成统一风格的合成图片。这样做方便规模化，但会抹掉真实表格中很关键的线索，例如不规则表头、跨行跨列、背景色、字体变化、细边框、图标和图片单元格。模型在这种数据上训练，容易学会“干净 HTML 表格”的视觉模式，却在真实 Wikipedia 表格、科学论文表格或数学题表格上遇到明显的 train-test mismatch。

核心矛盾：表格任务本身需要规模和任务多样性，但视觉鲁棒性又依赖真实可视化。只做真实截图，难以覆盖足够多任务；只做合成渲染，又无法训练模型理解真实视觉风格。TABLET 的核心问题就是怎样在不重新标注数百万样本的前提下，把已有表格任务和真实表格图像重新对齐。

本文目标：作者并不提出一个专门模型，而是构建一个可训练、可评测、可扩展的大规模 VTU 资源。这个资源要同时满足四件事：保留原始表格视觉、覆盖多种表格任务、保留可回溯的源数据标识，并提供一个真正需要视觉和表格联合推理的新 benchmark。

切入角度：很多经典表格数据集来自 Wikipedia 或文档集合，虽然发布时通常只保留序列化表格或任务样本，但原始网页的历史版本仍可通过 page id、revision id 或数据集元信息找回。作者抓住这一点，把“旧表格任务”重新链接回“当时真实存在的表格可视化”，再把它们统一封装成 VLM 指令数据。

核心 idea：TABLET 用“源数据追踪 + 历史页面恢复 + 原始截图/HTML 双表示”的方式，把已有表格理解任务升级成真实视觉表格训练集，并用 VisualTableQA 检验模型是否真的会联合使用视觉线索和表格结构。

方法详解¶

整体框架¶

TABLET 的方法可以理解为一条数据再构建流水线：先收集 14 个已有表格理解数据集中的任务样本，再为每个样本追踪对应的原始表格，尽可能从历史网页或文档中恢复真实可视化；若无法恢复，则退回到合成渲染。最后，作者把所有任务统一成指令格式，并额外构造 VisualTableQA 来测试视觉线索是否真正被模型利用。

这个流程的关键不是简单“把表格截图存起来”，而是让每个训练样本都同时拥有图像、HTML、任务指令、答案和源数据标识。这样后续研究者既能训练 VLM，也能重渲染表格、改写 prompt、做高亮单元格定位或构造新任务。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["14个种子数据集<br/>表格任务样本"] --> B["原始可视化追踪<br/>恢复历史表格"]
    B --> C["统一样本格式<br/>图像+HTML+元数据"]
    C --> D["多任务指令集合<br/>21类VTU任务"]
    D --> E["VisualTableQA<br/>视觉联合推理评测"]
    E --> F["VLM微调与分析<br/>鲁棒性/迁移/复杂度"]

关键设计¶

1. 原始可视化追踪：把旧表格任务重新接回真实世界表格

现有视觉表格数据最大的缺口，是样本规模和真实视觉之间很难兼得。TABLET 的做法不是重新雇人标注 400 万条任务，而是复用已有表格任务的语义监督，同时为它们找回原始视觉。对于来自 Wikipedia 的表格，作者根据种子数据集的抓取时间、页面标识和 revision 信息，通过 Wikipedia 历史归档 API 还原当时页面，再在页面中的多个表格之间做匹配。

匹配时，作者把候选表格和种子表格转成 Markdown 类表示，用 Levenshtein edit distance 衡量相似度，并设置 0.7 的最小相似阈值。这个阈值背后的直觉很具体：Wikipedia 页面持续变化，完全一致不现实；但如果相似度太低，把错误表格截图绑定到任务样本会直接污染监督信号。无法可靠匹配时，TABLET 才把序列化表格渲染成合成图像，因此真实图像优先，合成图像是保覆盖率的后备方案。

2. 统一样本格式：让数据集不只是图片和固定 prompt 的堆叠

很多图像式表格数据集只发布固定截图和固定问题，研究者很难知道样本来自哪里，也无法重新高亮单元格、改写指令或构造新监督。TABLET 为每条样本保留 instruction、output、table image path、raw/highlighted HTML、源数据 example id、table id、Wikipedia page id、oldid、任务类型和数据切分等字段。这个设计让 TABLET 更像一个可重组的数据底座，而不是一次性 benchmark。

HTML 表示在这里尤其重要。对于 ToTTo、TURL 这类依赖高亮单元格或高亮列的任务，模型如果只从 prompt 里看到 highlighted value，可能绕开图像直接回答。作者通过 HTML 反查原表格中的对应单元格，在真实可视化上生成显式高亮版本，使监督信号回到图像本身。这样训练目标从“读 prompt 里的值”变成“在表格图像中定位被强调的结构，再完成下游任务”。

3. 多任务视觉表格集合：用任务多样性训练通用 VTU 能力

TABLET 覆盖的不是单一表格问答，而是 21 类任务，来自 14 个种子数据集，合计 4,066,851 条样本和 2,031,256 张唯一表格图像。任务范围包括列类型标注、实体链接、关系抽取、结构感知解析、表格问答、表格到文本、数值推理、表格事实验证、单元格抽取、合并单元格检测和表格识别等。这样的组合让 VLM 同时学习三类能力：看清表格结构、理解表格内容，以及把表格内容映射到自然语言或 JSON 答案。

论文还设计了不同规模的训练集来分析数据量和任务平衡。TABLET-L 是最大版本，实验中包含 3,419,176 条训练样本；TABLET-M 对每个任务最多采样 14 万条，得到 1,031,082 条更均衡样本；TABLET-S 则移除列类型、实体链接和关系抽取等 Table Interpretation 任务，保留 690,467 条样本。这个设置把“是不是数据越大越好”和“基础表格解释任务有没有帮助”拆开检验，避免只用一个最终数字讲故事。

4. VisualTableQA 与视觉复杂度：把评测焦点放在真正需要看的表格上

TABLET 中很多任务虽然使用视觉复杂表格，但答案有时仍能从纯文本表格内容推出。为了检验模型是否真的学会利用视觉线索，作者构造了 VisualTableQA：标注者选择视觉复杂度高的表格，提出必须联合视觉和表格结构才能回答的问题，例如根据单元格图片判断人物是否穿军装、根据灰色行找队伍、根据背景色选择对应条目。为了避免问题被合成表格或文本信息轻松解出，作者还过滤掉只靠 lossy synthetic representation 就能回答的样本。

视觉复杂度指标把 HTML 结构特征和图像特征合成一个 \(S\in[0,1]\) 分数。结构侧包括 colspan/rowspan 不规则性、颜色多样性、字体多样性、嵌入图片比例；视觉侧包括灰度熵、RGB 颜色复杂度、Sobel 边缘不规则性、饱和度和非白背景比例。最终分数是加权和 \(S=\sum_k w_kS_k\)，其中跨度不规则、颜色多样性、视觉熵等权重较高。这个指标让作者能够按表格视觉难度分桶，观察模型是否在复杂表格上退化。

一个完整示例¶

假设种子数据集中有一条 ToTTo 样本，要求根据 Wikipedia 页面某个表格的高亮单元格生成一句话。传统做法会从序列化表格生成一张统一样式图片，模型看到的是干净的行列网格；TABLET 则先根据页面标题、section、源表格 id 和抓取时间找到对应 Wikipedia 历史版本，再从页面中多个候选表格里选出与种子表格最接近的一个。

如果匹配成功，TABLET 截取真实页面里的表格图像，保留原始字体、颜色、边框、合并单元格和可能的图片。随后，系统用 HTML 定位 ToTTo 标注的 highlighted cells，在真实表格上生成高亮版本，并把“输入指令、输出答案、原始 HTML、原始图像、高亮 HTML、高亮图像、源 example id”写进统一 JSON 样本。模型训练时看到的是视觉表格和指令，输出则被规范成如 {\"answer\": \"...\"} 的 JSON。

如果历史页面无法找到足够相似的表格，系统才从种子数据的序列化内容渲染合成图像。这样一条样本仍能进入训练集，但 metadata 会记录它的图像来源。最终，真实图像和合成图像可以被分开训练、混合训练或用于鲁棒性对比。

损失函数 / 训练策略¶

论文没有提出新的损失函数，训练使用标准监督微调（SFT）：给定表格图像和指令，模型自回归生成指定格式答案。主实验使用 Qwen2.5-VL-7B-Instruct，并保持各训练集超参一致，以便把性能差异归因到数据而不是训练技巧。

Qwen2.5-VL-7B 的完整微调采用 DeepSpeed ZeRO-3、bf16、3 个 epoch、AdamW、学习率 \(2\times10^{-7}\)、weight decay 0.01、cosine decay、warmup ratio 0.03、最大序列长度 8192。视觉输入限制为 max pixels 50,176、min pixels 784，并只训练 multimodal MLP 和 LLM 部分，不训练 vision encoder。Gemma-3-4B-IT 的实验使用 LoRA，rank 为 16，LoRA alpha 为 16，dropout 为 0.05，量化为 4-bit NF4，学习率 \(2\times10^{-4}\)。

实验关键数据¶

主实验¶

主实验回答三个问题：真实可视化是否提升鲁棒性，TABLET 是否优于 MMTab 等现有资源，以及 TABLET 训练是否能迁移到未见任务。评测包含 held-in 任务（如 WikiTQ、TabMWP、HiTab、TabFact、FeTaQA、TAT-QA）和 held-out 任务（如 InfoTabs、AIT-QA、PubHealthTab、HybridQA、Table Recognition、VisualTableQA）。不同任务使用不同指标：问答和分类多用 accuracy / exact match，生成任务用 BLEU，HiTab 用 F1，Table Recognition 用 Tree-Edit-Distance-based Similarity。

设置	规模 / 数据来源	代表结果	结论
0-shot Qwen2.5-VL	无 TABLET 微调	VTQA 42.4，HiTab 31.2，TAT-QA 6.9	基础 VLM 有一定表格能力，但复杂表格和数值推理不足
MMTab 微调	约 23 万训练样本，多为合成视觉	VTQA 41.1，HiTab 41.5，TabRec 43.6	对部分结构任务有帮助，但对真实视觉问答没有提升
TABLET-S	690,467 训练样本，移除 Table Interpretation	VTQA 45.2，HiTab 64.8，TAT-QA 27.8	即使较小规模，也显著优于 MMTab 多个任务
TABLET-M	1,031,082 训练样本，任务更均衡	VTQA 47.8，HiTab 67.0，TAT-QA 31.0	性价比最高，VisualTableQA 最强
TABLET-L	3,419,176 训练样本，最大版本	AIT-QA 70.8，PubHealthTab 70.2，TabRec 45.4，TAT-QA 32.5	全量数据在多数 held-in/held-out 任务上最稳

在 held-in 表格任务上，Qwen2.5-VL 经过 TABLET-L 微调后，相比零样本基线有明显提升：ToTTo 从 9.1 到 30.4，HiTab 从 31.2 到 67.5，FeTaQA 从 7.0 到 31.5，TAT-QA 从 6.9 到 32.5。TabMWP 本来零样本就较强，TABLET-L 仍达到 84.5。WikiTQ 则比较特殊，TABLET-L 为 55.5，略高于零样本 53.4，但不如某些任务上的提升幅度，说明并不是所有表格任务都会同等受益。

在 held-out 任务上，TABLET-L 在 AIT-QA 上达到 70.8，明显超过 0-shot 的 51.7 和 MMTab 的 56.6；PubHealthTab 达到 70.2，高于 0-shot 的 64.7 和 MMTab 的 63.9；Table Recognition 达到 45.4，高于 0-shot 的 24.5。VisualTableQA 上最好的不是最大数据，而是 TABLET-M 的 47.8，说明更均衡的数据分布有时比简单堆更多样本更适合视觉联合推理。

消融实验¶

配置	关键指标	说明
0-shot 原始 vs 合成评测	DegScore = -28.90	不训练时，模型在真实表格图像上相比合成图像明显退化
TABLET-Bsynth	DegScore = -22.35	只用合成图像训练能缓解一点退化，但仍难适应真实视觉
TABLET-Borg	DegScore = -6.63	用原始 Wikipedia 可视化训练后，真实表格鲁棒性大幅改善
TABLET-Bmix	DegScore = -7.87，5/7 任务原始图像表现最佳	混合真实与合成图像兼顾视觉真实性和样本规模
TABLET-S	690,467 样本，14 任务	去掉 Table Interpretation 后仍强，但多数任务弱于 TABLET-M
TABLET-M	1,031,082 样本，17 任务	在 6/8 held-in 和 4/5 held-out 任务上优于 TABLET-S，说明基础解释任务有迁移价值
TABLET-L	3,419,176 样本，17 任务	数据最大，在不少任务上继续提升，但训练成本高达 4000 A100 GPU hours

视觉复杂度分析进一步支持论文动机。作者按复杂度分桶观察 ToTTo、FeTaQA、HiTab、TabMWP 等任务，发现 TABLET 训练模型在复杂度升高时更不容易崩。尤其在 TabMWP 这类表格图像与数值推理结合的任务上，是否经过视觉表格训练会直接影响高复杂度区间的稳定性。

关键发现¶

原始可视化不是噪声，而是鲁棒性的关键来源。只看合成表格训练出来的模型，在真实表格上会遭遇明显退化；TABLET-Borg 将总退化从 -28.90 缩小到 -6.63。
混合真实和合成图像通常比二选一更稳。真实图像提供自然版式，合成图像补足无法恢复的表格和额外规模，TABLET-Bmix 在 5/7 个任务的原始图像评测上最好。
TABLET-M 展现出很强的规模效率。它只有 TABLET-L 约三分之一训练样本，却在 VisualTableQA 上达到 47.8，超过 TABLET-L 的 45.6。
Table Interpretation 任务并非“低级任务凑数”。加入列类型、实体链接和关系抽取后，模型在多数 held-in 和 held-out 任务上优于 TABLET-S，说明基础表格语义技能能迁移到更复杂 VTU 任务。
VisualTableQA 的提升很关键，因为它没有加入训练集。TABLET-M 相比 0-shot 的 42.4 达到 47.8，说明训练数据中的真实视觉和任务混合确实带来一定组合泛化。

亮点与洞察¶

TABLET 最大的亮点是把“数据集工程”做成了可复用研究资产。它不只是发布图片和答案，还保留 HTML、源 id、历史页面 revision 和任务元信息，后续可以继续改 prompt、做高亮、重渲染或构造新 benchmark。
论文对真实视觉的论证很扎实。它没有只说真实截图更自然，而是用 original vs synthetic 的退化分数、混合训练对比和视觉复杂度分桶，把 train-test mismatch 量化出来。
VisualTableQA 的设计抓住了视觉表格理解的本质：不是所有 table QA 都需要视觉，但真实世界有些问题必须看颜色、图片、相对位置和格式。这个 benchmark 能把“读表格文本”与“读表格图像”区分开。
TABLET-M 的结果提醒我们，大规模数据集不一定只靠更多样本取胜。任务均衡、视觉多样性和源数据质量，可能比简单扩充最大任务更重要。
这个资源对 GUI agent 和文档智能很有迁移价值。很多 agent 在网页或 PDF 中面对的不是规范化 CSV，而是含视觉层级和样式暗示的表格截图，TABLET 正好补上这类训练信号。

局限与展望¶

数据源仍然高度依赖 Wikipedia。虽然视觉样式比合成渲染丰富，但页面主题、表格规范和语言分布仍可能与企业文档、扫描 PDF、财报和网页后台表格存在差异。
原始可视化恢复并不完美。有些 Wikipedia 页面已变化或资源缺失，嵌入图片不可访问时只能退化处理；相似度匹配阈值也可能带来少量错配或漏配。
VisualTableQA 只有 306 条样本，适合做精细诊断，但规模不足以覆盖所有视觉表格场景。未来可以扩展更多问题类型，例如跨表格比较、图标语义、颜色图例、复杂 footnote 和多页表格。
实验主要围绕 Qwen2.5-VL-7B 完整微调展开，其他模型多为零样本或 LoRA 验证。更大模型、推理型 VLM、自反思解码和多步工具调用是否能更充分利用 TABLET，还需要进一步实验。
论文没有完整逐任务消融。Table Interpretation 的整体贡献被验证了，但 21 个任务中哪些最能提升视觉结构、哪些最能提升问答迁移，目前还没有拆细。
训练成本较高。TABLET-L 完整微调需要约 4000 A100 GPU hours，中小团队更可能使用 TABLET-M、LoRA 或采样子集，因此后续需要更系统的数据选择策略。

评分¶

新颖性: ⭐⭐⭐⭐☆ 不是新模型，但把源数据追踪、原始可视化恢复和多任务 VTU 统一到大规模资源中，数据集设计很有价值。
实验充分度: ⭐⭐⭐⭐☆ 覆盖 original/synthetic、数据规模、任务消融、held-in/held-out、VisualTableQA 和复杂度分析，但逐任务贡献和更多模型完整微调还可加强。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，表格和消融能支撑主张；少数任务数量和 TABLET 任务总数表述在正文/表格中略显密集，需要读者仔细对齐。
价值: ⭐⭐⭐⭐⭐ 对视觉表格理解、文档智能和像素级 agent 都是高价值基础资源，尤其适合训练和诊断模型在真实表格版式上的鲁棒性。