TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity¶
会议: ACL 2026 Findings
arXiv: 2605.05955
代码: https://github.com/FlowRays/TableVista
领域: 多模态 VLM / 表格推理
关键词: 多模态表格推理, 视觉鲁棒性, 结构复杂度, Vision-only, CoT
一句话总结¶
TableVista 构建了一个 3,000 道高质量表格推理题、扩展为 30,000 个视觉样本的多模态表格 benchmark,系统评测 29 个基础模型后发现:模型对风格变化相对稳定,但在复杂结构、跨表推理、视觉碎片化和纯视觉输入下明显退化。
研究背景与动机¶
领域现状:表格问答长期依赖 Markdown、HTML 或 CSV 这类文本序列化输入,适合标准网格和简单查找。但真实表格经常以截图、网页、论文 PDF、Excel 或手机照片形式出现,包含多级表头、合并单元格、长表、多个相关表和上下文说明。
现有痛点:文本序列化会把空间结构压平成 token 序列,很多视觉结构信息在转换中丢失;而已有多模态表格 benchmark 往往使用单一、理想化或固定渲染方式,无法测试模型在字体、布局、噪声、截断、缺失和拍照伪影下是否保持一致推理。
核心矛盾:多模态模型看起来具备 OCR 和图像理解能力,但表格推理真正需要的是“视觉定位 + 结构对齐 + 多步计算”的耦合能力。一个模型能读出单元格文字,不代表它能在复杂视觉布局中保持行列关系、跨表引用和多跳逻辑。
本文目标:作者希望构造一个既有结构复杂度又有视觉扰动的表格推理评测,逼迫模型在多种视觉呈现下回答同一类推理问题,并分析当前前沿模型到底是输在视觉识别、结构理解还是推理计算。
切入角度:TableVista 不是从零合成简单表格,而是从 14 个公开表格推理数据源聚合样本,经专家和 GPT-5 辅助重新标注,再用多风格渲染与视觉变换把每道题扩展为 10 种视觉版本。
核心 idea:把表格从“结构化文本输入”重新定义为“视觉文档对象”,用结构复杂度和视觉扰动同时检验多模态模型是否真的理解表格。
方法详解¶
TableVista 的方法部分主要是 benchmark 构造。它先建立一个高质量文本 base set,保证题目本身有足够推理难度;再把每个表格题渲染成多种真实场景下的图像;最后通过人工审核确保视觉变换后问题仍可回答。这样得到的不是单一数据集,而是一个多维度压力测试矩阵。
整体框架¶
输入是来自 WTQ、HiTab、TabFact、MMQA、FinQA 等 14 个表格数据集的原始记录。每条记录被标准化为 table、textual context、question、answer 四部分,并打上结构属性、信息丰富度、推理技能和推理步数标签。经过筛选和增强后,作者保留 3,000 个高质量 QA 对。
输出是 30,000 个多模态样本。每个 base sample 会被扩展成 10 个视觉版本:4 种场景风格、4 种鲁棒性扰动、2 种 vision-only 设置。模型评测时既看结构类型和难度,也看视觉呈现变化带来的性能波动。
关键设计¶
-
结构与推理双维度筛选 base set:
- 功能:保证每道题既覆盖真实表格结构,又不是简单查找题。
- 核心思路:作者先用 GPT-5 辅助给候选样本标注四类属性:表格布局属性、1-5 的信息丰富度、lookup / aggregation / numerical / logical 四类技能分数、推理步数。之后按五类结构设置配额:Simple Structure、Text-Mixed、Complex Structure、Long Tables 和 Multi-Table,并优先选择信息量高、技能分高、推理步数多的样本。
- 设计动机:如果只做视觉变换,题目太简单时模型可能靠 OCR 和局部查找就过关;把结构复杂度和推理难度同时纳入筛选,才能真正测试视觉表格推理能力。
-
多风格视觉渲染与鲁棒性扰动:
- 功能:把同一个表格问题放进多种现实视觉环境中,测模型是否稳定。
- 核心思路:场景风格包括 Web、LaTeX、Excel、Customized。Web 模拟 Wikipedia / HTML 表格,LaTeX 模拟论文排版,Excel 模拟电子表格界面,Customized 从多个主题样式中采样字体和配色。鲁棒性扰动包括 Noise、Structural Noise、Partial 和 Missing;其中 Partial 会沿结构边界把表格切成不连续块,Missing 会遮盖任意单元格但保证剩余信息仍足以回答。
- 设计动机:真实用户不会总把干净 HTML 表格给模型。手机截图、局部遮挡、网格线变淡、布局碎片化都会破坏空间线索,而这些恰恰是表格推理最依赖的信号。
-
Vision-only 设置与人类质量审核:
- 功能:测试模型能否只从单张图像中同时读问题、读表格并完成推理,同时保证数据有效性。
- 核心思路:Screen Capture 把问题、上下文和表格渲染到一个统一界面中;Simulated Photo 在此基础上叠加摩尔纹、透视畸变等相机伪影。12 名专家标注者参与属性标注、QA 增强、视觉渲染审核和质量审核,每个样本至少人工检查一次,10% 样本双盲交叉验证。
- 设计动机:vision-only 更接近用户拍照问答或截图问答;但视觉变换可能让题目不可答,所以必须有人类审核和再生成机制保证 benchmark 不把模型惩罚在数据错误上。
损失函数 / 训练策略¶
本文不训练模型,使用评测协议。主实验在 direct-output prompt 下进行,不开启 thinking mode;指标以 normalized exact match 为主,对 EM 失败但语义等价的答案使用 GPT-5-mini 二次判断。作者还专门比较 direct-output 与 CoT:CoT 用 step-by-step prompt 或模型原生 thinking mode,最后要求输出 <answer>...</answer> 形式。
实验关键数据¶
主实验¶
TableVista 数据规模为 3,000 个 QA 对、4,449 张表、30,000 个视觉样本。结构分布为 Simple 300、Text-Mixed 300、Complex 1,000、Long 700、Multi-Table 700;平均问题 26.2 个词,平均答案 1.4 个词,平均表格 15.3 行、6.6 列;Hard 问题平均 6.9 个推理步和 15.1 的技能分。
| 模型 | Simple | Text-Mixed | Complex | Long | Multi | Easy | Medium | Hard | Overall |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.4 | 73.0 | 86.7 | 81.7 | 68.9 | 61.3 | 93.6 | 80.1 | 47.0 | 73.6 |
| GPT-5.4-mini | 52.0 | 61.0 | 59.3 | 48.7 | 40.0 | 64.0 | 56.1 | 35.2 | 51.8 |
| Qwen2.5-VL-72B | 52.3 | 58.3 | 59.7 | 52.1 | 53.1 | 90.2 | 54.3 | 22.1 | 55.5 |
| Gemma-4-31B-it | 57.3 | 54.0 | 57.6 | 54.4 | 52.3 | 88.2 | 55.6 | 21.9 | 55.2 |
| Llama-4-Maverick | 55.3 | 55.7 | 55.9 | 52.3 | 52.4 | 84.4 | 53.7 | 24.4 | 54.2 |
| Qwen3-VL-8B | 40.7 | 44.0 | 44.1 | 41.9 | 39.9 | 76.7 | 37.3 | 12.7 | 42.2 |
| Table-LLaVA-v1.5-7B | 11.0 | 11.0 | 7.8 | 9.4 | 9.3 | 16.7 | 6.8 | 4.0 | 9.2 |
消融实验¶
论文没有训练模块消融,但对视觉条件和 prompt 方式做了关键对照。下表显示模型在不同视觉呈现下的总体表现。
| 模型 | Web | LaTeX | Excel | Custom | Noise | Structural | Partial | Missing | Screenshot | Photo | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.4 | 73.6 | 72.2 | 71.9 | 72.0 | 70.8 | 70.4 | 68.8 | 84.8 | 69.4 | 67.3 | 72.1 |
| GPT-5.4-mini | 51.8 | 49.9 | 50.1 | 51.1 | 49.5 | 48.4 | 46.8 | 66.9 | 42.0 | 37.7 | 49.4 |
| Qwen2.5-VL-72B | 55.5 | 54.5 | 54.5 | 55.0 | 51.1 | 54.4 | 50.5 | 71.3 | 57.4 | 54.0 | 55.8 |
| Llama-4-Maverick | 54.2 | 53.2 | 53.9 | 52.7 | 53.5 | 54.4 | 52.9 | 66.9 | 53.4 | 51.8 | 54.7 |
| Qwen3-VL-8B | 42.2 | 41.8 | 41.7 | 42.0 | 41.4 | 41.9 | 39.2 | 57.7 | 45.3 | 44.6 | 43.8 |
| LLaVA-v1.5-7B | 6.4 | 6.2 | 6.2 | 7.0 | 6.9 | 6.7 | 6.4 | 10.4 | 0.5 | 0.4 | 5.7 |
| 模型 | Direct-output | CoT | 提升 |
|---|---|---|---|
| GPT-5.4 | 72.1 | 95.6 | +23.5 |
| GPT-5.4-mini | 49.4 | 91.5 | +42.1 |
| Qwen3.5-27B | 51.4 | 96.2 | +44.8 |
| Gemma-4-31B-it | 54.3 | 86.1 | +31.8 |
| Qwen3-VL-8B | 43.8 | 86.0 | +42.2 |
关键发现¶
- 风格变化本身不是最大瓶颈:Web、LaTeX、Excel、Custom 之间分数很接近,说明模型对字体和主题样式已有一定泛化。
- Partial 和 Photo 更难,前者破坏表格连续空间结构,后者引入相机式退化;这说明主要失败来自空间对齐,而不是单纯 OCR。
- Missing 反而常常提高分数,例如 GPT-5.4 从 Web 73.6 到 Missing 84.8,Qwen2.5-VL-72B 从 55.5 到 71.3,可能因为遮挡减少了干扰信息并聚焦关键单元格。
- CoT 大幅压缩模型差距,Qwen3-VL-8B 从 43.8 跳到 86.0,说明许多模型具备推理能力,但 direct-output 设置下无法把多步计算内化成一次输出。
- 错误分布中 Table Understanding 占 54%,Reasoning & Calculation 占 29%,Visual Perception 仅 12%,其中 Spatial Alignment 32%、Structure Parsing 22%,再次说明核心瓶颈是结构对齐。
亮点与洞察¶
- TableVista 的贡献不是又做了一个表格问答集,而是把“同一语义问题在多视觉形态下是否一致”作为评测中心。这比单个 clean table 的准确率更能暴露真实部署问题。
- Partial 与 Missing 的对照很有意思:碎片化让模型丢失空间连续性而降分,缺失遮挡反而可能提升分数。这提示未来训练不一定只要更多清晰图片,还要学会在信息压缩和空间恢复之间做鲁棒推理。
- CoT 结果说明 direct-output 是一个严格但有意义的压力测试。它考察模型是否已经把多步表格推理内化,而 CoT 更像是在给模型外部 scratchpad;两者应当同时报告。
- 这套构造流程可迁移到财报、医学报告、实验表格和行政表单评测:先控制结构复杂度,再系统加入真实视觉扰动,最后用错误分布定位模型弱点。
局限与展望¶
- TableVista 是评测 benchmark,不提供直接提升模型鲁棒性的训练方法;它指出问题,但没有给出解决 spatial alignment failure 的模型设计。
- 数据主要围绕表格,真实文档还会混合图表、自然图像、流程图、脚注和公式,跨模态文档推理范围更广。
- 主实验使用 GPT-5-mini 作为语义 judge 修正 EM,数值答案和短答案比较可靠,但对开放式表格解释仍可能不足。
- Vision-only 中的模拟照片由合成伪影生成,和真实手机拍摄、压缩、反光、手写批注等现实噪声仍有差距。
相关工作与启发¶
- vs TableVQA-Bench / MMTabQA: 这些 benchmark 已经引入视觉表格,但结构复杂度和视觉鲁棒性覆盖较少;TableVista 同时覆盖层级、长表、多表、场景风格、扰动和 vision-only。
- vs MMTab / MMTBench: 它们关注多模态表格理解和复杂内容,TableVista 更强调同一 base sample 的多视觉变体,因此能评估一致性和鲁棒性。
- vs TABLET: TABLET 强调从原始网页渲染的大规模鲁棒表格,TableVista 更系统地控制结构类型和视觉变换,便于做分解分析。
- 对 VLM 训练的启发: 未来表格模型需要显式学习行列对齐、跨块关系恢复和 sub-cell 级数字区分,而不是只扩大 OCR 数据或做普通 VQA 指令微调。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把结构复杂度与视觉鲁棒性合成到一个表格推理 benchmark 中,评测角度很完整。
- 实验充分度: ⭐⭐⭐⭐⭐ 29 个模型、结构/难度/视觉条件/CoT/错误类型都有分析,数据规模和维度都很扎实。
- 写作质量: ⭐⭐⭐⭐☆ 构造流程清楚,表格密集但信息量高,HTML 版部分表格排版略影响快速阅读。
- 价值: ⭐⭐⭐⭐⭐ 对多模态文档理解、表格 VQA、视觉 RAG 和企业表单自动化都很有实际价值。