TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity¶

会议: ACL 2026 Findings
arXiv: 2605.05955
代码: https://github.com/FlowRays/TableVista
领域: 多模态 VLM / 表格推理
关键词: 多模态表格推理, 视觉鲁棒性, 结构复杂度, Vision-only, CoT

一句话总结¶

TableVista 构建了一个 3,000 道高质量表格推理题、扩展为 30,000 个视觉样本的多模态表格 benchmark，系统评测 29 个基础模型后发现：模型对风格变化相对稳定，但在复杂结构、跨表推理、视觉碎片化和纯视觉输入下明显退化。

研究背景与动机¶

领域现状：表格问答长期依赖 Markdown、HTML 或 CSV 这类文本序列化输入，适合标准网格和简单查找。但真实表格经常以截图、网页、论文 PDF、Excel 或手机照片形式出现，包含多级表头、合并单元格、长表、多个相关表和上下文说明。

现有痛点：文本序列化会把空间结构压平成 token 序列，很多视觉结构信息在转换中丢失；而已有多模态表格 benchmark 往往使用单一、理想化或固定渲染方式，无法测试模型在字体、布局、噪声、截断、缺失和拍照伪影下是否保持一致推理。

核心矛盾：多模态模型看起来具备 OCR 和图像理解能力，但表格推理真正需要的是“视觉定位 + 结构对齐 + 多步计算”的耦合能力。一个模型能读出单元格文字，不代表它能在复杂视觉布局中保持行列关系、跨表引用和多跳逻辑。

本文目标：作者希望构造一个既有结构复杂度又有视觉扰动的表格推理评测，逼迫模型在多种视觉呈现下回答同一类推理问题，并分析当前前沿模型到底是输在视觉识别、结构理解还是推理计算。

切入角度：TableVista 不是从零合成简单表格，而是从 14 个公开表格推理数据源聚合样本，经专家和 GPT-5 辅助重新标注，再用多风格渲染与视觉变换把每道题扩展为 10 种视觉版本。

核心 idea：把表格从“结构化文本输入”重新定义为“视觉文档对象”，用结构复杂度和视觉扰动同时检验多模态模型是否真的理解表格。

方法详解¶

TableVista 的方法部分主要是 benchmark 构造。它先建立一个高质量文本 base set，保证题目本身有足够推理难度；再把每个表格题渲染成多种真实场景下的图像；最后通过人工审核确保视觉变换后问题仍可回答。这样得到的不是单一数据集，而是一个多维度压力测试矩阵。

整体框架¶

输入是来自 WTQ、HiTab、TabFact、MMQA、FinQA 等 14 个表格数据集的原始记录。每条记录被标准化为 table、textual context、question、answer 四部分，并打上结构属性、信息丰富度、推理技能和推理步数标签。经过筛选和增强后，作者保留 3,000 个高质量 QA 对。

输出是 30,000 个多模态样本。每个 base sample 会被扩展成 10 个视觉版本：4 种场景风格、4 种鲁棒性扰动、2 种 vision-only 设置。模型评测时既看结构类型和难度，也看视觉呈现变化带来的性能波动。

关键设计¶

结构与推理双维度筛选 base set:
- 功能：保证每道题既覆盖真实表格结构，又不是简单查找题。
- 核心思路：作者先用 GPT-5 辅助给候选样本标注四类属性：表格布局属性、1-5 的信息丰富度、lookup / aggregation / numerical / logical 四类技能分数、推理步数。之后按五类结构设置配额：Simple Structure、Text-Mixed、Complex Structure、Long Tables 和 Multi-Table，并优先选择信息量高、技能分高、推理步数多的样本。
- 设计动机：如果只做视觉变换，题目太简单时模型可能靠 OCR 和局部查找就过关；把结构复杂度和推理难度同时纳入筛选，才能真正测试视觉表格推理能力。
多风格视觉渲染与鲁棒性扰动:
- 功能：把同一个表格问题放进多种现实视觉环境中，测模型是否稳定。
- 核心思路：场景风格包括 Web、LaTeX、Excel、Customized。Web 模拟 Wikipedia / HTML 表格，LaTeX 模拟论文排版，Excel 模拟电子表格界面，Customized 从多个主题样式中采样字体和配色。鲁棒性扰动包括 Noise、Structural Noise、Partial 和 Missing；其中 Partial 会沿结构边界把表格切成不连续块，Missing 会遮盖任意单元格但保证剩余信息仍足以回答。
- 设计动机：真实用户不会总把干净 HTML 表格给模型。手机截图、局部遮挡、网格线变淡、布局碎片化都会破坏空间线索，而这些恰恰是表格推理最依赖的信号。
Vision-only 设置与人类质量审核:
- 功能：测试模型能否只从单张图像中同时读问题、读表格并完成推理，同时保证数据有效性。
- 核心思路：Screen Capture 把问题、上下文和表格渲染到一个统一界面中；Simulated Photo 在此基础上叠加摩尔纹、透视畸变等相机伪影。12 名专家标注者参与属性标注、QA 增强、视觉渲染审核和质量审核，每个样本至少人工检查一次，10% 样本双盲交叉验证。
- 设计动机：vision-only 更接近用户拍照问答或截图问答；但视觉变换可能让题目不可答，所以必须有人类审核和再生成机制保证 benchmark 不把模型惩罚在数据错误上。

损失函数 / 训练策略¶

本文不训练模型，使用评测协议。主实验在 direct-output prompt 下进行，不开启 thinking mode；指标以 normalized exact match 为主，对 EM 失败但语义等价的答案使用 GPT-5-mini 二次判断。作者还专门比较 direct-output 与 CoT：CoT 用 step-by-step prompt 或模型原生 thinking mode，最后要求输出 <answer>...</answer> 形式。

实验关键数据¶

主实验¶

TableVista 数据规模为 3,000 个 QA 对、4,449 张表、30,000 个视觉样本。结构分布为 Simple 300、Text-Mixed 300、Complex 1,000、Long 700、Multi-Table 700；平均问题 26.2 个词，平均答案 1.4 个词，平均表格 15.3 行、6.6 列；Hard 问题平均 6.9 个推理步和 15.1 的技能分。

模型	Simple	Text-Mixed	Complex	Long	Multi	Easy	Medium	Hard	Overall
GPT-5.4	73.0	86.7	81.7	68.9	61.3	93.6	80.1	47.0	73.6
GPT-5.4-mini	52.0	61.0	59.3	48.7	40.0	64.0	56.1	35.2	51.8
Qwen2.5-VL-72B	52.3	58.3	59.7	52.1	53.1	90.2	54.3	22.1	55.5
Gemma-4-31B-it	57.3	54.0	57.6	54.4	52.3	88.2	55.6	21.9	55.2
Llama-4-Maverick	55.3	55.7	55.9	52.3	52.4	84.4	53.7	24.4	54.2
Qwen3-VL-8B	40.7	44.0	44.1	41.9	39.9	76.7	37.3	12.7	42.2
Table-LLaVA-v1.5-7B	11.0	11.0	7.8	9.4	9.3	16.7	6.8	4.0	9.2

消融实验¶

论文没有训练模块消融，但对视觉条件和 prompt 方式做了关键对照。下表显示模型在不同视觉呈现下的总体表现。

模型	Web	LaTeX	Excel	Custom	Noise	Structural	Partial	Missing	Screenshot	Photo	Avg.
GPT-5.4	73.6	72.2	71.9	72.0	70.8	70.4	68.8	84.8	69.4	67.3	72.1
GPT-5.4-mini	51.8	49.9	50.1	51.1	49.5	48.4	46.8	66.9	42.0	37.7	49.4
Qwen2.5-VL-72B	55.5	54.5	54.5	55.0	51.1	54.4	50.5	71.3	57.4	54.0	55.8
Llama-4-Maverick	54.2	53.2	53.9	52.7	53.5	54.4	52.9	66.9	53.4	51.8	54.7
Qwen3-VL-8B	42.2	41.8	41.7	42.0	41.4	41.9	39.2	57.7	45.3	44.6	43.8
LLaVA-v1.5-7B	6.4	6.2	6.2	7.0	6.9	6.7	6.4	10.4	0.5	0.4	5.7

模型	Direct-output	CoT	提升
GPT-5.4	72.1	95.6	+23.5
GPT-5.4-mini	49.4	91.5	+42.1
Qwen3.5-27B	51.4	96.2	+44.8
Gemma-4-31B-it	54.3	86.1	+31.8
Qwen3-VL-8B	43.8	86.0	+42.2

关键发现¶

风格变化本身不是最大瓶颈：Web、LaTeX、Excel、Custom 之间分数很接近，说明模型对字体和主题样式已有一定泛化。
Partial 和 Photo 更难，前者破坏表格连续空间结构，后者引入相机式退化；这说明主要失败来自空间对齐，而不是单纯 OCR。
Missing 反而常常提高分数，例如 GPT-5.4 从 Web 73.6 到 Missing 84.8，Qwen2.5-VL-72B 从 55.5 到 71.3，可能因为遮挡减少了干扰信息并聚焦关键单元格。
CoT 大幅压缩模型差距，Qwen3-VL-8B 从 43.8 跳到 86.0，说明许多模型具备推理能力，但 direct-output 设置下无法把多步计算内化成一次输出。
错误分布中 Table Understanding 占 54%，Reasoning & Calculation 占 29%，Visual Perception 仅 12%，其中 Spatial Alignment 32%、Structure Parsing 22%，再次说明核心瓶颈是结构对齐。

亮点与洞察¶

TableVista 的贡献不是又做了一个表格问答集，而是把“同一语义问题在多视觉形态下是否一致”作为评测中心。这比单个 clean table 的准确率更能暴露真实部署问题。
Partial 与 Missing 的对照很有意思：碎片化让模型丢失空间连续性而降分，缺失遮挡反而可能提升分数。这提示未来训练不一定只要更多清晰图片，还要学会在信息压缩和空间恢复之间做鲁棒推理。
CoT 结果说明 direct-output 是一个严格但有意义的压力测试。它考察模型是否已经把多步表格推理内化，而 CoT 更像是在给模型外部 scratchpad；两者应当同时报告。
这套构造流程可迁移到财报、医学报告、实验表格和行政表单评测：先控制结构复杂度，再系统加入真实视觉扰动，最后用错误分布定位模型弱点。

局限与展望¶

TableVista 是评测 benchmark，不提供直接提升模型鲁棒性的训练方法；它指出问题，但没有给出解决 spatial alignment failure 的模型设计。
数据主要围绕表格，真实文档还会混合图表、自然图像、流程图、脚注和公式，跨模态文档推理范围更广。
主实验使用 GPT-5-mini 作为语义 judge 修正 EM，数值答案和短答案比较可靠，但对开放式表格解释仍可能不足。
Vision-only 中的模拟照片由合成伪影生成，和真实手机拍摄、压缩、反光、手写批注等现实噪声仍有差距。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把结构复杂度与视觉鲁棒性合成到一个表格推理 benchmark 中，评测角度很完整。
实验充分度: ⭐⭐⭐⭐⭐ 29 个模型、结构/难度/视觉条件/CoT/错误类型都有分析，数据规模和维度都很扎实。
写作质量: ⭐⭐⭐⭐☆ 构造流程清楚，表格密集但信息量高，HTML 版部分表格排版略影响快速阅读。
价值: ⭐⭐⭐⭐⭐ 对多模态文档理解、表格 VQA、视觉 RAG 和企业表单自动化都很有实际价值。