跳转至

TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity

会议: ACL 2026 Findings
arXiv: 2605.05955
代码: https://github.com/FlowRays/TableVista
领域: 多模态 VLM / 表格推理
关键词: 多模态表格推理, 视觉鲁棒性, 结构复杂度, Vision-only, CoT

一句话总结

TableVista 构建了一个 3,000 道高质量表格推理题、扩展为 30,000 个视觉样本的多模态表格 benchmark,系统评测 29 个基础模型后发现:模型对风格变化相对稳定,但在复杂结构、跨表推理、视觉碎片化和纯视觉输入下明显退化。

研究背景与动机

领域现状:表格问答长期依赖 Markdown、HTML 或 CSV 这类文本序列化输入,适合标准网格和简单查找。但真实表格经常以截图、网页、论文 PDF、Excel 或手机照片形式出现,包含多级表头、合并单元格、长表、多个相关表和上下文说明。

现有痛点:文本序列化会把空间结构压平成 token 序列,很多视觉结构信息在转换中丢失;而已有多模态表格 benchmark 往往使用单一、理想化或固定渲染方式,无法测试模型在字体、布局、噪声、截断、缺失和拍照伪影下是否保持一致推理。

核心矛盾:多模态模型看起来具备 OCR 和图像理解能力,但表格推理真正需要的是“视觉定位 + 结构对齐 + 多步计算”的耦合能力。一个模型能读出单元格文字,不代表它能在复杂视觉布局中保持行列关系、跨表引用和多跳逻辑。

本文目标:作者希望构造一个既有结构复杂度又有视觉扰动的表格推理评测,逼迫模型在多种视觉呈现下回答同一类推理问题,并分析当前前沿模型到底是输在视觉识别、结构理解还是推理计算。

切入角度:TableVista 不是从零合成简单表格,而是从 14 个公开表格推理数据源聚合样本,经专家和 GPT-5 辅助重新标注,再用多风格渲染与视觉变换把每道题扩展为 10 种视觉版本。

核心 idea:把表格从“结构化文本输入”重新定义为“视觉文档对象”,用结构复杂度和视觉扰动同时检验多模态模型是否真的理解表格。

方法详解

TableVista 的方法部分主要是 benchmark 构造。它先建立一个高质量文本 base set,保证题目本身有足够推理难度;再把每个表格题渲染成多种真实场景下的图像;最后通过人工审核确保视觉变换后问题仍可回答。这样得到的不是单一数据集,而是一个多维度压力测试矩阵。

整体框架

输入是来自 WTQ、HiTab、TabFact、MMQA、FinQA 等 14 个表格数据集的原始记录。每条记录被标准化为 table、textual context、question、answer 四部分,并打上结构属性、信息丰富度、推理技能和推理步数标签。经过筛选和增强后,作者保留 3,000 个高质量 QA 对。

输出是 30,000 个多模态样本。每个 base sample 会被扩展成 10 个视觉版本:4 种场景风格、4 种鲁棒性扰动、2 种 vision-only 设置。模型评测时既看结构类型和难度,也看视觉呈现变化带来的性能波动。

关键设计

  1. 结构与推理双维度筛选 base set:

    • 功能:保证每道题既覆盖真实表格结构,又不是简单查找题。
    • 核心思路:作者先用 GPT-5 辅助给候选样本标注四类属性:表格布局属性、1-5 的信息丰富度、lookup / aggregation / numerical / logical 四类技能分数、推理步数。之后按五类结构设置配额:Simple Structure、Text-Mixed、Complex Structure、Long Tables 和 Multi-Table,并优先选择信息量高、技能分高、推理步数多的样本。
    • 设计动机:如果只做视觉变换,题目太简单时模型可能靠 OCR 和局部查找就过关;把结构复杂度和推理难度同时纳入筛选,才能真正测试视觉表格推理能力。
  2. 多风格视觉渲染与鲁棒性扰动:

    • 功能:把同一个表格问题放进多种现实视觉环境中,测模型是否稳定。
    • 核心思路:场景风格包括 Web、LaTeX、Excel、Customized。Web 模拟 Wikipedia / HTML 表格,LaTeX 模拟论文排版,Excel 模拟电子表格界面,Customized 从多个主题样式中采样字体和配色。鲁棒性扰动包括 Noise、Structural Noise、Partial 和 Missing;其中 Partial 会沿结构边界把表格切成不连续块,Missing 会遮盖任意单元格但保证剩余信息仍足以回答。
    • 设计动机:真实用户不会总把干净 HTML 表格给模型。手机截图、局部遮挡、网格线变淡、布局碎片化都会破坏空间线索,而这些恰恰是表格推理最依赖的信号。
  3. Vision-only 设置与人类质量审核:

    • 功能:测试模型能否只从单张图像中同时读问题、读表格并完成推理,同时保证数据有效性。
    • 核心思路:Screen Capture 把问题、上下文和表格渲染到一个统一界面中;Simulated Photo 在此基础上叠加摩尔纹、透视畸变等相机伪影。12 名专家标注者参与属性标注、QA 增强、视觉渲染审核和质量审核,每个样本至少人工检查一次,10% 样本双盲交叉验证。
    • 设计动机:vision-only 更接近用户拍照问答或截图问答;但视觉变换可能让题目不可答,所以必须有人类审核和再生成机制保证 benchmark 不把模型惩罚在数据错误上。

损失函数 / 训练策略

本文不训练模型,使用评测协议。主实验在 direct-output prompt 下进行,不开启 thinking mode;指标以 normalized exact match 为主,对 EM 失败但语义等价的答案使用 GPT-5-mini 二次判断。作者还专门比较 direct-output 与 CoT:CoT 用 step-by-step prompt 或模型原生 thinking mode,最后要求输出 <answer>...</answer> 形式。

实验关键数据

主实验

TableVista 数据规模为 3,000 个 QA 对、4,449 张表、30,000 个视觉样本。结构分布为 Simple 300、Text-Mixed 300、Complex 1,000、Long 700、Multi-Table 700;平均问题 26.2 个词,平均答案 1.4 个词,平均表格 15.3 行、6.6 列;Hard 问题平均 6.9 个推理步和 15.1 的技能分。

模型 Simple Text-Mixed Complex Long Multi Easy Medium Hard Overall
GPT-5.4 73.0 86.7 81.7 68.9 61.3 93.6 80.1 47.0 73.6
GPT-5.4-mini 52.0 61.0 59.3 48.7 40.0 64.0 56.1 35.2 51.8
Qwen2.5-VL-72B 52.3 58.3 59.7 52.1 53.1 90.2 54.3 22.1 55.5
Gemma-4-31B-it 57.3 54.0 57.6 54.4 52.3 88.2 55.6 21.9 55.2
Llama-4-Maverick 55.3 55.7 55.9 52.3 52.4 84.4 53.7 24.4 54.2
Qwen3-VL-8B 40.7 44.0 44.1 41.9 39.9 76.7 37.3 12.7 42.2
Table-LLaVA-v1.5-7B 11.0 11.0 7.8 9.4 9.3 16.7 6.8 4.0 9.2

消融实验

论文没有训练模块消融,但对视觉条件和 prompt 方式做了关键对照。下表显示模型在不同视觉呈现下的总体表现。

模型 Web LaTeX Excel Custom Noise Structural Partial Missing Screenshot Photo Avg.
GPT-5.4 73.6 72.2 71.9 72.0 70.8 70.4 68.8 84.8 69.4 67.3 72.1
GPT-5.4-mini 51.8 49.9 50.1 51.1 49.5 48.4 46.8 66.9 42.0 37.7 49.4
Qwen2.5-VL-72B 55.5 54.5 54.5 55.0 51.1 54.4 50.5 71.3 57.4 54.0 55.8
Llama-4-Maverick 54.2 53.2 53.9 52.7 53.5 54.4 52.9 66.9 53.4 51.8 54.7
Qwen3-VL-8B 42.2 41.8 41.7 42.0 41.4 41.9 39.2 57.7 45.3 44.6 43.8
LLaVA-v1.5-7B 6.4 6.2 6.2 7.0 6.9 6.7 6.4 10.4 0.5 0.4 5.7
模型 Direct-output CoT 提升
GPT-5.4 72.1 95.6 +23.5
GPT-5.4-mini 49.4 91.5 +42.1
Qwen3.5-27B 51.4 96.2 +44.8
Gemma-4-31B-it 54.3 86.1 +31.8
Qwen3-VL-8B 43.8 86.0 +42.2

关键发现

  • 风格变化本身不是最大瓶颈:Web、LaTeX、Excel、Custom 之间分数很接近,说明模型对字体和主题样式已有一定泛化。
  • Partial 和 Photo 更难,前者破坏表格连续空间结构,后者引入相机式退化;这说明主要失败来自空间对齐,而不是单纯 OCR。
  • Missing 反而常常提高分数,例如 GPT-5.4 从 Web 73.6 到 Missing 84.8,Qwen2.5-VL-72B 从 55.5 到 71.3,可能因为遮挡减少了干扰信息并聚焦关键单元格。
  • CoT 大幅压缩模型差距,Qwen3-VL-8B 从 43.8 跳到 86.0,说明许多模型具备推理能力,但 direct-output 设置下无法把多步计算内化成一次输出。
  • 错误分布中 Table Understanding 占 54%,Reasoning & Calculation 占 29%,Visual Perception 仅 12%,其中 Spatial Alignment 32%、Structure Parsing 22%,再次说明核心瓶颈是结构对齐。

亮点与洞察

  • TableVista 的贡献不是又做了一个表格问答集,而是把“同一语义问题在多视觉形态下是否一致”作为评测中心。这比单个 clean table 的准确率更能暴露真实部署问题。
  • Partial 与 Missing 的对照很有意思:碎片化让模型丢失空间连续性而降分,缺失遮挡反而可能提升分数。这提示未来训练不一定只要更多清晰图片,还要学会在信息压缩和空间恢复之间做鲁棒推理。
  • CoT 结果说明 direct-output 是一个严格但有意义的压力测试。它考察模型是否已经把多步表格推理内化,而 CoT 更像是在给模型外部 scratchpad;两者应当同时报告。
  • 这套构造流程可迁移到财报、医学报告、实验表格和行政表单评测:先控制结构复杂度,再系统加入真实视觉扰动,最后用错误分布定位模型弱点。

局限与展望

  • TableVista 是评测 benchmark,不提供直接提升模型鲁棒性的训练方法;它指出问题,但没有给出解决 spatial alignment failure 的模型设计。
  • 数据主要围绕表格,真实文档还会混合图表、自然图像、流程图、脚注和公式,跨模态文档推理范围更广。
  • 主实验使用 GPT-5-mini 作为语义 judge 修正 EM,数值答案和短答案比较可靠,但对开放式表格解释仍可能不足。
  • Vision-only 中的模拟照片由合成伪影生成,和真实手机拍摄、压缩、反光、手写批注等现实噪声仍有差距。

相关工作与启发

  • vs TableVQA-Bench / MMTabQA: 这些 benchmark 已经引入视觉表格,但结构复杂度和视觉鲁棒性覆盖较少;TableVista 同时覆盖层级、长表、多表、场景风格、扰动和 vision-only。
  • vs MMTab / MMTBench: 它们关注多模态表格理解和复杂内容,TableVista 更强调同一 base sample 的多视觉变体,因此能评估一致性和鲁棒性。
  • vs TABLET: TABLET 强调从原始网页渲染的大规模鲁棒表格,TableVista 更系统地控制结构类型和视觉变换,便于做分解分析。
  • 对 VLM 训练的启发: 未来表格模型需要显式学习行列对齐、跨块关系恢复和 sub-cell 级数字区分,而不是只扩大 OCR 数据或做普通 VQA 指令微调。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 把结构复杂度与视觉鲁棒性合成到一个表格推理 benchmark 中,评测角度很完整。
  • 实验充分度: ⭐⭐⭐⭐⭐ 29 个模型、结构/难度/视觉条件/CoT/错误类型都有分析,数据规模和维度都很扎实。
  • 写作质量: ⭐⭐⭐⭐☆ 构造流程清楚,表格密集但信息量高,HTML 版部分表格排版略影响快速阅读。
  • 价值: ⭐⭐⭐⭐⭐ 对多模态文档理解、表格 VQA、视觉 RAG 和企业表单自动化都很有实际价值。