IndoTabVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents¶

会议: ACL 2026
arXiv: 2604.11970
代码: https://huggingface.co/datasets/NusaBharat/INDOTABVQA
领域: 文档理解 / 跨语言VQA
关键词: 跨语言表格理解, 视觉问答, 印尼语文档, 空间先验, 低资源语言

一句话总结¶

提出 IndoTabVQA，一个针对印尼语（Bahasa Indonesia）文档表格的跨语言视觉问答基准，包含 1593 张文档图像和四种语言（印尼语/英语/印地语/阿拉伯语）的 QA 标注，揭示了 VLM 在低资源语言和跨语言表格理解上的显著性能差距，微调+空间先验可带来最高 48.5% 的 In-Match 准确率。

研究背景与动机¶

领域现状：视觉语言模型（VLM）在文本密集型视觉理解任务上表现出色，TextVQA、DocVQA 等基准推动了领域进步。针对表格的数据集如 TableVQA-Bench 进一步评估了结构感知的数值推理能力。

现有痛点：现有基准共享一个关键局限——以英语为中心且为单语言，无法揭示 VLM 在低资源语言上的真实能力。印尼语、印地语、阿拉伯语等语言覆盖了全球数十亿用户，但 VLM 在这些语言的文档上可能严重失效。对于表格 VQA，模型需要同时处理语言变化和结构复杂性，这个组合挑战尚未被充分研究。

核心矛盾：现有 VQA 基准无法测试两个关键能力：(1) VLM 是否能理解低资源语言的表格？(2) 当文档和问题使用不同语言时，VLM 能否正确回答？这个差距限制了我们对真实多语言能力的理解。

本文目标：构建一个跨语言表格视觉问答基准，系统评估 VLM 在低资源语言文档理解和跨语言视觉推理方面的能力。

切入角度：以印尼语文档为视觉内容（覆盖 2 亿以上使用者但在视觉语言研究中严重代表不足），配以四种语言的 QA 标注，分离两个挑战：视觉-语言理解（单语设定）和跨语言对齐（跨语言设定）。

核心 idea：通过真实世界的印尼语文档表格+四语言 QA 标注构建基准，引入空间先验（表格检测坐标）作为额外输入，证明定向微调和空间信息能显著提升 VLM 在专业文档任务上的性能。

方法详解¶

整体框架¶

IndoTabVQA 的评估流程包括三种设定：(1) 零样本评估——直接用预训练 VLM 在测试集上推理；(2) 微调评估——在 500 张训练图像上微调后在 1043 张测试图像上评估；(3) 微调+空间先验——先用 YOLOv9 检测表格区域得到边界框坐标，将坐标信息加入 prompt 后再由 VLM 处理。输入为文档图像 I + 问题 Q（四种语言之一），输出为短文本或数值答案 A。

关键设计¶

多样化的数据集构建:
- 功能：提供覆盖多种表格视觉风格和文档领域的评测资源
- 核心思路：从印尼政府报告、教育记录、商业文档、公共卫生数据等来源收集 1593 张文档图像，按视觉风格分为三类：有边框表格（500 张）、无边框表格（602 张）、彩色表格（491 张）。QA 标注由人工撰写（印尼语），然后通过自动翻译+母语者人工校验扩展到英语、印地语、阿拉伯语，每条 QA 经过内部一致性和跨语言等价性双重质量检查
- 设计动机：无边框表格需要从空白和对齐推断结构，彩色表格引入视觉干扰，这些多样性确保基准能暴露 VLM 的不同失败模式
空间先验增强输入（Spatial Priors）:
- 功能：通过提供表格位置信息帮助 VLM 聚焦相关区域
- 核心思路：两阶段流程——Stage 1 用 YOLOv9（在 TableBank+PubLayNet 上预训练）检测文档中的表格区域，输出边界框坐标和表格数量；Stage 2 将原始输入 + 边界框坐标 + 表格数量作为增强 prompt 送入 VLM。模型在知道表格精确位置后可以集中注意力在相关内容上
- 设计动机：实际文档处理系统通常先检测文档区域再做专业处理。空间先验模拟了这个实际工作流，且能隔离空间定位对性能的具体影响
双指标评估方案:
- 功能：同时评估精确匹配和语义理解能力
- 核心思路：(a) In-Match 准确率——宽松匹配，归一化后的真实答案作为子串出现在预测中即算正确，处理 VLM 生成冗余上下文的情况；(b) STS 准确率——用多语言 sentence embedding 模型计算预测和真实答案的余弦相似度，衡量语义对齐程度
- 设计动机：VLM 常生成包含额外上下文的答案，In-Match 避免了严格匹配的假阴性；STS 则捕捉了不同表述方式的语义等价

损失函数 / 训练策略¶

对 Qwen2.5-VL 3B 进行全量指令微调，对 7B 版本使用 LoRA 进行参数高效微调。每种语言变体分别独立训练，以隔离语言特定的学习模式。训练集仅 500 张图像，验证集 50 张，测试集 1043 张。

实验关键数据¶

主实验¶

跨语言 In-Match 准确率（%）：

模型	印尼语	英语	印地语	阿拉伯语	平均
GPT-4o (零样本)	72.2	44.6	26.0	21.4	41.1
Qwen2.5-VL 7B	54.8	36.2	17.3	23.0	32.9
LLaMA-3.2 11B	57.4	30.8	15.5	19.4	30.7
IndoTabVQA 7B+SP	78.3	58.4	29.4	32.8	48.5
IndoTabVQA 3B+SP	73.1	54.8	27.2	31.1	46.6
GPT-4o+SP	72.6	52.7	27.2	25.5	44.6

消融实验¶

配置	In-Match 平均	STS 平均	说明
Qwen2.5-VL 3B 零样本	21.9%	26.5%	基线
微调 3B	39.7%	46.7%	+17.8% 提升
微调 3B + 空间先验	46.6%	53.1%	再 +6.9%
微调 7B	44.5%	54.9%	更大模型
微调 7B + 空间先验	48.5%	58.3%	最优配置

关键发现¶

跨语言性能严重下降：GPT-4o 从印尼语 72.2% 降至印地语 26.0%、阿拉伯语 21.4%，差距达 30-50 个百分点
印地语最难：几乎所有模型中准确率最低（4-29%），原因包括天城文脚本的分词困难和训练数据稀缺
仅 500 张图像的定向微调即可带来显著提升：印尼语 +28.6 百分点，英语 +17.4
空间先验对所有模型规模都有效：GPT-4o +3.5%，3B +6.9%，7B +4.0%
微调 7B+SP 以 48.5% 超越 GPT-4o+SP 的 44.6%，说明领域适配+空间信息比单纯模型规模更重要
无边框表格最难（需推断结构），有边框最简单，彩色表格对大模型有利（颜色辅助视觉分组）

亮点与洞察¶

跨语言差距的量化：首次在表格 VQA 场景下系统量化了跨语言迁移的性能损失，30-50 个百分点的差距令人警醒，说明当前 VLM 的多语言能力被严重高估
小数据微调的有效性：仅 500 张训练图像就能带来 17-28 百分点的提升，证明领域适配的边际效益极高。这对资源有限的低资源语言研究非常鼓舞
空间先验的简单有效：用现成的目标检测模型提供表格坐标作为额外输入，是一个零额外训练成本的简单策略，但稳定带来 4-7% 的提升。这个思路可以推广到其他需要空间定位的文档理解任务

局限与展望¶

数据集规模较小（1593 张图像），可能不足以覆盖印尼语文档的完整多样性
每张图像只有一个 QA 对，限制了对复杂多跳推理的评估
翻译 QA 虽经人工校验，但跨语言的语义完全等价难以保证
空间先验依赖外部目标检测模型的准确性，检测失败会传递误差
未来可扩展到更多低资源语言（如缅甸语、高棉语）和更复杂的文档类型

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向印尼语的跨语言表格VQA基准，关注低资源语言的代表性问题
实验充分度: ⭐⭐⭐⭐ 六个模型+三种评估设定+表格类型分析+语言分析，比较全面
写作质量: ⭐⭐⭐⭐ 结构清晰，分析有深度，RQ 设计合理
价值: ⭐⭐⭐⭐ 为跨语言文档AI研究提供了重要的评测资源，对多语言VLM的不足有警示作用