IndoTabVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents¶
会议: ACL 2026
arXiv: 2604.11970
代码: https://huggingface.co/datasets/NusaBharat/INDOTABVQA
领域: 文档理解 / 跨语言VQA
关键词: 跨语言表格理解, 视觉问答, 印尼语文档, 空间先验, 低资源语言
一句话总结¶
提出 IndoTabVQA,一个针对印尼语(Bahasa Indonesia)文档表格的跨语言视觉问答基准,包含 1593 张文档图像和四种语言(印尼语/英语/印地语/阿拉伯语)的 QA 标注,揭示了 VLM 在低资源语言和跨语言表格理解上的显著性能差距,微调+空间先验可带来最高 48.5% 的 In-Match 准确率。
研究背景与动机¶
领域现状:视觉语言模型(VLM)在文本密集型视觉理解任务上表现出色,TextVQA、DocVQA 等基准推动了领域进步。针对表格的数据集如 TableVQA-Bench 进一步评估了结构感知的数值推理能力。
现有痛点:现有基准共享一个关键局限——以英语为中心且为单语言,无法揭示 VLM 在低资源语言上的真实能力。印尼语、印地语、阿拉伯语等语言覆盖了全球数十亿用户,但 VLM 在这些语言的文档上可能严重失效。对于表格 VQA,模型需要同时处理语言变化和结构复杂性,这个组合挑战尚未被充分研究。
核心矛盾:现有 VQA 基准无法测试两个关键能力:(1) VLM 是否能理解低资源语言的表格?(2) 当文档和问题使用不同语言时,VLM 能否正确回答?这个差距限制了我们对真实多语言能力的理解。
本文目标:构建一个跨语言表格视觉问答基准,系统评估 VLM 在低资源语言文档理解和跨语言视觉推理方面的能力。
切入角度:以印尼语文档为视觉内容(覆盖 2 亿以上使用者但在视觉语言研究中严重代表不足),配以四种语言的 QA 标注,分离两个挑战:视觉-语言理解(单语设定)和跨语言对齐(跨语言设定)。
核心 idea:通过真实世界的印尼语文档表格+四语言 QA 标注构建基准,引入空间先验(表格检测坐标)作为额外输入,证明定向微调和空间信息能显著提升 VLM 在专业文档任务上的性能。
方法详解¶
整体框架¶
IndoTabVQA 的评估流程包括三种设定:(1) 零样本评估——直接用预训练 VLM 在测试集上推理;(2) 微调评估——在 500 张训练图像上微调后在 1043 张测试图像上评估;(3) 微调+空间先验——先用 YOLOv9 检测表格区域得到边界框坐标,将坐标信息加入 prompt 后再由 VLM 处理。输入为文档图像 I + 问题 Q(四种语言之一),输出为短文本或数值答案 A。
关键设计¶
-
多样化的数据集构建:
- 功能:提供覆盖多种表格视觉风格和文档领域的评测资源
- 核心思路:从印尼政府报告、教育记录、商业文档、公共卫生数据等来源收集 1593 张文档图像,按视觉风格分为三类:有边框表格(500 张)、无边框表格(602 张)、彩色表格(491 张)。QA 标注由人工撰写(印尼语),然后通过自动翻译+母语者人工校验扩展到英语、印地语、阿拉伯语,每条 QA 经过内部一致性和跨语言等价性双重质量检查
- 设计动机:无边框表格需要从空白和对齐推断结构,彩色表格引入视觉干扰,这些多样性确保基准能暴露 VLM 的不同失败模式
-
空间先验增强输入(Spatial Priors):
- 功能:通过提供表格位置信息帮助 VLM 聚焦相关区域
- 核心思路:两阶段流程——Stage 1 用 YOLOv9(在 TableBank+PubLayNet 上预训练)检测文档中的表格区域,输出边界框坐标和表格数量;Stage 2 将原始输入 + 边界框坐标 + 表格数量作为增强 prompt 送入 VLM。模型在知道表格精确位置后可以集中注意力在相关内容上
- 设计动机:实际文档处理系统通常先检测文档区域再做专业处理。空间先验模拟了这个实际工作流,且能隔离空间定位对性能的具体影响
-
双指标评估方案:
- 功能:同时评估精确匹配和语义理解能力
- 核心思路:(a) In-Match 准确率——宽松匹配,归一化后的真实答案作为子串出现在预测中即算正确,处理 VLM 生成冗余上下文的情况;(b) STS 准确率——用多语言 sentence embedding 模型计算预测和真实答案的余弦相似度,衡量语义对齐程度
- 设计动机:VLM 常生成包含额外上下文的答案,In-Match 避免了严格匹配的假阴性;STS 则捕捉了不同表述方式的语义等价
损失函数 / 训练策略¶
对 Qwen2.5-VL 3B 进行全量指令微调,对 7B 版本使用 LoRA 进行参数高效微调。每种语言变体分别独立训练,以隔离语言特定的学习模式。训练集仅 500 张图像,验证集 50 张,测试集 1043 张。
实验关键数据¶
主实验¶
跨语言 In-Match 准确率(%):
| 模型 | 印尼语 | 英语 | 印地语 | 阿拉伯语 | 平均 |
|---|---|---|---|---|---|
| GPT-4o (零样本) | 72.2 | 44.6 | 26.0 | 21.4 | 41.1 |
| Qwen2.5-VL 7B | 54.8 | 36.2 | 17.3 | 23.0 | 32.9 |
| LLaMA-3.2 11B | 57.4 | 30.8 | 15.5 | 19.4 | 30.7 |
| IndoTabVQA 7B+SP | 78.3 | 58.4 | 29.4 | 32.8 | 48.5 |
| IndoTabVQA 3B+SP | 73.1 | 54.8 | 27.2 | 31.1 | 46.6 |
| GPT-4o+SP | 72.6 | 52.7 | 27.2 | 25.5 | 44.6 |
消融实验¶
| 配置 | In-Match 平均 | STS 平均 | 说明 |
|---|---|---|---|
| Qwen2.5-VL 3B 零样本 | 21.9% | 26.5% | 基线 |
| 微调 3B | 39.7% | 46.7% | +17.8% 提升 |
| 微调 3B + 空间先验 | 46.6% | 53.1% | 再 +6.9% |
| 微调 7B | 44.5% | 54.9% | 更大模型 |
| 微调 7B + 空间先验 | 48.5% | 58.3% | 最优配置 |
关键发现¶
- 跨语言性能严重下降:GPT-4o 从印尼语 72.2% 降至印地语 26.0%、阿拉伯语 21.4%,差距达 30-50 个百分点
- 印地语最难:几乎所有模型中准确率最低(4-29%),原因包括天城文脚本的分词困难和训练数据稀缺
- 仅 500 张图像的定向微调即可带来显著提升:印尼语 +28.6 百分点,英语 +17.4
- 空间先验对所有模型规模都有效:GPT-4o +3.5%,3B +6.9%,7B +4.0%
- 微调 7B+SP 以 48.5% 超越 GPT-4o+SP 的 44.6%,说明领域适配+空间信息比单纯模型规模更重要
- 无边框表格最难(需推断结构),有边框最简单,彩色表格对大模型有利(颜色辅助视觉分组)
亮点与洞察¶
- 跨语言差距的量化:首次在表格 VQA 场景下系统量化了跨语言迁移的性能损失,30-50 个百分点的差距令人警醒,说明当前 VLM 的多语言能力被严重高估
- 小数据微调的有效性:仅 500 张训练图像就能带来 17-28 百分点的提升,证明领域适配的边际效益极高。这对资源有限的低资源语言研究非常鼓舞
- 空间先验的简单有效:用现成的目标检测模型提供表格坐标作为额外输入,是一个零额外训练成本的简单策略,但稳定带来 4-7% 的提升。这个思路可以推广到其他需要空间定位的文档理解任务
局限与展望¶
- 数据集规模较小(1593 张图像),可能不足以覆盖印尼语文档的完整多样性
- 每张图像只有一个 QA 对,限制了对复杂多跳推理的评估
- 翻译 QA 虽经人工校验,但跨语言的语义完全等价难以保证
- 空间先验依赖外部目标检测模型的准确性,检测失败会传递误差
- 未来可扩展到更多低资源语言(如缅甸语、高棉语)和更复杂的文档类型
相关工作与启发¶
- vs TableVQA-Bench: 仅支持英语,IndoTabVQA 扩展到四种语言和跨语言设定
- vs DocVQA: 聚焦通用文档理解,IndoTabVQA 专注于表格结构推理这个更具挑战性的子任务
- vs TabComp: 关注表格比较推理但仍以英语为中心,IndoTabVQA 填补了低资源语言的空白
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个面向印尼语的跨语言表格VQA基准,关注低资源语言的代表性问题
- 实验充分度: ⭐⭐⭐⭐ 六个模型+三种评估设定+表格类型分析+语言分析,比较全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析有深度,RQ 设计合理
- 价值: ⭐⭐⭐⭐ 为跨语言文档AI研究提供了重要的评测资源,对多语言VLM的不足有警示作用