IndoTabVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents¶
会议: ACL 2026 Findings
arXiv: 2604.11970
代码: https://huggingface.co/datasets/NusaBharat/INDOTABVQA
领域: 文档理解 / 跨语言VQA
关键词: 跨语言表格理解, 视觉问答, 印尼语文档, 空间先验, 低资源语言
一句话总结¶
提出 IndoTabVQA,一个针对印尼语(Bahasa Indonesia)文档表格的跨语言视觉问答基准,包含 1593 张文档图像和四种语言(印尼语/英语/印地语/阿拉伯语)的 QA 标注,揭示了 VLM 在低资源语言和跨语言表格理解上的显著性能差距,微调+空间先验可带来最高 48.5% 的 In-Match 准确率。
研究背景与动机¶
领域现状:视觉语言模型(VLM)在文本密集型视觉理解任务上表现出色,TextVQA、DocVQA 等基准推动了领域进步。针对表格的数据集如 TableVQA-Bench 进一步评估了结构感知的数值推理能力。
现有痛点:现有基准共享一个关键局限——以英语为中心且为单语言,无法揭示 VLM 在低资源语言上的真实能力。印尼语、印地语、阿拉伯语等语言覆盖了全球数十亿用户,但 VLM 在这些语言的文档上可能严重失效。对于表格 VQA,模型需要同时处理语言变化和结构复杂性,这个组合挑战尚未被充分研究。
核心矛盾:现有 VQA 基准无法测试两个关键能力:(1) VLM 是否能理解低资源语言的表格?(2) 当文档和问题使用不同语言时,VLM 能否正确回答?这个差距限制了我们对真实多语言能力的理解。
本文目标:构建一个跨语言表格视觉问答基准,系统评估 VLM 在低资源语言文档理解和跨语言视觉推理方面的能力。
切入角度:以印尼语文档为视觉内容(覆盖 2 亿以上使用者但在视觉语言研究中严重代表不足),配以四种语言的 QA 标注,分离两个挑战:视觉-语言理解(单语设定)和跨语言对齐(跨语言设定)。
核心 idea:通过真实世界的印尼语文档表格+四语言 QA 标注构建基准,引入空间先验(表格检测坐标)作为额外输入,证明定向微调和空间信息能显著提升 VLM 在专业文档任务上的性能。
方法详解¶
整体框架¶
IndoTabVQA 的评估流程包括三种设定:(1) 零样本评估——直接用预训练 VLM 在测试集上推理;(2) 微调评估——在 500 张训练图像上微调后在 1043 张测试图像上评估;(3) 微调+空间先验——先用 YOLOv9 检测表格区域得到边界框坐标,将坐标信息加入 prompt 后再由 VLM 处理。输入为文档图像 I + 问题 Q(四种语言之一),输出为短文本或数值答案 A,最后用双指标统一评分。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
subgraph DATA["多样化数据集构建"]
direction TB
A["印尼语真实文档<br/>政府 / 教育 / 商业 / 卫生"] --> B["三类视觉风格<br/>有边框 / 无边框 / 彩色"]
B --> C["四语言 QA 标注<br/>印尼语撰写 → 翻译+母语者校验"]
end
DATA --> D{"三种评估设定"}
D -->|零样本| E["预训练 VLM 直接推理"]
D -->|微调| F["500 张训练图微调 VLM"]
subgraph SP["空间先验增强输入"]
direction TB
G["YOLOv9 检测表格<br/>输出边界框坐标"] --> H["坐标拼入增强 prompt 喂 VLM"]
end
D -->|微调+空间先验| SP
E --> J["双指标评估<br/>In-Match 命中 + STS 语义对齐"]
F --> J
SP --> J
关键设计¶
1. 多样化的数据集构建:用三类视觉风格的真实印尼语文档把 VLM 的不同失败模式逼出来
VLM 在表格上失效的原因五花八门,单一风格的表格测不出全貌。作者从印尼政府报告、教育记录、商业文档、公共卫生数据等来源收集 1593 张文档图像,按视觉风格切成三类:有边框表格 500 张、无边框表格 602 张、彩色表格 491 张。这三类各自考验不同能力——无边框表格逼模型从空白和对齐里推断行列结构,彩色表格则用底色制造视觉干扰。QA 标注先由人工用印尼语撰写,再经自动翻译 + 母语者人工校验扩展到英语、印地语、阿拉伯语,每条 QA 都过了内部一致性和跨语言等价性的双重质检,保证四种语言问的是同一件事。
2. 空间先验增强输入(Spatial Priors):先告诉模型表格在哪,再让它读表
零样本 VLM 面对整页文档时注意力是散的,常被表格外的版式干扰。作者把真实文档处理流水线"先检测区域、再做专业处理"的思路搬进来,做成两阶段:Stage 1 用在 TableBank + PubLayNet 上预训练的 YOLOv9 检测文档里的表格区域,输出边界框坐标和表格数量;Stage 2 把原始输入连同这些坐标和表格数量拼成增强 prompt 再喂给 VLM。模型知道表格的精确位置后就能把注意力收到相关内容上。这个设计还有个附带好处:它把"空间定位"这一个变量单独隔离出来,方便量化空间信息到底贡献了多少。
3. 双指标评估方案:In-Match 抓"对没对",STS 抓"懂没懂"
VLM 生成答案时爱带一堆多余上下文,严格字符串匹配会把本该答对的也判错。为此作者并行用两个指标:In-Match 准确率走宽松匹配,把真实答案归一化后只要作为子串出现在预测里就算对,专治"答案藏在冗长回复里"的假阴性;STS 准确率则用多语言 sentence embedding 模型算预测和真值的余弦相似度,捕捉"换种说法但语义等价"的情况。两个指标一个管精确命中、一个管语义对齐,合起来才不会高估或低估模型的真实理解力。
损失函数 / 训练策略¶
对 Qwen2.5-VL 3B 进行全量指令微调,对 7B 版本使用 LoRA 进行参数高效微调。每种语言变体分别独立训练,以隔离语言特定的学习模式。训练集仅 500 张图像,验证集 50 张,测试集 1043 张。
实验关键数据¶
主实验¶
跨语言 In-Match 准确率(%):
| 模型 | 印尼语 | 英语 | 印地语 | 阿拉伯语 | 平均 |
|---|---|---|---|---|---|
| GPT-4o (零样本) | 72.2 | 44.6 | 26.0 | 21.4 | 41.1 |
| Qwen2.5-VL 7B | 54.8 | 36.2 | 17.3 | 23.0 | 32.9 |
| LLaMA-3.2 11B | 57.4 | 30.8 | 15.5 | 19.4 | 30.7 |
| IndoTabVQA 7B+SP | 78.3 | 58.4 | 29.4 | 32.8 | 48.5 |
| IndoTabVQA 3B+SP | 73.1 | 54.8 | 27.2 | 31.1 | 46.6 |
| GPT-4o+SP | 72.6 | 52.7 | 27.2 | 25.5 | 44.6 |
消融实验¶
| 配置 | In-Match 平均 | STS 平均 | 说明 |
|---|---|---|---|
| Qwen2.5-VL 3B 零样本 | 21.9% | 26.5% | 基线 |
| 微调 3B | 39.7% | 46.7% | +17.8% 提升 |
| 微调 3B + 空间先验 | 46.6% | 53.1% | 再 +6.9% |
| 微调 7B | 44.5% | 54.9% | 更大模型 |
| 微调 7B + 空间先验 | 48.5% | 58.3% | 最优配置 |
关键发现¶
- 跨语言性能严重下降:GPT-4o 从印尼语 72.2% 降至印地语 26.0%、阿拉伯语 21.4%,差距达 30-50 个百分点
- 印地语最难:几乎所有模型中准确率最低(4-29%),原因包括天城文脚本的分词困难和训练数据稀缺
- 仅 500 张图像的定向微调即可带来显著提升:印尼语 +28.6 百分点,英语 +17.4
- 空间先验对所有模型规模都有效:GPT-4o +3.5%,3B +6.9%,7B +4.0%
- 微调 7B+SP 以 48.5% 超越 GPT-4o+SP 的 44.6%,说明领域适配+空间信息比单纯模型规模更重要
- 无边框表格最难(需推断结构),有边框最简单,彩色表格对大模型有利(颜色辅助视觉分组)
亮点与洞察¶
- 跨语言差距的量化:首次在表格 VQA 场景下系统量化了跨语言迁移的性能损失,30-50 个百分点的差距令人警醒,说明当前 VLM 的多语言能力被严重高估
- 小数据微调的有效性:仅 500 张训练图像就能带来 17-28 百分点的提升,证明领域适配的边际效益极高。这对资源有限的低资源语言研究非常鼓舞
- 空间先验的简单有效:用现成的目标检测模型提供表格坐标作为额外输入,是一个零额外训练成本的简单策略,但稳定带来 4-7% 的提升。这个思路可以推广到其他需要空间定位的文档理解任务
局限与展望¶
- 数据集规模较小(1593 张图像),可能不足以覆盖印尼语文档的完整多样性
- 每张图像只有一个 QA 对,限制了对复杂多跳推理的评估
- 翻译 QA 虽经人工校验,但跨语言的语义完全等价难以保证
- 空间先验依赖外部目标检测模型的准确性,检测失败会传递误差
- 未来可扩展到更多低资源语言(如缅甸语、高棉语)和更复杂的文档类型
相关工作与启发¶
- vs TableVQA-Bench: 仅支持英语,IndoTabVQA 扩展到四种语言和跨语言设定
- vs DocVQA: 聚焦通用文档理解,IndoTabVQA 专注于表格结构推理这个更具挑战性的子任务
- vs TabComp: 关注表格比较推理但仍以英语为中心,IndoTabVQA 填补了低资源语言的空白
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个面向印尼语的跨语言表格VQA基准,关注低资源语言的代表性问题
- 实验充分度: ⭐⭐⭐⭐ 六个模型+三种评估设定+表格类型分析+语言分析,比较全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析有深度,RQ 设计合理
- 价值: ⭐⭐⭐⭐ 为跨语言文档AI研究提供了重要的评测资源,对多语言VLM的不足有警示作用