Batayan: A Filipino NLP Benchmark for Evaluating Large Language Models¶

会议: ACL 2025
arXiv: 2502.14911
代码: https://github.com/aisingapore/sea-helm
领域: LLM评测
关键词: 菲律宾语, 低资源语言, benchmark, 多语言LLM, 形态学, 代码切换

一句话总结¶

提出 Batayan——首个全面的菲律宾语 LLM 评测基准，覆盖理解/推理/生成三大能力的 8 个任务（含 3 个全新菲律宾语任务），由母语者翻译和标注确保语言真实性，评测 50+ 开源和商用 LLM 后发现菲律宾语表现显著落后于英语，显式菲律宾语支持和模型规模的提升均能带来明显增益。

研究背景与动机¶

领域现状：LLM 在英语等高资源语言上表现优异，多语言基准（如 MMLU、HellaSwag）也主要覆盖高资源语言。菲律宾语虽有 8000+ 万使用者，却在 LLM 评测中几乎缺席，被主流多语言基准排除在外。

现有痛点：(a) 现有菲律宾语语料多为机器翻译产物，存在严重的翻译腔（translationese），如异常偏好倒装句式（DKA/ay-inversion）和不自然用词；(b) 已有数据集领域单一、任务有限且常由非母语者创建；(c) 东南亚基准如 BHASA、SeaEval 要么不包含菲律宾语，要么仅依赖机器翻译。

核心矛盾：菲律宾语有极其丰富的语言特征——黏着语形态系统（含前缀、中缀、后缀、环缀）、多语言影响（西班牙语/中文/马来语借词）、以及普遍的英语-菲律宾语代码切换（Taglish），但缺乏高质量评测资源来衡量 LLM 对这些特征的理解。

本文目标 构建首个全面、高质量、母语者驱动的菲律宾语 LLM 评测基准，涵盖理解、推理、生成三大核心能力。

切入角度：整合 8 个任务（含 3 个菲律宾语首创任务），以 KWF（菲律宾语言委员会）官方翻译指南为依据，强调自然语序（KA/karaniwang ayos）和通俗用词。

核心 idea：以母语者驱动的严格质量流程构建首个全面菲律宾语 LLM 基准，揭示低资源语言的具体能力差距并提供可复现的建设方法论。

方法详解¶

整体框架¶

Batayan 按三大能力维度组织 8 个任务，共 3800 条测试样本： - NLU（自然语言理解）：释义识别 PI（PAWS，2000 条）、问答 QA（Belebele，900 条）、情感分析 SA（PH Elections，5160 条）、话题检测 TD（PH Elections，5160 条） - NLR（自然语言推理）：因果推理 CR（Balanced COPA，500 条）、自然语言推理 NLI（XNLI，5010 条） - NLG（自然语言生成）：摘要生成 AS（XL-Sum，11535 条）、机器翻译 MT（FLORES-200，1012 条）

关键设计¶

母语者翻译与三重质量把控：
- 英语来源数据集（PAWS、COPA、XNLI、XL-Sum）经 Helsinki NLP OPUS 模型初译，再由菲律宾母语者人工修正
- 每条样本由 3 名母语者评估三项二元标准：完整性、流畅性、合理性
- 仅保留 3/3 一致通过的样本进入最终测试集
- 情感分析标注 Cohen kappa 0.8202、Krippendorff alpha 0.8268，达到高度一致
母语再翻译纠正已有数据：
- QA（Belebele）和 MT（FLORES-200）已有菲律宾语版本但质量差，存在翻译腔
- 由母语者重新翻译修正，优先使用自然语序 KA（karaniwang ayos，谓语前置）而非生硬的 DKA（ay-inversion）
- 示例：原译使用不自然的 DKA 语序和错误搭配动词，纠正后采用 KA 语序和更准确的用词
原生菲律宾语数据保留：
- SA 和 TD 使用菲律宾政治推文数据（PH Elections），保留真实的 Taglish 代码切换和非标准拼写
- 不做人工规范化，因为这些变体反映了菲律宾语的真实使用方式
SEA-HELM 平台集成：
- 发布为 SEA-HELM 公共评测套件的菲律宾语组件，含排行榜
- 提供 5 条 few-shot 示例支持少样本评测

评测协议¶

指令调优模型默认 zero-shot，基础预训练模型 five-shot
NLU/NLR 使用 macro F1，MT 使用 ChrF++ 和 MetricX-24，AS 使用 BERTScore + ChrF++ + ROUGE-L

实验关键数据¶

主实验¶

评测 50+ 模型，覆盖 7B-671B 参数，含 GPT-4o、Gemini、Llama 3、Qwen 2.5、SEA-LION 等。

模型类型	NLU macro F1	NLR macro F1	NLG 综合	特点
Gemma-SEA-LION-v3-9B-IT	79.23 (小模型最佳)	CR=92.75	60.35	菲律宾语微调
GPT-4o 等商用模型	75.14-86.23	高	MetricX>88	大规模预训练
Llama 3 系列	中等	CR约0	中等	无菲律宾语专项支持

消融与分析¶

发现	细节
显式菲律宾语支持的重要性	SEA-LION 在 CR 上达 92.75%，无菲律宾语支持的 Llama 3 CR 接近 0%
模型规模效应	同家族大模型一致优于小模型，但仅靠规模不够——需要区域语言微调
语义指标更敏感	ROUGE-L 无法区分菲律宾语微调与否，但 MetricX-24 差异显著（87+ vs 更低）
开源 vs 商用	经菲律宾语微调的开源模型可达到甚至超越商用系统表现

数据构建中的具体挑战¶

词汇适配困难：技术术语如 rule of thirds 无菲律宾语对应，需保留英语原文
同形异义词处理：如 right 需根据上下文判断是方向（kanan）还是正确（tama）
习语本土化：如 turned himself in 需转化为菲律宾语习惯表达 isinuko ang sarili
非标准拼写保留：社交媒体数据的拼写变体保留为语言真实性的一部分
类别不平衡应对：政治推文中负面情感过多，通过重采样和高一致性样本筛选缓解

亮点与洞察¶

母语者驱动的基准构建范式：从翻译、标注到质量审查全程母语者参与，为低资源语言基准建设提供了可复现的方法论模板
翻译腔问题的系统分析：详细记录了机器翻译偏好 DKA 的现象，揭示了自动翻译在保持菲律宾语自然性方面的系统性缺陷
三个首创菲律宾语任务：摘要生成 AS、因果推理 CR、释义识别 PI 均为菲律宾语首次
实践挑战的坦诚记录：论文详细记录了构建过程中的翻译/标注/词汇挑战，对未来低资源语言工作有指导价值
SEA-HELM 生态：作为东南亚语言评测平台的一部分，支持社区驱动的持续迭代和横向语言对比

局限性¶

翻译来源占比高：8 个任务中 6 个基于英语翻译或适配，即使由母语者翻译仍可能引入文化偏差和英语中心的推理模式
样本量有限：最终测试集 3800 条，部分任务（如 AS/QA）仅 100 条，统计显著性受限
仅覆盖 Tagalog 和 Taglish：菲律宾有 100+ 种方言（Cebuano、Ilocano 等）未覆盖，代表性有局限
SA/TD 领域局限：仅基于政治推文，不代表广泛领域的情感/毒性表达模式
未涵盖韵律特征：书面文本难以反映口语中语调和讽刺等重要语义信号

评分¶

新颖性: ⭐⭐⭐⭐ (首个全面菲律宾语 LLM 基准，含 3 个首创任务)
实验充分度: ⭐⭐⭐⭐ (50+ 模型评测，7B-671B 参数覆盖，含商用系统)
写作质量: ⭐⭐⭐⭐ (语言学背景详实，构建挑战记录诚恳)
价值: ⭐⭐⭐⭐ (填补菲律宾语评测空白，方法论可推广到其他低资源语言)