跳转至

Batayan: A Filipino NLP Benchmark for Evaluating Large Language Models

会议: ACL 2025
arXiv: 2502.14911
代码: https://github.com/aisingapore/sea-helm
领域: LLM评测
关键词: 菲律宾语, 低资源语言, benchmark, 多语言LLM, 形态学, 代码切换

一句话总结

提出 Batayan——首个全面的菲律宾语 LLM 评测基准,覆盖理解/推理/生成三大能力的 8 个任务(含 3 个全新菲律宾语任务),由母语者翻译和标注确保语言真实性,评测 50+ 开源和商用 LLM 后发现菲律宾语表现显著落后于英语,显式菲律宾语支持和模型规模的提升均能带来明显增益。

研究背景与动机

领域现状:LLM 在英语等高资源语言上表现优异,多语言基准(如 MMLU、HellaSwag)也主要覆盖高资源语言。菲律宾语虽有 8000+ 万使用者,却在 LLM 评测中几乎缺席,被主流多语言基准排除在外。

现有痛点:(a) 现有菲律宾语语料多为机器翻译产物,存在严重的翻译腔(translationese),如异常偏好倒装句式(DKA/ay-inversion)和不自然用词;(b) 已有数据集领域单一、任务有限且常由非母语者创建;(c) 东南亚基准如 BHASA、SeaEval 要么不包含菲律宾语,要么仅依赖机器翻译。

核心矛盾:菲律宾语有极其丰富的语言特征——黏着语形态系统(含前缀、中缀、后缀、环缀)、多语言影响(西班牙语/中文/马来语借词)、以及普遍的英语-菲律宾语代码切换(Taglish),但缺乏高质量评测资源来衡量 LLM 对这些特征的理解。

本文目标 构建首个全面、高质量、母语者驱动的菲律宾语 LLM 评测基准,涵盖理解、推理、生成三大核心能力。

切入角度:整合 8 个任务(含 3 个菲律宾语首创任务),以 KWF(菲律宾语言委员会)官方翻译指南为依据,强调自然语序(KA/karaniwang ayos)和通俗用词。

核心 idea:以母语者驱动的严格质量流程构建首个全面菲律宾语 LLM 基准,揭示低资源语言的具体能力差距并提供可复现的建设方法论。

方法详解

整体框架

Batayan 按三大能力维度组织 8 个任务,共 3800 条测试样本: - NLU(自然语言理解):释义识别 PI(PAWS,2000 条)、问答 QA(Belebele,900 条)、情感分析 SA(PH Elections,5160 条)、话题检测 TD(PH Elections,5160 条) - NLR(自然语言推理):因果推理 CR(Balanced COPA,500 条)、自然语言推理 NLI(XNLI,5010 条) - NLG(自然语言生成):摘要生成 AS(XL-Sum,11535 条)、机器翻译 MT(FLORES-200,1012 条)

关键设计

  1. 母语者翻译与三重质量把控

    • 英语来源数据集(PAWS、COPA、XNLI、XL-Sum)经 Helsinki NLP OPUS 模型初译,再由菲律宾母语者人工修正
    • 每条样本由 3 名母语者评估三项二元标准:完整性、流畅性、合理性
    • 仅保留 3/3 一致通过的样本进入最终测试集
    • 情感分析标注 Cohen kappa 0.8202、Krippendorff alpha 0.8268,达到高度一致
  2. 母语再翻译纠正已有数据

    • QA(Belebele)和 MT(FLORES-200)已有菲律宾语版本但质量差,存在翻译腔
    • 由母语者重新翻译修正,优先使用自然语序 KA(karaniwang ayos,谓语前置)而非生硬的 DKA(ay-inversion)
    • 示例:原译使用不自然的 DKA 语序和错误搭配动词,纠正后采用 KA 语序和更准确的用词
  3. 原生菲律宾语数据保留

    • SA 和 TD 使用菲律宾政治推文数据(PH Elections),保留真实的 Taglish 代码切换和非标准拼写
    • 不做人工规范化,因为这些变体反映了菲律宾语的真实使用方式
  4. SEA-HELM 平台集成

    • 发布为 SEA-HELM 公共评测套件的菲律宾语组件,含排行榜
    • 提供 5 条 few-shot 示例支持少样本评测

评测协议

  • 指令调优模型默认 zero-shot,基础预训练模型 five-shot
  • NLU/NLR 使用 macro F1,MT 使用 ChrF++ 和 MetricX-24,AS 使用 BERTScore + ChrF++ + ROUGE-L

实验关键数据

主实验

评测 50+ 模型,覆盖 7B-671B 参数,含 GPT-4o、Gemini、Llama 3、Qwen 2.5、SEA-LION 等。

模型类型 NLU macro F1 NLR macro F1 NLG 综合 特点
Gemma-SEA-LION-v3-9B-IT 79.23 (小模型最佳) CR=92.75 60.35 菲律宾语微调
GPT-4o 等商用模型 75.14-86.23 MetricX>88 大规模预训练
Llama 3 系列 中等 CR约0 中等 无菲律宾语专项支持

消融与分析

发现 细节
显式菲律宾语支持的重要性 SEA-LION 在 CR 上达 92.75%,无菲律宾语支持的 Llama 3 CR 接近 0%
模型规模效应 同家族大模型一致优于小模型,但仅靠规模不够——需要区域语言微调
语义指标更敏感 ROUGE-L 无法区分菲律宾语微调与否,但 MetricX-24 差异显著(87+ vs 更低)
开源 vs 商用 经菲律宾语微调的开源模型可达到甚至超越商用系统表现

数据构建中的具体挑战

  • 词汇适配困难:技术术语如 rule of thirds 无菲律宾语对应,需保留英语原文
  • 同形异义词处理:如 right 需根据上下文判断是方向(kanan)还是正确(tama)
  • 习语本土化:如 turned himself in 需转化为菲律宾语习惯表达 isinuko ang sarili
  • 非标准拼写保留:社交媒体数据的拼写变体保留为语言真实性的一部分
  • 类别不平衡应对:政治推文中负面情感过多,通过重采样和高一致性样本筛选缓解

亮点与洞察

  1. 母语者驱动的基准构建范式:从翻译、标注到质量审查全程母语者参与,为低资源语言基准建设提供了可复现的方法论模板
  2. 翻译腔问题的系统分析:详细记录了机器翻译偏好 DKA 的现象,揭示了自动翻译在保持菲律宾语自然性方面的系统性缺陷
  3. 三个首创菲律宾语任务:摘要生成 AS、因果推理 CR、释义识别 PI 均为菲律宾语首次
  4. 实践挑战的坦诚记录:论文详细记录了构建过程中的翻译/标注/词汇挑战,对未来低资源语言工作有指导价值
  5. SEA-HELM 生态:作为东南亚语言评测平台的一部分,支持社区驱动的持续迭代和横向语言对比

局限性

  1. 翻译来源占比高:8 个任务中 6 个基于英语翻译或适配,即使由母语者翻译仍可能引入文化偏差和英语中心的推理模式
  2. 样本量有限:最终测试集 3800 条,部分任务(如 AS/QA)仅 100 条,统计显著性受限
  3. 仅覆盖 Tagalog 和 Taglish:菲律宾有 100+ 种方言(Cebuano、Ilocano 等)未覆盖,代表性有局限
  4. SA/TD 领域局限:仅基于政治推文,不代表广泛领域的情感/毒性表达模式
  5. 未涵盖韵律特征:书面文本难以反映口语中语调和讽刺等重要语义信号

相关工作与启发

  • vs BHASA:覆盖印尼语、泰语等东南亚语言但不含菲律宾语,Batayan 填补了这一空白
  • vs SeaEval:含菲律宾语但依赖机器翻译和通用多语言提示,质量不足
  • vs XTREME/XGLUE:部分多语言任务含菲律宾语但任务覆盖不全且无专项质量控制
  • 启发:母语者驱动 + 翻译腔检测 + 标准化评测平台的三位一体模式可推广到其他低资源语言(如越南语、缅甸语、高棉语),Batayan 的构建方法论本身就是重要贡献

评分

  • 新颖性: ⭐⭐⭐⭐ (首个全面菲律宾语 LLM 基准,含 3 个首创任务)
  • 实验充分度: ⭐⭐⭐⭐ (50+ 模型评测,7B-671B 参数覆盖,含商用系统)
  • 写作质量: ⭐⭐⭐⭐ (语言学背景详实,构建挑战记录诚恳)
  • 价值: ⭐⭐⭐⭐ (填补菲律宾语评测空白,方法论可推广到其他低资源语言)