AfroBench: How Good are Large Language Models on African Languages?¶

会议: ACL 2025
arXiv: 2311.07978
代码: GitHub
领域: 多语言NLP / LLM评测
关键词: 非洲语言, 低资源语言, 多语言基准, LLM评测, 公平性

一句话总结¶

提出AfroBench——覆盖64种非洲语言、15个NLP任务、22个数据集的综合评测基准，评估12个LLM发现闭源模型(GPT-4o)领先最佳开源模型(Gemma 2 27B)约12分，但所有LLM仍落后于微调基线，与英语的差距在开源模型上超过40分。

领域现状：LLM在高资源语言上表现优异，但在非洲语言等低资源语言上的能力严重不足且评估匮乏。现有多语言评测(MEGA, Megaverse)仅覆盖11-16种非洲语言和有限任务。

现有痛点：(a) 非洲语言数据集分散且难以发现；(b) 评估覆盖语言少、任务单一（多集中在NER/POS）；(c) 评估成本高导致模型覆盖不全；(d) LLM不断迭代但缺乏持续追踪非洲语言进展的平台。

核心矛盾：全球7000+语言中90%被NLP社区忽视，非洲语言的NLP技术差距亟需量化和缩小。

本文目标：构建最全面的非洲语言LLM评测基准，并系统性地揭示当前LLM在非洲语言上的能力边界。

AfroBench聚合22个数据集，覆盖15个任务(9个NLU + 6个NLG + 6个知识/QA + 1个数学推理)，跨64种非洲语言(7个语族)。所有任务建模为文本生成问题，使用多个prompt模板评估。

任务全面覆盖:
- NLU：POS、NER、情感分析、主题分类、意图分类、仇恨言论检测、NLI
- NLG：机器翻译(4个数据集)、摘要、变音符号还原(AfriADR, 新数据集)
- 知识/QA：跨语言QA、阅读理解、MMLU、科学QA
- 推理：数学推理(AfriMGSM)
AfroBench-Lite:
- 功能：提供含14种代表性语言和7个任务的轻量版本
- 核心思路：语言选择涵盖不同资源水平和类型学多样性(Swahili, Hausa, Amharic, Igbo, Yorùbá等)
- 设计动机：降低评估成本，方便新模型快速上榜
AfriADR新数据集:
- 功能：自动变音符号还原任务，覆盖5种语言(Ghomálá', Fon, Igbo, Wolof, Yorùbá)
- 核心思路：去除句子中所有变音符号作为输入，要求模型恢复正确变音
- 设计动机：变音符号对非洲语言的语义至关重要，且此任务LLM不熟悉

12个LLM在15个任务上的平均得分：

AfroBench-Lite上英语vs非洲语言表现：

Few-shot效果(GPT-4o, 0-shot vs 5-shot)：

任务	0-shot	5-shot	提升
ADR(变音符号还原)	54.9	62.7	+7.8
仇恨言论	63.5	69.3	+5.8
数学推理	49.8	54.7	+4.9
摘要	66.5	67.9	+1.4

规模空前：64种非洲语言、15个任务、22个数据集，远超此前最大的非洲语言评测
AfriADR是创新贡献：变音符号还原是非洲语言特有的重要任务，few-shot能大幅提升
质性分析有说服力：展示了Ghomálá'语变音符号还原中0-shot vs 5-shot的巨大差异(ChrF从21.4到81.6)，以及数学推理中few-shot帮助模型用目标语言正确推理
实用价值：建立了持续更新的leaderboard，已追加GPT-4.1, Gemini-2.0-Flash, LLaMa 4等新模型