AfroBench: How Good are Large Language Models on African Languages?¶
会议: ACL 2025
arXiv: 2311.07978
代码: GitHub
领域: 多语言NLP / LLM评测
关键词: 非洲语言, 低资源语言, 多语言基准, LLM评测, 公平性
一句话总结¶
提出AfroBench——覆盖64种非洲语言、15个NLP任务、22个数据集的综合评测基准,评估12个LLM发现闭源模型(GPT-4o)领先最佳开源模型(Gemma 2 27B)约12分,但所有LLM仍落后于微调基线,与英语的差距在开源模型上超过40分。
研究背景与动机¶
领域现状:LLM在高资源语言上表现优异,但在非洲语言等低资源语言上的能力严重不足且评估匮乏。现有多语言评测(MEGA, Megaverse)仅覆盖11-16种非洲语言和有限任务。
现有痛点:(a) 非洲语言数据集分散且难以发现;(b) 评估覆盖语言少、任务单一(多集中在NER/POS);(c) 评估成本高导致模型覆盖不全;(d) LLM不断迭代但缺乏持续追踪非洲语言进展的平台。
核心矛盾:全球7000+语言中90%被NLP社区忽视,非洲语言的NLP技术差距亟需量化和缩小。
本文目标:构建最全面的非洲语言LLM评测基准,并系统性地揭示当前LLM在非洲语言上的能力边界。
方法详解¶
整体框架¶
AfroBench聚合22个数据集,覆盖15个任务(9个NLU + 6个NLG + 6个知识/QA + 1个数学推理),跨64种非洲语言(7个语族)。所有任务建模为文本生成问题,使用多个prompt模板评估。
关键设计¶
-
任务全面覆盖:
- NLU:POS、NER、情感分析、主题分类、意图分类、仇恨言论检测、NLI
- NLG:机器翻译(4个数据集)、摘要、变音符号还原(AfriADR, 新数据集)
- 知识/QA:跨语言QA、阅读理解、MMLU、科学QA
- 推理:数学推理(AfriMGSM)
-
AfroBench-Lite:
- 功能:提供含14种代表性语言和7个任务的轻量版本
- 核心思路:语言选择涵盖不同资源水平和类型学多样性(Swahili, Hausa, Amharic, Igbo, Yorùbá等)
- 设计动机:降低评估成本,方便新模型快速上榜
-
AfriADR新数据集:
- 功能:自动变音符号还原任务,覆盖5种语言(Ghomálá', Fon, Igbo, Wolof, Yorùbá)
- 核心思路:去除句子中所有变音符号作为输入,要求模型恢复正确变音
- 设计动机:变音符号对非洲语言的语义至关重要,且此任务LLM不熟悉
实验关键数据¶
主实验¶
12个LLM在15个任务上的平均得分:
| 模型 | 总体平均 | vs 英语差距 |
|---|---|---|
| GPT-4o | 59.6 | -25.5 |
| Gemini 1.5 pro | 58.5 | -24.1 |
| Gemma 2 27B | 47.7 | -32.9 |
| LLaMa 3.1 70B | 43.3 | -36.7 |
| Aya-101 13B | 40.1 | (N/A) |
| LLaMa 2 7B | 22.5 | (N/A) |
| 微调基线(AfroXLMR等) | (任务相关) | (N/A) |
AfroBench-Lite上英语vs非洲语言表现:
| 模型 | 英语 | 非洲语言 | 差距 |
|---|---|---|---|
| GPT-4o | 85.1 | 66.0 | -19.1 |
| Gemma 2 27B | 80.6 | 43.5 | -37.1 |
| LLaMa 3.1 70B | 80.0 | 39.9 | -40.1 |
消融实验¶
Few-shot效果(GPT-4o, 0-shot vs 5-shot):
| 任务 | 0-shot | 5-shot | 提升 |
|---|---|---|---|
| ADR(变音符号还原) | 54.9 | 62.7 | +7.8 |
| 仇恨言论 | 63.5 | 69.3 | +5.8 |
| 数学推理 | 49.8 | 54.7 | +4.9 |
| 摘要 | 66.5 | 67.9 | +1.4 |
关键发现¶
- 闭源vs开源差距比英语大得多:在英语上差距仅2-5分,在非洲语言上差距超过12分
- 知识密集型任务差距最大:Arc-Easy(+29.4)、Math(+22.6)、MMLU(+19.9)
- 性能与单语数据量正相关:Swahili(2.4GB单语数据)最佳,Wolof(5MB)最差
- 所有LLM仍落后于微调基线约11.5分:说明为低资源语言收集标注数据仍然有价值
- Prompt敏感性:Gemini-1.5 pro对prompt最不敏感,小模型(Gemma 2 9B)最敏感
- Few-shot对NLG任务和新任务(ADR)帮助最大,对翻译帮助最小
亮点与洞察¶
- 规模空前:64种非洲语言、15个任务、22个数据集,远超此前最大的非洲语言评测
- AfriADR是创新贡献:变音符号还原是非洲语言特有的重要任务,few-shot能大幅提升
- 质性分析有说服力:展示了Ghomálá'语变音符号还原中0-shot vs 5-shot的巨大差异(ChrF从21.4到81.6),以及数学推理中few-shot帮助模型用目标语言正确推理
- 实用价值:建立了持续更新的leaderboard,已追加GPT-4.1, Gemini-2.0-Flash, LLaMa 4等新模型
局限与展望¶
- 训练数据透明度不足导致无法评估数据污染
- 评估成本高(GPT-4o和Gemini-1.5各约$2500)限制了模型覆盖
- 60%语言出现在少于5个数据集中,长尾分布限制了某些语言的可靠评估
- 翻译评估受限于chrF等指标,缺乏高质量的COMET/AfriCOMET评估
相关工作与启发¶
- IrokoBench:ACL 2025同期工作,聚焦16种非洲语言和3个任务,本文涵盖更广
- Belebele:覆盖28种非洲语言但仅QA任务
- 启发:非洲语言LLM能力的关键瓶颈在于单语数据量而非模型架构,投资语言资源建设比改进模型更关键
评分¶
- 新颖性: ⭐⭐⭐ 主要是资源和评测贡献,方法创新不多(AfriADR除外)
- 实验充分度: ⭐⭐⭐⭐⭐ 64种语言、12个模型、15个任务,多维分析详尽
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析全面,但表格较多阅读门槛高
- 价值: ⭐⭐⭐⭐⭐ 填补非洲语言LLM评测的重大空白,持续更新的leaderboard有长期价值