Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs¶

会议: ACL 2026
arXiv: 2601.13099
代码: https://github.com/UBC-NLP/Alexandria
领域: 音频语音
关键词: 方言阿拉伯语, 机器翻译, 多领域数据集, 文化包容, 大语言模型评测

一句话总结¶

Alexandria 构建了覆盖 13 个阿拉伯国家、11 个社会影响领域、107K 轮次的多轮对话方言阿拉伯语-英语平行数据集，通过社区驱动的人工翻译与修订流程，为方言阿拉伯语机器翻译提供了前所未有的细粒度训练和评测资源，并在 24 个 LLM 上进行了系统性基准评估。

研究背景与动机¶

领域现状：神经机器翻译在高资源语言对上取得了显著进步，但阿拉伯语面临严重的"双语现象"（diglossia）挑战——日常交流主要使用地区方言，而 MT 系统主要基于现代标准阿拉伯语（MSA）训练，导致对方言输入的泛化能力极差。

现有痛点：现有方言阿拉伯语资源存在三大限制——(1) PADIC 仅覆盖约 6,400 句/方言，MADAR 仅 2,000 句，规模严重不足；(2) 领域覆盖窄，MADAR 偏重旅游场景，缺乏健康、教育、农业等社会影响领域；(3) 粒度粗糙，仅有"黎凡特""北非"等区域标签，缺乏城市级别的方言变体区分，也缺少性别配置和语码转换等元数据标注。

核心矛盾：数百万阿拉伯语使用者的日常方言交流需求 vs. MT 系统对方言的系统性忽视和评测资源的匮乏。

本文目标：构建大规模、多领域、城市级粒度的方言阿拉伯语平行数据集，同时作为训练资源和评测基准，全面揭示当前 LLM 在方言翻译上的能力与不足。

切入角度：采用社区驱动模式，招募 55 名来自 13 个阿拉伯国家的参与者（含 29 名女性），每人与特定城市关联，确保方言的真实性和本地化特征。

核心 idea：通过城市级标注、性别配置元数据、11 个领域覆盖和人工翻译-修订流程，在规模和细粒度上大幅超越现有资源，首次为方言阿拉伯语 MT 提供全面的评测框架。

方法详解¶

整体框架¶

Alexandria 的构建分三个阶段：(1) 使用 Gemini-2.5 Pro 生成多轮英语对话场景，条件化于目标国家和领域；(2) 由母语者进行方言阿拉伯语人工翻译；(3) 同国同行进行交叉审校和修订。最终产出轮次对齐的英语-方言阿拉伯语平行多轮对话，共 34,488 段对话、107K 轮次。

关键设计¶

两阶段英语源文本生成管线:
- 功能：为每个国家-领域对生成多样化、文化适当的多轮英语对话
- 核心思路：Phase 1 为每个国家-领域对生成 550 个话题规格（55 子领域 × 10 话题），包含角色和性别属性。Phase 2 基于话题生成 2-4 轮对话。使用英语释义替代阿拉伯语音译（如 "God willing" 替代 "inshallah"），避免词汇泄漏。通过 t-SNE 可视化验证语义多样性，均值余弦相似度仅 0.20
- 设计动机：避免 MADAR 等数据集的单领域和短句限制，同时通过禁止音译渗入确保翻译基于语义传递而非表面转写
社区驱动的城市级方言数据采集:
- 功能：确保方言数据的真实性和地理多样性
- 核心思路：55 名参与者来自 13 个国家的不同城市，每人翻译与其城市方言对应的对话。每个国家由 country lead 协调，确保标注一致性。数据关联城市来源元数据，支持亚方言级分析。同时标注说话者→听话者性别配置（F→M 33.19%, M→F 32.78%, M→M 21.43%, F→F 12.60%）
- 设计动机：此前资源仅使用粗粒度区域标签，无法捕捉同一国家内城市间的方言差异（如巴勒斯坦拉马拉 vs. 舒克巴的系统性差异）
同行评审修正与质量保障:
- 功能：通过交叉验证确保翻译质量
- 核心思路：每段翻译由同国第二位参与者从六个维度交叉评估：方言真实性、性别对齐、语域适当性、语义忠实度、标点和语码转换一致性。最终 68.4% 轮次无需修改，30.6% 仅需小幅编辑，仅 1% 存在重大问题
- 设计动机：LLM 生成的英语源文本可能含不自然措辞或文化错配，人工翻译也需系统性质量保障以确保数据可靠性

评估设置¶

三种输入设置：(1) Turn-level（单轮翻译）；(2) Context-level（给定前序对话历史翻译当前轮）；(3) Conversation-level（整段对话一次翻译）。自动评估使用 spBLEU 和 chrF++，避免使用 COMET（对方言可靠性有限）。人工评估覆盖语义充分性（5 分制 XSTS）、性别准确度（Pass/Fail）和方言性与流畅度（1-5 分）。

实验关键数据¶

主实验¶

English→Dialect Context-Level spBLEU（代表性模型和方言）

模型	SA	EG	SY	LB	MA	MR
Gemini-2.5-Pro	31.4	27.1	34.4	27.8	20.3	8.2
Gemini-3-Flash	29.6	27.8	31.1	27.9	19.5	10.1
Command-A	29.2	25.8	29.0	19.5	18.0	8.9
Gemma-3-27b	30.0	25.7	26.8	21.3	17.3	7.4
Qwen3-32B	17.6	14.8	15.2	10.4	13.2	4.4
ALLaM-7B	12.5	10.4	10.3	7.1	8.9	2.5

消融实验¶

元数据消融（Single-turn English→Dialect spBLEU）

模型	元数据	EG	SA	SY	MA
gemma-3-12b	None	25.54	25.65	25.79	11.33
gemma-3-12b	Full	25.11	24.39	24.90	11.34
Command-A	None	28.78	28.88	27.74	18.60
Command-A	Full	29.45	29.40	26.96	20.01
NLLB-200-3.3B	N/A	17.16	17.96	22.24	9.82

Thinking 模式消融：仅 Gemini-3-Flash 通过推理提升约 2.0 spBLEU，其他模型推理反而降低性能。

关键发现¶

存在显著的方向不对称性：Dialect→English 翻译质量一致优于 English→Dialect，说明生成方言比理解方言更困难
模型在黎凡特和埃及方言上表现最好，马格里布方言（特别是毛里塔尼亚）最具挑战性
Gemini 系列在两个方向上均表现最强，开源小模型（ALLaM-7B、Fanar-9B）差距巨大
人工评估发现所有模型的方言真实度/流畅度（~2-3/5）显著低于语义充分性（>3/5），说明模型倾向生成接近 MSA 的输出
语码转换（使用拉丁字符）会显著降低翻译质量，摩洛哥和突尼斯方言受影响最大
与 MSA 的词汇重叠度与翻译质量正相关（沙特 r=0.48，也门 r=0.44）

亮点与洞察¶

社区驱动的数据集构建方法论值得借鉴：城市级标注 + country lead 协调 + 同行交叉修订，兼顾了规模和质量
性别配置标注（F→M、M→F 等）是阿拉伯语 MT 评测的独特需求，填补了重要空白
107K 轮次的规模远超 PADIC（38K）和 MADAR（100K），且涵盖 11 个高社会影响领域
亚方言分析揭示了国家内部的系统性翻译难度差异，且模型排序在子方言间高度一致
元数据的效果因模型而异——并非"越多信息越好"，某些模型在 Full 元数据下性能反而下降

局限与展望¶

性别分布不平衡：F→F 仅占 12.60%，源于 LLM 生成偏向混合性别场景
技术术语翻译困难导致部分领域存在 MSA 渗入
闭源模型评测受预算限制，仅测试了 Gemini 系列
未覆盖所有阿拉伯方言（如伊拉克、巴林等未包含）

评分¶

新颖性: ⭐⭐⭐⭐ 城市级方言粒度、性别配置标注和 11 领域覆盖在方言阿拉伯语资源中前所未有
实验充分度: ⭐⭐⭐⭐⭐ 24 个模型、13 种方言、自动+人工评估、多维度消融，极为全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据详实，图表丰富
价值: ⭐⭐⭐⭐⭐ 填补了方言阿拉伯语 MT 的重大资源空白，对社区具有高实用价值