ReDial: Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks¶
会议: ACL 2025
arXiv: 2410.11005
代码: 有
领域: AI安全 / 公平性
关键词: dialect fairness, AAVE, reasoning robustness, LLM bias, benchmark
一句话总结¶
本文构建了首个高质量人工标注的标准英语-AAVE平行推理基准ReDial(1216对),系统评估LLM在方言输入下的公平性与鲁棒性,发现几乎所有主流模型在AAVE查询上性能显著下降超过10%。
研究背景与动机¶
领域现状:LLM评估基准通常使用标准英语构建(如HumanEval、GSM8K),忽略了语言内部的方言变异。AAVE全球约3300万人使用,约80%的非裔美国人使用AAVE。
现有痛点:现有方言偏见研究主要集中在语言分析和社会分析任务上,对推理任务(算法、数学、逻辑)的方言公平性几乎未被研究。现有方言转换方法要么依赖预定义规则(遗漏语境细微差别),要么使用LLM翻译(可能带有待检验的偏见)。
核心矛盾:方言使用者被迫切换到标准英语才能获得LLM的最佳服务,这本质上是一种语言歧视。推理任务中语义等价的方言输入不应导致性能下降。
本文目标 (1) 构建高质量人工标注的SE-AAVE平行推理基准;(2) 系统量化主流LLM在方言输入下的性能差异;(3) 分析性能下降的语言学根源。
切入角度:雇佣AAVE母语者(包括计算机背景专家)手动改写7个流行SE推理基准,确保语义等价但保持方言特征,避免规则转换和LLM翻译的偏见。
核心 idea:通过人工标注的方言平行推理基准,客观量化LLM对非标准方言的不公平服务。
方法详解¶
整体框架¶
ReDial包含1216个完全标注的SE-AAVE平行提示对,涵盖4个推理类别:算法(25.7%,来自HumanEval和MBPP)、逻辑(29.8%,来自LogicBench和Folio)、数学(24.7%,来自GSM8K和SVAMP)、综合推理(19.7%,来自AsyncHow)。每个实例由AAVE母语者手动改写,保持原始意图、含义和ground truth不变。
关键设计¶
-
人工方言改写流程:
- 功能:生成高质量、语义等价的AAVE版本推理题目
- 核心思路:雇佣AAVE母语者(而非规则转换或LLM翻译),确保改写自然地融入AAVE的形态句法特征和语境规范。包含双轮质检:AAVE专家审核语言真实性 + 计算机专家验证逻辑等价性
- 设计动机:规则转换(如Ziems等人2022)遗漏上下文细微差别,LLM翻译可能传播本身的方言偏见
-
多维度公平性评估框架:
- 功能:从鲁棒性和公平性两个角度系统量化方言性能差异
- 核心思路:对比同一模型在SE和AAVE等价输入上的表现,使用配对统计检验(McNemar检验)判断性能差异的统计显著性。鲁棒性衡量模型对输入变异的敏感度,公平性衡量是否对特定语言群体存在系统性劣势
- 设计动机:仅报告平均分数不够,需要统计显著性检验来排除随机波动
-
原因分析实验:
- 功能:定位方言性能下降的语言学根源
- 核心思路:设计合成扰动实验和AAVE特征注入实验,逐步引入词汇替换、形态句法变换、会话规范等AAVE特征,观察哪类特征导致最大性能下降
- 设计动机:区分"表面词汇差异"和"深层语法/语用差异"对模型的影响
损失函数 / 训练策略¶
本文为评估基准,不涉及模型训练。评估使用准确率指标,算法任务使用pass@1。
实验关键数据¶
主实验¶
| 模型 | SE准确率 | AAVE准确率 | 相对下降 |
|---|---|---|---|
| GPT-o1 | 83.2% | 74.1% | -10.9% |
| GPT-4o | 76.5% | 67.8% | -11.4% |
| Claude-3.5-Sonnet | 74.3% | 65.2% | -12.2% |
| Llama-3.1-70B | 68.7% | 59.4% | -13.5% |
| Mistral-Large | 62.1% | 53.6% | -13.7% |
| Phi-3-medium | 55.8% | 47.2% | -15.4% |
消融实验¶
| 扰动类型 | 性能下降 | 说明 |
|---|---|---|
| 词汇替换 | -3.2% | 仅替换AAVE特有词汇 |
| 形态句法变换 | -5.7% | 引入AAVE语法规则(如双重否定) |
| 完整人工改写 | -12.2% | 母语者自然改写(含语用和语境) |
| CoT提示缓解 | +2.1% | CoT仅部分缓解,差距仍显著 |
关键发现¶
- 几乎所有模型在AAVE上性能显著下降(p<0.05),平均相对下降超10%
- 算法任务受影响最大(代码相关查询对方言表述敏感),逻辑任务次之
- 合成扰动无法复现人工改写的性能下降程度,说明方言影响远不止词汇层面
- CoT提示仅部分缓解问题,表明偏见根植于模型内部而非推理策略
- 模型规模增大不能消除方言偏见,大模型同样存在显著不公平
亮点与洞察¶
- ReDial是首个人工标注的方言推理基准,其核心价值在于"端到端人工"——避免了规则/LLM翻译引入的系统性偏差,为方言公平性研究提供了可靠的ground truth
- 论文巧妙地将方言改写框架化为"语义鲁棒性测试",将方言公平性问题与对抗鲁棒性研究连接起来,让评估框架有理论基础
局限与展望¶
- 仅覆盖AAVE一种方言,未扩展到其他英语方言(如印度英语、新加坡英语)或非英语方言
- 推理任务以闭式/可判定任务为主,未涵盖开放式生成的方言公平性
- 缺乏去偏方法的实验验证——发现了问题但未提出解决方案
相关工作与启发¶
- vs VALUE (Ziems et al. 2023): VALUE使用规则转换生成AAVE,ReDial使用人工改写,后者更自然且能捕获语用差异
- vs Hofmann et al. 2024: 他们研究LLM对AAVE的隐性偏见(如种族关联),ReDial关注任务性能的显性差异
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个人工标注的方言推理公平性基准
- 实验充分度: ⭐⭐⭐⭐ 覆盖多个模型族和推理任务类别
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,实验设计严谨
- 价值: ⭐⭐⭐⭐ 揭示了LLM方言歧视这一被忽视的问题