跳转至

ReDial: Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

会议: ACL 2025
arXiv: 2410.11005
代码: 有
领域: AI安全 / 公平性
关键词: dialect fairness, AAVE, reasoning robustness, LLM bias, benchmark

一句话总结

本文构建了首个高质量人工标注的标准英语-AAVE平行推理基准ReDial(1216对),系统评估LLM在方言输入下的公平性与鲁棒性,发现几乎所有主流模型在AAVE查询上性能显著下降超过10%。

研究背景与动机

领域现状:LLM评估基准通常使用标准英语构建(如HumanEval、GSM8K),忽略了语言内部的方言变异。AAVE全球约3300万人使用,约80%的非裔美国人使用AAVE。

现有痛点:现有方言偏见研究主要集中在语言分析和社会分析任务上,对推理任务(算法、数学、逻辑)的方言公平性几乎未被研究。现有方言转换方法要么依赖预定义规则(遗漏语境细微差别),要么使用LLM翻译(可能带有待检验的偏见)。

核心矛盾:方言使用者被迫切换到标准英语才能获得LLM的最佳服务,这本质上是一种语言歧视。推理任务中语义等价的方言输入不应导致性能下降。

本文目标 (1) 构建高质量人工标注的SE-AAVE平行推理基准;(2) 系统量化主流LLM在方言输入下的性能差异;(3) 分析性能下降的语言学根源。

切入角度:雇佣AAVE母语者(包括计算机背景专家)手动改写7个流行SE推理基准,确保语义等价但保持方言特征,避免规则转换和LLM翻译的偏见。

核心 idea:通过人工标注的方言平行推理基准,客观量化LLM对非标准方言的不公平服务。

方法详解

整体框架

ReDial包含1216个完全标注的SE-AAVE平行提示对,涵盖4个推理类别:算法(25.7%,来自HumanEval和MBPP)、逻辑(29.8%,来自LogicBench和Folio)、数学(24.7%,来自GSM8K和SVAMP)、综合推理(19.7%,来自AsyncHow)。每个实例由AAVE母语者手动改写,保持原始意图、含义和ground truth不变。

关键设计

  1. 人工方言改写流程:

    • 功能:生成高质量、语义等价的AAVE版本推理题目
    • 核心思路:雇佣AAVE母语者(而非规则转换或LLM翻译),确保改写自然地融入AAVE的形态句法特征和语境规范。包含双轮质检:AAVE专家审核语言真实性 + 计算机专家验证逻辑等价性
    • 设计动机:规则转换(如Ziems等人2022)遗漏上下文细微差别,LLM翻译可能传播本身的方言偏见
  2. 多维度公平性评估框架:

    • 功能:从鲁棒性和公平性两个角度系统量化方言性能差异
    • 核心思路:对比同一模型在SE和AAVE等价输入上的表现,使用配对统计检验(McNemar检验)判断性能差异的统计显著性。鲁棒性衡量模型对输入变异的敏感度,公平性衡量是否对特定语言群体存在系统性劣势
    • 设计动机:仅报告平均分数不够,需要统计显著性检验来排除随机波动
  3. 原因分析实验:

    • 功能:定位方言性能下降的语言学根源
    • 核心思路:设计合成扰动实验和AAVE特征注入实验,逐步引入词汇替换、形态句法变换、会话规范等AAVE特征,观察哪类特征导致最大性能下降
    • 设计动机:区分"表面词汇差异"和"深层语法/语用差异"对模型的影响

损失函数 / 训练策略

本文为评估基准,不涉及模型训练。评估使用准确率指标,算法任务使用pass@1。

实验关键数据

主实验

模型 SE准确率 AAVE准确率 相对下降
GPT-o1 83.2% 74.1% -10.9%
GPT-4o 76.5% 67.8% -11.4%
Claude-3.5-Sonnet 74.3% 65.2% -12.2%
Llama-3.1-70B 68.7% 59.4% -13.5%
Mistral-Large 62.1% 53.6% -13.7%
Phi-3-medium 55.8% 47.2% -15.4%

消融实验

扰动类型 性能下降 说明
词汇替换 -3.2% 仅替换AAVE特有词汇
形态句法变换 -5.7% 引入AAVE语法规则(如双重否定)
完整人工改写 -12.2% 母语者自然改写(含语用和语境)
CoT提示缓解 +2.1% CoT仅部分缓解,差距仍显著

关键发现

  • 几乎所有模型在AAVE上性能显著下降(p<0.05),平均相对下降超10%
  • 算法任务受影响最大(代码相关查询对方言表述敏感),逻辑任务次之
  • 合成扰动无法复现人工改写的性能下降程度,说明方言影响远不止词汇层面
  • CoT提示仅部分缓解问题,表明偏见根植于模型内部而非推理策略
  • 模型规模增大不能消除方言偏见,大模型同样存在显著不公平

亮点与洞察

  • ReDial是首个人工标注的方言推理基准,其核心价值在于"端到端人工"——避免了规则/LLM翻译引入的系统性偏差,为方言公平性研究提供了可靠的ground truth
  • 论文巧妙地将方言改写框架化为"语义鲁棒性测试",将方言公平性问题与对抗鲁棒性研究连接起来,让评估框架有理论基础

局限与展望

  • 仅覆盖AAVE一种方言,未扩展到其他英语方言(如印度英语、新加坡英语)或非英语方言
  • 推理任务以闭式/可判定任务为主,未涵盖开放式生成的方言公平性
  • 缺乏去偏方法的实验验证——发现了问题但未提出解决方案

相关工作与启发

  • vs VALUE (Ziems et al. 2023): VALUE使用规则转换生成AAVE,ReDial使用人工改写,后者更自然且能捕获语用差异
  • vs Hofmann et al. 2024: 他们研究LLM对AAVE的隐性偏见(如种族关联),ReDial关注任务性能的显性差异

评分

  • 新颖性: ⭐⭐⭐⭐ 首个人工标注的方言推理公平性基准
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个模型族和推理任务类别
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,实验设计严谨
  • 价值: ⭐⭐⭐⭐ 揭示了LLM方言歧视这一被忽视的问题