ReDial: Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks¶

会议: ACL 2025
arXiv: 2410.11005
代码: 有
领域: AI安全 / 公平性
关键词: dialect fairness, AAVE, reasoning robustness, LLM bias, benchmark

一句话总结¶

本文构建了首个高质量人工标注的标准英语-AAVE平行推理基准ReDial（1216对），系统评估LLM在方言输入下的公平性与鲁棒性，发现几乎所有主流模型在AAVE查询上性能显著下降超过10%。

研究背景与动机¶

领域现状：LLM评估基准通常使用标准英语构建（如HumanEval、GSM8K），忽略了语言内部的方言变异。AAVE全球约3300万人使用，约80%的非裔美国人使用AAVE。

现有痛点：现有方言偏见研究主要集中在语言分析和社会分析任务上，对推理任务（算法、数学、逻辑）的方言公平性几乎未被研究。现有方言转换方法要么依赖预定义规则（遗漏语境细微差别），要么使用LLM翻译（可能带有待检验的偏见）。

核心矛盾：方言使用者被迫切换到标准英语才能获得LLM的最佳服务，这本质上是一种语言歧视。推理任务中语义等价的方言输入不应导致性能下降。

本文目标 (1) 构建高质量人工标注的SE-AAVE平行推理基准；(2) 系统量化主流LLM在方言输入下的性能差异；(3) 分析性能下降的语言学根源。

切入角度：雇佣AAVE母语者（包括计算机背景专家）手动改写7个流行SE推理基准，确保语义等价但保持方言特征，避免规则转换和LLM翻译的偏见。

核心 idea：通过人工标注的方言平行推理基准，客观量化LLM对非标准方言的不公平服务。

方法详解¶

整体框架¶

ReDial包含1216个完全标注的SE-AAVE平行提示对，涵盖4个推理类别：算法（25.7%，来自HumanEval和MBPP）、逻辑（29.8%，来自LogicBench和Folio）、数学（24.7%，来自GSM8K和SVAMP）、综合推理（19.7%，来自AsyncHow）。每个实例由AAVE母语者手动改写，保持原始意图、含义和ground truth不变。

关键设计¶

人工方言改写流程:
- 功能：生成高质量、语义等价的AAVE版本推理题目
- 核心思路：雇佣AAVE母语者（而非规则转换或LLM翻译），确保改写自然地融入AAVE的形态句法特征和语境规范。包含双轮质检：AAVE专家审核语言真实性 + 计算机专家验证逻辑等价性
- 设计动机：规则转换（如Ziems等人2022）遗漏上下文细微差别，LLM翻译可能传播本身的方言偏见
多维度公平性评估框架:
- 功能：从鲁棒性和公平性两个角度系统量化方言性能差异
- 核心思路：对比同一模型在SE和AAVE等价输入上的表现，使用配对统计检验（McNemar检验）判断性能差异的统计显著性。鲁棒性衡量模型对输入变异的敏感度，公平性衡量是否对特定语言群体存在系统性劣势
- 设计动机：仅报告平均分数不够，需要统计显著性检验来排除随机波动
原因分析实验:
- 功能：定位方言性能下降的语言学根源
- 核心思路：设计合成扰动实验和AAVE特征注入实验，逐步引入词汇替换、形态句法变换、会话规范等AAVE特征，观察哪类特征导致最大性能下降
- 设计动机：区分"表面词汇差异"和"深层语法/语用差异"对模型的影响

损失函数 / 训练策略¶

本文为评估基准，不涉及模型训练。评估使用准确率指标，算法任务使用pass@1。

实验关键数据¶

主实验¶

模型	SE准确率	AAVE准确率	相对下降
GPT-o1	83.2%	74.1%	-10.9%
GPT-4o	76.5%	67.8%	-11.4%
Claude-3.5-Sonnet	74.3%	65.2%	-12.2%
Llama-3.1-70B	68.7%	59.4%	-13.5%
Mistral-Large	62.1%	53.6%	-13.7%
Phi-3-medium	55.8%	47.2%	-15.4%

消融实验¶

扰动类型	性能下降	说明
词汇替换	-3.2%	仅替换AAVE特有词汇
形态句法变换	-5.7%	引入AAVE语法规则（如双重否定）
完整人工改写	-12.2%	母语者自然改写（含语用和语境）
CoT提示缓解	+2.1%	CoT仅部分缓解，差距仍显著

关键发现¶

几乎所有模型在AAVE上性能显著下降（p<0.05），平均相对下降超10%
算法任务受影响最大（代码相关查询对方言表述敏感），逻辑任务次之
合成扰动无法复现人工改写的性能下降程度，说明方言影响远不止词汇层面
CoT提示仅部分缓解问题，表明偏见根植于模型内部而非推理策略
模型规模增大不能消除方言偏见，大模型同样存在显著不公平

亮点与洞察¶

ReDial是首个人工标注的方言推理基准，其核心价值在于"端到端人工"——避免了规则/LLM翻译引入的系统性偏差，为方言公平性研究提供了可靠的ground truth
论文巧妙地将方言改写框架化为"语义鲁棒性测试"，将方言公平性问题与对抗鲁棒性研究连接起来，让评估框架有理论基础

局限与展望¶

仅覆盖AAVE一种方言，未扩展到其他英语方言（如印度英语、新加坡英语）或非英语方言
推理任务以闭式/可判定任务为主，未涵盖开放式生成的方言公平性
缺乏去偏方法的实验验证——发现了问题但未提出解决方案

评分¶

新颖性: ⭐⭐⭐⭐ 首个人工标注的方言推理公平性基准
实验充分度: ⭐⭐⭐⭐ 覆盖多个模型族和推理任务类别
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，实验设计严谨
价值: ⭐⭐⭐⭐ 揭示了LLM方言歧视这一被忽视的问题