Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora¶

信息	内容
会议	ACL 2025
arXiv	2406.13677
代码	GitHub
领域	NLP / 偏差检测 / 多语言
关键词	性别表征偏差, 有语法性别语言, LLM偏差检测, 语料分析, 偏差缓解

一句话总结¶

提出利用LLM的语境理解能力来检测和量化有语法性别语言（如西班牙语、巴伦西亚语）训练语料中的性别表征偏差（representation bias），发现严重的男性主导不平衡，并验证了通过反向偏差数据进行持续预训练可有效缓解模型输出偏差。

问题定义：性别表征偏差（gender representation bias）指文本中对不同性别个体引用频率的不平等。这种训练数据中的上游偏差是模型偏差传播和放大的源头。
现有不足：(1) 已有研究主要关注刻板印象偏差（stereotyping bias，将特定角色与性别关联），而非表征偏差（频率不平等）；(2) 现有方法（如gender polarity）专为英语设计，使用预定义的性别词列表匹配，无法处理有语法性别的语言——因为这些语言中所有名词都有语法性别（如西班牙语"el coche"是阳性"car"但非人类引用）
为何重要：全球约38%人口使用有语法性别的语言。在这些语言中，阳性复数形式通常默认代表混合性别群体（如西班牙语"los profesores"既指男教师也泛指所有教师），这种语言惯例本身就构成隐性的性别表征偏差。
核心动机：需要一种能区分"指代人类的名词/代词"与"非人类名词"的方法，并正确分类其语法性别——这超越了简单的词表匹配，需要语义理解能力。

三步流水线，利用LLM的语境理解能力：

最终计算 \(L_{P,M} : L_{P,F}\) 比率来量化性别表征偏差。

LLM-based方法：通过精心设计的prompt + few-shot示例，让LLM在单次查询中完成名词/代词识别、人类引用判断、语法性别分类三个任务。逐句处理文本，充分利用LLM的上下文语义理解能力。
排除形容词：形容词的性别标记通常依赖关联名词，不独立传达人类引用信息，排除可降低复杂度。
持续预训练验证偏差传播：构建三种合成5000句数据集（male-biased/female-biased/balanced），对三个开源LLM进行QLoRA持续预训练（<20步），验证训练数据偏差如何传播到模型输出。

持续预训练使用标准语言模型损失（next token prediction），配合QLoRA进行参数高效训练。核心不在于训练新模型，而在于验证偏差传播假说。