Mitigating Extrinsic Gender Bias for Bangla Classification Tasks¶

会议: ACL 2026 Findings
arXiv: 2411.10636
代码: GitHub
领域: 多语言/公平性
关键词: 性别偏见缓解、孟加拉语NLP、KL散度正则化、反事实数据增强、分类公平性

一句话总结¶

针对孟加拉语预训练模型在下游分类任务中的外在性别偏见，提出 RandSymKL 方法，通过随机化交叉熵损失和对称 KL 散度联合优化，在保持分类准确率的同时有效缩小性别间预测差异。

研究背景与动机¶

领域现状：大模型虽然能力强，但在孟加拉语等低资源语言中部署成本过高，因此实际应用中更多使用 BERT、ELECTRA 等任务特定的预训练语言模型（PLM）进行情感分析、仇恨言论检测等分类任务。

现有痛点：这些 PLM 对男性相关和女性相关文本会产生不一致的预测结果——即"外在性别偏见"（extrinsic gender bias）。例如，一个仇恨言论检测模型可能将女性中心的句子正确分类为"辱骂"，却将语义完全等价的男性中心句子误判为"正常"。

核心矛盾：现有的偏见研究主要聚焦在英语和内在偏见（模型嵌入层面），对孟加拉语的外在偏见（下游任务预测层面）几乎没有系统性研究。此外，孟加拉语的性别编码方式更加隐式（通过社会角色、亲属称谓、人名体现），模型更难处理反事实替换后的语义一致性。

本文目标：(1) 构建孟加拉语性别偏见评估基准；(2) 提出一种通用的去偏训练策略，在保持分类性能的同时降低性别间预测差异。

切入角度：作者观察到，如果在训练时随机选择男性或女性版本计算交叉熵损失，同时用对称 KL 散度拉近两个版本的输出分布，模型可以学到性别无关的分类表征。

核心 idea：用随机化交叉熵 + 对称 KL 散度联合优化（RandSymKL），在输出分布层面对齐性别变体的预测，无需依赖 token 级别的性别标记。

方法详解¶

整体框架¶

训练时同时输入男性中心文本和对应的女性中心文本，分别获得输出概率分布 \(P_{\text{male}}\) 和 \(P_{\text{female}}\)，然后通过联合损失函数同时优化分类准确率和分布对齐。推理时只需输入单个文本，无需生成性别对。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始文本"] --> B["反事实数据构造<br/>573 性别词对词典 + NER 换名 + 专家审核"]
    B --> C["男 / 女文本对"]
    C --> D["预训练模型 PLM"]
    D --> E["P_male 分布"]
    D --> F["P_female 分布"]
    E --> G["随机化交叉熵损失<br/>每步随机选一个版本算 CE"]
    F --> G
    E --> H["对称 KL 散度正则化<br/>双向 KL 拉近两分布"]
    F --> H
    G --> I["联合损失 L_CE + λ·L_KL"]
    H --> I
    I --> J["性别无关分类器（推理只输入单文本）"]

关键设计¶

1. 反事实数据构造：用语言学词典造出语义等价、性别相反的文本对

孟加拉语没有语法性别，性别信息藏在社会角色、亲属称谓和人名里，简单的逐词替换既覆盖不全，又会被一词多义和拼写变体绊倒——比如 dada 既能指"哥哥"也能指"爷爷"。为此作者构建了一个包含 573 个性别词对的孟加拉语词典（如"儿子/女儿""哥哥/姐姐"），再结合 NER 替换文本中的人名，最后经语言学专家人工审核确保替换后的句子语义一致。这样得到的男/女文本对既用于偏见评估，也作为训练时的成对输入，构成整个去偏流程的数据基础。

2. 随机化交叉熵损失：每步随机挑一个性别版本算 CE，避免模型偏向某一性别的表达分布

如果训练时总是固定用男性版本的 logits 计算交叉熵，模型会隐式地把男性文本的分布当成"默认"，从而对女性文本产生系统性偏差。这里的做法是每个训练步随机在男性版本 \(\mathbf{z}_1\) 和女性版本 \(\mathbf{z}_2\) 之间二选一来算标准交叉熵，而不是钉死某一个版本。随机化把"哪个性别参与监督"变成了无偏的事件，模型也就学不到对单一性别的偏好。

3. 对称 KL 散度正则化：显式把两个性别版本的预测分布往一起拉

光靠随机化只能让监督信号无偏，却不能保证模型对同一句话的男女版本给出一致预测。于是作者在损失里加一项对称 KL，惩罚两个方向上的分布不对称：

\[\mathcal{L}_{\text{KL}} = \text{KL}(P_{\text{male}} \| P_{\text{female}}) + \text{KL}(P_{\text{female}} \| P_{\text{male}})\]

之所以用双向求和而非单向 KL，是因为单向 KL 本身不对称、会偏袒被当作参考的那一侧；对称形式确保模型不向任何一个性别方向倾斜，在输出概率层面把性别变体真正对齐。

损失函数 / 训练策略¶

总损失为 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + \lambda \cdot \mathcal{L}_{\text{KL}}\)，其中 \(\lambda\) 控制去偏强度。训练使用 batch size 4，学习率 \(1 \times 10^{-4}\)，Adam 优化器，15 个 epoch 后根据验证集调整 dropout 再微调 3-5 个 epoch。

实验关键数据¶

主实验¶

任务	方法	平均准确率	准确率差距(AG)	FairScore
全部4任务	OSI (未微调)	56.17%	3.39%	22.06%
全部4任务	FOD (仅微调)	91.10%	2.50%	5.97%
全部4任务	Token Masking	87.46%	0.00%	0.00%
全部4任务	FOA (数据增强)	90.46%	0.32%	3.16%
全部4任务	CSD (余弦相似)	90.58%	1.10%	3.31%
全部4任务	RandSymKL (本文)	90.66%	0.29%	1.69%

消融实验¶

配置	平均FairScore	平均AG	说明
RandSymKL (完整)	1.69%	0.29%	完整模型
NonRandSymKL_M (不随机化)	2.31%	0.52%	去掉随机化，CE只用男性版本
AvgSymKL_MF (平均logits)	2.30%	0.33%	用平均logits替代随机选择
Token Masking	0.00%	0.00%	完全去偏但准确率降3%

关键发现¶

RandSymKL 在排除 Token Masking 的情况下，FairScore 最低（1.69%），比最强基线 AvgSymKL_MF 低 0.61 个百分点，且整体统计显著（\(p = 0.012\)）
Token Masking 虽然可以完全消除偏见（FairScore = 0），但准确率代价过大（87.46% vs 90.66%）
随机化是关键——去掉随机化（NonRandSymKL_M）后 FairScore 从 1.69% 升至 2.31%
在 EOD 和 SPD 等群组公平性指标上，RandSymKL 同样表现最优

亮点与洞察¶

随机化+对称KL的组合简洁有效：不需要修改模型结构或引入额外模型，仅通过训练策略改变即可实现去偏，方法可以直接迁移到其他语言和分类任务
573个性别词对词典：这是孟加拉语性别偏见研究的重要资源，考虑了一词多义和文化特定的性别角色表达
输出分布对齐而非嵌入对齐：相比 CSD 在嵌入空间做余弦相似度约束，RandSymKL 在输出概率层面对齐更直接有效

局限与展望¶

仅在4个二分类任务上验证，未涉及多分类、序列标注等更复杂场景
孟加拉语的性别编码很大程度依赖上下文（如亲属关系链），当前词典方法可能遗漏部分隐式性别信息
实验仅使用 BERT 和 ELECTRA 级别模型，未验证在更大模型上的效果
未来可以扩展到其他低资源语言（如印地语、泰米尔语），验证方法的跨语言泛化性

评分¶

新颖性: ⭐⭐⭐ 方法组件都不新，但组合和应用场景（孟加拉语去偏）有价值
实验充分度: ⭐⭐⭐⭐ 4个任务、多个基线、统计显著性检验和消融实验
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细
价值: ⭐⭐⭐ 对低资源语言公平性研究有参考价值，方法可迁移