SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models¶
会议: ACL 2026
arXiv: 2604.14672
代码: 无
领域: 社会计算 / AI安全
关键词: 空间性别偏见, LLM公平性, 城市空间, 偏见度量框架, 叙事分析
一句话总结¶
本文提出 SPAGBias 框架,首次系统评估 LLM 在城市微观空间语境中的性别偏见,通过显式偏见、概率偏见和建构偏见三个诊断层揭示了 LLM 中结构化的空间-性别关联模式,并追溯偏见在模型开发全流程中的嵌入与放大。
研究背景与动机¶
领域现状:LLM 正越来越多地应用于城市规划、导航和灾害响应等依赖空间推理的领域。女权主义地理学早已揭示空间并非中性的物理构造,而是社会权力与性别规范的投射——厨房被女性化为照护场所,工作场所和街道则被男性化为权威领域。
现有痛点:已有大量研究记录了 LLM 在职业预测和文本生成中的性别偏见,但空间维度几乎完全被忽视。这个缺口至关重要:空间偏见可能扭曲关键决策,例如基于男性活动模式设计的医疗服务会限制女性获取医疗资源的机会。
核心矛盾:没有系统框架来分析 LLM 如何在微观地理城市语境中编码性别。传统的公共-私人空间二分法过于粗糙,无法捕捉更细粒度的空间-性别映射关系。
本文目标:建立第一个多层次框架来度量 LLM 中的空间性别偏见,回答三个核心问题:LLM 是否表现出系统性空间性别偏见?偏见呈现什么分布模式?偏见如何在生成的叙事中被建构?
切入角度:作者从女权主义地理学的理论基础出发,将社会学中"性别化空间"的概念引入 NLP 偏见研究,设计了涵盖 62 种城市微观空间的分类体系。
核心 idea:通过三层诊断(显式、概率、建构)全面度量 LLM 的空间性别偏见,发现偏见不是简单的公共/私人二分,而是细粒度的微观空间映射,且在模型开发全流程中被嵌入和放大。
方法详解¶
整体框架¶
SPAGBias 框架由三大支柱组成:(1) 62 种城市微观空间分类体系(43 个公共 + 19 个私人),(2) 结构化提示库(含三种提示类型),(3) 三个诊断层用于量化和诊断偏见。输入为 LLM 对空间-性别相关提示的响应,输出为多维度的偏见度量和分析结果。
关键设计¶
-
空间分类体系 (Spatial Taxonomy):
- 功能:将"空间"操作化为分析单位,覆盖城市中最具代表性的微观场所
- 核心思路:构建 62 种城市微观空间,公共空间涵盖交通(公交站、私家车)、休闲(电影院、运动场)、商业(商场、餐厅)、医疗(医院、诊所)等;私人空间覆盖家务劳动(厨房、洗衣房)和休闲娱乐(露台、游戏室)等。分类基于城市地图图例、空间规划文献和 LLM 对空间术语的语义理解
- 设计动机:现有偏见研究通常停留在宏观层面(如国家/地区级别),忽略了日常城市生活中的微观空间差异
-
结构化提示库 (Prompt Library):
- 功能:从不同语言视角引出 LLM 的空间-性别关联
- 核心思路:设计三种提示类型——强制选择提示 (FCPrompt) 要求在男/女之间做二选一;单性别提示 (SGPrompt) 生成单一性别在特定空间的短叙事;共存提示 (CGPrompt) 生成男女在同一空间互动的叙事。每种提示针对 62 个空间重复采样
- 设计动机:单一提示无法全面捕捉偏见——强制选择暴露显式偏好,生成任务则揭示词汇和语义角色层面的深层偏见
-
三层诊断管道 (Multi-Level Diagnosis):
- 功能:从表层到深层全面捕捉空间性别偏见
- 核心思路:显式偏见层通过重复采样和二项检验判断模型是否显著偏好某一性别,用熵偏差指数 (EDI = \(1 - H(p)\)) 量化偏见强度;概率偏见层分析模型对性别 token 的 log-probabilities,区分真正中性和拒绝策略;建构偏见层分析生成叙事中的词汇偏见(优势比 OR)、语义角色偏见(ARG0/ARG1 映射)和叙事角色偏见(领导者/支持者/观察者/依赖者四种角色分配)
- 设计动机:表面回答可能因对齐训练而呈现虚假中性,需要深入到概率和叙事层才能揭示真实偏见
实验设计¶
评估六个代表性模型(GPT-3.5-turbo、GPT-4、Llama3-8B-instruct、Qwen2-7B-instruct、Phi-3-mini、Deepseek-llm-7b-chat),每个空间每模型采样 30 次(温度=1),产生 1,860 个显式偏见数据点;概率偏见直接提取 log-probabilities;建构偏见产生 5,580 个叙事文本。
实验关键数据¶
主实验¶
| 模型 | 显著偏见空间数(/62) | 偏见比例 | EDI方差 |
|---|---|---|---|
| Phi-3 | 62 | 100% | 最高均值,近零方差 |
| GPT-3.5-turbo | >56 | >90% | 中等 |
| Qwen2-7b | >56 | >90% | 中等 |
| Llama3-8b | >56 | >90% | 中等 |
| GPT-4 | ~47 | ~76% | 最低(24.78%拒绝) |
| Deepseek-7b | 32 | 51.6% | 最平衡 |
| 诊断层 | 关键发现 |
|---|---|
| 显式偏见 | 所有6个模型均表现出统计显著的空间性别偏见 |
| 概率偏见 | 仅 Phi-3 表现出传统的"公共-私人"性别分割 |
| 建构偏见-词汇 | 男性叙事偏冷色调负面词("gray","lonely"),女性偏感官丰富词 |
| 建构偏见-语义角色 | GPT-4 在所有空间中系统性赋予男性更高施动性(>0.8 vs ~0.5) |
| 建构偏见-叙事角色 | 私人空间:男=领导者/女=支持者;公共空间:模式反转 |
消融实验¶
| 鲁棒性变量 | 平均MAE | 影响程度 |
|---|---|---|
| 提示格式变化 | 0.15(GPT-4最低) | 中等影响 |
| 选项顺序变化 | 最高MAE | 显著影响 |
| 温度变化(0/0.5/1) | 低 | 影响小 |
| 模型规模变化 | 低 | 影响小 |
关键发现¶
- 性别偏见不是简单的公共-私人二分:仅 Phi-3 表现出经典的"公共=男性、私人=女性"模式。更多模型展现的是细粒度的微观空间映射——男性关联休闲和自主空间(车库、游戏室),女性关联家务劳动和照护空间(厨房、儿童房)
- 偏见在模型开发全流程中嵌入:奖励模型已编码强刻板印象,指令微调仅部分修正,预训练数据本身就存在语料级别的性别-空间共现不平衡
- 模型偏见远超真实世界分布:虽然方向一致,但程度被大幅放大
- 下游任务双重失败:在城市规划(规范性)任务中偏见扭曲决策(GPT-4的OR低至0.00),在用户画像(描述性)任务中无法反映真实分布(准确率仅5%-20%)
亮点与洞察¶
- 首创空间维度的偏见研究:将女权主义地理学理论与计算分析结合,开辟了偏见研究的新维度。62 种微观空间的分类体系是可复用的基础设施
- 三层诊断设计精巧:能区分"真正中性"和"策略性拒绝"——GPT-4 虽然 24.78% 的情况下拒绝回答,但其内部概率分布仍然编码了不对称的性别关联
- 叙事角色分析发现空间依赖的性别动态:私人空间强化传统层级(男性主导),公共空间反转(女性获得叙事突出性),这种空间条件性的角色分配模式是新颖的发现
- "识别但克制"的理想模型标准可迁移到其他偏见领域:模型应在规范性任务中保持中性,在描述性任务中反映真实分布
局限与展望¶
- 空间词汇仅覆盖城市区域,未包括郊区和农村空间,且未对子空间做更细粒度划分(如CEO办公室 vs 员工办公室)
- 仅评估英文文本,不同语言和文化背景下的空间性别偏见模式可能不同
- 基于二元性别范式设计,未涵盖非二元性别群体
- 偏见追溯使用 C4 语料库作为代表,不是所有模型的实际训练数据,因此揭示的是趋势而非因果关系
相关工作与启发¶
- vs 职业性别偏见研究 (Bolukbasi et al., 2016):传统偏见研究关注职业-性别关联,本文扩展到空间-性别关联。空间维度的偏见更隐蔽但对城市规划等应用影响更大
- vs 宏观地理偏见 (Manvi et al., 2024):已有工作关注国家/地区级别的空间偏差,本文深入到城市微观空间级别,发现了更细粒度的模式
- vs 对齐/去偏研究:本文表明 RLHF 和指令微调只是部分缓解偏见,核心关联模式在预训练数据中就已嵌入
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究LLM的空间性别偏见,理论基础扎实
- 实验充分度: ⭐⭐⭐⭐⭐ 六个模型、三层诊断、鲁棒性分析、溯源实验、下游验证,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分内容略显冗长
- 价值: ⭐⭐⭐⭐ 开辟新研究方向,但实际去偏方案尚未提出