Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment¶
会议: ACL 2026
arXiv: 2604.12851
代码: 待确认
领域: LLM 安全 / 价值观
关键词: 文化对齐, 子群体, persona 模拟, 公平性, WVS
一句话总结¶
本文用新加坡的 World Values Survey 子集为案例,构造 20,877 个 (问题, 子群体) 样本,验证 LLM 是否能模拟细粒度人口子群的价值偏好——结果 GPT-4.1 zero-shot 仅 57.4% 准确率,简单 SFT 在 OOD 子群上平均涨 17.4%,但 NMAE 视角下子群差距反而扩大,模型对年轻/男性/华人/基督徒持续偏好。
研究背景与动机¶
领域现状:现有 LLM 对齐范式(RLHF + DPO 等)几乎都把 "human values" 当成一个整体目标,背后往往是西方中心的价值偏好,被批判为 "coloniality of knowledge"。WorldValuesBench 等 benchmark 把对齐分析提升到国家级别,但仍然忽视了一国之内子群体之间的价值分歧。
现有痛点:(1) 国家级 alignment 会让 LLM 看起来对某些子群体(如年轻男性华人基督徒)很有用,但对另一些(如老年马来穆斯林)表现很差甚至冒犯,且这种偏差被 average benchmark 掩盖;(2) 现有 persona-prompt 研究多是模拟"原型"(如"医生"),并未用真实人口学数据校准,往往会引入伪偏差;(3) 子群体之间的价值冲突有多大、能不能用简单方法对齐、对齐后公平性如何变化——三个问题都没系统答案。
核心矛盾:单一全局对齐 vs. 数百个子群体的价值多样性。要么牺牲多样性(一刀切)、要么需要为每个 intersectional persona 收集偏好数据(不 scalable)。
本文目标:(1) 量化映射一个多元社会的价值景观,识别共识与冲突点;(2) 检验简单 SFT 能否泛化到未见的 intersectional persona 和开放式生成;(3) 评估对齐对子群体公平性的影响。
切入角度:选择新加坡作为"多元社会的缩影"——华/马/印三大族裔加佛/穆/基督/印度教及无宗教,地理小但 stratification 维度极丰富。用 WVS Wave 7 的 2012 个新加坡受访者的 214 道价值题为锚定数据。
核心 idea:把"子群体对齐"操作化为 (sex × age × ethnicity × religion) 的 intersectional persona 的 modal answer 预测任务;用结构化数字偏好做 SFT 学到 compositional persona representation,并测试它能否泛化到训练中没见过的 intersection(如 ethnicity × religion)。
方法详解¶
整体框架¶
四阶段方法:(1) 从 WVS 取得 2012 名新加坡受访者 × 214 题的 raw 数据;(2) 用 Modal Diversity Score 量化每题在不同子群间的冲突程度;(3) 构造 20,877 个 (问题, 子群体) 样本,把 50 个 fundamental stratum 划入 Train Set,48 个 unseen intersectional stratum 划入 OOD Eval Set;(4) 在 7 个 ≤8B 开源 LLM 上做 LoRA SFT,评测结构化数字预测 + open-ended 生成两个任务,用 Accuracy/NMAE/Win Rate 三类指标 + Norm. Range / CV 两个公平性指标。
关键设计¶
-
Modal Diversity Score(价值冲突量化):
- 功能:给每个 WVS 题打一个 0–1 分,刻画不同子群之间 modal answer 的多样化程度。
- 核心思路:对一个 stratum(如 sex_x_age),收集所有子群的众数答案,计算这些众数分布的归一化 Shannon 熵:\(\text{Score}_{\text{MD}} = \frac{-\sum_{m\in M}p(m)\log_2 p(m)}{\log_2 (\min(|S|,|C|))}\),其中 \(M\) 是 unique 众数集合,\(p(m)\) 是选众数 \(m\) 的子群比例。0 表示全员共识,1 表示极度分歧。同时用 mean pairwise Wasserstein distance 做 ordinal-aware 复核。
- 设计动机:传统 cultural benchmark 只看"整体 accuracy",无法告诉你哪些话题最值得"子群 aware"对齐。这个分数能直接定位最分裂的话题(如 Religious Values 平均 0.318)和最 unifying 的话题(如 Social Capital 0.084),为后续模型评测提供 prior。
-
Compositional Generalisation Split(关键评测设计):
- 功能:测试模型能否从单轴/二轴 persona 学到 composition 能力,泛化到未见 intersection。
- 核心思路:Train Set 包含 sex、age_group、ethnicity、religion 等 fundamental strata + sex × age、sex × religion、sex × ethnicity 这些 pairwise(共 50 子群 / 10,700 样本);Eval (OOD) Set 包含 age × religion、age × ethnicity、ethnicity × religion 三个 unseen pairwise(共 48 子群 / 10,177 样本)。每个子群至少 30 人才纳入。这强迫模型不能死记 persona-answer 映射,必须学到"把单轴偏好合成 intersection 偏好"的能力。
- 设计动机:直接拿 in-distribution split 测无法区分 memorization 和 generalization;只有当 ethnicity_x_religion 这类组合在训练中完全没出现,accuracy 提升才能归因于 compositional understanding。
-
双视角公平性评测(Acc vs NMAE × Norm. Range vs CV):
- 功能:暴露"准确率涨了但差距也涨了"这种被单一指标掩盖的不公平。
- 核心思路:Norm. Range \(=(P_{\max}-P_{\min})/P_{\max}\) 测极端差距;CV \(=\sigma/\mu\) 测整体离散度。同时用 Accuracy(不感知距离)和 NMAE(感知 ordinal 距离)两套指标。结果发现 SFT 让 Accuracy 的 Norm. Range 从 0.240 降到 0.179(更公平),但 NMAE 的 Norm. Range 从 0.280 升到 0.336(更不公平)。
- 设计动机:Accuracy 把"差 1 档"和"差 5 档"算一样错;NMAE 才能反映真实误差幅度。两套指标的反向变化提示了一个公平性悖论——SFT 把更多子群拉过及格线,但优势子群的精度反而被进一步放大。
损失函数 / 训练策略¶
所有开源模型用 LoRA SFT,learning rate \(1\times 10^{-6}\)(保守,防过拟合),1 epoch,输入是 prompt 描述 persona + question,输出是 modal numerical answer。Open-ended 评测用 Mistral-Small-3.1-24B (INT8) 当 judge 对比 GPT-4.1,两次 swap 顺序消除位置偏差。Win Rate \(\text{WR}_c = (s_{1,c}+s_{2,c})/2\),赢=1、平=0.5、输=0。
实验关键数据¶
主实验¶
7 个开源 + 4 个闭源模型在 OOD split 上的对比(节选):
| 模型 | Acc Base | Acc SFT (Δ) | NMAE Base | NMAE SFT (Δ) | Overall WR Base | Overall WR SFT |
|---|---|---|---|---|---|---|
| Llama-3.1-8B | .514 | .685 (+.171) | .258 | .143 (-.115) | .294 | .320 (+.026) |
| Llama-3.2-3B | .442 | .508 (+.066) | .308 | .238 (-.070) | .230 | .234 (+.004) |
| SEA-LION-v3-8B | .530 | .642 (+.112) | .222 | .158 (-.064) | .428 | .430 (+.002) |
| Qwen2.5-7B | .442 | .661 (+.219) | .243 | .157 (-.086) | .223 | .246 (+.023) |
| Sailor2-8B | .356 | .720 (+.364) | .332 | .125 (-.207) | .217 | .255 (+.038) |
| SeaLLMs-v3-7B | .440 | .696 (+.256) | .256 | .135 (-.121) | .082 | .081 (-.001) |
| Phi-4-mini | .427 | .456 (+.029) | .267 | .256 (-.011) | .175 | .161 (-.014) |
| Open-source 平均 | .450 | .624 (+.174) | .269 | .173 (-.096) | .236 | .247 (+.011) |
| GPT-4.1 | .574 | – | .182 | – | .500 | – |
| GPT-4o | .565 | – | .189 | – | .370 | – |
| GPT-4o-mini | .490 | – | .217 | – | .310 | – |
关键观察:(1) GPT-4.1 zero-shot 仅 57.4%,子群体对齐确实是难任务;(2) SFT 后开源平均涨 17.4 个点,多个模型(Sailor2、SeaLLMs、Llama-3.1)超过 GPT-4.1 的 OOD 表现;(3) SEA-LION-v3 base 最强(地区预训练有效),SFT 后增益最小;(4) open-ended Win Rate 增益较小(+1.1%),但 Value 维度涨 2.2%,说明结构化训练能部分迁移到自由生成。
公平性消融(OOD split)¶
| 模型 | Acc Norm.Range Base→SFT | Acc CV Base→SFT | NMAE Norm.Range Base→SFT | NMAE CV Base→SFT |
|---|---|---|---|---|
| Llama-3.1-8B | .174 → .188 | .056 → .054 | .250 → .426 | .085 → .133 |
| Qwen2.5-7B | .256 → .169 | .089 → .055 | .318 → .352 | .108 → .135 |
| Sailor2-8B | .305 → .145 | .101 → .044 | .228 → .343 | .068 → .129 |
| SeaLLMs-v3 | .276 → .124 | .094 → .037 | .294 → .318 | .108 → .111 |
| Avg | .240 → .179 | .078 → .054 | .280 → .336 | .094 → .116 |
公平性悖论:所有模型 Accuracy 公平性都改善(更多子群被拉过及格线),但 NMAE 公平性几乎全部恶化(优势子群的精度被放大)。
关键发现¶
- GPT-4.1 仍只 57.4%:说明 subgroup-aware alignment 不是 prompt engineering 就能解决,闭源 SOTA 也无法靠简单 persona prompt 完成。
- 预存偏差呈固定模式:所有模型在 base 和 SFT 后都系统性偏好年轻/男性/华人/基督徒 persona,对老年/马来/印度/穆斯林 persona 表现更差,且 SFT 在 NMAE 视角下扩大了这个差距。
- SFT 减少 refusal:原本因安全对齐而拒答的同性恋/家暴等题,SFT 后 refusal 率从 6.66% 降到接近 0——揭示安全对齐与文化模拟之间的 tension。
- Sailor2 涨幅 +36.4%:东南亚多语模型在加入 WVS-SG 数据后增益最大,说明区域预训练 + 区域微调有强协同。
- Religious Values 最分裂(MDS=0.318):印证新加坡宗教多元;Social Capital & Trust 最一致(0.084)。
- LLM judge 校准:Mistral-24B judge 在 Overall 维度与人类的 w-Kappa 是 0.568,与 human-human 的 0.552 相当;但 Persona 维度 judge 不可靠(H-AI w-Kappa 0.318 vs H-H 0.388)。
亮点与洞察¶
- Modal Diversity Score 是个简单可复用的工具:用归一化 Shannon 熵就能量化任何 stratified survey 数据的"子群冲突度",可迁移到其他国家、其他领域(医疗偏好、政治议题、教育观念)。
- Compositional split 是评测 persona generalization 的金标准:用 sex × age + sex × ethnicity 训练,测 age × ethnicity 这种全新组合,是真正的 OOD 测试。这种 split 设计应该成为 persona alignment 评测的标配。
- 公平性悖论给对齐研究敲警钟:subgroup-balanced 训练集 ≠ subgroup-equitable outcome;coarse 指标(accuracy)能掩盖 fine 指标(NMAE)下的不平等加剧。需要在训练时显式加 fairness loss 或上采样劣势子群。
- 结构化训练迁移到 open-ended:仅用数字 modal answer 训练,open-ended 生成的 Value WR 也涨——证明 SFT 更新了模型内部 persona representation 而非表面映射。
局限与展望¶
- 仅以新加坡 WVS Wave 7 为测试床,跨国可推广性需进一步验证。
- 用 modal answer 作监督信号简化了子群内部分布,会"消音"少数 within-subgroup 观点;distributional 对齐是更可取方向。
- 仅尝试 SFT 一种方法,未对比 DPO/GRPO/group-conditioning 等更先进的偏好优化方法。
- 无法完全排除 WVS Wave 7 已被预训练污染(虽然作者用 SFT 大幅涨幅 + GPT-4.1 仍只 57.4% 来反证)。
- Persona criterion 的人类间一致性较低(w-Kappa 0.388),表明"persona 真实性"的定义本身就有主观性。
- 个人补充:modal answer 作为 ground truth 在小子群(N=30–50)上方差很大,可能让某些 OOD 评测结果不稳定。
相关工作与启发¶
- vs WorldValuesBench (Zhao 2024):他们做国家级 value awareness,本文做国家内的 subgroup-level,更细粒度。
- vs CulturalLLM (Li 2024):他们用文化数据做训练,但聚焦国家间差异;本文是国家内的 intersectional 差异。
- vs Whose opinions (Santurkar 2023):他们暴露 LLM 偏好某些 demographic 群体,本文则量化这种偏好并尝试用 SFT 矫正。
- vs RoleLLM (Wang 2024):他们用角色 archetype(小说人物等),本文用 empirically grounded demographic persona。
评分¶
- 新颖性: ⭐⭐⭐⭐ Modal Diversity Score + compositional OOD split + 公平性悖论这三点都有原创性,但单点 SFT 方法本身不新。
- 实验充分度: ⭐⭐⭐⭐⭐ 7 开源 + 4 闭源 × 2 任务 × 多 fairness 指标 × 人类校准 LLM judge,相当扎实。
- 写作质量: ⭐⭐⭐⭐⭐ Figure 1 总览图清晰,定义/公式/伦理讨论都到位,限制写得诚实。
- 价值: ⭐⭐⭐⭐⭐ 对"文化对齐"研究是一记 wake-up call——平均表现涨不等于公平,SFT 会放大预存偏差;可直接指导后续 fairness-aware alignment 工作。