ConflictScope: Generative Value Conflicts Reveal LLM Priorities¶
会议: ICLR 2026
arXiv: 2509.25369
代码: GitHub
领域: LLM/NLP
关键词: 价值冲突, 价值排序, 开放式评估, Bradley-Terry模型, 系统提示引导
一句话总结¶
提出ConflictScope——自动化价值冲突场景生成与评估流水线:给定任意价值集合,自动生成价值对之间的冲突场景,通过模拟用户的开放式交互(而非选择题)评估LLM的价值优先级排序;发现模型在开放式评估中从"保护性价值"(如无害性)显著转向"个人价值"(如用户自主性),系统提示可使对齐目标排序提升14%。
研究背景与动机¶
价值对齐的普遍需求:LLM被广泛部署于日常任务,理解其行为支持哪些价值观至关重要。现有对齐研究通过宪法(constitution)或人类反馈(RLHF)隐式嵌入价值,但很少研究价值之间的优先级排序。
现有数据集缺乏价值冲突:HH-RLHF和PKU-SafeRLHF等对齐数据集中约85%的样本不涉及任何宪法原则之间的冲突(Buyl et al., 2025)。特定价值对之间的冲突更加稀缺,导致无法系统研究LLM在价值冲突下的行为。
已有道德困境研究的生态效度不足: - (1) 先前工作将LLM视为第三方观察者而非道德行为主体→无法反映部署时的真实情况 - (2) 多使用选择题评估→对评估设置高度敏感(Khan et al., 2025)且泛化性差(Balepur et al., 2025) - (3) 缺乏自上而下(top-down)的系统化生成→无法保证所有价值对的覆盖
选择题 vs 开放式评估的差异:选择题测量的是"表达偏好"(expressed preferences),而开放式交互测量的是"显示偏好"(revealed preferences)→两者可能存在显著差异→需要更接近真实部署的评估方式。
价值引导的实际需求:开发者希望模型能被引导至特定价值排序(如OpenAI Model Spec定义了优先级层级),但缺乏评估引导有效性的工具。
Bradley-Terry框架的适用性:将每个场景中模型的行动选择视为两个价值的配对比较,通过Bradley-Terry模型拟合所有场景的配对偏好→产生全局价值排序→支持跨模型、跨设置比较。
方法详解¶
整体框架¶
ConflictScope 要解决的核心问题是:现有对齐数据集里几乎不含价值冲突,而仅有的冲突评估又多用选择题、把模型当第三方观察者,离真实部署很远。它的应对是一条端到端流水线,把"造冲突—筛冲突—测行为—排座次"四件事串起来。给定一组用户自定义的价值,系统先采样一对价值,由强模型自上而下地批量生成两者冲突的场景,再用一个多维度的 LLM 评委把不够真实、不够刁钻、或根本不构成冲突的场景过滤掉;随后让目标模型以"道德行为主体"身份,在模拟用户的开放式对话里真正做出选择,并把它在大量场景上的选择当作一次次两两比较,聚合成整个价值集合上的全局优先级排序。最终输出既是该模型的价值排序,也是一个可插拔系统提示来测"能把排序拉动多少"的沙盒。
这里"冲突"有严格定义:每个场景形式化为四元组 \((d, A, V_1, V_2)\),其中 \(d\) 是场景描述,\(A=\{a_1, a_2\}\) 是两个候选行动,值函数 \(V_i: D \times A \to A\) 把场景映射到它所推荐的行动,并强制 \(V_1(d,A) \neq V_2(d,A)\)——两个价值推荐的行动必须相反,模型被逼到"必须二选一",无法两全。整条流水线(生成→过滤→评估)就是围绕产出并验证满足这个约束的场景而设计的。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
IN["用户自定义价值集<br/>采样价值对 (V₁, V₂)"] --> GEN
subgraph GEN["两阶段冲突场景生成"]
direction TB
S1["阶段一:4 模板轮换<br/>生成冲突摘要"] --> DEDUP["句向量去重<br/>(MiniLM,cos≥0.8 丢弃)"]
DEDUP --> S2["阶段二:展开为完整场景<br/>+用户画像+两候选行动"]
end
GEN --> FILTER["6 维 LLM-as-Judge 过滤<br/>(GPT-4.1,6 项全过才保留)"]
FILTER --> EVAL["开放式评估<br/>模拟用户↔目标模型<br/>评委判定支持哪个行动"]
EVAL --> BT["Bradley-Terry 拟合<br/>全局价值排序 R"]
BT --> OUT["模型价值优先级排序"]
BT -->|替换系统提示重跑| STEER["引导有效性度量"]
关键设计¶
1. 两阶段冲突场景生成:先立骨架再填血肉,并主动制造严重程度的多样性
直接让模型一口气写完整冲突场景,往往会偏向"不作为"或写得千篇一律,也难保证产出真满足上面四元组的对立约束。ConflictScope 因此拆成两阶段:第一阶段给定两个价值的描述和部署环境,提示 Claude 3.5 Sonnet 只生成高层摘要——用户背景、行动机会、以及两个行动各自的收益与代价;这一步刻意用 4 种提示模板(轻微收益 / 强收益 / 轻微伤害 / 强伤害)轮换,既压制模型偏向"不作为"的倾向,又让场景覆盖现实中不同严重程度的混合。摘要生成后用句向量模型 all-MiniLM-L6-v2 编码,与已有场景余弦相似度 ≥ 0.8 的直接丢弃以去重。第二阶段再把每条留下的摘要展开成完整场景描述、用户画像,以及两个分别支持其中一个价值的候选行动。先骨架后血肉的好处是:摘要阶段保证了多样性与覆盖,展开阶段保证了每个场景描述都足够具体、不空泛。
2. 六维 LLM-as-Judge 过滤:把"看似冲突但其实没冲突"的场景剔掉
生成出来的场景良莠不齐:有的根本不会真实发生、有的两个行动其实能同时做、有的有明显共识答案算不上两难。ConflictScope 用一个与生成模型不同的强模型 GPT-4.1 当评委,对每个场景在 6 个维度做二分类,只保留 6 项全过的场景:场景真实性(能否真实发生、LLM 介入是否合理)、场景具体性(描述是否充分展开、无模糊或占位实体)、行动可行性(纯文本 LLM 能否执行两个行动)、行动互斥性(两个行动是否确实无法同时做,对应四元组的对立约束)、行动价值导向性(每个行动是否真的对应预期的那个价值)、真正两难性(是否存在明显共识,从而排除假困境)。这套判断经 Prolific 众包工人标注验证,在所有维度上都达到高精确率,因此可放心用自动过滤替代人工。消融显示过滤会让场景的"观察一致性"进一步下降(更难),印证它确实筛出了更刁钻的两难。
3. 开放式评估:测"做了什么"而非"说会做什么"
这是与选择题评估最本质的区别,也是本文核心发现的来源。评估时由 GPT-4.1 扮演用户,依据场景和用户画像生成自然的用户提示;关键在于目标模型只收到这条用户提示、看不到场景上下文,然后自由生成一段文本回复,更贴近真实部署里模型作为行为主体的处境。回复写完后再由评委 LLM 判定它更接近哪个候选行动,从而确定模型在该场景实际支持了哪个价值。评估限制为单轮交互;评委与人类标注者的 Cohen's Kappa 达 0.62,属强一致性。这一步测的是"显示偏好"(revealed preference,做了什么),而把同一场景转成选择题测的是"表达偏好"(expressed preference,声称会做什么)——两者的系统性差距,正是本文要揭示的现象。
4. Bradley-Terry 全局排序与引导有效性度量:把零散选择变成可比的优先级,并量化系统提示的撬动力
单个场景里模型选 \(a_1\) 还是 \(a_2\),等价于在 \(V_1\) 和 \(V_2\) 之间做了一次配对比较,"赢家"是被选中行动所对应的那个价值。把目标模型在所有场景上的这些配对偏好喂给 Bradley-Terry 模型拟合,就能得到整个价值集合上的一个全局排序 \(R\),且结果可跨模型、跨评估设置直接比较——"选择题排序 vs 开放式排序"的偏移因此能被定量刻画。在此基础上,本文进一步把该排序当作可干预对象:开发者常想用系统提示把模型引导到目标排序 \(R_t\),需要一把尺子量效果。定义对齐度 \(a(R, R_t)\) 为模型选择与 \(R_t\) 中高优先级价值一致的场景比例,先用默认状态测出 \(R_d\),再换上描述 \(R_t\) 的系统提示重跑得到 \(R_s\),引导效果定义为相对默认状态的归一化提升:
分母 \(1 - a(R_d, R_t)\) 是"还能改进的空间",所以该指标读作"在所有原本未对齐的场景里,被系统提示成功掰过来的比例"——既不会因默认就已高度对齐而虚高,也能横向比较不同模型的可引导性。
整套流水线在三套价值集合上被实例化,覆盖从经典 HHH 到个人/保护性价值再到 OpenAI Model Spec 的不同伦理标准:
| 价值集合 | 包含价值 | 场景数 |
|---|---|---|
| HHH | 有用性、无害性、诚实性 | 1109 |
| Personal-Protective | 自主性、真实性、创造力、赋权 vs 责任、无害性、合规、隐私 | 1187 |
| ModelSpec | 无仇恨、公平、客观、诚实、不居高临下、清晰 | 602 |
实验关键数据¶
表1:ConflictScope消融实验¶
| 变体 | 观察一致性(↓) | Likert差异率(↑) |
|---|---|---|
| Full (ConflictScope) | 0.786±0.007 | 0.801±0.017 |
| Unfiltered | 0.824±0.003 | 0.818±0.008 |
| Single-stage | 0.898±0.004 | 0.854±0.011 |
| Direct | 0.852±0.004 | 0.830±0.011 |
过滤使观察一致性降低3.8%(更具挑战性)且Likert差异率无显著下降;两阶段生成比单阶段降低7.4%一致性→更困难的场景。
表2:与现有数据集的比较(Pareto最优)¶
ConflictScope的三个价值集变体在"观察一致性"和"Likert差异率"两个指标上均为Pareto最优: - vs 道德决策数据集(DailyDilemmas, CLASH等)→观察一致性最低(最具挑战性) - vs 对齐数据集(HH-RLHF, PKU-SafeRLHF)→后者一致性更低但Likert差异率极低→说明分歧来自模型对相似选项的"无所谓"而非真正困难抉择
图4:选择题 vs 开放式评估的价值排序偏移¶
Personal-Protective价值集: - 选择题评估中:保护性价值平均排名1.7(高优先级) - 开放式评估中:保护性价值平均排名4.5(低优先级) - 所有模型(除Claude外)在开放式评估中显著转向个人价值 - HHH集中类似趋势:选择题→无害性>有用性;开放式→有用性>无害性
图5:系统提示引导效果¶
- 平均归一化效果量 = 0.145(14.5%未对齐场景被成功引导)
- 仅1/14模型在任何价值集上出现显著负效果
- OLMo-2-32B最易引导(0.27),Claude Haiku 3.5最难引导(0.01)
- HHH和Personal-Protective上引导效果优于ModelSpec(后者原则重叠较大)
关键发现¶
-
选择题与开放式评估存在系统性偏差:模型在选择题中声称优先保护性价值(无害性),但在开放式交互中实际行为转向个人价值(用户自主性、有用性)→"说的和做的不一样"→强调生态有效评估的重要性。
-
ConflictScope生成的场景比现有数据集更具道德挑战性:在Pareto最优意义上同时实现低模型间一致性和高偏好强度→真正迫使模型做出艰难权衡。
-
系统提示可中等程度地引导价值排序:14%的效果量表明系统提示是可行但不完美的引导手段→更强的干预(如微调)可能需要。
-
Claude模型在两种评估设置间最一致:暗示不同的对齐训练策略导致不同的"表达-行为"一致性→对齐质量的新维度。
-
隐私和真实性价值最不受评估方式影响:可能因为这两个价值在行为层面的体现与选择题中的表达更一致。
亮点与洞察¶
- "表达偏好 vs 显示偏好"的概念迁移:巧妙借鉴经济学中的经典区分,第一次系统地应用于LLM价值对齐评估→揭示了选择题评估的根本局限性。
- 自上而下的场景生成:不同于先生成场景再标注价值的自下而上方法→保证了每对价值都有充分的冲突覆盖→适合系统化评估。
- 框架通用性:ConflictScope接受任意用户定义的价值集合→可适配不同社区的伦理标准→实用性强。
局限性¶
- 单轮交互:仅评估单轮对话→真实部署中的多轮交互可能表现不同。
- 依赖LLM-as-Judge:场景过滤和行动判定均依赖GPT-4.1→判断偏差可能系统性影响结果。
- 英文中心:所有场景均为英文→跨语言/跨文化价值优先级可能不同。
- 效果量有限:系统提示仅14%的引导效果→对需要严格安全保障的场景可能不够。
相关工作对比¶
| 维度 | ConflictScope | DailyDilemmas (Chiu 2025a) | MoralChoice (Scherrer 2023) |
|---|---|---|---|
| 场景来源 | 自上而下LLM生成 | LLM生成+人工策划 | LLM生成 |
| 评估方式 | MCQ+开放式 | 仅MCQ | 仅MCQ |
| 价值集合 | 任意用户定义 | 预定义分类 | 预定义分类 |
| 模型角色 | 道德行为主体 | 第三方观察者 | 第三方观察者 |
| 全局排序 | Bradley-Terry | 无 | 无 |
| 引导评估 | 有 | 无 | 无 |
vs AIRiskDilemmas (Chiu 2025b):后者也用Bradley-Terry但仅MCQ评估+固定价值集→ConflictScope更通用且提供开放式评估。
评分¶
- 新颖性: ⭐⭐⭐⭐ 开放式价值冲突评估+表达vs显示偏好的系统研究,概念新颖
- 实验充分度: ⭐⭐⭐⭐ 14个模型×3个价值集+消融+人工验证+引导实验
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,实验设计严谨,形式化完备
- 价值: ⭐⭐⭐⭐ 为LLM价值对齐评估提供了重要的新基准和方法论