Benchmarking Overton Pluralism in LLMs¶

会议: ICLR 2026
arXiv: 2512.01351
代码: https://github.com/elinorpd/overtonbench
领域: 人类理解 / LLM对齐 / 多元化表征
关键词: Overton多元主义, LLM偏见, benchmark, 观点覆盖, 自动化评估

一句话总结¶

提出 OvertonBench 框架，通过大规模人类研究（1208名美国代表性参与者、60个主观问题、8个LLM）将 Overton 多元主义形式化为集合覆盖度指标 OvertonScore，发现当前所有模型得分仅 0.35–0.41（理论上限为 1.0），并构建了与人类判断高度相关（ρ=0.88）的自动化评测工具。

研究背景与动机¶

领域现状：LLM 已广泛影响政治讨论、教育和日常交互。传统对齐策略通常聚合多样化偏好，将真正的分歧压缩为单一规范立场（价值一元论），导致少数群体的观点被抹除。

现有痛点： - 现有的政治偏见评估（如 Model Slant）仅衡量模型是否倾向某一方，无法量化模型是否覆盖了多元观点 - 看似"中立"的回答可能通过省略少数派观点来实现中立，实际上加剧了表征伤害 - 追求政治中立被证明是不可能的，且并非总是可取的

核心矛盾：LLM 应该做的不是寻求共识，而是呈现公共话语中"Overton 窗口"内的多种合理观点；但目前缺乏系统化的度量方法来衡量模型在这方面的表现。

本文目标 - 如何定义和量化 Overton 多元主义？ - 当前 LLM 在多元观点表征方面做得如何？ - 如何在不反复进行昂贵人类研究的情况下进行可扩展评估？

切入角度：基于 Sorensen 等人对多元主义的三级分类（Overton、可引导、分布式），聚焦最实用的 Overton 多元主义——模型应在单次回复中同时呈现多个合理观点。

核心 idea：将多元对齐从规范性目标转化为可测量的集合覆盖基准，通过参与者聚类发现观点群体，再评估模型回复对各群体的覆盖率。

方法详解¶

整体框架¶

这篇论文要把"模型回复有没有覆盖多元观点"这件模糊的事变成一个可计算的分数：输入是 60 个主观性问题，输出是每个 LLM 的 OvertonScore。整条构建流水线分三步走。第一步做人类数据收集：让 1208 名参与者针对每个问题写下自己的自由观点、给 8 个 LLM 的回复逐一打代表性分（1–5），并对彼此的观点互投 Agree/Disagree/Neutral。第二步把这份稀疏的投票矩阵聚成若干观点群体，每个群体就是一个离散观点，一道题的全部群体合起来就是它的"Overton 窗口"\(W(x)\)。第三步逐群体判定：如果某群体的人觉得模型回复代表了自己，这个观点就算被覆盖，被覆盖观点的比例就是这道题的分数，所有题平均即 OvertonScore。最后，为了不必每评一个新模型都重做昂贵的人类研究，论文再训练一个 LLM 裁判来复现人类打分，作为可扩展的自动化代理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["60 个主观问题<br/>(Model Slant + PRISM)"] --> H["人类研究（1208 人）<br/>写自由观点 + 给 8 个 LLM 回复打代表性分(1-5)<br/>+ 对彼此观点互投 Agree/Disagree/Neutral"]
    H --> C["投票聚类<br/>k-means 变体 + Silhouette 选 k<br/>观点群体 = Overton 窗口 W(x)"]
    C --> M["OvertonScore 集合覆盖<br/>群体代表性均分 ≥4 即覆盖<br/>各题 Coverage 取平均"]
    M --> S["每个 LLM 的 OvertonScore<br/>(+ 占比加权变体)"]
    M --> A["自动化基准<br/>Gemini 2.5 Pro (FS+FR) 预测打分<br/>复现模型排名 ρ=0.88"]

关键设计¶

1. 投票聚类：让人类的真实分歧自己定义"有哪些观点"

要算覆盖率，得先知道一道题到底有哪几种观点——这一步定义了整个 Overton 窗口 \(W(x)\)，也最容易被算法偏见污染。本文不用语义相似度、NLI 或让 LLM 来归类，而是让参与者互相对彼此的自由回答投 Agree/Disagree/Neutral，再在这份稀疏的投票矩阵上跑专为区分观点群体设计的 k-means 变体（沿用 Small et al. 2021），并对每道题用 Silhouette 分数在多组超参与随机种子里动态选出最佳群体数 \(k\)。这样划分出来的群体直接反映人们如何理解、如何分歧彼此的观点，而不是外部 NLP pipeline 预设的分类，从源头上避开了模型自身偏见混入观点定义的问题。

2. OvertonScore 指标：把"多元"定义成对观点窗口的集合覆盖率

有了 \(W(x)\) 之后还得给"覆盖得多全"一个绝对刻度——以往的政治偏见评测（如 Model Slant）只能做 pairwise 比较，说"A 比 B 更多元"，却不知道离理想还差多少。本文把它形式化成集合覆盖：对观点 \(y\) 所对应的群体，若该群体对模型回复的平均代表性评分 ≥4（5 分制），就认为这个观点被覆盖（记 \(y \in \mathcal{M}(x)\)）。单题覆盖率定义为

\[\text{Coverage}(\mathcal{M}, x) = \frac{1}{|W(x)|} \sum_{y \in W(x)} \mathbb{1}\{y \in \mathcal{M}(x)\}\]

OvertonScore 即所有问题 Coverage 的平均。这样理论上限明确是 1.0、改进方向可衡量；同时论文给出加权变体 OvertonScore\(_W\)，按每个群体在人群中的实际占比加权，避免长尾稀有观点被一刀切地与主流观点同等惩罚。

3. 自动化基准（LLM-as-Judge）：用 LLM 复现人类打分，免去反复做昂贵人类研究

大规模人类研究又慢又贵，每评一个新模型都重来一遍不现实。本文用 Gemini 2.5 Pro 当裁判，配合"few-shot 示例评分 + 用户自由回复"的提示策略（FS+FR），直接预测每个参与者会给模型回复打的 1–5 Likert 分，再据此重算 OvertonScore。它的定位是模型开发中的初筛工具——在投入全面人类评估之前先缩小候选模型范围；论文用留一法（替换某个目标模型的人类打分为 LLM 预测后重跑回归）得到模型级排名相关性 ρ=0.88，验证了它和真人评判的一致程度。

数据收集策略¶

问题来源：Model Slant（15 个政治议题）+ PRISM 对齐数据集（45 个价值观导向问题）
参与者：Prolific 招募 1208 名美国英语用户，政治/人口统计学上具有代表性
评估的 LLM：GPT-4.1、o4-mini、Gemma 3-27B、DeepSeek R1/V3、Llama 4 Maverick/3.3-70B、Claude 3.7 Sonnet
数据规模：28,992 个数据点

实验关键数据¶

主实验¶

模型	Adj. OvertonScore	Adj. OvertonScore\(_W\)	显著性
DeepSeek V3	0.41 (最高)	0.52 (最高, p=0.035)	加权显著高于均值
DeepSeek R1	0.40	0.49	不显著
Llama 3.3-70B	0.40	0.49	不显著
GPT-4.1	0.40	0.49	不显著
o4-mini	0.39	0.48	不显著
Claude 3.7 Sonnet	0.38	0.47	不显著
Llama 4 Maverick	0.38	0.47	不显著
Gemma 3-27B	0.35 (最低, p=0.016)	0.44 (最低, p=0.036)	两个指标均显著低于均值
跨模型最佳	0.687	0.768	八个模型最佳结果合并
单观点基线	0.169	0.524	每题仅覆盖一个群体

自动化评估验证¶

评估方法	MAE (Likert)	Spearman ρ	说明
Gemini 2.5 Pro (FS+FR)	0.66±0.01	0.66	最佳自动方法
Mean-of-others 基线	0.70±0.01	0.64	用其他回复均分
语义相似度基线	0.72±0.02	0.59	余弦相似度匹配
Leave-one-out OvertonScore	—	0.88 (rank)	模型级排名相关

关键发现¶

所有模型的 OvertonScore 均远低于理论上限 1.0（均值仅 0.39），即使合并所有模型的最佳结果也仅达 0.687
DeepSeek V3 在完整基准上表现最强，但在 Model Slant 子集上最弱——多元主义不是单一能力，依赖于具体领域
政治中立 ≠ 多元表征：o4-mini 被 Model Slant 评为第二大政治偏见模型，但在 OvertonScore 上表现优异 (r=-0.41 负相关)
Llama 3.3 在两个子集上均优于 Llama 4，质疑政治偏见缓解努力对多元表征的实际效果
自动化基准无显著的性别/种族公平性差异，但政治倾向和模型身份存在微小显著差异（效应量 η²<0.004）

亮点与洞察¶

OvertonScore 的集合覆盖形式化是本文最重要的贡献——将模糊的"多元性"转化为0-1之间可量化的指标，且有明确的理论上限。这比 pairwise 评比更有信息量，因为它衡量的是绝对覆盖而非相对优劣
基于参与者投票的聚类巧妙避开了 NLP pipeline 引入的偏见——让真实的人类分歧模式定义观点群体，而非让算法预设什么是"不同观点"
政治中立与多元主义的负相关发现具有深远影响——表明当前行业追求"中立"的方向可能适得其反，实际上减少了观点覆盖。这个insight可迁移到任何涉及主观价值的AI对齐研究中

局限与展望¶

仅覆盖美国英语用户，无法代表全球文化差异下的 Overton 窗口
60个问题的覆盖面有限，未涉及科技伦理、环境正义等新兴议题
观点聚类依赖 k-means，可能无法捕捉连续谱系上的细微差异
自动化评估中 Claude 3.7 Sonnet 被系统性高估（Δ=+0.103），说明某些模型的自动评分仍需校准
未探索如何实际提升 OvertonScore——仅提供了测量工具而非改进方法
改进思路：可设计基于 OvertonScore 的 RLHF 奖励信号，引导模型在回复中主动呈现多元观点

评分¶

新颖性: ⭐⭐⭐⭐ 将多元主义形式化为可量化基准是重要贡献，但核心技术（聚类+覆盖度）本身并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 1208人大规模人类研究、8个LLM、自动化验证、子群公平性分析、两个数据集子集对比，非常全面
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，定义严谨，图表信息丰富（特别是 Figure 1 直观展示了 OvertonScore 的计算过程）
价值: ⭐⭐⭐⭐ 为 LLM 多元对齐研究提供了首个可量化基准，发现的负相关关系具有政策影响力