跳转至

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

会议: ICLR 2026
arXiv: 2505.19558

代码: 有
领域: AIGC检测 / LLM评测

关键词: 政治共识, LLM评测, 欧洲议会, 社会选择理论, 投票模拟

一句话总结

基于欧洲议会13年(2009-2022)共2225条高质量审议记录构建PoliCon基准,通过设计不同投票机制(简单多数/2/3多数/否决权)、权力结构和政治目标(功利主义/罗尔斯主义),系统评估LLM起草政治共识决议的能力,揭示前沿模型在复杂共识任务中的不足及固有党派偏见。

研究背景与动机

  • 政治共识的重要性: 在多元社会中,从基础设施建设到福利政策,共识构建是集体决策合法性和可执行性的基础,但由于价值冲突、权力博弈和议题复杂性,这一过程极具挑战
  • LLM在治理中的探索: 虽然LLM已在促进群体讨论、支持民主审议、解决区域冲突等方面展现潜力,但其在真实复杂政治场景中达成共识的能力仍未被系统研究
  • 现有工作的局限: 已有的政治科学基准侧重于立场检测、意识形态分析或文本摘要,没有专门评估LLM在不同共识目标下起草政治共识决议的能力
  • 核心问题: LLM能否在真实世界的政治环境中,弥合立场分歧的各方利益相关者之间的鸿沟,达成不同类型的政治共识?

方法详解

数据收集与清洗

数据来源涵盖三个渠道:欧洲议会官网、HowTheyVote和VoteWatch Europe数据集,覆盖第7-9届议会(2009-2022)。从30698条原始记录中经过严格过滤(确认最终投票完成、信息完整),最终保留2225条高质量条目。每条数据包含六元组:\((issue, topic, background, stances, resolution, votes)\),其中使用DeepSeek-R1进行背景摘要和立场提取,基于规则的方法进行同义词替换以多样化立场数据。投票数据通过匹配每位议员与其政党并将支持率四舍五入为0-9的整数来处理。

任务环境设计

PoliCon通过四个可调因子构建任务环境:

因子 描述 具体设置
政治议题 待讨论的政治问题及主题分类 5大类、19小类话题(安全、经济等)
政治目标 达成共识的标准 通过决议/罗尔斯主义/功利主义
参与方 不同数量和立场的利益相关者 2、4、6个政党
权力结构 各方因席位分配导致的影响力差异 随机分配席位比例 \(\sum_{i=1}^{n} w_i = 1\)

投票机制与政治目标

投票机制模拟了现实世界的集体决策规则,总投票结果 \(u = \sum_{i=1}^{n} w_i u_i\),其中 \(w_i\) 为政党 \(p_i\) 的席位比例,\(u_i\) 为该党的投票评分:

机制/目标 通过条件 现实对应
简单多数 (SM) \(u \geq 5\) 大多数议会的常规投票
2/3多数 (2/3M) \(u \geq 6.67\) 修宪等重大决策
否决权 (VP) \(u \geq 5\)\(u_k \geq 6\) 联合国安理会常任理事国否决权
罗尔斯主义 (Rawls) \(u = \min_{i \in n}(u_i)\),最大化最弱势方利益 保障少数群体权益
功利主义 (Util) \(u = \sum_{i=1}^{n} u_i\),最大化总体效用 社会总福利最大化

通过组合3种政党数量 × 5种设置,共构建15种任务配置,覆盖28620个具体政治场景。

开放式评估框架

评估框架基于社会选择理论(Social Choice Theory),分为两个模块:

  1. 投票模拟模块: 采用LLM-as-a-judge方法(GPT-4o-mini骨干),对每个政党输出0-9的投票评分,\(u_i = \text{JUDGE}(\cdot \mid \text{background}, s_i, \text{resolution})\),同时考虑决议与立场的一致性以及可行性
  2. 共识评估模块: 根据具体任务定义,将所有投票映射为定量分数,判断是否达成相应的政治共识目标

实验设置

  • 评估模型: 6个代表性LLM——GPT-4o、Gemini-2.5-Flash(思考版)、DeepSeek-V3.1(思考版)、Qwen2.5-72B、Qwen2.5-32B、Llama-3.3-70B
  • 推理参数: temperature=0.7,top-p=0.95
  • 基线方法: Random(随机选择某方立场作为决议)和Greedy(选择席位最多的政党立场作为决议)
  • 评估器验证: 在约41800个测试样本上与真实投票结果比较,Pearson相关系数达0.83;与人类标注者一致性实验中,平均误差仅1.61,72%误差在 \(\pm 1.92\) 范围内

核心实验结果

模型 SM(2/4/6方) 2/3M(2/4/6方) VP(2/4/6方) Rawls(2/4/6方) Util(2/4/6方)
Random 0.56/0.53/0.56 0.29/0.20/0.14 0.36/0.35/0.38 2.59/2.01/1.77 5.04/4.78/4.80
Greedy 0.80/0.74/0.73 0.45/0.37/0.28 0.46/0.44/0.44 2.61/2.02/1.74 5.07/4.79/4.79
Qwen2.5-32B 0.74/0.80/0.87 0.34/0.39/0.40 0.47/0.55/0.62 4.02/3.50/3.19 6.01/6.27/6.38
Llama-3.3-70B 0.72/0.78/0.86 0.37/0.45/0.48 0.46/0.55/0.63 3.98/3.42/3.11 6.08/6.40/6.56
Qwen2.5-72B 0.76/0.82/0.88 0.40/0.47/0.49 0.50/0.57/0.65 4.11/3.46/3.13 6.11/6.39/6.53
GPT-4o 0.83/0.87/0.92 0.51/0.57/0.63 0.54/0.62/0.69 4.50/3.80/3.42 6.40/6.62/6.80
DeepSeek-V3.1 0.87/0.89/0.93 0.52/0.57/0.63 0.58/0.64/0.71 4.52/3.78/3.42 6.38/6.62/6.77
Gemini-2.5 0.88/0.90/0.90 0.53/0.57/0.58 0.61/0.66/0.70 4.60/3.91/3.51 6.39/6.56/6.68

关键发现: - Gemini-2.5表现最佳,在60%的任务中取得最优结果,DeepSeek-V3.1和GPT-4o紧随其后 - SM任务中模型通过率可达87-93%,但在2/3M中骤降至52-63% - 思考模型(Gemini-2.5、DeepSeek-V3.1)普遍优于非思考模型 - 参与方增多时,通过决议的成功率反而上升(因为任务构建优先选取立场差异最大的政党,少方时更难调和),但Rawls目标反而下降(更多方意味着更难兼顾所有方利益) - LLM缺乏联合小党达成集体福利的能力,成功提案往往依赖最大党的支持 - 安全与公民权利等涉及政策的话题比产业发展类话题更具挑战性

关键设计

  1. 多维度任务环境构建: 通过政治议题 × 政治目标 × 参与方数量 × 权力结构四个因子的组合,从2225条真实记录中构建出28620个覆盖多种共识目标的政治场景,确保评估的全面性和真实性
  2. 基于社会选择理论的评估框架: 将LLM-as-a-judge的投票模拟与社会选择理论(简单多数/2/3多数/否决权/罗尔斯主义/功利主义)相结合,实现了对开放式文本输出的自动化定量评估
  3. 党派偏见检测机制: 通过随机重新分配席位并观察投票评分分布,发现LLM的评分仍趋近于真实投票分布(而非随机基线的均匀分布),从而定量揭示了模型固有的党派偏见

个人思考与启发

  • ⭐⭐⭐ 创新性: 首个系统评估LLM在多种政治共识目标下表现的基准,将社会选择理论引入LLM评估框架,问题定义新颖且具重要现实意义
  • ⭐⭐⭐ 实验设计: 四因子组合构建28620个场景,覆盖面广;评估器与真实投票结果的高度一致(Pearson 0.83)提供了坚实的验证基础
  • ⭐⭐ 实用性: 虽然揭示了LLM的局限和偏见,但距离真正辅助政治决策仍有很大距离;论文更多是诊断性的,缺乏改进模型共识能力的具体方案
  • ⭐⭐ 局限性思考: 评估器本身基于GPT-4o-mini,存在模型自评的circularity问题;席位随机分配虽增加了多样性但可能偏离真实权力动态;仅基于欧洲议会数据,对其他政治体制的泛化性存疑
  • 潜在扩展方向: (1) 引入多轮协商机制而非单次决议生成 (2) 探索prompt策略或微调方法提升2/3多数等难任务表现 (3) 将框架扩展到其他决策场景如企业治理或社区议事

相关工作与对比

方向 代表工作 与本文关系
LLM辅助民主审议 Tessler et al. 2024; Fish et al. 2023 先前工作聚焦于观点汇聚和群体声明生成,本文进一步评估在正式政治制度(投票机制+权力结构)下的共识达成能力
政治科学基准 POLCA; Liang et al. 2025 POLCA仅判断声明是否出现在最终协议中,Liang聚焦联合国立场模拟,本文首次构建多目标政治共识评估基准
LLM偏见检测 Stammbach et al. 2024; Chalkidis & Brandl 2024 先前工作检测模型是否有固有政治倾向,本文进一步揭示偏见如何影响共识达成的实际表现
谈判与博弈 Lewis et al. 2017; Bianchi et al. 2024 博弈论谈判聚焦于两方交易场景,本文处理多方、多目标、不同权力结构的真实政治共识问题
---
title: >-
[论文解读] PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives
description: >-
[ICLR 2026][政治共识] 基于欧洲议会2009-2022年2225条高质量审议记录构建PoliCon基准,评估LLM在不同投票机制、权力结构和政治目标下起草共识决议的能力。结果显示前沿模型在简单多数任务表现尚可,但在2/3多数和安全议题上显著不足。
tags:
- ICLR 2026
- 政治共识
- LLM评测
- 欧洲议会
- 社会选择理论
- 投票模拟
---

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

会议: ICLR 2026
arXiv: 2505.19558

代码: 有
领域: AIGC检测 / LLM评测

关键词: 政治共识, LLM评测, 欧洲议会, 社会选择理论, 投票模拟

一句话总结

基于欧洲议会2009-2022年2225条高质量审议记录构建PoliCon基准,评估LLM在不同投票机制、权力结构和政治目标下起草共识决议的能力。结果显示前沿模型在简单多数任务表现尚可,但在2/3多数和安全议题上显著不足。

研究背景与动机

在多元化社会中建立政治共识是有效治理的基本前提。LLM在促进群体讨论和支持民主审议方面展现了潜力,但其在真实复杂政治场景中达成不同共识目标的能力尚未被系统评估。现有政治科学评测聚焦于立场分类或文本分析,没有评测LLM"找到共识"的能力。

PoliCon设计了四个可调因素:(1) 政治议题及其主题分类;(2) 政治目标(简单多数/2/3多数/否决权/罗尔斯主义/功利主义);(3) 参与方数量(2/4/6个政党);(4) 基于席位的权力结构。通过组合产生28,620个场景。

方法详解

整体框架

(1) 从欧洲议会网站+VoteWatch+HowTheyVote大规模爬取清洗 → (2) DeepSeek-R1清洗+结构化 → (3) 构建评估框架(投票模拟+分数映射) → (4) 6个前沿LLM评测。

关键设计

  1. 数据收集与清洗:匹配议题-辩论-决议-投票,从30,698条原始记录筛选出2,225条完整记录。5个粗粒度+19个细粒度主题分类。

  2. 评估框架:两阶段——(a) GPT-4o-mini模拟每个政党的投票比例(0-9分),Pearson r=0.83 vs真实投票;(b) 根据政治目标将投票映射为定量分数。

  3. 五种政治目标:Simple Majority(u≥5)、Two-thirds Majority(u≥6.67)、Veto Power(u≥5且否决方≥6)、Rawlsianism(max min_i u_i)、Utilitarianism(max Σ u_i)。

  4. 权力结构:随机分配席位比例,暴露LLM对不同政党的潜在偏见。

损失函数 / 训练策略

无训练。纯评测框架。LLM推理使用 temperature=0.7, top_p=0.95。

实验关键数据

主实验(6个政党设置)

模型 SM 2/3M VP Rawls Util
Random 0.56 0.14 0.38 1.77 4.80
Greedy 0.73 0.28 0.44 1.74 4.79
GPT-4o 0.87 0.51 0.66 2.36 5.38
DeepSeek-V3.1 0.92 0.58 0.73 2.59 5.55

消融实验

设置 难度变化 说明
2→6政党 SM stable, 2/3M大幅下降 更多参与方→更难达到超级多数
安全议题 所有模型显著下降 政治敏感度影响
主导方偏见 模型倾向迎合主导方 而非联合小党

关键发现

  • 所有模型在简单多数上表现良好(>80%),但2/3多数显著下降(~40-58%)。

  • 安全和国防议题是最难的主题类别——可能因为模型的安全训练限制了相关输出。

  • LLM倾向于优先考虑席位最多的政党立场,而非尝试联合小党形成联盟——这揭示了模型的隐含"强者优先"偏见。

  • Greedy baseline(总是选主导方立场)在某些设置下出奇地有效,说明LLM的策略并不比简单启发式好多少。

  • 评估框架与20名人类标注者的一致性分析确认了其可靠性。

亮点与洞察

  • 首个系统评测LLM政治共识能力的基准,设计巧妙(多目标+多权力结构)。

  • 揭示了LLM的隐含政治偏见:倾向迎合强势方而非寻求真正的妥协。

  • 基于社会选择理论的评估框架为开放式政治任务提供了可操作的评估方案。

局限与展望

  • 仅基于欧洲议会数据,不同政治体制下的表现待评估。

  • 投票模拟的评估器(GPT-4o-mini)本身可能存在偏见。

  • 真实政治谈判涉及妥协、交换条件等动态过程,目前只是单轮生成。

相关工作与启发

  • 与Tessler et al. (2024)的群体共识工作互补,但聚焦于更正式的政治场景。

  • 可扩展到企业决策、社区治理等集体决策评测场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个政治共识评测基准

  • 实验充分度: ⭐⭐⭐⭐ 6模型+多设置+人工验证

  • 写作质量: ⭐⭐⭐⭐ 结构清晰

  • 价值: ⭐⭐⭐⭐ 对AI治理有启示意义