Reasoning Boosts Opinion Alignment in LLMs¶
会议: ICLR 2026
arXiv: 2603.01214
代码: GitHub
领域: 强化学习
关键词: opinion alignment, GRPO, political reasoning, survey data, digital democracy
一句话总结¶
用 GRPO 强化学习训练 LLM 通过结构化推理对齐个体政治观点,SFT+GRPO 在美国/德国/瑞士三国数据集上一致优于 ICL 和 ORPO 基线,但系统性揭示了左右翼偏差和 Neutral 立场预测的根本困难。
研究背景与动机¶
领域现状:政治观点建模对数字民主具有重要价值。LLM 已被广泛用于模拟群体政治倾向,但主要依赖人口统计 prompt("你是一个民主党人"),存在代表性、可控性和一致性三大缺陷。
现有痛点:1)人口统计提示无法模拟个体级偏好——同一群体内部方差巨大;2)面试 transcript 方法(Park et al. 2024)准确但数据收集成本过高;3)政治调查数据丰富(ANES/VAA),仅有立场标签无推理链——模型需自行学习推理过程。
核心矛盾:LLM 的统计本性和有限因果理解 vs 忠实反映多元政治观点的需求。
本文目标 能否通过 RL 训练让 LLM 学会"先推理再回答"从而提升个体级政治观点对齐?
切入角度:将观点形成视为推理问题——借鉴 GRPO 在数学推理中的成功,迁移到政治推理场景。
核心 idea:政治调查数据 + GRPO 奖励正确立场 + SFT 热启动推理格式 = 推理式个体观点对齐。
方法详解¶
整体框架¶
论文要解决的问题是:能不能让 LLM 不靠"你是个民主党人"这类人口统计 prompt,而是通过显式推理去对齐某一个具体个体(某选民、某政党、某候选人)的政治立场。它把"形成观点"重新理解成一个推理问题——模型先写一段论据、再给出立场,立场答对了就奖励。整条 pipeline 分两段:先用 SFT 让模型学会"先推理、再给立场"的输出格式并打好政治论证的底子,再用 GRPO 以"立场答对没有"为奖励信号去打磨推理质量。每个个体单独训一个模型,系统 prompt 里只给国家标签、不放任何显式 persona 描述——个体偏好完全靠在调查问题上答对来隐式编码。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
FMT["结构化推理输出格式<br/><reasoning>论据</reasoning><answer>立场</answer>"]
DATA["调查数据<br/>(个体 persona, 政策问题 q, 立场标签 y*)"]
SYN["合成论证数据<br/>Llama-70B 为每题生成支持/反对两方论据"]
SFT["SFT 热启动<br/>练熟输出格式 + 政治论证初始化"]
GRPO["GRPO 训练<br/>每题采样一组输出, 组内奖励标准化"]
REWARD["复合奖励<br/>R = 0.25·格式 + 0.01·长度 + 1.0·正确性"]
OUT["对齐个体立场的推理模型<br/>(每个个体一个)"]
FMT -->|作为训练目标| SFT
DATA --> SYN --> SFT
SFT --> GRPO
GRPO -->|每步生成打分| REWARD
REWARD -->|组内优势估计、更新策略| GRPO
GRPO --> OUT
关键设计¶
1. 结构化推理输出格式:把立场判断变成可优化的推理过程
调查数据的麻烦在于它只有立场标签、没有推理链,模型无从模仿"该怎么想"。论文的做法是强制模型按 <reasoning>[推理文本]</reasoning><answer>[立场]</answer> 的格式输出,把推理过程显式拆出来。由于没有推理的监督标签,推理质量只能被间接优化——模型在奖励信号下自己摸索什么样的论据能让最终 <answer> 答对。这一步的意义在于让模型把论据摆到台面上组织,而不是凭直觉做 pattern matching 直接吐立场,后者正是意识形态偏差的来源。这个格式也是后面两段训练共同的优化目标:SFT 先教模型把它写规整,GRPO 再在这个壳子里打磨内容。
2. SFT 热启动 + 合成论证数据:先把格式和政治论证的底子打好再上 RL
如果直接从零跑 GRPO,模型既要学会格式、又要学会推理,奖励信号太稀疏、收敛很慢(实验里 GRPO only 显著低于 SFT+GRPO)。论文先用 Llama-70B 为每个政策问题生成支持/反对两方的论证,拼成 SFT 数据热启动。SFT 阶段一举两得:一是让模型把上面那套输出格式练熟,等于提前把格式这部分的优化负担从 GRPO 里卸掉;二是给模型一个合理的政治推理初始化,使后续 GRPO 能集中火力打磨立场正确性,训练动态明显更稳。
3. 复合奖励函数:用三个维度同时约束格式、长度和正确性
热启动之后,GRPO 用一个加权的复合奖励来逼模型把立场答对:
其中 \(R_{\text{format}}\) 检查四个 XML 标签是否齐全(最高 4 分),\(R_{\text{length}} = -|L - L^*|\) 惩罚生成长度偏离目标值 \(L^*\),\(R_{\text{correct}} = \mathbb{1}[y_i = y_i^*]\) 表示立场与调查答案一致就得 1 分。权重设为 \(\alpha_1=0.25,\ \alpha_2=0.01,\ \alpha_3=1.0\)——正确性是主目标、占绝对大头,格式是次要的硬约束,长度只做轻微调节,避免模型为凑长度而牺牲立场判断。
损失函数 / 训练策略¶
GRPO(Group Relative Policy Optimization)对每个 prompt 采样一组输出,用组内奖励标准化(减均值除标准差)估计优势,替代传统 PPO 的 value function。微调采用 LoRA(\(r=32,\ \alpha=32\))配 4-bit 量化;流程为 SFT 800 步 + GRPO 800 步,group size 8,\(\beta=0\),温度 \(T=1.0\)。
实验关键数据¶
主实验(Macro-F1 %, 8 runs, T=1.0)¶
| 方法 | smartvote(瑞士) | WoM(德国) | ANES(美国) |
|---|---|---|---|
| SFT+GRPO (Magistral 24B) | 70.73 | 53.21 | 45.43 |
| SFT (Magistral 24B) | 67.63 | 51.86 | 39.15 |
| GRPO only (Magistral 24B) | 60.56 | 51.00 | 43.79 |
| SFT+GRPO (Llama 3.1 8B) | 66.88 | 52.53 | 40.66 |
| ICL (Magistral 24B) | 66.16 | 26.19 | 19.23 |
| ORPO | 23.31 | 24.73 | 24.25 |
| Random | 50.0 | 33.33 | 33.33 |
消融实验 — 意识形态偏差分析¶
| 政治群体 | smartvote F1 | WoM F1 | ANES F1 | 说明 |
|---|---|---|---|---|
| Left | 高 | 高 | 较高 | 模型最容易对齐 |
| Center | 中 | 高 | 中 | 居中水平 |
| Right | 低 | 中 | 低 | 系统性最差 |
关键发现¶
- SFT+GRPO 一致最优:在 9/9 模型×数据集组合中超越或匹配 SFT,统计显著(Welch t-test + Bonferroni 校正)
- Neutral 是硬骨头:ANES 上 Neutral 召回率最低,Neutral base rate 与 F1 呈 \(r=-0.59\) 的显著负相关;Right 群体 Neutral 回答最多→性能受损最大
- 推理翻转现象:训练后模型用类似论据(如"equal opportunity")支持相反立场——推理内容语义一致但框架不同(Table 1 示例)
- 答案翻转实验:反转所有 smartvote 答案后训练→Right 候选人 F1 提升但仍不及原 Left 水平→Left 偏好可能内在更易建模
- PCA 空间位移:训练后的 agents 在 smartvote PCA 空间中偏向中右和保守方向(与文献报告的左自由偏见相反)→这是 GRPO 对齐的结果而非基座模型偏见
- SFT 数据偏见影响:progressive bias SFT 数据严重损害 Right 候选人但不一定利于 Left→偏见主要伤害弱势方
亮点与洞察¶
- 将政治观点对齐重新框定为推理问题:不依赖人口统计proxy,而是让模型通过推理过程"理解"每个个体的立场——概念上的范式转换
- 跨三国三政治体系验证:smartvote(二分类 Yes/No)、WoM(三分类+多选举聚合)、ANES(异质问题格式需 recoding)——方法泛化性强
- 意识形态不对称的深刻洞察:Right 偏好系统性更难学习→可能是 LLM 预训练语料比例偏差,也可能是 Right 立场的内在统计结构更复杂
- SFT 数据偏见的不对称效应:偏见伤害弱势方 > 利好优势方——对可信 AI 系统设计有警示意义
局限与展望¶
- 每个个体需单独训练一个模型→计算成本 \(O(N)\) 不可扩展;未来应探索 persona-conditioned 单模型架构
- 测试集极小(12-30 题),统计置信度有限
- 三分类 {Yes, Neutral, No} 简化丢失原始 Likert scale 细粒度信息
- ANES recoding 方案选择(conservative vs aggressive)影响结果→方法对数据预处理敏感
- 最好 F1 仅 ~70% → 距"忠实数字双胞胎"仍有显著差距
- 未探索从少量调查数据泛化到全新政策议题的零样本能力
相关工作与启发¶
- vs Santurkar et al. (2023) 人口统计提示:他们揭示 LLM 默认意见分布不代表真实人群,本文直接绕过人口统计→用调查数据对齐个体
- vs Park et al. (2024) 面试transcript建模:他们用富文本构建个体persona准确率高,但数据获取成本过高;本文用结构化调查数据作为轻量替代
- vs DeepSeek-R1 (2025) GRPO 数学推理:GRPO 在数学推理中成功→本文验证其在政治推理中也有效,但效果不如数学推理那么显著
评分¶
- 新颖性: ⭐⭐⭐⭐ GRPO 用于政治推理是新颖的应用,意识形态偏差分析有深度
- 实验充分度: ⭐⭐⭐⭐ 3模型×3数据集、意识形态分析、答案翻转实验、SFT偏见实验充实
- 写作质量: ⭐⭐⭐⭐ 结构清晰,PCA可视化和推理示例有说服力
- 价值: ⭐⭐⭐ 方向有趣但可扩展性存疑,Right偏好难学的发现有社会意义