Reasoning Boosts Opinion Alignment in LLMs¶

会议: ICLR 2026
arXiv: 2603.01214
代码: GitHub
领域: 强化学习
关键词: opinion alignment, GRPO, political reasoning, survey data, digital democracy

一句话总结¶

用 GRPO 强化学习训练 LLM 通过结构化推理对齐个体政治观点，SFT+GRPO 在美国/德国/瑞士三国数据集上一致优于 ICL 和 ORPO 基线，但系统性揭示了左右翼偏差和 Neutral 立场预测的根本困难。

研究背景与动机¶

领域现状：政治观点建模对数字民主具有重要价值。LLM 已被广泛用于模拟群体政治倾向，但主要依赖人口统计 prompt（"你是一个民主党人"），存在代表性、可控性和一致性三大缺陷。

现有痛点：1）人口统计提示无法模拟个体级偏好——同一群体内部方差巨大；2）面试 transcript 方法（Park et al. 2024）准确但数据收集成本过高；3）政治调查数据丰富（ANES/VAA），仅有立场标签无推理链——模型需自行学习推理过程。

核心矛盾：LLM 的统计本性和有限因果理解 vs 忠实反映多元政治观点的需求。

本文目标 能否通过 RL 训练让 LLM 学会"先推理再回答"从而提升个体级政治观点对齐？

切入角度：将观点形成视为推理问题——借鉴 GRPO 在数学推理中的成功，迁移到政治推理场景。

核心 idea：政治调查数据 + GRPO 奖励正确立场 + SFT 热启动推理格式 = 推理式个体观点对齐。

方法详解¶

整体框架¶

SFT → GRPO 两阶段训练。每个个体（选民/政党/候选人）单独训练一个模型。无显式 persona 表示，仅在系统 prompt 中给国家标签，通过正确回答问题隐式对齐偏好。

关键设计¶

结构化推理输出格式
- 功能：强制模型先推理再回答，格式为 <reasoning>[推理文本]</reasoning><answer>[立场]</answer>
- 核心思路：训练数据仅有立场标签无推理链→模型需在奖励信号下自行学习生成推理→推理质量由正确率间接优化
- 设计动机：推理链让模型显式组织论据，避免直觉式"pattern matching"导致的意识形态偏差
复合奖励函数
- 功能：从格式正确性、长度合规和立场正确性三维度评价每次生成
- 核心思路：\(R = \alpha_1 R_{\text{format}} + \alpha_2 R_{\text{length}} + \alpha_3 R_{\text{correct}}\)，其中 \(R_{\text{format}}\) 检查四个 XML 标签（最高 4 分），\(R_{\text{length}} = -|L - L^*|\) 惩罚偏离目标长度，\(R_{\text{correct}} = \mathbb{1}[y_i = y_i^*]\) 匹配调查答案得 1 分
- 设计动机：\(\alpha_1=0.25, \alpha_2=0.01, \alpha_3=1.0\)——正确性权重最大，格式次之，长度仅微调
SFT 热启动 + 合成论证数据
- 功能：用 Llama-70B 为每个政策问题生成支持/反对论证，构建 SFT 数据训练模型掌握推理格式
- 核心思路：SFT 阶段解决格式遵循问题（降低 \(R_{\text{format}}\) 在 GRPO 中的优化负担）+ 提供合理的政治推理初始化
- 设计动机：直接 GRPO 收敛慢（GRPO only 显著低于 SFT+GRPO），SFT 热启动显著改善训练动态

损失函数 / 训练策略¶

GRPO（Group Relative Policy Optimization）: 对每个 prompt 采样一组输出，组内奖励标准化（减均值除标准差）替代传统 PPO 的 value function 来估计优势。LoRA 微调（\(r=32, \alpha=32\)），4-bit 量化。SFT 800 步 + GRPO 800 步，group size 8，\(\beta=0\)，温度 \(T=1.0\)。

实验关键数据¶

主实验（Macro-F1 %, 8 runs, T=1.0）¶

方法	smartvote(瑞士)	WoM(德国)	ANES(美国)
SFT+GRPO (Magistral 24B)	70.73	53.21	45.43
SFT (Magistral 24B)	67.63	51.86	39.15
GRPO only (Magistral 24B)	60.56	51.00	43.79
SFT+GRPO (Llama 3.1 8B)	66.88	52.53	40.66
ICL (Magistral 24B)	66.16	26.19	19.23
ORPO	23.31	24.73	24.25
Random	50.0	33.33	33.33

消融实验 — 意识形态偏差分析¶

政治群体	smartvote F1	WoM F1	ANES F1	说明
Left	高	高	较高	模型最容易对齐
Center	中	高	中	居中水平
Right	低	中	低	系统性最差

关键发现¶

SFT+GRPO 一致最优：在 9/9 模型×数据集组合中超越或匹配 SFT，统计显著（Welch t-test + Bonferroni 校正）
Neutral 是硬骨头：ANES 上 Neutral 召回率最低，Neutral base rate 与 F1 呈 \(r=-0.59\) 的显著负相关；Right 群体 Neutral 回答最多→性能受损最大
推理翻转现象：训练后模型用类似论据（如"equal opportunity"）支持相反立场——推理内容语义一致但框架不同（Table 1 示例）
答案翻转实验：反转所有 smartvote 答案后训练→Right 候选人 F1 提升但仍不及原 Left 水平→Left 偏好可能内在更易建模
PCA 空间位移：训练后的 agents 在 smartvote PCA 空间中偏向中右和保守方向（与文献报告的左自由偏见相反）→这是 GRPO 对齐的结果而非基座模型偏见
SFT 数据偏见影响：progressive bias SFT 数据严重损害 Right 候选人但不一定利于 Left→偏见主要伤害弱势方

亮点与洞察¶

将政治观点对齐重新框定为推理问题：不依赖人口统计proxy，而是让模型通过推理过程"理解"每个个体的立场——概念上的范式转换
跨三国三政治体系验证：smartvote（二分类 Yes/No）、WoM（三分类+多选举聚合）、ANES（异质问题格式需 recoding）——方法泛化性强
意识形态不对称的深刻洞察：Right 偏好系统性更难学习→可能是 LLM 预训练语料比例偏差，也可能是 Right 立场的内在统计结构更复杂
SFT 数据偏见的不对称效应：偏见伤害弱势方 > 利好优势方——对可信 AI 系统设计有警示意义

局限与展望¶

每个个体需单独训练一个模型→计算成本 \(O(N)\) 不可扩展；未来应探索 persona-conditioned 单模型架构
测试集极小（12-30 题），统计置信度有限
三分类 {Yes, Neutral, No} 简化丢失原始 Likert scale 细粒度信息
ANES recoding 方案选择（conservative vs aggressive）影响结果→方法对数据预处理敏感
最好 F1 仅 ~70% → 距"忠实数字双胞胎"仍有显著差距
未探索从少量调查数据泛化到全新政策议题的零样本能力

评分¶

新颖性: ⭐⭐⭐⭐ GRPO 用于政治推理是新颖的应用，意识形态偏差分析有深度
实验充分度: ⭐⭐⭐⭐ 3模型×3数据集、意识形态分析、答案翻转实验、SFT偏见实验充实
写作质量: ⭐⭐⭐⭐ 结构清晰，PCA可视化和推理示例有说服力
价值: ⭐⭐⭐ 方向有趣但可扩展性存疑，Right偏好难学的发现有社会意义