Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification¶

会议: ACL 2025
arXiv: 2505.19776
代码: 有 (即将发布)
领域: NLP理解 / LLM偏差分析
关键词: 政治偏差, 目标情感分类, LLM偏差, 多语言分析, 偏差缓解

一句话总结¶

提出基于目标导向情感分类(TSC)的LLM政治偏差分析框架，通过在450个政治句子中替换1319位政治家名字并用7个模型在6种语言中预测情感，定义了基于熵的不一致性指标来量化偏差，发现LLM对左翼和中间派有正面偏见、对极右翼有负面偏见，且更大模型偏差更强更一致。

研究背景与动机¶

领域现状: LLM在社交媒体政治讨论审核、政治事件自动分析等关键应用中被广泛使用，但同时编码了人口统计和政治偏差。

现有痛点: 现有的LLM政治偏差研究方法有显著局限：(1) 问卷法——采用政治罗盘等问卷让LLM回答，但交互次数少、依赖提示措辞、无法泛化到下游应用；(2) 生成法——让LLM生成政治文本后分析情感/立场，但量化困难，且依赖LLM自身做评判会传播偏差。

核心矛盾: 偏差分析方法本身不应引入或传播偏差，但现有方法要么统计支持力不足，要么依赖偏差模型自身做评判。

本文目标: 如何以大规模、统计稳健且不依赖LLM自评的方式系统分析LLM的政治偏差？

切入角度: 巧妙利用LLM在TSC任务中的"不一致性"——同一句子中替换不同政治家名字时情感预测不应改变，但实际上会因目标实体变化而不一致——将这种不一致性作为偏差信号来源。

核心 idea: 将LLM的情感分类不一致性(同句换名后预测不同)作为政治偏差的探针，用约2500万数据点进行多模型多语言的系统性分析。

方法详解¶

整体框架¶

三步流程：(1) 从Wikidata+ParlGov收集1319位多样化政治家(覆盖8个政治光谱)和450个多语言政治句子 → (2) 将每位政治家名字替换到每个句子中，用7个LLM在6种语言中进行TSC预测，产生约2500万数据点 → (3) 用基于熵的不一致性指标和多层聚合分析(语言/模型/政治光谱/个体)提取偏差模式。

关键设计¶

基于熵的不一致性指标(IC)
- 功能：量化LLM在更换目标实体时的情感预测变异程度
- 核心思路：对每个句子 \(s_i\)，收集所有政治家替换后的预测集合 \(Y_i\)，计算其标签分布的熵 \(H(Y_i)\)，在所有句子上平均得到 \(IC = \frac{1}{m}\sum_{i=1}^{m}H(Y_i)\)
- 设计动机：无偏LLM应对任何名字给出相同情感预测(IC=0)，IC值越大说明实体相关偏差越强
多维度政治家采样与表征
- 功能：确保分析的代表性和控制混杂因素
- 核心思路：从Wikidata筛选政治家→用ParlGov映射到8类政治光谱(极左到极右)→分层采样确保国家和光谱多样性→用GPT-4生成控制组(保留性别/出生年/国籍但替换为虚构名字)
- 设计动机：需要排除非政治属性(如性别、种族)对偏差的影响
虚构名字替换的偏差缓解
- 功能：验证偏差来源并提供简单缓解方案
- 核心思路：为每位政治家生成一个保留非政治属性的虚构名字，用虚构名字重跑实验，对比不一致性变化
- 设计动机：如果替换虚构名后IC显著下降，则确认偏差主要来自政治关联而非人口统计属性

损失函数 / 训练策略¶

本文不涉及训练，是纯分析型工作。关键实验设置：7个模型(Mistral-7B, Qwen-7B/72B, Llama3-8B/70B, Aya-Expanse-32B, GPT-4o-mini)，6种语言(英法西俄阿中)，temperature设为0确保确定性输出，产生约2500万有效数据点保证统计稳健性。

实验关键数据¶

主实验¶

发现维度	关键结果
政治光谱偏差	左翼(LL)和中间偏左(CL)获正面情感，极右(FR)和右翼(RR)获负面情感
语言效应	英/法/西语偏差强于俄/阿/中语
规模效应	Qwen-72B比Qwen-7B偏差更强更一致，Llama3-70B同理
多语言模型	Aya-Expanse-32B(多语言训练)在非西方语言中表现出更强偏差
个体相似性	相似政治立场的政治家情感预测高度相似(Sánchez-Scholz: +0.92, Biden-Harris: +0.90)

消融实验¶

对比	Original IC	Fake Name IC	准确率变化
所有模型-语言平均	较高	显著降低	轻微提升
残余偏差来源	-	女性名(+0.03) > 男性名(-0.01); 俄罗斯/非西方名获负面评分	-

关键发现¶

左翼偏见一致且跨模型：所有模型和语言都显示对左翼/中间派正面、对极右翼负面的情感倾向
更大模型偏差更强：Qwen-72B和Llama3-70B比7B/8B版本表现出更明显的政治偏差且跨语言更一致
政治罗盘分析：LLM整体呈现"左翼自由派"偏见，与之前ChatGPT政治罗盘测试结果一致但粒度更细
虚构名字缓解有效：用虚构名替换后IC大幅降低且准确率略有提升，证实偏差主要来自政治关联
残留偏差：即使去除政治属性，女性名字和非西方名字仍存在轻微的情感评分差异

亮点与洞察¶

方法论创新：将TSC不一致性转化为偏差信号的思路非常巧妙——利用偏差本身来检测偏差
规模空前：约2500万数据点确保了前所未有的统计稳健性，远超现有问卷法(通常几十到几百个交互)
多维度发现：不仅发现偏差存在，还揭示了语言、模型规模、多语言训练等多维度的偏差传播机制
反直觉发现：更大的模型不仅偏差更强，还使不同语言间的偏差更一致——可能因为更大容量更好地内化了训练数据中的隐式模式
虚构名字替换作为偏差缓解方案虽简单，但具有很强的可操作性

局限与展望¶

政治家集合偏向西方媒体高频出现的人物，非西方政治家代表性不足
句子来源为欧洲新闻语料，可能无法覆盖全球政治话语的细微差别
仅测试TSC任务，偏差在其他主观任务(如立场检测、仇恨言论)中的表现未验证
虚构名字缓解方法会丢失部分有价值的上下文信息
未考虑LLM版本更新和政治格局变化导致的偏差时序演变

评分¶

新颖性: ⭐⭐⭐⭐⭐ (TSC不一致性作为偏差探针的方法论创新)
实验充分度: ⭐⭐⭐⭐⭐ (7模型×6语言×1319实体×450句子≈2500万数据点，分析极为全面)
写作质量: ⭐⭐⭐⭐ (方法清晰，可视化丰富，但论文较长)
价值: ⭐⭐⭐⭐ (对AI公平性和LLM可信度研究有重要参考价值)