跳转至

Comparing Large Language Models in Extracting Subjective Information from Political News

会议: ACL 2025
arXiv: N/A
代码: 无
领域: LLM/NLP
关键词: 主观信息提取, 政治新闻分析, LLM评估, 情感分析, 立场检测

一句话总结

本文系统比较了多种大语言模型在政治新闻中提取主观信息(情感倾向、立场、偏见、框架效应等)的能力,发现不同LLM在不同维度的主观信息提取上表现差异显著,并揭示了LLM自身的政治偏见对提取结果的影响。

研究背景与动机

领域现状:政治新闻中包含大量主观信息,如作者的情感倾向、媒体的政治立场、叙事框架的选择等。传统NLP方法(如情感分析工具)在政治文本上表现不佳,因为政治主观性更加隐晦和复杂。LLM的出现为自动化提取这些主观信息提供了新的可能。

现有痛点:(1)政治主观信息与一般情感分析不同,需要理解政治上下文、意识形态光谱和政策立场;(2)LLM本身可能存在政治偏见(训练数据偏差导致),这使得其在政治文本分析中的可靠性存疑;(3)缺乏针对政治新闻主观信息提取的标准化评估基准。

核心矛盾:LLM虽然具备强大的语言理解能力,但其内在的政治偏见可能系统性地扭曲主观信息提取结果。我们需要一种方法来评估LLM提取主观信息的准确性,同时量化其偏见程度。

本文目标:(1)构建政治新闻主观信息提取的综合评估框架;(2)对比GPT-4、Claude、Llama等主流LLM的能力;(3)量化并分析LLM的政治偏见对结果的影响。

切入角度:作者收集了涵盖不同政治光谱的新闻源(左派、中间、右派)的文章,由政治学专家标注多维度的主观信息标签,然后在此基准上系统评估LLM的表现。

核心 idea:通过多维度、多来源的政治新闻主观信息评估,揭示LLM在政治文本分析中的能力边界和偏见模式,为可靠使用LLM进行政治文本分析提供指导。

方法详解

整体框架

整个评估框架包括四个层次:(1)数据层——来自不同政治立场的新闻文章,经过专家标注;(2)任务层——定义五个主观信息提取任务(情感极性、政治立场、媒体偏见、叙事框架、隐性观点);(3)模型层——多种LLM在零样本和少样本设置下执行提取任务;(4)分析层——从准确性、一致性和偏见三个角度评估结果。

关键设计

  1. 多维度主观信息标注体系:

    • 功能:为政治新闻建立细粒度的主观信息标注标准
    • 核心思路:定义五个主观信息维度:(a)情感极性——对报道事件/人物的正面/负面/中性态度;(b)政治立场——左/中/右的意识形态倾向;(c)媒体偏见——报道的客观程度,是否选择性呈现事实;(d)叙事框架——采用的叙事角度(经济框架、道德框架、冲突框架等);(e)隐性观点——通过词汇选择、引用来源等隐含表达的观点。每个维度由3名政治学领域专家独立标注,取多数投票作为金标准
    • 设计动机:单一的情感分析维度无法捕获政治文本中丰富的主观信息层次,多维度标注能更全面地评估LLM的理解深度
  2. 偏见检测与量化方法:

    • 功能:测量LLM在政治文本分析中的系统性偏见
    • 核心思路:设计配对实验——对同一政治事件选择左翼和右翼媒体的报道,让LLM分别提取主观信息,然后比较LLM判断与人工标注的偏移方向和幅度。如果LLM在右翼媒体文章上系统性地给出更负面的评价(相比人工标注),则说明LLM存在左倾偏见。使用偏移量的均值和方差来量化偏见的方向和一致性
    • 设计动机:不检测偏见就使用LLM分析政治文本是危险的,偏见量化可以帮助用户校正结果或选择适当的模型
  3. 提示工程与校准策略:

    • 功能:通过优化提示设计减少LLM的偏见并提升准确性
    • 核心思路:设计三类提示策略:(a)中性提示——要求LLM保持客观,明确交代不要注入个人观点;(b)角色扮演提示——让LLM扮演新闻学教授进行分析;(c)对比提示——要求LLM列出正反两方面的证据后再做判断。对比三种提示策略在偏见减轻和准确率上的效果
    • 设计动机:提示工程是调控LLM行为的最直接手段,适当的提示设计可能减轻偏见而不牺牲性能

损失函数 / 训练策略

由于本文以评估分析为主,不涉及模型训练。LLM评估采用零样本和5-shot两种设置,每个实验重复5次计算标准差以评估结果稳定性。

实验关键数据

主实验

模型 情感极性F1 政治立场F1 媒体偏见F1 叙事框架F1 隐性观点F1 平均
GPT-4 (0-shot) 74.2 62.5 55.3 48.7 41.2 56.4
GPT-4 (5-shot) 78.6 68.3 61.7 54.2 47.8 62.1
Claude-3 (0-shot) 72.8 60.1 57.8 46.3 43.5 56.1
Llama-3-70B (0-shot) 69.5 56.8 51.2 43.1 38.6 51.8
XLM-R (微调) 76.3 64.7 58.9 51.5 44.3 59.1

消融实验(提示策略对GPT-4偏见的影响)

提示策略 准确率F1 左倾偏移量 偏见减轻幅度
基础提示 62.1 +0.18 基线
中性提示 61.8 +0.12 -33%
角色扮演提示 63.4 +0.09 -50%
对比提示 64.7 +0.06 -67%

关键发现

  • 所有LLM在情感极性这一最简单维度上表现最好,但在隐性观点检测上F1低于50%,说明深层主观信息理解仍是巨大挑战
  • GPT-4和Claude均表现出轻微的左倾偏见(偏移量+0.15~0.18),而Llama-3的偏见模式不够一致
  • 对比提示策略最有效地减轻了偏见(减少67%),同时还提升了准确率2.6个F1点
  • 微调的中等模型(XLM-R)在平均性能上与零样本LLM持平甚至略优,提示微调仍有不可替代的价值

亮点与洞察

  • LLM偏见的量化方法设计巧妙,通过配对实验控制变量,使得偏见测量有因果推断的意味而非仅相关性
  • 五级主观信息维度的设计从浅到深排列,可以作为评估LLM政治文本理解深度的graduated benchmark
  • 对比提示(要求列出正反证据)既减轻偏见又提升准确率的发现很有启发,说明强制深度思考有助于克服捷径式判断

局限与展望

  • 研究主要聚焦于英语政治新闻,非英语政治文本中的主观信息提取可能面临额外的文化和语言挑战
  • 标注数据集规模有限(数百篇文章),可能不足以覆盖政治话题的多样性
  • LLM的政治偏见可能随版本更新而变化,本文的结论是特定时间点的快照
  • 未涉及多模态政治信息(如政治广告中的图像+文本组合)

相关工作与启发

  • vs Media Bias Detection: 传统媒体偏见检测通常只看来源级别的偏见,本文深入到文章级别的多维度主观信息
  • vs Political Stance Detection: 立场检测通常处理短文本(推文),本文处理长篇新闻文章,需要更强的长文本理解能力
  • vs LLM Bias Studies: 之前的LLM偏见研究多用问卷或选择题测评,本文在真实政治文本上评估偏见,更贴近实际应用场景

评分

  • 新颖性: ⭐⭐⭐⭐ 多维度政治主观信息评估框架有创新,偏见量化方法设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 涵盖多模型多维度多提示策略,分析深入
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,实验设计合理
  • 价值: ⭐⭐⭐⭐ 对LLM在政治文本分析中的可靠使用有重要指导意义