Comparing Large Language Models in Extracting Subjective Information from Political News¶

会议: ACL 2025
arXiv: N/A
代码: 无
领域: LLM/NLP
关键词: 主观信息提取, 政治新闻分析, LLM评估, 情感分析, 立场检测

一句话总结¶

本文系统比较了多种大语言模型在政治新闻中提取主观信息（情感倾向、立场、偏见、框架效应等）的能力，发现不同LLM在不同维度的主观信息提取上表现差异显著，并揭示了LLM自身的政治偏见对提取结果的影响。

研究背景与动机¶

领域现状：政治新闻中包含大量主观信息，如作者的情感倾向、媒体的政治立场、叙事框架的选择等。传统NLP方法（如情感分析工具）在政治文本上表现不佳，因为政治主观性更加隐晦和复杂。LLM的出现为自动化提取这些主观信息提供了新的可能。

现有痛点：（1）政治主观信息与一般情感分析不同，需要理解政治上下文、意识形态光谱和政策立场；（2）LLM本身可能存在政治偏见（训练数据偏差导致），这使得其在政治文本分析中的可靠性存疑；（3）缺乏针对政治新闻主观信息提取的标准化评估基准。

核心矛盾：LLM虽然具备强大的语言理解能力，但其内在的政治偏见可能系统性地扭曲主观信息提取结果。我们需要一种方法来评估LLM提取主观信息的准确性，同时量化其偏见程度。

本文目标：（1）构建政治新闻主观信息提取的综合评估框架；（2）对比GPT-4、Claude、Llama等主流LLM的能力；（3）量化并分析LLM的政治偏见对结果的影响。

切入角度：作者收集了涵盖不同政治光谱的新闻源（左派、中间、右派）的文章，由政治学专家标注多维度的主观信息标签，然后在此基准上系统评估LLM的表现。

核心 idea：通过多维度、多来源的政治新闻主观信息评估，揭示LLM在政治文本分析中的能力边界和偏见模式，为可靠使用LLM进行政治文本分析提供指导。

方法详解¶

整体框架¶

整个评估框架包括四个层次：（1）数据层——来自不同政治立场的新闻文章，经过专家标注；（2）任务层——定义五个主观信息提取任务（情感极性、政治立场、媒体偏见、叙事框架、隐性观点）；（3）模型层——多种LLM在零样本和少样本设置下执行提取任务；（4）分析层——从准确性、一致性和偏见三个角度评估结果。

关键设计¶

多维度主观信息标注体系:
- 功能：为政治新闻建立细粒度的主观信息标注标准
- 核心思路：定义五个主观信息维度：（a）情感极性——对报道事件/人物的正面/负面/中性态度；（b）政治立场——左/中/右的意识形态倾向；（c）媒体偏见——报道的客观程度，是否选择性呈现事实；（d）叙事框架——采用的叙事角度（经济框架、道德框架、冲突框架等）；（e）隐性观点——通过词汇选择、引用来源等隐含表达的观点。每个维度由3名政治学领域专家独立标注，取多数投票作为金标准
- 设计动机：单一的情感分析维度无法捕获政治文本中丰富的主观信息层次，多维度标注能更全面地评估LLM的理解深度
偏见检测与量化方法:
- 功能：测量LLM在政治文本分析中的系统性偏见
- 核心思路：设计配对实验——对同一政治事件选择左翼和右翼媒体的报道，让LLM分别提取主观信息，然后比较LLM判断与人工标注的偏移方向和幅度。如果LLM在右翼媒体文章上系统性地给出更负面的评价（相比人工标注），则说明LLM存在左倾偏见。使用偏移量的均值和方差来量化偏见的方向和一致性
- 设计动机：不检测偏见就使用LLM分析政治文本是危险的，偏见量化可以帮助用户校正结果或选择适当的模型
提示工程与校准策略:
- 功能：通过优化提示设计减少LLM的偏见并提升准确性
- 核心思路：设计三类提示策略：（a）中性提示——要求LLM保持客观，明确交代不要注入个人观点；（b）角色扮演提示——让LLM扮演新闻学教授进行分析；（c）对比提示——要求LLM列出正反两方面的证据后再做判断。对比三种提示策略在偏见减轻和准确率上的效果
- 设计动机：提示工程是调控LLM行为的最直接手段，适当的提示设计可能减轻偏见而不牺牲性能

损失函数 / 训练策略¶

由于本文以评估分析为主，不涉及模型训练。LLM评估采用零样本和5-shot两种设置，每个实验重复5次计算标准差以评估结果稳定性。

实验关键数据¶

主实验¶

模型	情感极性F1	政治立场F1	媒体偏见F1	叙事框架F1	隐性观点F1	平均
GPT-4 (0-shot)	74.2	62.5	55.3	48.7	41.2	56.4
GPT-4 (5-shot)	78.6	68.3	61.7	54.2	47.8	62.1
Claude-3 (0-shot)	72.8	60.1	57.8	46.3	43.5	56.1
Llama-3-70B (0-shot)	69.5	56.8	51.2	43.1	38.6	51.8
XLM-R (微调)	76.3	64.7	58.9	51.5	44.3	59.1

消融实验（提示策略对GPT-4偏见的影响）¶

提示策略	准确率F1	左倾偏移量	偏见减轻幅度
基础提示	62.1	+0.18	基线
中性提示	61.8	+0.12	-33%
角色扮演提示	63.4	+0.09	-50%
对比提示	64.7	+0.06	-67%

关键发现¶

所有LLM在情感极性这一最简单维度上表现最好，但在隐性观点检测上F1低于50%，说明深层主观信息理解仍是巨大挑战
GPT-4和Claude均表现出轻微的左倾偏见（偏移量+0.15~0.18），而Llama-3的偏见模式不够一致
对比提示策略最有效地减轻了偏见（减少67%），同时还提升了准确率2.6个F1点
微调的中等模型（XLM-R）在平均性能上与零样本LLM持平甚至略优，提示微调仍有不可替代的价值

亮点与洞察¶

LLM偏见的量化方法设计巧妙，通过配对实验控制变量，使得偏见测量有因果推断的意味而非仅相关性
五级主观信息维度的设计从浅到深排列，可以作为评估LLM政治文本理解深度的graduated benchmark
对比提示（要求列出正反证据）既减轻偏见又提升准确率的发现很有启发，说明强制深度思考有助于克服捷径式判断

局限与展望¶

研究主要聚焦于英语政治新闻，非英语政治文本中的主观信息提取可能面临额外的文化和语言挑战
标注数据集规模有限（数百篇文章），可能不足以覆盖政治话题的多样性
LLM的政治偏见可能随版本更新而变化，本文的结论是特定时间点的快照
未涉及多模态政治信息（如政治广告中的图像+文本组合）

评分¶

新颖性: ⭐⭐⭐⭐ 多维度政治主观信息评估框架有创新，偏见量化方法设计巧妙
实验充分度: ⭐⭐⭐⭐ 涵盖多模型多维度多提示策略，分析深入
写作质量: ⭐⭐⭐⭐ 问题动机清晰，实验设计合理
价值: ⭐⭐⭐⭐ 对LLM在政治文本分析中的可靠使用有重要指导意义