Multi-document Summarization through Multi-document Event Relation Graph Reasoning in LLMs¶

会议: ACL 2025
arXiv: 2506.12978
代码: https://github.com/yuanyuanlei-nlp/multi_doc_summarization_acl_2025
领域: 文本生成
关键词: media bias mitigation, neutralized summarization, event relation graph, multi-document summarization, graph prompt tuning

一句话总结¶

构建多文档事件关系图（包含四类文档内事件关系、跨文档事件共指、事件级道德观点），通过图文本化和图提示微调两种策略将偏见信息注入 LLM，生成去偏见的中立化摘要，在内容保留和偏见消除上均优于基线。

研究背景与动机¶

领域现状：新闻媒体日益两极化，记者通过内容框架（content framing）将意识形态偏见嵌入报道。大多数研究聚焦于偏见检测（判别文章的政治倾向），而偏见消除（生成中立文本）的研究相对稀少。Lee et al. (2022) 提出中立化摘要任务：给定多篇不同立场的文章，生成一篇中立摘要。

现有痛点：现有中立化摘要方法主要依赖基础的 text-to-text 生成，对偏见缺乏感知。LLM 直接生成摘要时仍会携带词汇层面和信息层面的偏见，甚至产生幻觉。模型不知道哪些事件是各方共同报道的客观事实，哪些是某方的选择性报道。

核心矛盾：偏见消除需要模型理解"偏见来自哪里"——是用词情绪化（词汇偏见）还是选择性报道某些事件（信息偏见）。纯文本输入无法向模型清晰传达这种结构化的偏见分布信息。

本文目标 如何让 LLM 在生成摘要时感知偏见分布，从而同时消除词汇偏见和信息偏见，且不损害内容保留质量。

切入角度：事件和事件关系在偏见检测中扮演关键角色——不同立场的文章会选择性报道不同事件、用不同叙事逻辑串联事件、对事件附加不同道德判断。构建跨文档的事件关系图可以系统揭示偏见来源。

核心 idea：用多文档事件关系图编码偏见分布信息，通过 hard prompt（文本化图）和 soft prompt（图嵌入）双通道注入 LLM 来引导生成中立摘要。

方法详解¶

整体框架¶

输入：一组（通常3篇）报道同一事件但立场不同的新闻文章。输出：一篇中立化摘要。Pipeline 分两阶段：(1) 构建多文档事件关系图——提取事件、预测道德属性、抽取文档内四类事件关系和跨文档事件共指；(2) 将图注入 LLM——graph textualization 转为文本作为 hard prompt，graph prompt tuning 用 GAT 编码图嵌入作为 soft prompt，两者互补输入到冻结的 LLM 中生成摘要。

关键设计¶

多文档事件关系图构建:
- 功能：系统化表征多篇文章间的偏见分布
- 核心思路：用 MAVEN 训练的事件识别器提取事件词；用 EMONA 训练的道德分类器为每个事件打道德标签（Care/Harm, Fairness/Cheating 等5维10类）；用 MAVEN-ERE 联合训练的关系抽取器预测文档内四类事件关系（共指、时序、因果、包含）；用跨文档事件共指系统连接不同文章。图中节点=事件，属性=道德标签，边=事件关系
- 设计动机：跨文档共指揭示内容选择偏见（哪些事件被共同报道 vs 选择性报道）；文档内关系反映叙事框架偏见；道德标签暴露观点性偏见
Graph Textualization（Hard Prompt）:
- 功能：将图结构信息转化为 LLM 可直接读取的文本
- 核心思路：将图转化为两个表格——事件表 \(T_{event}\)（事件ID、事件文本、道德判断）和关系表 \(T_{relation}\)（源事件、关系类型、目标事件），拼接为文本后通过 LLM 的 text embedder 编码为 hard prompt \(h_t = \text{TextEmbedder}(T_{event}; T_{relation})\)
- 设计动机：文本化保留了图的结构信息，同时利用了 LLM 的自然语言理解能力来解读事件关系
Graph Prompt Tuning（Soft Prompt）:
- 功能：通过可学习的图嵌入让模型直接从图结构中学习
- 核心思路：用 Longformer 初始化事件嵌入，拼接道德标签嵌入后通过关系感知 GAT 更新——注意力权重 \(\alpha_{ij} = \text{softmax}((W^Q e_i)(W^K r_{ij})^T)\) 考虑关系类型。引入图全局节点做 GAT 聚合得到图嵌入，再通过两层 MLP 投射到 LLM 表示空间：\(\hat{h}_g = W_2(W_1 h_g + b_1) + b_2\)
- 设计动机：hard prompt 增强指令，soft prompt 直接微调，两者互补

损失函数 / 训练策略¶

冻结 LLM（Llama-2 / LED），训练 GAT 和投射层。标准自回归交叉熵损失。Llama-2 使用 LoRA（rank=8, alpha=16, dropout=0.05），学习率 1e-4；LED 学习率 1e-5。最大输入长度 2048，最大输出长度 512，训练 5 epoch。

实验关键数据¶

主实验¶

方法	Rouge-1	Rouge-2	Rouge-L	BLEU-2	polarization↓	sum-arousal↓
GPT-4	42.36	16.49	26.30	19.04	75.86	5.34
GPT-4 + graph	42.61	18.67	30.82	19.09	31.77	3.60
LED baseline	40.30	18.63	30.24	17.30	31.97	2.45
LED + full model	42.96	20.66	32.74	19.09	28.14	1.97
Llama-2 baseline	42.26	19.25	30.88	19.15	30.30	2.81
Llama-2 + full model	45.14	22.30	34.02	21.89	27.89	2.46

消融实验（图组件贡献）¶

配置	Rouge-1	Rouge-2	polarization↓	sum-arousal↓
Llama-2 baseline	42.26	19.25	30.30	2.81
+ event moral	43.82	20.65	29.05	2.51
+ in-doc relations	44.74	21.31	28.57	2.68
+ cross-doc coreference	44.53	20.78	28.16	2.60
+ all (full model)	45.14	22.30	27.89	2.46

关键发现¶

多文档事件关系图同时提升了内容保留（Rouge/BLEU）和偏见消除（polarization/arousal），两者不矛盾
图的三个组件（道德标签、文档内关系、跨文档共指）各自贡献互补信息，缺一不可
人类评估验证了自动指标：加图后 lexical bias 83.33→91.02、informational bias 84.61→89.74、非幻觉率 68.42→84.21
GPT-4 虽然内容质量最强（非幻觉率 89.74），但偏见分数仍然很高（polarization 75.86），说明强 LLM 也需要结构化偏见引导
定性分析显示图可以帮助模型排除单一来源的偏见信息、恢复被遗漏的共识性事件、消除幻觉

亮点与洞察¶

事件关系图作为偏见载体的设计巧妙：跨文档事件共指自然揭示内容选择偏见，文档内关系反映叙事框架差异，道德标签直接标注观点性偏见。将偏见检测的先验知识结构化引入生成任务
Hard + Soft 双通道注入模式可迁移：文本化让模型"知道"图结构，图嵌入让模型"学会"图语义。这种范式适用于任何需要将结构化知识注入 LLM 的任务（知识图谱、因果图等）
不修改 LLM 主体：冻结 LLM + 轻量 GAT + LoRA，实用性强

局限与展望¶

事件关系抽取器对隐含关系识别较弱，图的构建质量受限于上游 NLP 工具
只在 NeuS 一个数据集上验证，仅覆盖美国政治新闻
道德标签分类基于 Moral Foundation Theory，可能不适用于所有文化背景
未探索 end-to-end 训练（图构建+摘要生成联合优化）

评分¶

新颖性: ⭐⭐⭐⭐ 事件关系图与 LLM 结合做偏见消除的思路新颖，但各子模块均为已有技术
实验充分度: ⭐⭐⭐⭐ 自动评估+人类评估+消融+定性分析齐全，但只有一个数据集
写作质量: ⭐⭐⭐⭐ 动机清晰，图例直观，方法描述详尽
价值: ⭐⭐⭐⭐ 对媒体偏见消除有实际意义，结构化知识注入 LLM 的范式有参考价值