Principled Content Selection to Generate Diverse and Personalized Multi-Document Summaries¶

会议: ACL 2025
arXiv: 2505.21859
代码: 未公开
领域: 其他
关键词: multi-document summarization, DPP, content selection, source coverage, personalized summary

一句话总结¶

提出将多文档摘要解耦为关键点抽取→DPP多样性选择→重写三步流水线，通过行列式点过程（DPP）进行原则性内容选择，显著提升LLM多文档摘要的源文档覆盖率。

研究背景与动机¶

问题定义：多文档多样性摘要（MDDS）要求从多篇报道同一新闻事件的文章中生成覆盖多元观点的摘要，现有LLM因"lost in the middle"注意力偏差导致覆盖率不足
现有方法局限：直接将所有文档拼接后让LLM一步生成摘要，内容选择和文本生成耦合在一起，LLM的位置偏差会导致开头/结尾文档被过度关注
核心假设：LLM不擅长内容选择，将其与文本生成解耦并用原则性方法（DPP）替代LLM做内容选择可提升覆盖率
额外目标：通过将用户意图相关性融入DPP核矩阵，生成个性化摘要

方法详解¶

整体框架¶

LLM + DPP三步流水线：(1) 用LLM从每篇源文档中抽取原子关键点（key points）；(2) 用DPP从所有关键点中选择多样性子集；(3) 用LLM将选中关键点重写为连贯摘要。

关键设计¶

关键点抽取：使用zero-shot提示让LLM将每篇文档 \(d_i\) 分解为原子关键点集合 \(K_i\)，每个关键点捕获一个独立的信息单元，确保信息粒度足够细
DPP多样性选择：用Transformer编码器（DeBERTa-V3 BERTScore嵌入）将关键点编码为向量，构建高斯核矩阵 \(L\) 衡量关键点间相似度，通过DPP推理（谱方法精确采样）选择多样性最大的子集 \(K_{sel}\)，选中数量由核矩阵特征值自动决定
相关性加权DPP：对于query-focused任务，用e5-mistral-7b-instruct计算每个关键点与用户意图的相关性分数 \(R_i\)，构造 \(L' = RLR^T\) 平衡多样性与相关性

损失函数¶

无需训练，DPP选择基于核矩阵的组合优化（贪心近似），所有LLM步骤均为zero-shot提示。评估使用LLM-as-judge（GPT-4o）判断摘要是否能正确回答源文档相关问题，人工验证与LLM判断的一致率达86.4%（可回答性）和95.3%（正确性）。

实验¶

主实验¶

方法	DiverseSumm覆盖率				DiverseSumm Augmented覆盖率
	GPT 3.5	GPT 4o	Claude	Llama	GPT 3.5	GPT 4o	Claude	Llama
Naive LLM	0.332	0.552	0.478	0.243	0.267	0.481	0.425	0.219
All KPs	0.347	0.544	0.568	0.346	0.257	0.462	0.411	0.237
LLM-Selected KPs	0.437	0.575	0.537	0.338	0.385	0.541	0.514	0.309
LLM + DPP	0.471	0.581	0.592	0.365	0.385	0.554	0.547	0.323

消融实验（DPP核选择）¶

核函数	GPT 3.5	GPT 4o	Claude
Gaussian σ=0.1	0.449	0.615	0.635
Gaussian σ=1	0.471	0.581	0.592
Gaussian σ=10	0.434	0.591	0.520
Linear	0.465	0.589	0.586

关键发现¶

LLM + DPP在所有4个LLM上一致性地取得最高覆盖率，证明DPP内容选择的有效性
显式关键点选择（LLM-Selected KPs和LLM + DPP）普遍优于全量关键点（All KPs），说明仅缩短上下文不够，需要主动选择
DPP选择的关键点比LLM选择的关键点覆盖更多源文档（分布更均匀）
LLM + DPP有效缓解了位置偏差：Llama的尾部偏差、GPT-4o的头部偏差均显著降低
覆盖率提升并非来自更长摘要——各方法平均摘要长度无显著差异

亮点¶

将原则性统计方法（DPP）与LLM提示流水线优雅结合，展示了并非所有步骤都需要用LLM完成
清晰揭示了不同LLM在多文档场景下的位置偏差模式（头部/尾部/中间偏差）及其对覆盖率的影响
方法简洁、模块化、即插即用，适用于不同LLM后端，无需额外训练
通过合成问题扩展和人工验证确保评估的可靠性

局限性¶

仅在新闻领域的DiverseSumm benchmark上评估，其他领域（如科技、医疗）泛化性未知
DPP核函数和参数（σ）需手动调优，不同LLM的最优配置可能不同
query-focused任务的相关性评估依赖额外的retrieval模型（e5-mistral-7b），增加了系统复杂度和推理成本
关键点抽取质量依赖LLM本身的能力，弱模型可能产生低质量关键点
未与最新的长上下文优化方法（如RAG、context compression）进行对比

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总体推荐	⭐⭐⭐⭐

备注：本文在245个新闻事件上实验，使用GPT-3.5/GPT-4o/Claude-3-Sonnet/LLaMA-3.1四种LLM评估，结果具有较强的一致性和说服力。