Behavioral Analysis of Information Salience in Large Language Models¶

会议: ACL 2025 (Findings)
arXiv: 2502.14613
代码: 无
领域: LLM 分析 / NLP
关键词: 信息显著性、摘要生成、内容选择、QUD、行为分析

一句话总结¶

提出一个可解释的分析框架，通过长度受控的摘要生成行为探针和 Questions Under Discussion（QUD）的可回答性追踪，系统推导并研究 LLM 内化的信息显著性（salience）概念，发现 LLM 具有层次化的一致显著性观念，但这一观念无法通过内省获取且与人类感知仅弱相关。

研究背景与动机¶

领域现状：大语言模型在文本摘要任务上表现优异。摘要本质上是一个信息选择任务——模型需要判断源文中哪些信息是"重要的"（salient）并优先保留。这意味着 LLM 内部一定形成了某种关于信息重要性的表征。
现有痛点：尽管已知 LLM 能生成高质量摘要，但对于模型究竟内化了什么样的"显著性"概念，我们知之甚少。现有研究多从输出质量角度评估摘要，缺乏对模型内部信息优先级机制的系统刻画。
核心矛盾：如果我们不理解 LLM 如何排序信息重要性，就无法预测其在下游任务中的行为，也无法有效控制其内容选择策略。同时，LLM 的显著性概念是否与人类对信息重要性的直觉一致，也是一个开放问题。
本文目标：设计一个系统框架来推导和分析 LLM 的信息显著性概念，量化不同模型之间的一致性，以及模型与人类之间的对齐程度。
切入角度：利用长度受控的摘要生成作为"行为探针"——通过要求模型生成不同长度的摘要（从极短到较长），观察模型在不同压缩比下优先保留哪些信息，从而推导出模型的信息优先级排序。
核心 idea：将 QUD（Questions Under Discussion）可回答性作为信息显著性的代理指标——如果一个 QUD 在短摘要中仍然可回答，说明对应信息在模型的显著性排序中位置较高。通过追踪 QUD 在不同摘要长度下的可回答性变化，可以构建一个信息的层次化显著性谱。

方法详解¶

整体框架¶

框架包含三个核心阶段：(1) 摘要生成探针——对同一源文，要求 LLM 生成多个不同目标长度的摘要（如原文的 10%、20%、30%…80%）；(2) QUD 可回答性分析——为源文生成一组覆盖全文的 QUD，然后检查每个 QUD 在每个长度级别的摘要中是否可回答；(3) 显著性谱构建——基于 QUD 的"存活曲线"（在多短的摘要中仍可回答）推导信息的显著性排序。

关键设计¶

长度受控摘要作为行为探针（Length-Controlled Summarization as Behavioral Probe）：通过精确控制摘要的目标长度，迫使模型做出明确的内容选择决策。当目标长度很短时，只有最"重要"的信息被保留；随着长度增加，次重要的信息依次被加入。这种梯度化的压缩揭示了模型的信息优先级排序，类似于信息论中的"率失真"分析。设计动机是避免直接询问模型"什么重要"（可能不准确），而是从其行为中推断。
QUD 可回答性追踪（QUD Answerability Tracking）：QUD（Questions Under Discussion）是语篇分析中的重要概念，每个 QUD 代表文本中一个隐含的信息需求。本文自动生成源文的 QUD 集合，然后评估每个 QUD 在各长度摘要中是否仍可回答。QUD 的存活点（survivability point）——即在多短的摘要中它仍可回答——直接反映了对应信息在模型心中的显著性等级。
跨模型一致性分析（Cross-Model Consistency Analysis）：在 13 个不同的 LLM（跨越多个模型家族和规模）上应用相同的框架，比较它们推导出的显著性排序。通过计算模型对之间的排序相关性（如 Kendall's τ、Spearman's ρ），量化不同模型是否共享相似的信息重要性观念。

损失函数 / 训练策略¶

本文是一项分析研究，不涉及模型训练。主要技术组件包括： - QUD 生成：使用 LLM 为源文自动生成覆盖性的问题集合。 - 可回答性判定：使用 NLI（自然语言推理）模型或 LLM 判断给定摘要是否可以回答特定 QUD。 - 显著性分数计算：基于 QUD 在不同长度摘要中的可回答性阈值，分配显著性分数。 - 评估指标：模型间一致性（排序相关系数）、模型-人类对齐度（与人类显著性标注的相关性）。

实验关键数据¶

主实验¶

在四个摘要数据集上，评估 13 个 LLM 的显著性行为。

分析维度	结果	数据集数量	模型数量	说明
模型间一致性（同家族）	τ ≈ 0.7-0.8	4	13	同家族模型高度一致
模型间一致性（跨家族）	τ ≈ 0.5-0.65	4	13	跨家族仍有中等相关
模型-人类对齐度	τ ≈ 0.2-0.35	4	13	与人类感知仅弱相关
内省 vs 行为一致性	低	4	13	模型无法准确报告自己的内容选择策略
显著性层次结构	3-5层	4	13	信息被分为明确的优先级层次

消融实验¶

配置	模型间一致性	说明
完整框架（7级长度控制）	τ ≈ 0.65	充分的粒度区分
粗粒度长度控制（3级）	τ ≈ 0.55	粒度不足，排序模糊
直接询问显著性排序	τ ≈ 0.30	内省方式效果很差
不同 QUD 数量（10 vs 30 vs 50）	τ ≈ 0.58-0.67	30+ QUD 趋于稳定
模型规模影响	弱正相关	更大模型略微更一致
GPT-4 级别模型	τ ≈ 0.72	最强模型具有最一致的显著性观念

关键发现¶

LLM 具有层次化的显著性概念：实验表明 LLM 将信息组织为明确的优先级层次（通常 3-5 层），高显著性信息即使在极短摘要中也被保留，低显著性信息在适度压缩下就被丢弃。这种层次结构在不同模型中都存在。
模型间高度一致但与人类弱相关：不同 LLM（甚至跨家族、跨规模）在信息优先级排序上展现出高度一致性（τ ≈ 0.5-0.8），表明预训练数据中存在某种共享的"信息重要性"先验。但这一模型共识与人类对信息重要性的感知仅有弱相关（τ ≈ 0.2-0.35），暗示 LLM 的显著性概念可能更偏向"统计频率"而非"认知重要性"。
内省无法揭示真实偏好：直接让 LLM 报告其认为重要的信息（内省方式）与其实际行为（摘要中保留的信息）之间存在显著差异。这警示我们不能信任 LLM 对自身行为的"解释"。
QUD 框架是有效的显著性代理：基于 QUD 可回答性的间接测量与直接的信息保留分析高度一致，验证了框架的方法论有效性。
模型规模对显著性概念的影响有限：同一家族内不同规模的模型共享非常相似的显著性排序，表明这一概念主要在预训练数据中形成，而非随规模涌现。

亮点与洞察¶

方法论创新优雅：利用长度受控摘要作为"行为显微镜"，间接推导模型的内在信息偏好，避免了不可靠的内省性问询。这一思路可推广到其他 LLM 行为分析场景。
QUD 与 NLP 理论的结合：将语篇分析中的 QUD 理论引入 LLM 行为分析，赋予实验框架深厚的语言学理论基础。
重要的负面发现：模型与人类的弱对齐是一个值得警惕的发现——LLM 在摘要任务上的"好成绩"可能掩盖了其信息优先级与人类认知之间的真实差距。
内省不可信的证据：进一步支持了"LLM 不是其自身行为的可靠解释者"这一重要结论。

局限与展望¶

长度控制的精确度依赖于 LLM 自身对指令的遵循能力，不同模型的长度控制偏差可能引入噪声。
QUD 生成本身依赖 LLM，存在循环依赖的风险——如果模型生成的 QUD 本身就带有偏见，推导出的显著性可能反映的是 QUD 偏见而非内容偏好。
4 个数据集可能不足以覆盖所有文本类型（如叙事文、论说文、新闻等的信息结构差异可能很大）。
模型-人类对齐度低的原因需要更深入的分析——是模型偏差还是人类标注的噪声？
未来可以将框架扩展到多语言和多模态场景，研究视觉信息的显著性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 LLM 的信息显著性概念，方法论设计极具创意
实验充分度: ⭐⭐⭐⭐ 13 个模型、4 个数据集、丰富的分析维度
写作质量: ⭐⭐⭐⭐ 研究动机清晰，框架描述系统化，语言学理论基础扎实
价值: ⭐⭐⭐⭐⭐ 揭示了 LLM 内在信息偏好的本质，对可解释 AI 和摘要生成研究都有重要启示