Expect the Unexpected? Testing the Surprisal of Salient Entities¶

会议: ACL 2026
arXiv: 2604.10724
代码: 无
领域: 计算语言学 / 信息论
关键词: 信息密度均匀性, 话语显著性, 惊异度, 实体突出度, 语篇结构

一句话总结¶

本文研究全局显著实体（discourse-level salient entities）与惊异度（surprisal）的关系，通过 70K+ 手工标注的实体提及和新颖的最小对提示方法，发现全局显著实体本身更出人意料（更高 surprisal），但它们系统性地降低周围内容的 surprisal，且该效应随体裁变化——话题连贯性高的文本中效应最强。

研究背景与动机¶

领域现状：信息密度均匀性（UID）假说认为说话者倾向于在话语中均匀分布信息，使惊异度大致恒定。然而，多项研究发现系统性偏离——语音学约束（词首高 surprisal）、句法约束、话语结构约束等"竞争性压力"会产生局部非均匀性。

现有痛点：(1) 先前的 UID 研究基本忽略了话语参与者的相对显著性——哪些实体是文本的"主角"；(2) 关于显著实体本身是否更可预测还是更出人意料，现有结果相互矛盾；(3) 多种因素（语法角色、近期性、指称形式等）影响实体可预测性，难以在自然语境中分离显著性效应。

核心矛盾：一方面，显著实体因反复提及而更可预测；另一方面，它们作为信息承载者可能包含更高信息量。两种效应如何在篇章层面交互？

本文目标：首次系统研究全局实体显著性与 surprisal 的关系，区分实体自身的 surprisal 和实体对周围内容 surprisal 的影响。

切入角度：利用 GUM-SAGE 数据集的手工标注（基于摘要一致性的显著性评分）和 16 种体裁的多样性，结合最小对提示方法控制混淆因素。

核心 idea：全局显著实体扮演"锚点"角色——它们本身承载更多信息（高 surprisal），但通过建立话题期望显著降低后续内容的不确定性，形成局部 surprisal"低谷"。

方法详解¶

整体框架¶

本文是一项观察性语言学分析，全部建立在语言模型给出的 surprisal（即下一词的负对数概率 \(-\log p(w)\)）之上，没有任何模型训练，统计基底是 GUM v11 语料库（250K+ tokens、16 种体裁）。整个研究被组织成层层递进的三个问题：先在自然语料里控制住位置、长度、嵌套等混淆因素后，看显著实体本身的 surprisal 是高还是低（RQ1）；再用最小对提示把"实体身份"单独剥离出来，测量显著实体对其后续内容可预测性的因果影响（RQ2）；最后把同一套测量铺到 16 种体裁上，看效应强度如何随文本的话题连贯性变化（RQ3）。输入是带显著性标注的篇章，中间是受控的 surprisal 对比，输出是"显著实体自身高 surprisal、却压低周围 surprisal"这一双层结论。

关键设计¶

1. 基于摘要一致性的全局显著性度量：把"主角"变成可计算的分数

UID 研究过去几乎没有量化过"谁是篇章主角"，本文借助 GUM-SAGE 数据集为每篇文档配的 5 份独立摘要来解决：一个实体若在全部 5 份摘要里都被提到，记 5 分（最显著），只出现在 1 份里记 1 分，从未出现记 0 分。这套打分背后的直觉很朴素——如果一个实体真的重要，就很难写出一份不提它的摘要，于是"摘要一致性"成了稳健且可操作的显著性定义。落到数据上，这覆盖了 70K+ 个实体提及、31K 个独立实体，而其中约 84.5% 的实体得 0 分，说明绝大多数实体只是"配角"，显著实体是稀疏的少数。

2. 最小对提示范式：把因果从混淆中剥出来

自然语料里语法角色、近期性、指称形式等因素彼此纠缠，单看相关性无法断定显著性的独立贡献。最小对提示（minimal-pair prompting）的做法是固定后续文本，只替换作为提示前缀的实体——一次用显著实体、一次用非显著实体——再比较语言模型对同一段后续内容算出的 surprisal。逻辑很直接：若显著实体确实建立了更强的话题期望，那么以它为前缀时后续内容应当更可预测、surprisal 更低。这等于在观察性语料上构造了一个准对照实验，把"显著性 → 周围可预测性"的因果方向单独测了出来。

3. 跨体裁分析：用话题连贯性检验机制假设

如果显著实体压低周围 surprisal 真的是通过"话题期望"在起作用，那么文本越聚焦单一话题，这种压低就该越明显。GUM 语料库横跨 16 种体裁（学术论文、传记、vlog、对话、法庭记录、散文、小说、论坛等），本文逐体裁测量效应强度，预期话题高度连贯的学术论文效应最强、话题频繁切换的对话效应最弱。这一维度既是稳健性检验，也直接把话题连贯性确立为显著性—surprisal 关系的关键调节变量。

实验关键数据¶

主实验¶

研究问题	核心发现
RQ1: 显著实体自身 surprisal	全局显著实体的 surprisal 显著高于非显著实体，控制位置、长度、嵌套后仍成立
RQ2: 对周围内容的影响	显著实体系统性降低后续内容的 surprisal，创造局部"低谷"
RQ3: 体裁差异	效应在话题连贯文本（学术论文）中最强，在对话语境中最弱

消融实验¶

分析维度	结果
显著性分数 vs surprisal	正相关——得分越高，实体本身 surprisal 越高
最小对：显著 vs 非显著提示	显著实体提示下后续内容 surprisal 显著更低
话题连贯 vs 话题切换体裁	话题连贯体裁中效应强度约为话题切换体裁的 2-3 倍

关键发现¶

全局显著实体"更出人意料"但"使上下文更可预测"——两个看似矛盾的发现实际上反映了不同层面的信息组织
这一模式类似于语音学中的"词首高 surprisal"现象——信息在局部不均匀但在更大尺度上服务于整体均匀性
体裁效应符合话题连贯性假说，为 UID 竞争压力框架增添了指称结构这一新维度
约 84.5% 的实体得分为 0（非显著），表明大多数实体是"配角"

亮点与洞察¶

"显著实体是信息锚点"的洞察优雅统一了两个方向的发现——自身高 surprisal 是因为承载关键信息，降低周围 surprisal 是因为建立了强话题期望
最小对提示方法巧妙地将因果推理引入观察性语料分析，可推广到其他话语现象研究
将 UID 框架中的"竞争压力"扩展到指称结构维度——之前的工作只考虑了语音学、句法和话语结构

局限与展望¶

仅使用英语数据，跨语言泛化性未知
显著性基于摘要一致性，可能偏向于可提取的信息而非深层主题重要性
语言模型计算的 surprisal 不等于人类认知 surprisal
未探索动态显著性——实体的局部显著性可能随话语推进而变化

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究全局实体显著性与 surprisal 的关系，最小对方法新颖
实验充分度: ⭐⭐⭐⭐ 70K 标注、16 种体裁覆盖广泛，但仅限英语
写作质量: ⭐⭐⭐⭐⭐ 研究问题层次分明，分析逻辑严密，结论清晰
价值: ⭐⭐⭐⭐ 为 UID 理论增加了重要的指称结构维度，对话语处理和语言模型评估有启发