If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation?¶

会议: ACL 2025
arXiv: 2502.11469
代码: GitHub
领域: 计算心理语言学 / 句法处理 / 认知建模
关键词: Transformer Grammar, Normalized Attention Entropy, Memory Retrieval, Syntactic Structure, Reading Time Prediction

一句话总结¶

通过 Transformer Grammar (TG) 的注意力机制研究人类记忆检索的表征形式，发现基于句法结构的注意力(TG)与基于 token 序列的注意力(vanilla Transformer)对阅读时间预测有独立贡献，表明人类句子处理涉及双重记忆表征系统。

研究背景与动机¶

问题: 最近研究表明 Transformer 的注意力机制可作为人类记忆检索(cue-based retrieval)的计算实现，但现有工作仅关注 vanilla Transformer 基于 token 级别的表征，忽略了句法结构在人类句子处理中的重要作用。
认知科学背景: 心理语言学中有两大句子处理理论——基于预期的理论(expectation-based, 对应 surprisal)和基于记忆的理论(memory-based, 对应 cue-based retrieval)。Cue-based retrieval 理论认为，当遇到动词时需要从工作记忆中检索其论元，类似元素的存在会造成干扰效应(interference)。
核心假设: 如果注意力机制是人类记忆检索的通用算法，那么在句法结构上操作的注意力机制(TG)应该比在 token 序列上操作的注意力(vanilla Transformer)能更好地捕捉人类记忆检索模式。

方法详解¶

整体框架¶

使用 Normalized Attention Entropy (NAE) 作为连接模型与人类的桥梁假设，比较 Transformer Grammar (TG) 和 vanilla Transformer 的注意力机制对自定步速阅读时间(self-paced reading times)的预测能力。

关键设计¶

Transformer Grammar (TG): TG 是一种句法语言模型，联合生成 token 序列和句法结构。其核心创新在于 COMPOSE 注意力机制：当一个句法短语闭合(X))时，COMPOSE 将短语内所有元素压缩为单一向量表征，后续的 STACK 操作直接引用该短语表征进行预测。这使得注意力操作的记忆单元是句法结构(短语)而非 token。
NAE 计算方法: NAE 衡量注意力权重的扩散程度——NAE 越高表示注意力越分散，对应更严重的检索干扰。计算时对注意力权重进行重归一化(排除自身注意力)并除以最大熵进行标准化。仅使用顶层的所有头的 NAE 之和。
TG-specific 设计决策: (a) 使用 "perfect oracle" 句法结构(数据集提供的金标准 parse tree)；(b) 仅考虑来自词汇 token 的注意力，排除非词汇符号(如 (NP、NP))的认知负荷归属。

统计分析¶

使用线性混合效应模型(LME)预测对数阅读时间，基线模型包含词位置、词长、n-gram 频率、surprisal、stack count 等控制变量。通过似然比检验(ΔLogLik)评估添加 NAE 后的预测改善。

实验¶

主实验¶

模型	ΔLogLik ↑	NAE 效应量 (ms)	NAE_so 效应量 (ms)	显著种子数
TG	76.6 (±8.1)	1.42 (±0.2)***	2.26 (±0.1)***	3/3
Transformer	42.8 (±9.5)	1.32 (±0.2)***	1.46 (±0.2)***	3/3

(平均阅读时间 334ms，效应量以每标准差对应的毫秒数表示)

消融实验¶

COMPOSE 注意力的作用 (加入 Transformer NAE 作为基线控制):

模型	ΔLogLik
TG (完整)	46.1 (±9.1)
TG−comp (无 COMPOSE)	18.1 (±9.3)

似然比检验: TG 解释了 TG−comp 无法解释的方差 (p<0.001)，反之则不成立 (p=0.478)。

干扰 vs 衰减效应独立性:

预测变量	效应量 (ms)
tg_nae	1.18***
tg_nae_so	2.38***
clt (Category Locality Theory)	0.06 (n.s.)
clt_so	1.30***

TG NAE 和 CLT 的贡献相互独立 (p<0.001)。

关键发现¶

TG 的 NAE 预测力显著优于 vanilla Transformer (ΔLogLik 76.6 vs 42.8)，表明基于句法结构的记忆检索在人类句子处理中占主导地位
两种模型具有独立贡献: TG 在动词(VB, VBG, VBN, VBP)上优势明显，Transformer 在名词(NN, NNP)上更好——分别对应句法驱动和语义驱动的检索操作
COMPOSE 注意力是关键: 将闭合短语压缩为单一表征是 TG 优势的核心来源，尤其在动词触发的论元检索中
NAE 量化的是干扰效应而非衰减效应: TG NAE 与 Category Locality Theory (衰减模型)的贡献独立

亮点¶

理论贡献深刻: 首次提供证据表明人类句子处理涉及双重记忆表征(句法结构 + token 序列)，注意力机制作为通用检索算法在两者上运作
实验设计严谨: 控制了 surprisal、stack count 等混淆变量，使用多随机种子、溢出效应建模、似然比嵌套检验
连接 NLP 与认知科学: 从 Marr 三层描述的视角论证了注意力机制作为记忆检索的算法层面解释

局限性¶

仅使用英语 Natural Stories 语料库(10 个故事, 10,245 词)，语言和文本类型的泛化性未验证
使用 "perfect oracle" 句法结构，回避了人类在线处理中的局部歧义解消问题
NAE 计算方式(顶层求和、子词聚合)可能不是最优的，替代方案未充分探索
TG 使用 top-down 解析策略，而心理语言学认为 left-corner 策略可能更接近人类处理

评分¶

新颖性: 8/10 — 将 TG 的句法注意力引入认知建模是全新视角，双重记忆表征的发现具有原创性
技术深度: 7/10 — 方法论上较为标准(LME 回归)，但实验设计和控制变量处理非常严谨
实验充分度: 7/10 — 多种消融分析和独立性检验，但语料库和语言覆盖较窄
清晰度: 8/10 — 认知科学概念解释清楚，图表辅助理解，论文组织逻辑清晰
总分: 7.5/10