跳转至

If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation?

  • 会议: ACL 2025
  • arXiv: 2502.11469
  • 代码: GitHub
  • 领域: 计算心理语言学 / 句法处理 / 认知建模
  • 关键词: Transformer Grammar, Normalized Attention Entropy, Memory Retrieval, Syntactic Structure, Reading Time Prediction

一句话总结

通过 Transformer Grammar (TG) 的注意力机制研究人类记忆检索的表征形式,发现基于句法结构的注意力(TG)与基于 token 序列的注意力(vanilla Transformer)对阅读时间预测有独立贡献,表明人类句子处理涉及双重记忆表征系统。

研究背景与动机

  • 问题: 最近研究表明 Transformer 的注意力机制可作为人类记忆检索(cue-based retrieval)的计算实现,但现有工作仅关注 vanilla Transformer 基于 token 级别的表征,忽略了句法结构在人类句子处理中的重要作用。
  • 认知科学背景: 心理语言学中有两大句子处理理论——基于预期的理论(expectation-based, 对应 surprisal)和基于记忆的理论(memory-based, 对应 cue-based retrieval)。Cue-based retrieval 理论认为,当遇到动词时需要从工作记忆中检索其论元,类似元素的存在会造成干扰效应(interference)。
  • 核心假设: 如果注意力机制是人类记忆检索的通用算法,那么在句法结构上操作的注意力机制(TG)应该比在 token 序列上操作的注意力(vanilla Transformer)能更好地捕捉人类记忆检索模式。

方法详解

整体框架

使用 Normalized Attention Entropy (NAE) 作为连接模型与人类的桥梁假设,比较 Transformer Grammar (TG) 和 vanilla Transformer 的注意力机制对自定步速阅读时间(self-paced reading times)的预测能力。

关键设计

  1. Transformer Grammar (TG): TG 是一种句法语言模型,联合生成 token 序列和句法结构。其核心创新在于 COMPOSE 注意力机制:当一个句法短语闭合(X))时,COMPOSE 将短语内所有元素压缩为单一向量表征,后续的 STACK 操作直接引用该短语表征进行预测。这使得注意力操作的记忆单元是句法结构(短语)而非 token。

  2. NAE 计算方法: NAE 衡量注意力权重的扩散程度——NAE 越高表示注意力越分散,对应更严重的检索干扰。计算时对注意力权重进行重归一化(排除自身注意力)并除以最大熵进行标准化。仅使用顶层的所有头的 NAE 之和。

  3. TG-specific 设计决策: (a) 使用 "perfect oracle" 句法结构(数据集提供的金标准 parse tree);(b) 仅考虑来自词汇 token 的注意力,排除非词汇符号(如 (NP、NP))的认知负荷归属。

统计分析

使用线性混合效应模型(LME)预测对数阅读时间,基线模型包含词位置、词长、n-gram 频率、surprisal、stack count 等控制变量。通过似然比检验(ΔLogLik)评估添加 NAE 后的预测改善。

实验

主实验

模型 ΔLogLik ↑ NAE 效应量 (ms) NAE_so 效应量 (ms) 显著种子数
TG 76.6 (±8.1) 1.42 (±0.2)*** 2.26 (±0.1)*** 3/3
Transformer 42.8 (±9.5) 1.32 (±0.2)*** 1.46 (±0.2)*** 3/3

(平均阅读时间 334ms,效应量以每标准差对应的毫秒数表示)

消融实验

COMPOSE 注意力的作用 (加入 Transformer NAE 作为基线控制):

模型 ΔLogLik
TG (完整) 46.1 (±9.1)
TG−comp (无 COMPOSE) 18.1 (±9.3)

似然比检验: TG 解释了 TG−comp 无法解释的方差 (p<0.001),反之则不成立 (p=0.478)。

干扰 vs 衰减效应独立性:

预测变量 效应量 (ms)
tg_nae 1.18***
tg_nae_so 2.38***
clt (Category Locality Theory) 0.06 (n.s.)
clt_so 1.30***

TG NAE 和 CLT 的贡献相互独立 (p<0.001)。

关键发现

  1. TG 的 NAE 预测力显著优于 vanilla Transformer (ΔLogLik 76.6 vs 42.8),表明基于句法结构的记忆检索在人类句子处理中占主导地位
  2. 两种模型具有独立贡献: TG 在动词(VB, VBG, VBN, VBP)上优势明显,Transformer 在名词(NN, NNP)上更好——分别对应句法驱动和语义驱动的检索操作
  3. COMPOSE 注意力是关键: 将闭合短语压缩为单一表征是 TG 优势的核心来源,尤其在动词触发的论元检索中
  4. NAE 量化的是干扰效应而非衰减效应: TG NAE 与 Category Locality Theory (衰减模型)的贡献独立

亮点

  • 理论贡献深刻: 首次提供证据表明人类句子处理涉及双重记忆表征(句法结构 + token 序列),注意力机制作为通用检索算法在两者上运作
  • 实验设计严谨: 控制了 surprisal、stack count 等混淆变量,使用多随机种子、溢出效应建模、似然比嵌套检验
  • 连接 NLP 与认知科学: 从 Marr 三层描述的视角论证了注意力机制作为记忆检索的算法层面解释

局限性

  • 仅使用英语 Natural Stories 语料库(10 个故事, 10,245 词),语言和文本类型的泛化性未验证
  • 使用 "perfect oracle" 句法结构,回避了人类在线处理中的局部歧义解消问题
  • NAE 计算方式(顶层求和、子词聚合)可能不是最优的,替代方案未充分探索
  • TG 使用 top-down 解析策略,而心理语言学认为 left-corner 策略可能更接近人类处理

相关工作

  • Cue-based retrieval: Van Dyke & Lewis (2003) 的干扰效应理论
  • 注意力与记忆: Ryu & Lewis (2021) 提出 Attention Entropy, Oh & Schuler (2022) 提出 NAE
  • 句法语言模型: Transformer Grammar (Sartran et al., 2022)、RNNG (Dyer et al., 2016)
  • 认知建模: Surprisal theory (Hale, 2001; Levy, 2008)、Dependency Locality Theory (Gibson, 1998)

评分

  • 新颖性: 8/10 — 将 TG 的句法注意力引入认知建模是全新视角,双重记忆表征的发现具有原创性
  • 技术深度: 7/10 — 方法论上较为标准(LME 回归),但实验设计和控制变量处理非常严谨
  • 实验充分度: 7/10 — 多种消融分析和独立性检验,但语料库和语言覆盖较窄
  • 清晰度: 8/10 — 认知科学概念解释清楚,图表辅助理解,论文组织逻辑清晰
  • 总分: 7.5/10