Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility¶
会议: ACL 2025
arXiv: 2503.17579
代码: GitHub
领域: LLM/NLP
关键词: 认知合理性, 代词产出与解读, 隐含因果动词, 大语言模型, 产出-解读不对称
一句话总结¶
本文利用人类在隐含因果动词(implicit causality verbs)上"代词产出"与"代词解读"之间的已知不对称现象作为测试平台,系统评估了指令微调LLM是否能复现这种人类认知不对称性,发现模型大小和元语言提示的选择是决定性因素。
研究背景与动机¶
领域现状:大语言模型是否以类似人类的方式处理语言,一直是理论与实践层面争论的焦点。现有研究主要从语法判断、语义理解等角度评估LLM的"类人性",但对人类语言处理中更细微的认知机制——如产出(production)与解读(interpretation)的分离——关注较少。
现有痛点:人类在语言处理中存在一个经典的认知不对称现象:在包含隐含因果动词(如"frighten"、"admire")的句子中,人们在产出后续代词时和解读已有代词时表现出不同的偏好模式。具体来说,产出任务倾向于选择动词隐含因果指向的那个论元作为后续话题,而解读任务则表现出不同的模式。这种不对称是句子处理研究中的经典发现,但从未被系统地用于检验LLM。
核心矛盾:现有的LLM认知评测往往将产出和解读混为一谈,或者只关注其中一个方面,无法揭示模型在这两种认知模式上的分离程度。此外,prompt设计的差异可能导致评测结果的不稳定。
本文目标:利用隐含因果动词的产出-解读不对称作为一个精确的测试平台,系统评价LLM在多大程度上表现出人类般的认知不对称。
切入角度:作者从心理语言学的经典实验范式出发,将人类实验中的产出任务和解读任务分别映射为LLM的不同提示模板,通过比较模型在两类任务上的表现来检测不对称。
核心 idea:用隐含因果动词的"产出vs解读"不对称性作为认知合理性的试金石,发现部分LLM确实能定量和定性地反映人类的不对称模式,但这一能力受模型规模和元语言提示显著影响。
方法详解¶
整体框架¶
实验基于一组包含隐含因果动词的句子材料。作者将人类心理语言学实验中的两类范式——产出范式(给出句子开头,让LLM续写代词指代谁)和解读范式(给出含代词的完整句子,让LLM判断代词指代谁)——转化为对应的prompt模板,对多个指令微调LLM进行系统测试。核心是比较同一动词在产出和解读任务下的代词偏好是否呈现出与人类一致的不对称。
关键设计¶
-
隐含因果动词材料集:
- 功能:提供一组在人类研究中已有清晰实验数据的动词,包括NP1偏向动词(如"frighten",因果归因指向主语)和NP2偏向动词(如"admire",因果归因指向宾语)
- 核心思路:从已发表的心理语言学研究中收集一批隐含因果动词及其在人类实验中的产出和解读偏好数据,确保有可靠的人类基线进行对比
- 设计动机:没有可靠的人类基线就无法判断LLM行为是否"类人",这些经典动词有数十年的实验积累
-
产出与解读的prompt设计:
- 功能:将心理语言学的两种实验范式转化为LLM可执行的提示
- 核心思路:产出任务使用如"John frightened Mary because he/she..."的句子补全模板,要求模型选择或生成代词;解读任务使用如"John frightened Mary because he did something. Who does 'he' refer to?"的问答模板。作者设计了多套元语言提示(meta-linguistic prompts),探索不同提示措辞对结果的影响
- 设计动机:提示的措辞选择可能显著改变LLM的行为,使用多套提示可以评估结果的稳健性,避免被单一提示的偶然效果误导
-
多模型、多规模系统评测:
- 功能:在不同大小和家族的指令微调LLM上执行测试
- 核心思路:选取多个模型系列(不同参数规模),在每个模型上运行全部产出和解读任务,统计模型在NP1/NP2偏向动词上的代词选择比例,与人类数据进行相关性分析
- 设计动机:评估认知合理性是否是模型规模的涌现能力,以及不同训练方法的影响
损失函数 / 训练策略¶
本文不涉及训练,而是对已有指令微调模型进行零样本测试。评测指标包括:(1) 模型在产出和解读任务上的NP1选择比例;(2) 模型结果与人类数据的皮尔逊相关系数;(3) 产出-解读差异度(衡量不对称幅度)。
实验关键数据¶
主实验¶
| 模型 | 产出-人类相关性 | 解读-人类相关性 | 是否呈现不对称 |
|---|---|---|---|
| 大规模LLM (>70B) | 高 (r>0.6) | 中等 (r~0.4) | 是,与人类方向一致 |
| 中等规模LLM (7-13B) | 中等 | 较低 | 部分一致 |
| 小规模LLM (<7B) | 低 | 低 | 不一致 |
注:具体相关系数因prompt变体而异,大模型在最优prompt下可达较高相关。
消融实验¶
| 配置 | 产出一致性 | 解读一致性 | 说明 |
|---|---|---|---|
| 最优prompt组合 | 高 | 中-高 | 精心设计的元语言提示效果最佳 |
| 简单直接prompt | 中 | 低 | 过于简单的措辞导致模型行为不稳定 |
| 交换NP1/NP2位置 | 略有变化 | 略有变化 | 表明存在位置偏差但不改变整体趋势 |
| 不同prompt模板间差异 | 显著 | 显著 | prompt选择对结果影响很大 |
关键发现¶
- 模型规模是关键因素:更大的模型更可能呈现人类般的产出-解读不对称,小模型几乎无法复现该现象
- prompt选择影响巨大:不同的元语言提示可以导致定性不同的结论,这提醒研究者在评估LLM认知能力时需要多prompt交叉验证
- 产出比解读更稳定:模型在产出任务上与人类的一致性通常高于解读任务,可能因为产出任务更接近模型的自然生成模式
亮点与洞察¶
- 经典认知范式的巧妙迁移:将心理语言学中几十年积累的"产出-解读不对称"实验范式迁移到LLM评测中,为LLM认知合理性提供了一个精确且有理论根基的测试工具。这种迁移思路可以推广到其他认知语言学现象。
- 多prompt鲁棒性评估:不满足于单一prompt结论,系统地测试了多种元语言提示的影响,揭示了当前LLM评测中被忽视的prompt敏感性问题。这一方法论贡献可以迁移到任何依赖提示的LLM评估场景。
- 涌现行为的又一证据:大模型更能复现人类的细粒度认知模式,为"规模带来涌现"提供了来自认知语言学角度的支撑证据。
局限与展望¶
- 仅测试了指令微调模型,未系统比较基座模型(base model)在此任务上的表现
- 隐含因果动词只是人类语言处理中的一个现象,能否推广到其他认知不对称(如花园路径句解析)需进一步验证
- 仅使用英语材料,不确定该不对称在多语言LLM中是否同样存在
- 未探索模型的注意力机制与人类脑区激活的对应关系,停留在行为层面的比较
相关工作与启发¶
- vs 认知评测基准 (BLiMP, SyntaxGym): 这些工作侧重语法能力评估,本文聚焦更细微的语用/话语层面的认知不对称,测试维度不同
- vs 代词消解研究 (Winograd Schema): Winograd侧重常识推理能力,本文关注隐含因果的认知机制,是一个更受控、更有理论基础的测试平台
- vs prompt鲁棒性研究: 与近期探讨prompt对LLM行为影响的工作互补,本文从认知科学角度揭示了prompt选择的理论重要性
评分¶
- 新颖性: ⭐⭐⭐⭐ 将经典心理语言学范式引入LLM评测是有趣的跨学科贡献
- 实验充分度: ⭐⭐⭐⭐ 多模型、多prompt的系统测试较全面,但缺少base model对比
- 写作质量: ⭐⭐⭐⭐ 跨学科论文需要平衡两个领域读者,整体清晰
- 价值: ⭐⭐⭐ 主要面向认知科学与NLP交叉领域,实用价值有限但理论意义明确