The Imperfective Paradox in Large Language Models¶

会议: ACL2026
arXiv: 2601.09373
代码: https://github.com/boleima/ImperfectiveParadox
领域: 语义推理 / LLM 评测
关键词: 未完成体悖论、事件语义、目的论偏置、自然语言推理、ImperfectiveNLI

一句话总结¶

这篇论文用新构造的 ImperfectiveNLI 诊断集检验 LLM 是否理解“正在做某事”不一定意味着“已经完成某事”，发现开源 LLM 普遍会把有目标事件误判为已完成，提示工程只能在减少完成幻觉和保留合法蕴含之间摇摆，真正问题在于推理阶段被目的论先验主导。

研究背景与动机¶

领域现状：大型语言模型在 NLI、问答和复杂推理任务上已经表现很强，但这些高分并不等价于模型掌握了形式语义。事件语义尤其微妙，因为一个句子可能描述动作过程，也可能断言动作结果。对人来说，“The boy was running” 蕴含 “The boy ran”，但 “The carpenter was building a gazebo” 不蕴含 “The carpenter built a gazebo”。

现有痛点：很多 NLP 工作会评估模型能否分类动词体貌、时态或事件类型，但分类一个动词是 telic 还是 atelic，并不代表模型能把这个知识用于推理。LLM 可能知道“building 是有终点的活动”，却仍然在 NLI 判断时凭常识故事补全出“房子建好了”。

核心矛盾：形式语义要求模型区分过程和完成结果，而预训练语料中的叙事偏置往往默认有目标的行动会走向成功。一个目标导向事件被提到时，语言模型会倾向于预测它的典型结局；但严格逻辑推理必须在没有结果证据时保持 Unknown。

本文目标：作者要系统测量 LLM 在未完成体悖论上的表现：它们是否会对 telic progressive 产生完成幻觉；显式规则、CoT 和反事实提示能否修正偏置；更大模型是否自然改善；不同 telic 动词类别是否同样容易触发偏置；偏置来自表示层混淆还是推理/解码阶段。

切入角度：论文把语言学中的 imperfective paradox 转成一个受控 NLI 诊断任务。通过 telic/atelic 与 interrupted/ambiguous 的 2×2 组合，它能同时检查模型是否承认中断事实、是否保留 atelic 的合法蕴含、以及是否在 ambiguous accomplishment 中错误补全完成状态。

核心 idea：用最小对 NLI 数据集把“过程被描述”与“结果已实现”拆开，证明当前 LLM 更像预测叙事结局的模型，而不是严格遵守事件语义边界的逻辑推理器。

方法详解¶

整体框架¶

论文的核心产物是 ImperfectiveNLI 诊断集和围绕它的两个指标。作者从 Vendler 体貌分类出发，选 100 个 telic accomplishment 动词（build、write、fix）和 100 个 atelic activity 动词（run、swim、wander），为每个动词造 premise-hypothesis 对，让模型输出 True / False / Unknown（对应 NLI 的 Entailment / Contradiction / Neutral）。整个设计是一个 2×2：动词是否 telic × 上下文是否明确中断，组成 A（interrupted accomplishment，金标 False）、B（interrupted activity，金标 True）、C（ambiguous accomplishment，金标 Unknown）、D（ambiguous activity，金标 True）四组。在此之上定义目的论偏置率和体貌意识差两个指标，并用提示干预 + 表示分析定位错误到底来自编码还是解码。

关键设计¶

1. 四组最小对诊断数据：把动词体貌和上下文中断信息解耦

如果只测 ambiguous accomplishment 一种题，模型可以一律保守回答 Unknown 就拿高分，根本测不出它懂不懂体貌。四组组合迫使模型同时处理取消、过程、结果四种情形。Group C 是关键 probe：“The carpenter was building a gazebo” → “The carpenter built a gazebo” 的正确标签是 Unknown，因为进行体只说过程在发生、不保证结果完成；Group D 则是防作弊的对照——atelic 活动的任一子区间本身就构成一个事件，所以 “was running” 真的蕴含 “ran”，模型不能把所有 progressive 都判成 Unknown。两组一起逼模型在“悬置 telic 完成”和“接受 atelic 蕴含”之间做出正确区分。

2. 目的论偏置率与体貌意识差：把完成幻觉和真区分能力分开度量

只看 Group C accuracy 不够，因为一个过度保守、把 Group D 也全判 Unknown 的模型同样能拿到不错的 C 组分数。作者用两个指标拆开度量：Teleological Bias Rate 只看 Group C 里模型预测 True 的比例，\(TBR_C=\sum_{i\in C}\mathbb{I}(\hat{y}_i=True)/|C|\)，专抓完成幻觉；Aspectual Awareness Gap 定义为 \(\Delta_{AA}=ACC_D-TBR_C\)，把“抑制 telic 完成幻觉”和“保留 atelic 合法蕴含”绑成一个数——只有 Group D 高准确、同时 Group C 低 TBR 的模型，\(\Delta_{AA}\) 才高。这就堵死了用过度怀疑伪装成理性推理的捷径。

3. 提示干预与表示/行为分离分析：定位错误发生在哪一层

光知道模型做错不够，还要回答错误是知识缺失、表示混淆，还是推理决策出问题。作者在行为侧比较四种提示：zero-shot strict logician、Definition-Aware Prompt（显式给规则）、CoT、Counterfactual（要求模型先想出三个未完成场景再判断）——若显式规则就能修好，问题只是知识缺失。在表示侧，用 contextual embedding 算 progressive 和 perfective 短语的余弦相似度，再和各 verb class 的 TBR 做相关。结果发现模型其实能在表示层编码出过程/结果的差异，却仍做错判断，说明 bug 不在编码，而在解码阶段被“目标行动通常会成功”的叙事先验覆盖了。

损失函数 / 训练策略¶

本文不训练模型，只做评测和提示干预。数据用 Gemini 辅助改写、再经人工严格审核：三名英语母语者从 Grammar、Fluency、Adequacy 三维打分，最终平均质量分 \(4.80\)、邻近一致率 \(96.3\%\)。所有模型评测都用确定性 greedy decoding（最大 512 tokens），避免采样噪声干扰 NLI 标签。评测模型含 Llama-3.1-8B、Mistral-7B-v0.3、Qwen2.5-7B、DeepSeek-7B-Chat、Gemma-2-9B、GLM-4-9B、Yi-1.5-9B，并单独跑 Qwen2.5 的 1.5B/7B/14B/32B/72B 做尺度分析。

实验关键数据¶

主实验¶

Zero-shot 下，绝大多数模型几乎把所有 progressive 都当成 simple past 的完成事实。Llama-3.1 在 Group D 得到 0.98，看似会处理 atelic；但 Group C accuracy 只有 0.02，TBR 高达 0.98，\(\Delta_{AA}\) 为 0.00。这说明它不是理解了 activity 的子区间性质，而是套用了“was V-ing 就 V-ed”的浅层启发。

模型	Acc A	Acc B	Acc C	Acc D	TBR_C	ΔAA	解读
Llama-3.1-8B	0.47	0.85	0.02	0.98	0.98	0.00	几乎总把 telic progressive 判成完成
Mistral-7B	0.37	0.92	0.02	1.00	0.97	0.03	与 Llama 类似，完成偏置强
Qwen2.5-7B	0.20	0.98	0.47	0.97	0.53	0.44	相对最好，能部分悬置判断
Yi-1.5-9B	0.35	0.94	0.02	1.00	0.98	0.02	目的论偏置接近满格
DeepSeek-7B	0.04	0.88	0.00	1.00	1.00	0.00	对 telic 完全幻觉完成
Gemma-2-9B	0.03	0.96	0.06	1.00	0.94	0.06	也无法处理 accomplishment
GLM-4-9B	0.14	0.98	0.03	1.00	0.97	0.03	高 atelic 准确掩盖浅层启发

提示干预形成明显 trade-off。DAP 能给部分模型补充规则，例如 Llama Group C 从 0.02 提到 0.36；CoT 能降低 TBR，但会让 Group D 的 atelic 蕴含下降；Counterfactual 对 Group C 最有效，却把很多模型推向“所有 progressive 都不确定”的极端。Llama 在 Counterfactual 下 Group C 为 0.97，但 Group D 直接跌到 0.00。

Prompt	模型例子	Group C 改善	Group D 代价	TBR_C	结论
Zero-shot	Llama-3.1	0.02	0.98	0.98	天真目的论，默认完成
DAP	Llama-3.1	0.36	0.99	0.45	显式规则有帮助但不彻底
CoT	Llama-3.1	0.67	0.65	0.33	减少完成幻觉，同时过度怀疑 atelic
Counterfactual	Llama-3.1	0.97	0.00	0.00	纠正 telic，却导致校准崩塌
DAP	Qwen2.5-7B	0.89	0.72	0.09	强模型能用规则但仍损失 D 组
CoT	Gemma-2-9B	0.98	0.15	0.02	几乎完全变成过度保守

消融实验¶

尺度分析显示 Qwen2.5 家族出现非线性改善。1.5B 的 TBR 为 1.00，\(\Delta_{AA}\) 为 0.00；7B 改善到 0.44；14B 反而略降到 0.37；32B 出现明显跃迁，Group C accuracy 达 0.91，\(\Delta_{AA}\) 达 0.83；72B 维持高水平但没有继续大幅提升。

Qwen2.5 尺度	Acc A	Acc B	Acc C	Acc D	TBR_C	ΔAA
1.5B	0.21	0.96	0.00	1.00	1.00	0.00
7B	0.20	0.98	0.47	0.97	0.53	0.44
14B	0.24	0.86	0.39	0.98	0.61	0.37
32B	0.53	0.90	0.91	0.92	0.09	0.83
72B	0.43	0.88	0.84	0.97	0.16	0.81

语义类别分析显示，并非所有 telic 动词同样困难。Motion to Goal 在 Group A 的平均准确率约 46%，明显高于 Creation 的 18% 和 Change of State 的 21%；Group C 中 Motion 也比 Creation 更不容易触发完成幻觉。作者认为 Creation 类动词会让模型强烈期待一个对象被创造出来，这种“结果存在性”比空间到达更容易形成目的论吸引子。

语义类别	Group A 平均趋势	Group C 平均趋势	主要现象
Creation	最低，约 18%	完成幻觉强	“build/write/paint” 等会激活结果存在先验
Change of State	约 21%	偏置仍强	状态变化目标也容易被默认完成
Consumption	中等但样本较少	波动较大	eat/read/burn 等事件边界复杂
Motion to Goal	最高，约 46%	TBR 相对最低	到达/穿越类目标更易被模型区分

表示分析最有意思：Motion to Goal 的 progressive/perfective embedding 相似度最高，约 0.88，却行为上最准确；Creation 相似度较低，约 0.85，却 hallucination 更高。相似度和 TBR 呈反向关系，Pearson \(r=-0.97\)，\(p=0.03\)。这说明错误不是模型完全分不清 “was building” 和 “built”，而是推理阶段被“建造通常会完成”的先验覆盖。

关键发现¶

LLM 在 Group D 的高分有欺骗性。它们经常不是理解 atelic entailment，而是把所有 past progressive 都粗暴映射为 simple past。
explicit cancellation 也会被目的论先验压过。Group A 中即使句子说明框架被风暴毁掉，许多模型仍倾向于认为 gazebo built。
提示工程会造成校准危机。越强地提醒模型“进行体不代表完成”，越容易让模型错误拒绝 atelic 的合法蕴含。
模型规模有帮助但不平滑。Qwen2.5 在 32B 附近出现明显跃迁，说明体貌推理可能需要足够容量才能稳定抑制浅层启发。
偏置主要是 reasoning-time failure。表示层能区分过程和结果，但最终决策被叙事完成先验主导。

亮点与洞察¶

论文把一个经典语言学问题转成非常干净的 LLM 诊断任务。四组设计同时排除了“一律 True”和“一律 Unknown”两种投机策略，因此比普通 NLI 更能测出结构语义能力。
TBR 和 \(\Delta_{AA}\) 的组合很漂亮。TBR 专门抓完成幻觉，\(\Delta_{AA}\) 则防止模型用过度怀疑来伪装理性，这对评估校准类语义推理很有借鉴价值。
“predictive narrative engine” 这个判断有启发性。LLM 不只是随机犯错，而是在按照语料中常见叙事补全目标事件，这和很多 hallucination、常识过拟合问题是同一类机制。
表示/行为分离分析让结论更深一层：模型内部并非完全没有体貌区分，问题在于这些表示没有在解码决策中获得正确权重。后续可以尝试 activation steering 或结构化训练把这种表示转化为行为。

局限与展望¶

数据集是模板化构造，内部效度很高，但句法和 discourse 多样性有限。真实文本里会出现时间状语、篇章指代、世界知识和语用暗示，难度可能更高。
论文只研究英语。不同语言对体貌的标记方式差异很大，例如汉语体貌助词、斯拉夫语动词形态和德语非体貌系统可能会带来完全不同的模型行为。
理论金标和人类直觉不一定完全一致。形式语义说 ambiguous accomplishment 是 Unknown，但真实读者可能受世界知识影响给出概率性判断，后续可加入人类判断分布。
干预只限于 prompt。作者没有测试 PEFT、RL、结构化语义监督或 activation steering，因此还不知道偏置能否通过训练稳定修正。
语义类别只分四类 telic 动词，尚未细分事件持续时间、典型中断概率、物体可见性等 script knowledge。这些因素可能解释 Creation 与 Motion 的差异。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用未完成体悖论系统评测 LLM 事件语义推理，问题精细且切口很新。
实验充分度: ⭐⭐⭐⭐☆ 主实验、提示干预、尺度分析、语义类别和表示分析都覆盖到，但语言范围只有英语。
写作质量: ⭐⭐⭐⭐☆ 叙事清楚，语言学背景解释充分，个别结论如 representation proxy 还可以更谨慎。
价值: ⭐⭐⭐⭐⭐ 对 NLI、LLM 语义评测和幻觉机制都有启发，尤其适合作为细粒度形式语义 benchmark 的范例。