跳转至

The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

会议: AAAI 2026
arXiv: 2511.20344
代码: dmis-lab/analogical-reasoning
领域: LLM效率
关键词: 类比推理, 机制可解释性, 关系信息编码, 结构对齐, 注意力干预

一句话总结

通过 Patchscopes、注意力屏蔽和线性探针等机制可解释性工具,系统揭示了 LLM 类比推理的内部机制:模型能在中上层有效编码关系信息,但应用关系信息到新实体是比提取更大的瓶颈;成功的类比推理与故事间强结构对齐相关联,失败则反映弱化或错位的对齐。


研究背景与动机

类比推理的认知核心地位:类比推理是人类认知的基石,支撑知识迁移、问题解决和创造性思维,是评估智能系统高阶抽象能力的关键任务。

LLM 类比能力的未知机制:已有工作从行为层面评估了 LLM 的类比表现(如 Webb 等 2023),但其内部是如何提取关系、应用关系的机制尚未被探索。

任务向量的局限:已有研究(如 Function Vectors)发现 LLM 能在 ICL 设置中表示抽象任务信息,但限于简单任务(颜色匹配、反义词),且仅关注向量的存在性而非其在复杂推理中如何被使用。

两类类比的互补性: - 比例类比(A:B::C:D):考察提取和应用语义关系的能力 - 故事类比:考察在表面细节完全不同的叙事间建立结构对应的能力

核心研究问题:LLM 如何提取实体间的关系并应用于预测?模型如何在语义差异巨大的上下文间建立结构对齐?这些机制与人类认知有何异同?


方法详解

整体研究框架

研究分为三个递进层次:(1)比例类比中的信息流分析——识别哪些位置和层次对答案解析至关重要;(2)关系应用的瓶颈分析——通过替换和修补实验诊断失败原因;(3)故事类比中的结构对齐分析——理解模型如何识别和映射高层关系平行性。

关键设计 1:比例类比的信息流分析

数据集构建:从百万级类比知识库 AnalogyKB 中提取实体对,手动排除多答案和时变关系,生成 5 万条类比。经知识过滤(确保模型具备必要知识)和推理捷径过滤(排除不需推理即可答对的样本),为每个模型各采样 500 条正确和 500 条错误案例。

方法一:注意力屏蔽(Attention Knockout)

  • 选择性禁用解析 token 到四个前驱位置(\(e_1\)\(e_2\)、link "as"、\(e_3\))的注意力连接,观察对预测的影响。
  • 保持窗口大小 \(k\)(总层数的 1/5)来覆盖跨层传播。
  • 结果-三大发现
    • 屏蔽 \(e_1\) 对模型影响极小,说明 \(e_1\) 不在答案解析的关键路径上
    • 屏蔽 \(e_2\)\(e_3\) 在中上层导致显著性能下降/生成波动,说明这两个位置承载关键信息
    • 在错误案例中,屏蔽 link 对早中层有强影响,暗示 link 可能在错误推理中起误导作用

方法二:Patchscopes 解码隐层表征

  • \(e_2\)\(e_3\) 设计定制的目标提示,诱导模型以自然语言输出隐层表征编码的信息。
  • 区分两类信息:
    • 属性信息:表征是否捕获了实体的固有属性(如"Jane Austen"是英国作家)
    • 关系信息:表征是否编码了连接实体对的关系(如"author of")
  • 关键发现
    • 属性信息在正确和错误案例中均持续存在于中上层
    • 关系信息在正确案例中保持到上层,在错误案例中急剧下降
    • 这表明关系信息的编码是类比推理成功的决定性因素

关键设计 2:关系应用的瓶颈诊断

实验一:替换第一对实体

  • 将错误案例中的 \((e_1, e_2)\) 替换为同关系正确案例的实体对,测试模型能否"起死回生"。
  • 结果:最多 38.4% 的错误案例被修正,说明相当部分错误源于第一对实体中关系信息提取不充分。
  • 关键推论:剩余的 60%+ 错误案例中,模型即使获得了正确的关系信息,仍然无法成功应用——应用是一个独立于提取的瓶颈

实验二:表征修补(Activation Patching)

  • 对上述替换后仍错误的案例,将 \(e_2\) 中上层的隐层表征修补到 link 位置的早期层。
  • 结果:最多 38.1% 的剩余错误案例被修正。
  • 机制解读\(e_2\) 编码的关系信息通过 link 传递到后续位置,link 早期层需要足够的上下文化处理才能有效传播信息。
  • 综合效果:两步实验合计最多修正 55-62% 的错误案例(因模型而异),突显了信息传递路径在类比推理中的核心作用。

关键设计 3:故事类比中的结构对齐分析

线性探针实验

  • 从 StoryAnalogy 数据集提取(源故事, 目标故事)和(源故事, 干扰故事)对。
  • 对每层每个注意力头的最终 token 激活训练二分类器,评估类比结构是否可线性分离。
  • 结果:中间层(第 20-30 层,Qwen2.5-14B)平均准确率达 82.9%,说明类比结构在这些层变得可线性分离。

互对齐分数(Mutual Alignment Score, MAS)

  • 定义 MAS 为源故事和候选故事 token 表征之间互为最佳匹配的比例(基于余弦相似度)。
  • 算法:对源 token \(s_i\) 找其在候选中的最佳匹配 \(c_{j^*}\),再验证 \(c_{j^*}\) 在源中的最佳匹配是否为 \(s_i\)(互为最佳匹配),统计比例。
  • 结果-正确案例
    • 源-目标 MAS 持续高于源-干扰 MAS,尤其在中间层差距最大
    • 即使目标故事与源故事几乎无词汇重叠,模型仍能捕获深层结构对齐
    • 类比 token 对(如"water"-"air"、"house"-"lungs")形成互最佳匹配并有高相似度分数
  • 结果-错误案例
    • 源-目标和源-干扰的 MAS 差距极小
    • 模型在多数层对干扰故事反而有更强对齐
    • 说明模型在关系映射未被鲁棒编码时容易受表面干扰的影响

实验与结果

实验设置

  • 模型:比例类比用 Llama-2-13B、Gemma-7B、Qwen2.5-14B(基座模型);故事类比用对应的 Instruct/Chat 版本
  • 数据:比例类比 5 万条自 AnalogyKB 构建;故事类比 360 题自 StoryAnalogy(改为双选+双向验证)
  • 硬件:2×A100 80GB

三大核心发现总结

发现 具体内容
1. 关系编码是成功关键 属性信息在正/误案例中无差异,关系信息在错误案例中急剧缺失
2. 应用是独立瓶颈 38.4% 错误源于提取不足,38.1% 额外错误通过修补链接可修正,说明应用与提取同样困难
3. 结构对齐决定成败 正确案例中源-目标的 MAS 远高于源-干扰;错误案例差距消失,模型退化为表面匹配

与人类认知的对比

  • 相似点:模型和人类都能抽象出连接实体的关系信息,且关系编码是类比推理的核心。
  • 差异点:对人类而言一旦识别关系,应用到新上下文相对容易;LLM 在应用阶段同样困难,link 位置的信息传递是额外瓶颈。

论文评价

优势

  • 研究视角独特:从机制可解释性切入类比推理,填补了行为评估和内部机制之间的空白。
  • 方法体系完整:注意力屏蔽定位关键位置 → Patchscopes 分析编码内容 → 替换/修补诊断故障 → MAS 量化结构对齐,四步递进环环相扣。
  • 严格的数据控制:知识过滤排除"不知道"的情况,捷径过滤排除"猜对"的情况,确保分析的是真正的类比推理。
  • 定义了 MAS 指标作为量化结构对齐的新工具。

局限

  • 仅分析了 7-14B 规模模型,更大模型(如 70B+)或闭源模型的机制可能不同。
  • 比例类比的实体对来自知识库,关系类型有限(主要是事实型关系),未涵盖更抽象的类比。
  • 修补实验中最优层的选择需要遍历搜索,未给出可预测的规律。

相关工作与关联

  • Function Vectors / Task Vectors:发现 LLM 用紧凑表征编码 ICL 中的抽象任务信息,本文扩展到更复杂的类比推理场景,且进一步分析了这些表征如何在推理中被应用。
  • Causal Mediation Analysis:通过干预内部激活分析因果作用的方法论框架,本文的注意力屏蔽和表征修补是该框架在类比推理中的具体应用。
  • Structure-Mapping Theory (Gentner):认知科学中类比推理的经典理论——通过结构对齐建立一一对应。MAS 是该理论的计算化量化尝试。
  • AnalogyKB:百万级类比知识库,本文用其构建受控实验数据,验证了其在机制分析中的价值。