The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models¶
会议: AAAI 2026
arXiv: 2511.20344
代码: dmis-lab/analogical-reasoning
领域: LLM效率
关键词: 类比推理, 机制可解释性, 关系信息编码, 结构对齐, 注意力干预
一句话总结¶
通过 Patchscopes、注意力屏蔽和线性探针等机制可解释性工具,系统揭示了 LLM 类比推理的内部机制:模型能在中上层有效编码关系信息,但应用关系信息到新实体是比提取更大的瓶颈;成功的类比推理与故事间强结构对齐相关联,失败则反映弱化或错位的对齐。
研究背景与动机¶
类比推理的认知核心地位:类比推理是人类认知的基石,支撑知识迁移、问题解决和创造性思维,是评估智能系统高阶抽象能力的关键任务。
LLM 类比能力的未知机制:已有工作从行为层面评估了 LLM 的类比表现(如 Webb 等 2023),但其内部是如何提取关系、应用关系的机制尚未被探索。
任务向量的局限:已有研究(如 Function Vectors)发现 LLM 能在 ICL 设置中表示抽象任务信息,但限于简单任务(颜色匹配、反义词),且仅关注向量的存在性而非其在复杂推理中如何被使用。
两类类比的互补性: - 比例类比(A:B::C:D):考察提取和应用语义关系的能力 - 故事类比:考察在表面细节完全不同的叙事间建立结构对应的能力
核心研究问题:LLM 如何提取实体间的关系并应用于预测?模型如何在语义差异巨大的上下文间建立结构对齐?这些机制与人类认知有何异同?
方法详解¶
整体研究框架¶
研究分为三个递进层次:(1)比例类比中的信息流分析——识别哪些位置和层次对答案解析至关重要;(2)关系应用的瓶颈分析——通过替换和修补实验诊断失败原因;(3)故事类比中的结构对齐分析——理解模型如何识别和映射高层关系平行性。
关键设计 1:比例类比的信息流分析¶
数据集构建:从百万级类比知识库 AnalogyKB 中提取实体对,手动排除多答案和时变关系,生成 5 万条类比。经知识过滤(确保模型具备必要知识)和推理捷径过滤(排除不需推理即可答对的样本),为每个模型各采样 500 条正确和 500 条错误案例。
方法一:注意力屏蔽(Attention Knockout)
- 选择性禁用解析 token 到四个前驱位置(\(e_1\)、\(e_2\)、link "as"、\(e_3\))的注意力连接,观察对预测的影响。
- 保持窗口大小 \(k\)(总层数的 1/5)来覆盖跨层传播。
- 结果-三大发现:
- 屏蔽 \(e_1\) 对模型影响极小,说明 \(e_1\) 不在答案解析的关键路径上
- 屏蔽 \(e_2\) 或 \(e_3\) 在中上层导致显著性能下降/生成波动,说明这两个位置承载关键信息
- 在错误案例中,屏蔽 link 对早中层有强影响,暗示 link 可能在错误推理中起误导作用
方法二:Patchscopes 解码隐层表征
- 为 \(e_2\) 和 \(e_3\) 设计定制的目标提示,诱导模型以自然语言输出隐层表征编码的信息。
- 区分两类信息:
- 属性信息:表征是否捕获了实体的固有属性(如"Jane Austen"是英国作家)
- 关系信息:表征是否编码了连接实体对的关系(如"author of")
- 关键发现:
- 属性信息在正确和错误案例中均持续存在于中上层
- 关系信息在正确案例中保持到上层,在错误案例中急剧下降
- 这表明关系信息的编码是类比推理成功的决定性因素
关键设计 2:关系应用的瓶颈诊断¶
实验一:替换第一对实体
- 将错误案例中的 \((e_1, e_2)\) 替换为同关系正确案例的实体对,测试模型能否"起死回生"。
- 结果:最多 38.4% 的错误案例被修正,说明相当部分错误源于第一对实体中关系信息提取不充分。
- 关键推论:剩余的 60%+ 错误案例中,模型即使获得了正确的关系信息,仍然无法成功应用——应用是一个独立于提取的瓶颈。
实验二:表征修补(Activation Patching)
- 对上述替换后仍错误的案例,将 \(e_2\) 中上层的隐层表征修补到 link 位置的早期层。
- 结果:最多 38.1% 的剩余错误案例被修正。
- 机制解读:\(e_2\) 编码的关系信息通过 link 传递到后续位置,link 早期层需要足够的上下文化处理才能有效传播信息。
- 综合效果:两步实验合计最多修正 55-62% 的错误案例(因模型而异),突显了信息传递路径在类比推理中的核心作用。
关键设计 3:故事类比中的结构对齐分析¶
线性探针实验
- 从 StoryAnalogy 数据集提取(源故事, 目标故事)和(源故事, 干扰故事)对。
- 对每层每个注意力头的最终 token 激活训练二分类器,评估类比结构是否可线性分离。
- 结果:中间层(第 20-30 层,Qwen2.5-14B)平均准确率达 82.9%,说明类比结构在这些层变得可线性分离。
互对齐分数(Mutual Alignment Score, MAS)
- 定义 MAS 为源故事和候选故事 token 表征之间互为最佳匹配的比例(基于余弦相似度)。
- 算法:对源 token \(s_i\) 找其在候选中的最佳匹配 \(c_{j^*}\),再验证 \(c_{j^*}\) 在源中的最佳匹配是否为 \(s_i\)(互为最佳匹配),统计比例。
- 结果-正确案例:
- 源-目标 MAS 持续高于源-干扰 MAS,尤其在中间层差距最大
- 即使目标故事与源故事几乎无词汇重叠,模型仍能捕获深层结构对齐
- 类比 token 对(如"water"-"air"、"house"-"lungs")形成互最佳匹配并有高相似度分数
- 结果-错误案例:
- 源-目标和源-干扰的 MAS 差距极小
- 模型在多数层对干扰故事反而有更强对齐
- 说明模型在关系映射未被鲁棒编码时容易受表面干扰的影响
实验与结果¶
实验设置¶
- 模型:比例类比用 Llama-2-13B、Gemma-7B、Qwen2.5-14B(基座模型);故事类比用对应的 Instruct/Chat 版本
- 数据:比例类比 5 万条自 AnalogyKB 构建;故事类比 360 题自 StoryAnalogy(改为双选+双向验证)
- 硬件:2×A100 80GB
三大核心发现总结¶
| 发现 | 具体内容 |
|---|---|
| 1. 关系编码是成功关键 | 属性信息在正/误案例中无差异,关系信息在错误案例中急剧缺失 |
| 2. 应用是独立瓶颈 | 38.4% 错误源于提取不足,38.1% 额外错误通过修补链接可修正,说明应用与提取同样困难 |
| 3. 结构对齐决定成败 | 正确案例中源-目标的 MAS 远高于源-干扰;错误案例差距消失,模型退化为表面匹配 |
与人类认知的对比¶
- 相似点:模型和人类都能抽象出连接实体的关系信息,且关系编码是类比推理的核心。
- 差异点:对人类而言一旦识别关系,应用到新上下文相对容易;LLM 在应用阶段同样困难,link 位置的信息传递是额外瓶颈。
论文评价¶
优势¶
- 研究视角独特:从机制可解释性切入类比推理,填补了行为评估和内部机制之间的空白。
- 方法体系完整:注意力屏蔽定位关键位置 → Patchscopes 分析编码内容 → 替换/修补诊断故障 → MAS 量化结构对齐,四步递进环环相扣。
- 严格的数据控制:知识过滤排除"不知道"的情况,捷径过滤排除"猜对"的情况,确保分析的是真正的类比推理。
- 定义了 MAS 指标作为量化结构对齐的新工具。
局限¶
- 仅分析了 7-14B 规模模型,更大模型(如 70B+)或闭源模型的机制可能不同。
- 比例类比的实体对来自知识库,关系类型有限(主要是事实型关系),未涵盖更抽象的类比。
- 修补实验中最优层的选择需要遍历搜索,未给出可预测的规律。
相关工作与关联¶
- Function Vectors / Task Vectors:发现 LLM 用紧凑表征编码 ICL 中的抽象任务信息,本文扩展到更复杂的类比推理场景,且进一步分析了这些表征如何在推理中被应用。
- Causal Mediation Analysis:通过干预内部激活分析因果作用的方法论框架,本文的注意力屏蔽和表征修补是该框架在类比推理中的具体应用。
- Structure-Mapping Theory (Gentner):认知科学中类比推理的经典理论——通过结构对齐建立一一对应。MAS 是该理论的计算化量化尝试。
- AnalogyKB:百万级类比知识库,本文用其构建受控实验数据,验证了其在机制分析中的价值。