The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models¶

会议: AAAI 2026
arXiv: 2511.20344
代码: dmis-lab/analogical-reasoning
领域: LLM效率
关键词: 类比推理, 机制可解释性, 关系信息编码, 结构对齐, 注意力干预

一句话总结¶

通过 Patchscopes、注意力屏蔽和线性探针等机制可解释性工具，系统揭示了 LLM 类比推理的内部机制：模型能在中上层有效编码关系信息，但应用关系信息到新实体是比提取更大的瓶颈；成功的类比推理与故事间强结构对齐相关联，失败则反映弱化或错位的对齐。

研究背景与动机¶

类比推理的认知核心地位：类比推理是人类认知的基石，支撑知识迁移、问题解决和创造性思维，是评估智能系统高阶抽象能力的关键任务。

LLM 类比能力的未知机制：已有工作从行为层面评估了 LLM 的类比表现（如 Webb 等 2023），但其内部是如何提取关系、应用关系的机制尚未被探索。

任务向量的局限：已有研究（如 Function Vectors）发现 LLM 能在 ICL 设置中表示抽象任务信息，但限于简单任务（颜色匹配、反义词），且仅关注向量的存在性而非其在复杂推理中如何被使用。

两类类比的互补性： - 比例类比（A:B::C:D）：考察提取和应用语义关系的能力 - 故事类比：考察在表面细节完全不同的叙事间建立结构对应的能力

核心研究问题：LLM 如何提取实体间的关系并应用于预测？模型如何在语义差异巨大的上下文间建立结构对齐？这些机制与人类认知有何异同？

方法详解¶

整体研究框架¶

研究分为三个递进层次：（1）比例类比中的信息流分析——识别哪些位置和层次对答案解析至关重要；（2）关系应用的瓶颈分析——通过替换和修补实验诊断失败原因；（3）故事类比中的结构对齐分析——理解模型如何识别和映射高层关系平行性。

关键设计 1：比例类比的信息流分析¶

数据集构建：从百万级类比知识库 AnalogyKB 中提取实体对，手动排除多答案和时变关系，生成 5 万条类比。经知识过滤（确保模型具备必要知识）和推理捷径过滤（排除不需推理即可答对的样本），为每个模型各采样 500 条正确和 500 条错误案例。

方法一：注意力屏蔽（Attention Knockout）

选择性禁用解析 token 到四个前驱位置（\(e_1\)、\(e_2\)、link "as"、\(e_3\)）的注意力连接，观察对预测的影响。
保持窗口大小 \(k\)（总层数的 1/5）来覆盖跨层传播。
结果-三大发现：
- 屏蔽 \(e_1\) 对模型影响极小，说明 \(e_1\) 不在答案解析的关键路径上
- 屏蔽 \(e_2\) 或 \(e_3\) 在中上层导致显著性能下降/生成波动，说明这两个位置承载关键信息
- 在错误案例中，屏蔽 link 对早中层有强影响，暗示 link 可能在错误推理中起误导作用

方法二：Patchscopes 解码隐层表征

为 \(e_2\) 和 \(e_3\) 设计定制的目标提示，诱导模型以自然语言输出隐层表征编码的信息。
区分两类信息：
- 属性信息：表征是否捕获了实体的固有属性（如"Jane Austen"是英国作家）
- 关系信息：表征是否编码了连接实体对的关系（如"author of"）
关键发现：
- 属性信息在正确和错误案例中均持续存在于中上层
- 关系信息在正确案例中保持到上层，在错误案例中急剧下降
- 这表明关系信息的编码是类比推理成功的决定性因素

关键设计 2：关系应用的瓶颈诊断¶

实验一：替换第一对实体

将错误案例中的 \((e_1, e_2)\) 替换为同关系正确案例的实体对，测试模型能否"起死回生"。
结果：最多 38.4% 的错误案例被修正，说明相当部分错误源于第一对实体中关系信息提取不充分。
关键推论：剩余的 60%+ 错误案例中，模型即使获得了正确的关系信息，仍然无法成功应用——应用是一个独立于提取的瓶颈。

实验二：表征修补（Activation Patching）

对上述替换后仍错误的案例，将 \(e_2\) 中上层的隐层表征修补到 link 位置的早期层。
结果：最多 38.1% 的剩余错误案例被修正。
机制解读：\(e_2\) 编码的关系信息通过 link 传递到后续位置，link 早期层需要足够的上下文化处理才能有效传播信息。
综合效果：两步实验合计最多修正 55-62% 的错误案例（因模型而异），突显了信息传递路径在类比推理中的核心作用。

关键设计 3：故事类比中的结构对齐分析¶

线性探针实验

从 StoryAnalogy 数据集提取（源故事, 目标故事）和（源故事, 干扰故事）对。
对每层每个注意力头的最终 token 激活训练二分类器，评估类比结构是否可线性分离。
结果：中间层（第 20-30 层，Qwen2.5-14B）平均准确率达 82.9%，说明类比结构在这些层变得可线性分离。

互对齐分数（Mutual Alignment Score, MAS）

定义 MAS 为源故事和候选故事 token 表征之间互为最佳匹配的比例（基于余弦相似度）。
算法：对源 token \(s_i\) 找其在候选中的最佳匹配 \(c_{j^*}\)，再验证 \(c_{j^*}\) 在源中的最佳匹配是否为 \(s_i\)（互为最佳匹配），统计比例。
结果-正确案例：
- 源-目标 MAS 持续高于源-干扰 MAS，尤其在中间层差距最大
- 即使目标故事与源故事几乎无词汇重叠，模型仍能捕获深层结构对齐
- 类比 token 对（如"water"-"air"、"house"-"lungs"）形成互最佳匹配并有高相似度分数
结果-错误案例：
- 源-目标和源-干扰的 MAS 差距极小
- 模型在多数层对干扰故事反而有更强对齐
- 说明模型在关系映射未被鲁棒编码时容易受表面干扰的影响

实验与结果¶

实验设置¶

模型：比例类比用 Llama-2-13B、Gemma-7B、Qwen2.5-14B（基座模型）；故事类比用对应的 Instruct/Chat 版本
数据：比例类比 5 万条自 AnalogyKB 构建；故事类比 360 题自 StoryAnalogy（改为双选+双向验证）
硬件：2×A100 80GB

三大核心发现总结¶

发现	具体内容
1. 关系编码是成功关键	属性信息在正/误案例中无差异，关系信息在错误案例中急剧缺失
2. 应用是独立瓶颈	38.4% 错误源于提取不足，38.1% 额外错误通过修补链接可修正，说明应用与提取同样困难
3. 结构对齐决定成败	正确案例中源-目标的 MAS 远高于源-干扰；错误案例差距消失，模型退化为表面匹配

与人类认知的对比¶

相似点：模型和人类都能抽象出连接实体的关系信息，且关系编码是类比推理的核心。
差异点：对人类而言一旦识别关系，应用到新上下文相对容易；LLM 在应用阶段同样困难，link 位置的信息传递是额外瓶颈。

论文评价¶

优势¶

研究视角独特：从机制可解释性切入类比推理，填补了行为评估和内部机制之间的空白。
方法体系完整：注意力屏蔽定位关键位置 → Patchscopes 分析编码内容 → 替换/修补诊断故障 → MAS 量化结构对齐，四步递进环环相扣。
严格的数据控制：知识过滤排除"不知道"的情况，捷径过滤排除"猜对"的情况，确保分析的是真正的类比推理。
定义了 MAS 指标作为量化结构对齐的新工具。

局限¶

仅分析了 7-14B 规模模型，更大模型（如 70B+）或闭源模型的机制可能不同。
比例类比的实体对来自知识库，关系类型有限（主要是事实型关系），未涵盖更抽象的类比。
修补实验中最优层的选择需要遍历搜索，未给出可预测的规律。