Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models¶

会议: ICML 2025
arXiv: 2502.20332
代码: 无
领域: LLM/NLP
关键词: 涌现符号机制, 抽象推理, 机械可解释性, 符号抽象头, LLM内部机制

一句话总结¶

本文通过因果分析、表征分析和注意力分析等方法，在13个开源LLM中识别出支持抽象推理的三阶段涌现符号架构——符号抽象头将输入token转化为抽象变量、符号归纳头在抽象变量层面进行序列归纳、检索头根据预测的抽象变量检索对应值来完成下一token预测。

领域现状：LLM在推理任务上表现令人印象深刻，甚至某些情况接近人类水平。但关于其能力的鲁棒性和本质存在持续争论。

现有痛点：从外部行为评估无法回答深层机制问题。LLM在不同推理领域表现不一致，关键问题是：这些能力背后是什么内部机制？

核心矛盾：符号主义 vs 联结主义的长期争论——符号处理被认为是抽象推理的必要条件，但标准Transformer无明确符号处理归纳偏置。

本文目标：深入LLM内部，识别支持抽象推理的具体机制，确定是否具有符号处理的关键特性。

切入角度：从 Abstractor 架构的设计原理出发，提出三阶段假说并在真实LLM中验证。

核心 idea：LLM中涌现出了符号处理机制——不是架构预设而是大规模训练中自发形成的——可能调和了联结主义和符号主义之争。

提出三阶段涌现符号架构（Emergent Symbolic Architecture），在三个推理任务（代数规则归纳、字母串类比、词语类比）和四个模型家族（GPT-2, Gemma-2, Qwen2.5, Llama-3.1）的13个LLM上验证。手段：因果干预、表征分析、注意力模式分析。

符号抽象头（Symbol Abstraction Heads）:
- 功能：在 early layers 将输入 token 转换为抽象变量表示
- 核心思路：类似 Abstractor 架构的关系交叉注意力——value 嵌入不携带输入 token 身份信息，只编码 in-context 示例中的相对位置
- 工作原理：QK内积计算token间关系；输出对token身份不变——无论哪个token充当变量A，符号表示一致
- 关键特性：不变性——变量名只是占位符，不依赖具体值
符号归纳头（Symbolic Induction Heads）:
- 功能：在 intermediate layers 对抽象变量进行序列归纳
- 核心思路：在抽象变量层面做模式匹配——"如果pattern是变量X→Y→X，下一个应该是..."
- 设计动机：只有在抽象变量层面归纳才能实现跨具体token的系统性泛化
检索头（Retrieval Heads）:
- 功能：在 later layers 将预测的抽象变量映射回具体token
- 核心思路：通过注意力找"变量A当前绑定的值是什么token"并预测
- 关键特性：间接引用（indirection）——变量作为指针指向内容
验证方法论:
- 因果分析：ablation 特定头验证因果作用
- 表征分析：验证符号抽象头输出对 token 身份不变
- 注意力分析：检查注意力模式是否符合假说

分析性工作，不涉及模型训练。使用原始预训练权重。代数规则归纳用2-shot ICL，ABA/ABB规则用随机vocabulary token实例化。

模型	规模	规则归纳2-shot准确率	三阶段机制证据
Llama-3.1 70B	70B	95%	强证据
Gemma-2系列	多规模	高	强证据
Qwen2.5系列	多规模	高	强证据
GPT-2	1.5B	较低	证据不够明确