Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing¶

会议: ICML 2025
arXiv: 2410.17194
代码: 无
领域: 知识编辑
关键词: knowledge editing, Representation Shattering, Transformers, Knowledge Graphs, mechanistic interpretability

一句话总结¶

通过在环形结构知识图谱上训练Transformer的合成实验，发现知识编辑（KE）会"粉碎"模型内部学到的几何表示流形，且粉碎程度与编辑距离正相关（\(r^2=0.905\)），从而提出"表示粉碎"（representation shattering）作为KE损害模型能力的机制性假说，并在Llama 3和Mamba上验证了该现象的普遍性。

研究背景与动机¶

领域现状：知识编辑（Knowledge Editing, KE）旨在精确修改LLM中的特定事实关联，同时保持其他知识不受影响。ROME、MEMIT等方法通过定位知识到特定MLP层再进行闭式更新来实现编辑。然而，近期工作（Cohen et al., 2023; Gupta et al., 2024; Gu et al., 2024）发现KE不仅影响目标事实，还会损害模型更广泛的事实回忆和推理能力。

痛点：虽然已有大量经验性证据表明KE有害，但在机制层面——编辑究竟如何改变了模型的内部表示，从而导致广泛的能力退化——仍然缺乏理解。直接分析大规模LLM的内部表示过于复杂，难以得出精确假说。

核心矛盾：KE的"定位-编辑"范式假设知识是局部存储的，但实际上模型通过参数共享和叠加（superposition）将不相关的事实压缩在重叠的子空间中，局部编辑可能会产生全局影响。

本文方案：设计一个可控的合成任务——在环形结构知识图谱上训练Transformer，使得模型表示精确编码图的全局拓扑结构。然后施加知识编辑并观察表示如何被破坏，从而建立"表示粉碎"假说。

切入角度：遵循"合成任务→精确假说→真实验证"的方法论（类似Allen-Zhu & Li等工作），用简化但可解释的环境建立因果理解，再推广到真实LLM。

方法详解¶

整体框架¶

合成数据构建：定义2048个实体，按3个随机环形排列（cyclic order I/II/III），每个排列产生8个关系（1-4跳的顺时针/逆时针邻居），共24个关系
数据生成：在知识图谱上做随机游走，生成"实体-关系-实体-关系-..."交替序列作为训练数据
模型训练：用2层nanoGPT Transformer做next-token prediction
评估与编辑：分别评估纠正性编辑和反事实编辑对直接回忆、逻辑推理和组合推理的影响

关键设计¶

环形知识图谱的构建动机与结构：
- 每个关系子图是一组不相交的环形图，对应"顺时针k跳邻居"等关系（如"I_C2"表示环形排列I中顺时针2跳邻居）
- 3个环形排列分别用作edit（编辑目标）、retain（保持集）和test（测试集）子图
- 选择环形拓扑的动机：真实LLM中月份、星期等概念在表示空间中呈环形排列（如Llama-3.1-405B），环形结构是自然语言中常见的实体关系模式
- 编辑距离定义为旧实体与新实体在环形排列中的最短距离
表示粉碎度量（Representation Shattering Metric）：
- 定义度量 \(R(D_*)\) 量化编辑后表示的扭曲程度：

\[R(D_*) = \frac{\|D_* - D_\varnothing\|_F}{\|D_\varnothing\|_F}\]

其中 \(D_\varnothing\) 是未编辑模型的实体间成对距离矩阵，\(D_*\) 是编辑后模型的距离矩阵，\(\|\cdot\|_F\) 为Frobenius范数 - 该度量对排列敏感：\(R=0\) 意味着每个实体token保持原位，即使几何结构同构（两个实体交换位置）也会产生非零值 - 设计动机：需要一个定量指标将"表示被破坏的程度"与"性能下降的程度"关联起来

三类评估任务：
- 直接回忆（Direct Recall）：测试训练中见过的事实是否仍被正确记忆
- 逻辑推理（Logical Inference）：测试可从其他关系推断的hold-out关系（如逆时针1跳可从顺时针1跳推断）
- 组合推理（Compositional Inference）：测试两个关系的组合（需要模型保持几何结构才能泛化）
- 使用5个随机上下文序列的平均softmax概率来评估

损失函数 / 训练策略¶

训练使用标准的next-token prediction交叉熵损失
知识编辑使用ROME方法（rank-one model editing）：对MLP层的权重矩阵做秩一更新
同时测试了MEMIT、PMET和AlphaEdit等方法，结论一致

实验关键数据¶

主实验¶

评估类型	编辑前准确率（环形I/II/III）	纠正性编辑ΔAcc	反事实编辑(d=1)ΔAcc	反事实编辑(d=4)ΔAcc
直接回忆	98.3 / 93.7 / 99.4	-21.95	-1.49	-77.94
逻辑推理	98.2 / 94.0 / 99.4	-22.24	-1.44	-78.02
组合推理	88.2 / 79.3 / 93.5	-29.60	-5.32	-80.63

消融实验¶

反事实编辑距离d	R(D*) Edit子图	R(D*) Retain子图	R(D*) Test子图
d=1	1.80	1.80	1.84
d=2	21.93	20.84	21.89
d=3	26.22	25.32	26.52
d=4	27.90	27.28	28.68

关键发现¶

粉碎与性能强相关：\(R(D_*)\) 与准确率下降之间的相关系数 \(r^2=0.905\)，表示粉碎越严重，性能下降越大
编辑距离是关键因素：反事实编辑距离d=1时几乎无害（ΔAcc约-1.5%），而d=4时灾难性退化（ΔAcc约-78%）。直觉类比：将"December"编辑为"November"远比编辑为"July"安全
纠正性编辑也有害：修正模型训练中学错的事实，反而导致所有指标下降（ΔAcc约-22%），这与直觉相悖
影响全局：编辑一个事实不仅影响edit子图的关系，对retain和test子图（与编辑无关的关系）也造成几乎相同程度的损害
模型学到了数据几何：Isomap可视化显示Transformer的内部表示精确反映了环形拓扑结构（见Fig. 4a）
LLM验证：在Llama 3 8B Instruct上用MEMIT编辑月份顺序的反事实关联，也观察到(a)MMLU-Redux推理准确率随编辑距离下降，(b)月份表示的环形结构逐渐被破坏（见Fig. 7）

亮点与洞察¶

精巧的合成实验设计：环形知识图谱同时满足"结构化"（有全局拓扑）和"可控"（编辑距离可精确定义）的需求，使得因果分析成为可能
"表示粉碎"假说的解释力：不仅解释了"为什么KE损害能力"，还预测了"什么样的编辑更有害"（距离更大→粉碎更严重→损害更大），形成了可证伪的假说
从合成到真实的验证路径：利用LLM中月份/星期概念的环形表示（由Engels et al., 2024发现）作为天然的验证场景，实现了假说的跨规模验证
对"定位-编辑"范式的根本质疑：揭示了KE的脆弱性源于事实存储的纠缠压缩本质，而非知识保持任务本身的难度

局限与展望¶

合成任务的简化性：2层nanoGPT + 2048实体的环形图谱远比真实LLM简单，更复杂的模型可能存在本框架未捕捉到的额外动态
仅限环形和树形几何：自然语言中的知识结构远比环形和树形复杂（如层次结构、多关系交叉等），需要更多几何形态的验证
单次编辑为主：主要分析单次编辑的影响，而实际应用中通常需要批量编辑，多次编辑的累积粉碎效应值得更系统研究
缺乏修复方案：仅诊断了问题但未提出缓解粉碎的具体方法。作者建议RAG、终身编辑或合成文档微调等替代方案可能更有前景
因果性声明需谨慎：虽然编辑距离与粉碎程度的相关性提供了因果方向的证据，但尚未实现严格的因果证明

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从表示几何的角度为KE的有害性提供机制性解释，"表示粉碎"假说原创且有力
实验充分度: ⭐⭐⭐⭐ 合成实验非常精细，LLM验证有说服力，但缺少更多知识图谱几何和更大合成模型的实验
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，从合成到真实的叙事逻辑流畅，可视化出色
价值: ⭐⭐⭐⭐⭐ 对KE领域具有重要指导意义，可能推动"定位-编辑"范式的根本反思