Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing¶
会议: ICML 2025
arXiv: 2410.17194
代码: 无
领域: 知识编辑
关键词: knowledge editing, Representation Shattering, Transformers, Knowledge Graphs, mechanistic interpretability
一句话总结¶
通过在环形结构知识图谱上训练Transformer的合成实验,发现知识编辑(KE)会"粉碎"模型内部学到的几何表示流形,且粉碎程度与编辑距离正相关(\(r^2=0.905\)),从而提出"表示粉碎"(representation shattering)作为KE损害模型能力的机制性假说,并在Llama 3和Mamba上验证了该现象的普遍性。
研究背景与动机¶
领域现状:知识编辑(Knowledge Editing, KE)旨在精确修改LLM中的特定事实关联,同时保持其他知识不受影响。ROME、MEMIT等方法通过定位知识到特定MLP层再进行闭式更新来实现编辑。然而,近期工作(Cohen et al., 2023; Gupta et al., 2024; Gu et al., 2024)发现KE不仅影响目标事实,还会损害模型更广泛的事实回忆和推理能力。
痛点:虽然已有大量经验性证据表明KE有害,但在机制层面——编辑究竟如何改变了模型的内部表示,从而导致广泛的能力退化——仍然缺乏理解。直接分析大规模LLM的内部表示过于复杂,难以得出精确假说。
核心矛盾:KE的"定位-编辑"范式假设知识是局部存储的,但实际上模型通过参数共享和叠加(superposition)将不相关的事实压缩在重叠的子空间中,局部编辑可能会产生全局影响。
本文方案:设计一个可控的合成任务——在环形结构知识图谱上训练Transformer,使得模型表示精确编码图的全局拓扑结构。然后施加知识编辑并观察表示如何被破坏,从而建立"表示粉碎"假说。
切入角度:遵循"合成任务→精确假说→真实验证"的方法论(类似Allen-Zhu & Li等工作),用简化但可解释的环境建立因果理解,再推广到真实LLM。
方法详解¶
整体框架¶
- 合成数据构建:定义2048个实体,按3个随机环形排列(cyclic order I/II/III),每个排列产生8个关系(1-4跳的顺时针/逆时针邻居),共24个关系
- 数据生成:在知识图谱上做随机游走,生成"实体-关系-实体-关系-..."交替序列作为训练数据
- 模型训练:用2层nanoGPT Transformer做next-token prediction
- 评估与编辑:分别评估纠正性编辑和反事实编辑对直接回忆、逻辑推理和组合推理的影响
关键设计¶
-
环形知识图谱的构建动机与结构:
- 每个关系子图是一组不相交的环形图,对应"顺时针k跳邻居"等关系(如"I_C2"表示环形排列I中顺时针2跳邻居)
- 3个环形排列分别用作edit(编辑目标)、retain(保持集)和test(测试集)子图
- 选择环形拓扑的动机:真实LLM中月份、星期等概念在表示空间中呈环形排列(如Llama-3.1-405B),环形结构是自然语言中常见的实体关系模式
- 编辑距离定义为旧实体与新实体在环形排列中的最短距离
-
表示粉碎度量(Representation Shattering Metric):
- 定义度量 \(R(D_*)\) 量化编辑后表示的扭曲程度:
其中 \(D_\varnothing\) 是未编辑模型的实体间成对距离矩阵,\(D_*\) 是编辑后模型的距离矩阵,\(\|\cdot\|_F\) 为Frobenius范数 - 该度量对排列敏感:\(R=0\) 意味着每个实体token保持原位,即使几何结构同构(两个实体交换位置)也会产生非零值 - 设计动机:需要一个定量指标将"表示被破坏的程度"与"性能下降的程度"关联起来
-
三类评估任务:
- 直接回忆(Direct Recall):测试训练中见过的事实是否仍被正确记忆
- 逻辑推理(Logical Inference):测试可从其他关系推断的hold-out关系(如逆时针1跳可从顺时针1跳推断)
- 组合推理(Compositional Inference):测试两个关系的组合(需要模型保持几何结构才能泛化)
- 使用5个随机上下文序列的平均softmax概率来评估
损失函数 / 训练策略¶
- 训练使用标准的next-token prediction交叉熵损失
- 知识编辑使用ROME方法(rank-one model editing):对MLP层的权重矩阵做秩一更新
- 同时测试了MEMIT、PMET和AlphaEdit等方法,结论一致
实验关键数据¶
主实验¶
| 评估类型 | 编辑前准确率(环形I/II/III) | 纠正性编辑ΔAcc | 反事实编辑(d=1)ΔAcc | 反事实编辑(d=4)ΔAcc |
|---|---|---|---|---|
| 直接回忆 | 98.3 / 93.7 / 99.4 | -21.95 | -1.49 | -77.94 |
| 逻辑推理 | 98.2 / 94.0 / 99.4 | -22.24 | -1.44 | -78.02 |
| 组合推理 | 88.2 / 79.3 / 93.5 | -29.60 | -5.32 | -80.63 |
消融实验¶
| 反事实编辑距离d | R(D*) Edit子图 | R(D*) Retain子图 | R(D*) Test子图 |
|---|---|---|---|
| d=1 | 1.80 | 1.80 | 1.84 |
| d=2 | 21.93 | 20.84 | 21.89 |
| d=3 | 26.22 | 25.32 | 26.52 |
| d=4 | 27.90 | 27.28 | 28.68 |
关键发现¶
- 粉碎与性能强相关:\(R(D_*)\) 与准确率下降之间的相关系数 \(r^2=0.905\),表示粉碎越严重,性能下降越大
- 编辑距离是关键因素:反事实编辑距离d=1时几乎无害(ΔAcc约-1.5%),而d=4时灾难性退化(ΔAcc约-78%)。直觉类比:将"December"编辑为"November"远比编辑为"July"安全
- 纠正性编辑也有害:修正模型训练中学错的事实,反而导致所有指标下降(ΔAcc约-22%),这与直觉相悖
- 影响全局:编辑一个事实不仅影响edit子图的关系,对retain和test子图(与编辑无关的关系)也造成几乎相同程度的损害
- 模型学到了数据几何:Isomap可视化显示Transformer的内部表示精确反映了环形拓扑结构(见Fig. 4a)
- LLM验证:在Llama 3 8B Instruct上用MEMIT编辑月份顺序的反事实关联,也观察到(a)MMLU-Redux推理准确率随编辑距离下降,(b)月份表示的环形结构逐渐被破坏(见Fig. 7)
亮点与洞察¶
- 精巧的合成实验设计:环形知识图谱同时满足"结构化"(有全局拓扑)和"可控"(编辑距离可精确定义)的需求,使得因果分析成为可能
- "表示粉碎"假说的解释力:不仅解释了"为什么KE损害能力",还预测了"什么样的编辑更有害"(距离更大→粉碎更严重→损害更大),形成了可证伪的假说
- 从合成到真实的验证路径:利用LLM中月份/星期概念的环形表示(由Engels et al., 2024发现)作为天然的验证场景,实现了假说的跨规模验证
- 对"定位-编辑"范式的根本质疑:揭示了KE的脆弱性源于事实存储的纠缠压缩本质,而非知识保持任务本身的难度
局限与展望¶
- 合成任务的简化性:2层nanoGPT + 2048实体的环形图谱远比真实LLM简单,更复杂的模型可能存在本框架未捕捉到的额外动态
- 仅限环形和树形几何:自然语言中的知识结构远比环形和树形复杂(如层次结构、多关系交叉等),需要更多几何形态的验证
- 单次编辑为主:主要分析单次编辑的影响,而实际应用中通常需要批量编辑,多次编辑的累积粉碎效应值得更系统研究
- 缺乏修复方案:仅诊断了问题但未提出缓解粉碎的具体方法。作者建议RAG、终身编辑或合成文档微调等替代方案可能更有前景
- 因果性声明需谨慎:虽然编辑距离与粉碎程度的相关性提供了因果方向的证据,但尚未实现严格的因果证明
相关工作与启发¶
- 与ROME/MEMIT的关系:这些方法假设知识局部化于MLP层并做闭式更新,本文揭示了这种假设的根本局限——局部更新导致全局表示流形变形
- 与Engels et al. (2024)的联系:该工作发现LLM中存在多维结构化表示(如月份的环形结构),本文的合成实验可视为在受控环境中重现并解释了这一现象
- 对KE未来方向的启发:
- 表示保持性约束:编辑时显式约束表示流形不被破坏
- "编辑距离感知"的KE:根据编辑对流形的影响程度调整编辑策略
- 检索增强替代编辑:与其修改权重,不如通过外部知识库更新信息
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次从表示几何的角度为KE的有害性提供机制性解释,"表示粉碎"假说原创且有力
- 实验充分度: ⭐⭐⭐⭐ 合成实验非常精细,LLM验证有说服力,但缺少更多知识图谱几何和更大合成模型的实验
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,从合成到真实的叙事逻辑流畅,可视化出色
- 价值: ⭐⭐⭐⭐⭐ 对KE领域具有重要指导意义,可能推动"定位-编辑"范式的根本反思