跳转至

Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

会议: ICML 2025
arXiv: 2410.17194
代码: 无
领域: 知识编辑
关键词: knowledge editing, Representation Shattering, Transformers, Knowledge Graphs, mechanistic interpretability

一句话总结

通过在环形结构知识图谱上训练Transformer的合成实验,发现知识编辑(KE)会"粉碎"模型内部学到的几何表示流形,且粉碎程度与编辑距离正相关(\(r^2=0.905\)),从而提出"表示粉碎"(representation shattering)作为KE损害模型能力的机制性假说,并在Llama 3和Mamba上验证了该现象的普遍性。

研究背景与动机

领域现状:知识编辑(Knowledge Editing, KE)旨在精确修改LLM中的特定事实关联,同时保持其他知识不受影响。ROME、MEMIT等方法通过定位知识到特定MLP层再进行闭式更新来实现编辑。然而,近期工作(Cohen et al., 2023; Gupta et al., 2024; Gu et al., 2024)发现KE不仅影响目标事实,还会损害模型更广泛的事实回忆和推理能力。

痛点:虽然已有大量经验性证据表明KE有害,但在机制层面——编辑究竟如何改变了模型的内部表示,从而导致广泛的能力退化——仍然缺乏理解。直接分析大规模LLM的内部表示过于复杂,难以得出精确假说。

核心矛盾:KE的"定位-编辑"范式假设知识是局部存储的,但实际上模型通过参数共享和叠加(superposition)将不相关的事实压缩在重叠的子空间中,局部编辑可能会产生全局影响。

本文方案:设计一个可控的合成任务——在环形结构知识图谱上训练Transformer,使得模型表示精确编码图的全局拓扑结构。然后施加知识编辑并观察表示如何被破坏,从而建立"表示粉碎"假说。

切入角度:遵循"合成任务→精确假说→真实验证"的方法论(类似Allen-Zhu & Li等工作),用简化但可解释的环境建立因果理解,再推广到真实LLM。

方法详解

整体框架

  1. 合成数据构建:定义2048个实体,按3个随机环形排列(cyclic order I/II/III),每个排列产生8个关系(1-4跳的顺时针/逆时针邻居),共24个关系
  2. 数据生成:在知识图谱上做随机游走,生成"实体-关系-实体-关系-..."交替序列作为训练数据
  3. 模型训练:用2层nanoGPT Transformer做next-token prediction
  4. 评估与编辑:分别评估纠正性编辑和反事实编辑对直接回忆、逻辑推理和组合推理的影响

关键设计

  1. 环形知识图谱的构建动机与结构

    • 每个关系子图是一组不相交的环形图,对应"顺时针k跳邻居"等关系(如"I_C2"表示环形排列I中顺时针2跳邻居)
    • 3个环形排列分别用作edit(编辑目标)、retain(保持集)和test(测试集)子图
    • 选择环形拓扑的动机:真实LLM中月份、星期等概念在表示空间中呈环形排列(如Llama-3.1-405B),环形结构是自然语言中常见的实体关系模式
    • 编辑距离定义为旧实体与新实体在环形排列中的最短距离
  2. 表示粉碎度量(Representation Shattering Metric)

    • 定义度量 \(R(D_*)\) 量化编辑后表示的扭曲程度:
\[R(D_*) = \frac{\|D_* - D_\varnothing\|_F}{\|D_\varnothing\|_F}\]

其中 \(D_\varnothing\) 是未编辑模型的实体间成对距离矩阵,\(D_*\) 是编辑后模型的距离矩阵,\(\|\cdot\|_F\) 为Frobenius范数 - 该度量对排列敏感:\(R=0\) 意味着每个实体token保持原位,即使几何结构同构(两个实体交换位置)也会产生非零值 - 设计动机:需要一个定量指标将"表示被破坏的程度"与"性能下降的程度"关联起来

  1. 三类评估任务

    • 直接回忆(Direct Recall):测试训练中见过的事实是否仍被正确记忆
    • 逻辑推理(Logical Inference):测试可从其他关系推断的hold-out关系(如逆时针1跳可从顺时针1跳推断)
    • 组合推理(Compositional Inference):测试两个关系的组合(需要模型保持几何结构才能泛化)
    • 使用5个随机上下文序列的平均softmax概率来评估

损失函数 / 训练策略

  • 训练使用标准的next-token prediction交叉熵损失
  • 知识编辑使用ROME方法(rank-one model editing):对MLP层的权重矩阵做秩一更新
  • 同时测试了MEMIT、PMET和AlphaEdit等方法,结论一致

实验关键数据

主实验

评估类型 编辑前准确率(环形I/II/III) 纠正性编辑ΔAcc 反事实编辑(d=1)ΔAcc 反事实编辑(d=4)ΔAcc
直接回忆 98.3 / 93.7 / 99.4 -21.95 -1.49 -77.94
逻辑推理 98.2 / 94.0 / 99.4 -22.24 -1.44 -78.02
组合推理 88.2 / 79.3 / 93.5 -29.60 -5.32 -80.63

消融实验

反事实编辑距离d R(D*) Edit子图 R(D*) Retain子图 R(D*) Test子图
d=1 1.80 1.80 1.84
d=2 21.93 20.84 21.89
d=3 26.22 25.32 26.52
d=4 27.90 27.28 28.68

关键发现

  1. 粉碎与性能强相关\(R(D_*)\) 与准确率下降之间的相关系数 \(r^2=0.905\),表示粉碎越严重,性能下降越大
  2. 编辑距离是关键因素:反事实编辑距离d=1时几乎无害(ΔAcc约-1.5%),而d=4时灾难性退化(ΔAcc约-78%)。直觉类比:将"December"编辑为"November"远比编辑为"July"安全
  3. 纠正性编辑也有害:修正模型训练中学错的事实,反而导致所有指标下降(ΔAcc约-22%),这与直觉相悖
  4. 影响全局:编辑一个事实不仅影响edit子图的关系,对retain和test子图(与编辑无关的关系)也造成几乎相同程度的损害
  5. 模型学到了数据几何:Isomap可视化显示Transformer的内部表示精确反映了环形拓扑结构(见Fig. 4a)
  6. LLM验证:在Llama 3 8B Instruct上用MEMIT编辑月份顺序的反事实关联,也观察到(a)MMLU-Redux推理准确率随编辑距离下降,(b)月份表示的环形结构逐渐被破坏(见Fig. 7)

亮点与洞察

  1. 精巧的合成实验设计:环形知识图谱同时满足"结构化"(有全局拓扑)和"可控"(编辑距离可精确定义)的需求,使得因果分析成为可能
  2. "表示粉碎"假说的解释力:不仅解释了"为什么KE损害能力",还预测了"什么样的编辑更有害"(距离更大→粉碎更严重→损害更大),形成了可证伪的假说
  3. 从合成到真实的验证路径:利用LLM中月份/星期概念的环形表示(由Engels et al., 2024发现)作为天然的验证场景,实现了假说的跨规模验证
  4. 对"定位-编辑"范式的根本质疑:揭示了KE的脆弱性源于事实存储的纠缠压缩本质,而非知识保持任务本身的难度

局限与展望

  1. 合成任务的简化性:2层nanoGPT + 2048实体的环形图谱远比真实LLM简单,更复杂的模型可能存在本框架未捕捉到的额外动态
  2. 仅限环形和树形几何:自然语言中的知识结构远比环形和树形复杂(如层次结构、多关系交叉等),需要更多几何形态的验证
  3. 单次编辑为主:主要分析单次编辑的影响,而实际应用中通常需要批量编辑,多次编辑的累积粉碎效应值得更系统研究
  4. 缺乏修复方案:仅诊断了问题但未提出缓解粉碎的具体方法。作者建议RAG、终身编辑或合成文档微调等替代方案可能更有前景
  5. 因果性声明需谨慎:虽然编辑距离与粉碎程度的相关性提供了因果方向的证据,但尚未实现严格的因果证明

相关工作与启发

  • 与ROME/MEMIT的关系:这些方法假设知识局部化于MLP层并做闭式更新,本文揭示了这种假设的根本局限——局部更新导致全局表示流形变形
  • 与Engels et al. (2024)的联系:该工作发现LLM中存在多维结构化表示(如月份的环形结构),本文的合成实验可视为在受控环境中重现并解释了这一现象
  • 对KE未来方向的启发
    • 表示保持性约束:编辑时显式约束表示流形不被破坏
    • "编辑距离感知"的KE:根据编辑对流形的影响程度调整编辑策略
    • 检索增强替代编辑:与其修改权重,不如通过外部知识库更新信息

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次从表示几何的角度为KE的有害性提供机制性解释,"表示粉碎"假说原创且有力
  • 实验充分度: ⭐⭐⭐⭐ 合成实验非常精细,LLM验证有说服力,但缺少更多知识图谱几何和更大合成模型的实验
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,从合成到真实的叙事逻辑流畅,可视化出色
  • 价值: ⭐⭐⭐⭐⭐ 对KE领域具有重要指导意义,可能推动"定位-编辑"范式的根本反思