Multiplicative Orthogonal Sequential Editing for Language Models (MOSE)¶
会议: AAAI 2026
arXiv: 2601.07873
代码: https://github.com/famoustourist/MOSE
领域: 知识编辑
关键词: 知识编辑, 正交变换, 序列编辑, 数值稳定性, 模型编辑
一句话总结¶
提出 MOSE(乘法正交序列编辑),用正交矩阵左乘(而非加法更新)参数矩阵来注入新知识,严格保持编辑后矩阵的范数和条件数不变,在序列编辑中实现 12.08% 的性能提升并保留 95.73% 通用能力。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:知识编辑旨在高效修改 LLM 内部知识而不损害其他能力。在序列编辑场景(连续多次编辑)下,现有方法都采用加法范式——将更新矩阵加到原参数矩阵上:\(W = W_0 + \Delta W_1 + \Delta W_2 + \cdots\)。
加法编辑的根本问题:多次加法更新会严重破坏参数矩阵的数值稳定性——Frobenius 范数持续增大、条件数急剧上升,导致编辑性能和模型通用能力双双退化。虽然 RECT、AlphaEdit 等方法有所缓解,但仍未跳出加法框架,只是推迟了退化。
核心观察:从数学上可以证明,正交矩阵左乘不改变矩阵的 Frobenius 范数和条件数。\(\|RW\|_F = \|W\|_F\),\(\kappa_2(RW) = \kappa_2(W)\)。这意味着如果能把知识更新编码到正交矩阵中,就能从根本上避免数值稳定性退化。
方法详解¶
整体框架¶
MOSE 将知识编辑从"加法更新"转变为"乘法更新":不是 \(W' = W_0 + \Delta W\),而是 \(W' = R \cdot W_0\),其中 \(R\) 是正交矩阵(\(R^\top R = I\))。通过将新知识编码到正交变换中,在编辑知识的同时严格保持参数矩阵的数值稳定性。
关键设计¶
-
正交变换更新
- 优化目标:\(\min_R \lambda \|RW_0K_0 - W_0K_0\|_F^2 + \|RW_0K_E - V_E\|_F^2\)
- 第一项保持原有知识表示不变(保留项),第二项使新知识表示匹配目标(编辑项)
- \(\lambda\) 控制保留旧知识和注入新知识的 trade-off
- 这是标准的正交 Procrustes 问题,有解析解:对 \(M = BA^\top\) 做 SVD 分解得 \(R = UV^\top\)
-
Attention 层正交投影
- 对 attention 层的 Q、K、V 投影矩阵应用正交变换
- Q 和 K 层共享同一个正交矩阵(因为 attention 计算涉及 Q 和 K 的内积,需保持一致性)
- 确保注意力计算的语义结构不被破坏
-
FFN 层激活函数展开
- FFN 层的非线性激活函数使得简单正交变换难以直接应用
- 通过多项式展开近似激活函数,在展开空间中应用正交变换
- Taylor 展开的高阶余项作为噪声,但不影响整体稳定性
损失函数 / 训练策略¶
无需额外训练。\(R\) 通过解析解(SVD)一步求得。\(K_0\)(保留知识键)、\(K_E\)(编辑知识键)、\(V_E\)(目标值)的构造沿用 ROME/MEMIT 的方法。
实验关键数据¶
主实验(序列编辑 1000 次)¶
| 方法 | CounterFact 可靠性 | 泛化性 | 局部性 | 通用能力保留 |
|---|---|---|---|---|
| ROME | 0.000 | 0.000 | 0.000 | 严重退化 |
| MEMIT | 0.000 | 0.000 | 0.000 | 严重退化 |
| RECT | 0.569 | 0.329 | 0.252 | 中等 |
| AlphaEdit | ~好 | ~好 | ~好 | 良好 |
| MOSE | 最优 | 最优 | 最优 | 95.73% |
消融实验(数值稳定性)¶
| 方法 | 1000次编辑后 Frobenius 范数变化 | 条件数变化 |
|---|---|---|
| ROME/MEMIT | 激增(数量级增长) | 激增 |
| RECT/AlphaEdit | 缓慢增长 | 中等增长 |
| MOSE | 不变 | 不变 |
关键发现¶
- ROME 和 MEMIT 在约 100 次序列编辑后完全崩溃:可靠性为 0,说明加法范式在长序列编辑中不可行
- MOSE 的范数和条件数在 1000 次编辑后完全不变:严格验证了理论预测
- 在 LLaMA3-8B、LLaMA2-13B、Qwen2.5-7B 三个不同模型上一致有效
- 在 4 个下游任务上保留 95.73% 通用能力,远优于其他编辑方法
亮点与洞察¶
- 从加法到乘法的范式转换:所有先前工作都在加法框架内"打补丁",MOSE 首次跳出该框架并给出数学证明为什么乘法(正交变换)从根本上更优
- 正交 Procrustes 问题的优雅解:把知识编辑转化为经典数学问题(正交 Procrustes),有解析解无需迭代优化,计算高效
- 对长序列编辑的实际意义:LLM 在部署中需要持续更新知识,MOSE 使得连续上千次编辑而不退化成为可能
局限与展望¶
- FFN 层的多项式展开是近似的,高阶余项引入的噪声在极大量编辑后是否会累积?
- 正交 Procrustes 的 SVD 求解对大矩阵有计算开销,能否加速?
- 仅在结构化知识三元组上验证,对更复杂的知识类型(如隐式知识、技能)是否有效?
- Q-K 共享正交矩阵的约束是否过强?是否限制了编辑的表达能力?
相关工作与启发¶
- vs ROME/MEMIT (Meng 2022, 2023):经典加法编辑方法,在少量编辑时有效但序列编辑中快速崩溃
- vs AlphaEdit (Fang 2025):在零空间约束下做加法更新,部分缓解稳定性问题但无法根本解决,大量编辑后仍退化
- vs PRUNE (Ma 2025):通过约束条件数来缓解问题,但约束本身引入额外计算开销;MOSE 天然保持条件数不变
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 乘法正交编辑范式是真正的范式突破,有严格数学证明
- 实验充分度: ⭐⭐⭐⭐ 三个模型、两种数据集、六种基线对比全面
- 写作质量: ⭐⭐⭐⭐⭐ 统计分析→数学证明→方法设计→实验验证的逻辑链完美
- 价值: ⭐⭐⭐⭐⭐ 对连续知识编辑这一实际需求有根本性解决方案