跳转至

Representation Interventions Enable Lifelong Knowledge Memory Control in LLMs

会议: ACL2026
arXiv: 2511.20892
代码: 未公开
领域: knowledge_editing
关键词: 知识编辑、表示干预、终身记忆控制、路由器、低秩子空间

一句话总结

这篇论文提出 RILKE,把终身知识编辑从“改模型权重”转成“在隐藏表示空间施加低秩干预”,通过鲁棒训练、查询自适应路由和共享子空间模块,在 1,000 次非结构化知识编辑后仍保持接近满分的编辑成功率和较好的泛化能力,同时显著降低存储开销。

研究背景与动机

领域现状:LLM 的参数知识一旦训练完成就很难随现实世界更新。常见方案包括继续预训练、检索增强生成和模型编辑:继续训练成本高且容易遗忘;RAG 不改参数,但会受检索质量和参数记忆冲突影响;模型编辑试图直接改变模型内部知识,适合低成本修正错误事实。

现有痛点:许多编辑方法仍围绕结构化三元组,例如“某主体的某属性是什么”。现实知识更新却经常是非结构化、长文本、带上下文的自由回答。更麻烦的是,部署后的模型会持续接收新编辑,单次有效不代表多次累积后还能稳定:权重编辑会出现 edit collapse,外部记忆模块也可能因为容量和路由不准而互相干扰。

核心矛盾:终身知识控制同时要求三个目标:每条编辑要足够精确,不能污染无关问题;同义改写要能触发同一条编辑;编辑数量增长时,存储和训练成本不能线性爆炸。现有方法通常只能兼顾其中一两项。

本文目标:作者希望把复杂非结构化知识以可累积、可路由、可压缩的方式写入 LLM,使模型权重保持冻结,同时在推理时只激活与当前问题相关的知识干预。

切入角度:论文从隐藏表示几何出发,观察到语义相近的问题在中间层表示中距离更近,而且相近知识独立训练出的 ReFT 干预子空间也更对齐。这说明知识编辑不一定要改权重;如果能在表示空间中找到局部低维方向,就可以像“可插拔记忆”一样控制模型输出。

核心 idea:用“隐藏表示索引 + 低秩表示干预模块 + 相似度路由”管理终身知识,每个查询先在冻结模型的表示空间中找对应记忆,再只对相关表示施加局部干预。

方法详解

RILKE 的核心不是训练一个新的知识库模型,而是在冻结 LLM 的某个中间层上挂载轻量干预模块。每条待编辑知识由一个查询 \(x\) 和目标回答 \(y\) 表示。训练时,模型学习如何把原始查询的隐藏状态推到能生成目标回答的区域;推理时,路由器根据当前查询的隐藏表示选择最相似的已编辑知识,并在相似度超过阈值时激活对应干预。

整体框架

输入是一组持续到来的知识编辑样本,输出是一组可路由的 representation intervention modules。流程分三步:第一,用冻结 LLM 提取每条编辑查询在指定层的隐藏状态,并把它作为知识索引;第二,为每条知识或每个语义簇训练一个低秩 ReFT 风格模块,使模型在不改原权重的情况下生成目标回答;第三,推理时对新查询提取同一层隐藏表示,用余弦相似度检索最近索引,若相似度高于门控阈值,就应用该模块,否则保持原模型输出。

关键设计

  1. 一致性鲁棒的表示干预训练:

    • 功能:让一条编辑不只对原始问法生效,也能覆盖语义等价的 paraphrase。
    • 核心思路:论文沿用 ReFT 的低秩干预形式,在隐藏状态 \(h\) 上学习由 \(R,A,b\) 参数化的变换 \(\Phi(h)=h+R^\top(Ah+b-Rh)\)。作者进一步假设 paraphrase 的隐藏状态落在原查询附近的 \(\epsilon\)-ball 内,于是在训练中对隐藏表示加扰动,并用 KL 项约束原分布和扰动分布一致。最终目标是语言建模交叉熵加上鲁棒正则 \(\lambda_{robu} KL(p(h)\|p(h+\epsilon))\)
    • 设计动机:如果只在原始问法上拟合目标回答,模块会过拟合表面形式;在表示邻域内保持输出一致,等价于把编辑从一个点扩展成一个语义局部区域。
  2. 查询自适应路由与门控:

    • 功能:在大量终身编辑中选择正确模块,并避免无关问题被错误改写。
    • 核心思路:训练后保存所有编辑查询的层表示 \(h_x^l\) 作为 key。推理时,新查询的表示 \(h_{\hat{x}}^l\) 与所有 key 做余弦相似度匹配,路由到最近的模块;若最大相似度低于阈值 \(\tau_{sim}\),则不做干预。实验中无关知识阈值设置为 0.9,用来减少 spurious activation。
    • 设计动机:冻结基座模型意味着 key 空间稳定,不会因为后续编辑漂移;同时,语义相近问题天然靠近,让路由器能把 paraphrase 送到同一条记忆。
  3. 共享子空间的簇级干预:

    • 功能:降低每条知识一个 adapter 带来的线性存储增长。
    • 核心思路:作者用层表示做层次凝聚聚类,要求簇内相似度高于阈值且簇大小不超过上限,然后为每个语义簇训练一个共享干预模块。推理时仍先找到最近知识项,再映射到它所属簇的共享模块。
    • 设计动机:论文验证了语义相近知识的 ReFT 子空间更对齐,因此相似知识可以共用一个低维子空间;这把“每条知识一块内存”压缩成“每簇知识一块内存”。

损失函数 / 训练策略

RILKE 冻结 LLaMA-3.1-8B-Instruct 或 Qwen2.5-7B-Instruct,只训练表示干预模块。单条知识训练时使用 teacher forcing 的自回归交叉熵,并加入隐藏表示扰动后的 KL 一致性正则;共享子空间版本先按隐藏状态聚类,再在簇内 batch 训练一个模块。推理阶段使用确定性生成设置,编辑任务评估使用 Rouge-L、BertScore、MMLU 保留率,以及 ZsRE 上的 reliability/generalization/locality 指标。

实验关键数据

主实验

UnKE 是主要非结构化知识编辑基准。下面保留 LLaMA-3.1-8B-Instruct 上最关键的 1,000 次顺序编辑结果;RILKE 在原始查询上几乎满分,在 paraphrase 上也明显优于 WISE、GRACE 等长期编辑基线,同时 MMLU 保留接近未编辑模型。

方法 1,000 edits 原查询 BertS↑ 1,000 edits paraphrase BertS↑ MMLU↑ ZsRE Avg↑ 主要现象
MEMIT 0.033 0.034 0.188 0.00 累积编辑后明显崩溃
GRACE 0.810 0.521 0.594 0.49 原查询尚可,泛化不足
WISE 0.681 0.673 0.584 0.73 稳定但编辑精度有限
RILKE 1.000 0.963 0.622 0.88 高编辑成功率、高 paraphrase 泛化、低 utility 损失

存储成本也体现了 representation intervention 的轻量性。RILKE 单条模块已经比 WISE 省内存,共享子空间进一步把开销压到约三分之一。

方法 UnKE 存储成本 相对 WISE 说明
WISE 224.0 MiB 100% 存储外部记忆/子模块
RILKE (Individual) 96.1 MiB 42.9% 每条知识一个低秩干预模块
RILKE (Shared) 29.4 MiB 13.1% 每个语义簇共享一个模块

消融实验

鲁棒训练项主要提升 paraphrase 泛化,而不会损害原始查询编辑成功率。共享子空间则带来明显压缩,只付出有限泛化损失。

配置 T=100 原查询 BertS↑ T=100 paraphrase BertS↑ T=1,000 原查询 BertS↑ T=1,000 paraphrase BertS↑
w/o \(\mathcal{L}_{robu}\) 1.000 0.959 0.999 0.909
w/ \(\mathcal{L}_{robu}\) 1.000 0.984 1.000 0.963
配置 原查询 BertS↑ paraphrase BertS↑ MMLU↑ 说明
RILKE (Individual) 1.000 0.963 0.622 精度和泛化最好
RILKE (Shared) 0.999 0.901 0.621 泛化略降,但存储大幅降低
Batched RILKE 1.000 0.834 - 簇内联合训练效果更强
Sequential RILKE 0.742 0.723 - 严格在线逐条吸收仍优于 AnyEdit/UnKE

关键发现

  • 表示空间的语义局部性是真正的支点:paraphrase 和原查询距离更近,给路由和鲁棒训练提供了共同基础。
  • 共享子空间不是简单压缩技巧,而是建立在“相似知识的干预方向也相似”这个经验性质上;随机把不相似知识 batch 到一起会明显推偏编辑向量。
  • RILKE 的强项在长尾、非结构化和多次累积编辑,尤其适合把“模型上线后持续接收新知识”作为核心场景。

亮点与洞察

  • 最巧妙的是把知识编辑拆成“稳定 key 空间”和“可插拔 value 模块”。冻结基座模型后,中间层表示成为一个可检索索引,避免了多次权重编辑导致的参数漂移。
  • 鲁棒 KL 正则很像把单点编辑扩展为语义邻域编辑。它没有显式收集大量 paraphrase,也能提高 paraphrase 表现,说明隐藏空间扰动可以作为一种廉价的数据增强。
  • 共享子空间给 lifelong editing 提供了可扩展方向。未来如果结合在线聚类、adapter 合并或周期性重训练,就可以把新知识先单条写入,再在后台合并到簇级模块。
  • 这篇论文也提醒我们,知识编辑不一定要追求“把事实永久写进参数”。在很多应用里,可撤销、可路由、可审计的表示干预可能更符合工程需求。

局限与展望

  • 作者明确把系统性风险分析留给未来工作,包括恶意编辑、偏见放大和带偏编辑策略下的鲁棒性。
  • 路由阈值是核心超参。阈值过低会误激活无关知识,过高会漏掉 paraphrase;大规模开放域场景下可能需要校准、置信度估计或多级检索。
  • RILKE 需要访问并存储目标层隐藏表示,还要为目标模型单独训练干预模块;换模型或换层后,已有模块不能直接迁移。
  • 共享子空间会牺牲一部分 paraphrase 泛化,说明相似知识之间仍可能存在细粒度冲突。后续可以考虑簇内 mixture-of-adapters、动态 rank 或冲突检测。
  • 论文的编辑效果很强,但对安全边界、可撤销性、审计日志和权限控制讨论较少;这些会决定它能否用于真实知识管理系统。

相关工作与启发

  • vs ReFT: ReFT 提供低秩表示干预的基础形式,RILKE 把它扩展到知识编辑,并加入 paraphrase 鲁棒性、路由和终身累积管理。
  • vs MEMIT / locate-then-edit: MEMIT 等方法直接修改权重,适合单次或少量事实编辑;RILKE 冻结权重,用模块化干预避免多次编辑后的 edit collapse。
  • vs GRACE / WISE: 这些外部记忆方法也保留原模型参数,但通常在单一子模块或外部内存中学习控制;RILKE 用隐藏表示 key 做精细路由,并通过低秩模块降低存储。
  • vs RAG: RAG 在文本层插入检索证据,容易受检索失败和参数知识冲突影响;RILKE 在表示层直接改变生成轨迹,更像对模型内部状态做条件化控制。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从表示几何、路由和共享子空间三方面重构 lifelong knowledge editing,思路完整且有辨识度。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 UnKE、EditEverything、ZsRE、MMLU 和多种消融,但真实开放域安全性还需要更系统评估。
  • 写作质量: ⭐⭐⭐⭐ 动机和方法链条清晰,表格充分;部分几何性质与工程超参之间的关系还可以解释得更细。
  • 价值: ⭐⭐⭐⭐⭐ 对终身知识更新、企业知识定制和可控模型记忆都有直接启发,尤其适合需要可插拔编辑的场景。# Representation Interventions Enable Lifelong Knowledge Memory Control in LLMs

会议: ACL 2026
arXiv: 2511.20892
代码: 未见公开代码
领域: 知识编辑 / 表征干预 / 终身知识控制
关键词: 知识编辑、表示空间、ReFT、路由器、终身记忆

一句话总结

RILKE 把 LLM 知识更新从“改权重”转到“改隐藏表征”,通过鲁棒表征干预、查询自适应路由和共享子空间聚类,在冻结基座模型的情况下实现可泛化、低干扰、可扩展的终身知识控制。

研究背景与动机

领域现状:LLM 部署后会遇到事实过时、组织私有知识更新和个性化知识注入等问题。常见方案包括继续预训练、RAG、参数化模型编辑和外部记忆模块。参数化编辑直接改模型权重,外部记忆方法在推理时用附加模块覆盖部分激活。

现有痛点:继续训练代价高且容易遗忘,RAG 会受检索质量和参数记忆冲突影响。现有知识编辑方法在少量结构化事实上效果尚可,但面对 unstructured free-form knowledge 和长期连续编辑时,很容易出现 edit collapse:新知识累积后互相干扰,原有能力也下降。

核心矛盾:终身知识控制需要同时满足三个目标:编辑要精确命中目标知识,能泛化到改写问法,还要随着编辑数量增长保持可存储、可路由、低干扰。直接改权重难以局部化,单一外部模块又容量有限。

本文目标:作者希望利用 LLM 隐藏表征空间的语义结构,将每条知识更新封装成低维表征干预模块;推理时只在相关查询上激活正确模块,并通过聚类共享相似知识的干预子空间。

切入角度:论文先验证两个几何性质:语义等价的 paraphrase 在隐藏空间中更近;语义相似的查询即便分别训练 ReFT 干预,也会学到相似低维子空间。这意味着隐藏空间不仅能存知识,还能作为路由和压缩的几何索引。

核心 idea:冻结 LLM 基座,用低维 representation intervention 存储知识更新,再用隐藏表示相似度决定是否、以及激活哪个干预模块。

方法详解

RILKE 的基本单位是一个 intervention module。它不改 Transformer 权重,而是在某一层的隐藏状态上施加低秩变换,让后续层自然生成目标知识。每条编辑在训练时绑定一个表示索引;推理时,系统计算当前查询隐藏状态与索引库的相似度,超过阈值才激活对应模块。为了避免每条知识一个模块带来的线性内存增长,作者进一步把相似知识聚成簇,共享一个干预子空间。

整体框架

训练阶段,给定知识对 \((x,y)\),RILKE 提取查询 \(x\) 在第 \(l\) 层最后 token 的隐藏状态,训练一个 ReFT 风格的低维干预 \(\Phi(h_x^l;\phi_x^l)\),目标是让冻结 LLM 生成目标输出 \(y\)。推理阶段,输入查询先经过冻结模型得到 key 表征,路由器在存储的知识索引中找最近邻;若最大相似度低于阈值,则不做干预;否则激活最近知识或其所属簇的干预模块。

关键设计

  1. 一致性鲁棒训练:

    • 功能:让一次编辑不仅命中原始问法,也能泛化到 paraphrase。
    • 核心思路:作者把 paraphrase 看成隐藏表征 \(h_x^l\) 周围的 \(\epsilon\) 邻域,对该邻域内扰动后的输出分布加 KL 一致性约束。最终目标是语言模型交叉熵加 \(\lambda_{robu} \mathbb{E}_{\epsilon}[KL(p_{\theta,\phi}(\cdot|x) || p^{(\epsilon)}_{\theta,\phi}(\cdot|x))]\)
    • 设计动机:vanilla ReFT 容易只记住原始查询的表面形式。对隐藏状态施加扰动一致性,相当于要求干预模块在语义邻域内稳定生效。
  2. 查询自适应路由:

    • 功能:在大量编辑共存时,只对相关查询激活相关知识。
    • 核心思路:系统保存每个训练查询的第 \(l\) 层隐藏表示作为 key,推理时用 cosine similarity 检索最近 key,并设置阈值 \(\tau_{sim}=0.9\);低于阈值时直接保持原模型输出,避免无关查询被误编辑。
    • 设计动机:冻结基座模型后,训练干预不会改变 key 空间,因此索引稳定。这个路由机制把“编辑是否生效”从模型内部权重冲突转化为一个可解释的相似度判断。
  3. 共享子空间干预:

    • 功能:降低大规模终身编辑的存储和训练成本。
    • 核心思路:先对知识隐藏表示做层次聚类,并约束簇内相似度和最大簇大小;每个簇训练一个共享 intervention module。推理时仍按最近知识项检索,但最终映射到该知识所属簇的共享模块。
    • 设计动机:论文观察到语义相似编辑的 ReFT 子空间高度对齐,因此没必要为每条相似知识单独存一个模块。共享子空间牺牲少量 paraphrase 泛化,换来约 3 倍额外压缩。

损失函数 / 训练策略

RILKE 基于 Representation Fine-Tuning。对第 \(l\) 层隐藏状态 \(h^{l,i}\),低维子空间矩阵 \(R^l \in \mathbb{R}^{r \times d}\) 满足 \(r \ll d\),干预形式为 \(\Phi(h^{l,i};\phi^l)=h^{l,i}+R^{l\top}(A^l h^{l,i}+b^l-R^l h^{l,i})\)。训练只更新干预参数 \(\phi^l=(R^l,A^l,b^l)\),基座 LLaMA/Qwen 权重冻结。鲁棒版本在 teacher-forcing 交叉熵基础上加入隐藏扰动 KL 正则。

实验关键数据

主实验

论文在 UnKE、EditEverything 和 ZsRE 上评估终身知识控制。核心设置是按 batch size 1 顺序编辑,报告 10、100、1000 次编辑后的原始查询、paraphrase 查询和 MMLU 通用能力;ZsRE 额外测试 3000 次结构化编辑。

基座与方法 UnKE T=1000 Ori BertS UnKE T=1000 Para BertS MMLU Util. ZsRE Rel./Gen./Loc./Avg. 结论
LLaMA3.1-8B WISE 0.681 0.673 0.584 0.62 / 0.60 / 1.00 / 0.73 外部记忆较稳,但编辑成功率有限
LLaMA3.1-8B RILKE 1.000 0.963 0.622 0.99 / 0.71 / 0.94 / 0.88 高编辑成功率,通用能力接近原模型
Qwen2.5-7B WISE 0.564 0.521 0.651 0.61 / 0.58 / 1.00 / 0.73 随编辑增长明显落后
Qwen2.5-7B RILKE 0.999 0.893 0.712 0.98 / 0.70 / 0.86 / 0.85 跨模型仍保持优势

消融实验

论文从存储、共享子空间、鲁棒目标和顺序编辑四个角度分析 RILKE。

分析项 设置 关键结果 说明
存储成本 WISE / RILKE Individual / RILKE Shared 224.0 MiB / 96.1 MiB / 29.4 MiB 单条低秩干预已低于 WISE,共享簇进一步约 3 倍压缩
共享子空间 Individual vs Shared Ori 1.000→0.999,Para 0.963→0.901,MMLU 0.622→0.621 泛化小幅下降,编辑精度和通用能力基本保持
鲁棒正则 w/o vs w \(\mathcal{L}_{robu}\) at T=1000 Para BertS 0.909→0.963 隐藏扰动一致性显著改善 paraphrase 泛化
顺序簇内更新 AnyEdit / UnKE / Sequential RILKE / Batched RILKE Para BertS 0.262 / 0.572 / 0.723 / 0.834 严格顺序输入时仍优于已有编辑方法

关键发现

  • 表征空间的 semantic locality 是方法成立的核心:论文报告 93% 以上 paraphrase 能被路由到目标模块,98% 以上无关查询能被过滤。
  • RILKE 在 UnKE 这类长文本、非结构化编辑上优势最明显,说明表示干预比传统 SRO 三元组编辑更适合自由文本知识控制。
  • 共享子空间不是简单参数压缩,而是利用语义相似知识在干预向量上的几何对齐;随机把不相似知识放到同一模块会让 edit vector 偏离。

亮点与洞察

  • 论文把“知识编辑”重新表述为“隐藏状态控制”,绕开了直接改权重的不可逆副作用。这使每次编辑更像可插拔适配器,便于删除、路由和审计。
  • 路由阈值设计非常实用:编辑系统不应该对所有输入都强行应用记忆,而应先判断输入是否真的触发某条知识。这一点对企业知识库和个人化助手尤其重要。
  • 鲁棒训练没有依赖大量 paraphrase 数据,而是在隐藏空间中模拟语义邻域。这个思路可迁移到风格控制、拒答控制和安全策略控制等 activation steering 任务。
  • 共享子空间提供了一个长期维护路线:新知识先单独进入 memory,周期性按语义簇合并成共享模块,兼顾在线更新和批量压缩。

局限与展望

  • 作者明确把系统性风险分析留给未来工作,包括恶意编辑、偏见传播和有偏编辑策略下的鲁棒性。
  • 路由依赖隐藏表征相似度和固定阈值,面对语义相近但目标知识冲突的查询时,仍可能激活错误模块。
  • 聚类共享降低内存,但也可能牺牲 paraphrase 泛化;大规模真实知识库中簇的动态维护、合并和回滚仍未充分研究。
  • 实验主要验证 benchmark 编辑指标,尚缺少面向真实产品的并发更新、权限控制、审计日志和用户级隔离设计。
  • 表征干预需要访问模型内部隐藏状态,对闭源 API 模型不直接适用,部署边界比 RAG 更窄。

相关工作与启发

  • vs MEMIT / locate-then-edit: 这些方法定位并修改模型权重中的知识神经元,RILKE 不改基座权重,而是把更新存到外部低维表征模块;RILKE 的可撤销性和终身扩展性更强。
  • vs GRACE / WISE: 外部记忆方法也避免改基座,但通常依赖较重的子模块或单一记忆层;RILKE 通过低秩表征子空间和路由索引把内存压得更低。
  • vs ReFT: ReFT 证明了表征微调可以控制模型行为,RILKE 在此基础上加入 paraphrase 鲁棒性、终身路由和共享子空间,面向多编辑共存场景。
  • 启发: 未来的 LLM 个性化记忆不一定要写进模型权重,也不一定只靠检索上下文;“可路由的隐藏状态干预库”可能成为介于 RAG 与微调之间的第三种记忆层。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将表征干预、几何路由和共享子空间统一到终身知识控制中,问题定义和方法组合都很有启发性。
  • 实验充分度: ⭐⭐⭐⭐☆ 主表、存储、路由、共享、顺序编辑都覆盖较好,但真实开放部署风险还未系统验证。
  • 写作质量: ⭐⭐⭐⭐☆ 几何动机和方法链条清晰,公式较密但逻辑完整。
  • 价值: ⭐⭐⭐⭐⭐ 对知识编辑、个性化记忆和可控 LLM 部署都很有参考价值,尤其适合需要可撤销、低干扰更新的系统。