Towards a Principled Evaluation of Knowledge Editors¶

会议: ACL 2025
arXiv: 2507.05937
代码: 有 (开源评估框架)
领域: NLP / 知识编辑
关键词: 知识编辑, Model Editing, 评估方法论, MEMIT, 编辑批量大小

一句话总结¶

本文系统性地揭示了知识编辑评估中不同评分方法（argmax、多选、生成匹配）和不同编辑批量大小会导致知识编辑器排名发生逆转的问题，并通过人工评估发现基于字符串匹配的评估方法存在假阳性倾向。

知识编辑（Knowledge Editing）近年来引起了广泛关注，旨在通过局部、有针对性的修改来更新预训练语言模型中的知识，而无需全量重训练。目前主流评估数据集包括 zsRE、CounterFact、MQuAKE 和 RippleEdits，但它们使用了截然不同的评分方法：

这些不同方法是否会导致编辑器的排名不一致？字符串匹配的可靠性如何？编辑批量大小对模型整体能力的破坏程度如何？这些关键问题此前未被充分探讨。

本文构建了一个统一的评估框架，将四个知识编辑数据集整合在一起，并集成了 LM Evaluation Harness，能够在编辑后的模型上同时运行知识编辑评估和通用语言理解任务。

三种评分方法的对比：
- Argmax：逐 token 检查目标字符串是否为最高概率预测，计算准确率
- MC（多选）：比较原始目标和编辑后目标的序列对数似然
- Generate（生成匹配）：生成固定长度文本后检查目标字符串是否出现
- 设计动机：不同方法可能隐含地偏向某些特定编辑器
四种编辑器的选择：
- MEMIT：通过因果追踪显式计算参数更新，专为批量编辑设计
- LoRA：参数高效微调方法
- In-Context：将编辑事实以自然语言形式拼接到输入中
- Context-Retriever：结合 RAG 系统检索最相关的 4-NN 编辑
生成长度的影响分析：生成文本越长，假阳性率越高；通过人工标注 200 个样本验证匹配算法的可靠性
编辑批量大小实验：从 1 到 2048 逐步增大批量，观察知识编辑性能和通用能力的变化趋势

数据集	方法	Context-Retriever	In-Context	MEMIT	LoRA	NoEdit
zsRE	argmax	0.735	0.764	0.727	0.756	0.278
zsRE	gen	0.619	0.656	0.629	0.653	0.066
CF	argmax	0.365	0.391	0.312	0.356	0.095
CF	MC	0.800	0.794	0.866	0.688	0.614
CF	gen	0.505	0.511	0.462	0.442	0.200
MQuAKE	gen	0.213	0.198	0.153	0.133	0.050

数据集	Mistral-7B	Qwen-32B	Exact Match
zsRE	0.625	0.903	0.882
CF	0.647	0.955	0.917
MQuAKE	0.654	0.897	0.897
RipEd	0.757	0.903	0.896

MEMIT 在 CounterFact 上的"优势"是评分方法偏好的结果：使用 MC 方法时 MEMIT 得分 0.866 远超其他编辑器，但用 argmax 和 generate 方法时反而最差
字符串匹配存在假阳性问题：随着生成长度增加到 30 token 以上，假阳性率显著上升
Context-Retriever 的假阳性率更高：可能因为生成文本更多样
编辑批量增大时：In-Context 编辑器由于上下文窗口限制在 batch>64 时急剧下降，MEMIT 相对更鲁棒
对通用能力的破坏：LoRA 最具破坏性（perplexity 飙升至百万级别），MEMIT 最温和，Context-Retriever 在大批量时反而恢复（因为检索到无害编辑）