Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting¶

会议: ACL 2026
arXiv: 2604.05540
代码: https://github.com/FredJDean/CoT2Edit
领域: LLM推理 / 知识编辑
关键词: 知识编辑, 思维链, GRPO, RAG, 多跳推理

一句话总结¶

CoT2Edit 提出通过 CoT 推理教 LLM 进行知识编辑的新范式——构建结构化和非结构化编辑的 CoT 指令数据，经 SFT 冷启动 + GRPO 优化训练，推理时结合 RAG 检索编辑事实，单次训练即在 6 个编辑基准上达到 SOTA 且具有强泛化能力。

研究背景与动机¶

领域现状：知识编辑旨在更新 LLM 中过时或错误的知识。主流方法包括上下文编辑（ICE/IKE）、参数修改（ROME/MEMIT/AlphaEdit）和训练-检索范式（LTE/EditCoT）。

现有痛点：(1) 定位-编辑方法（ROME/MEMIT）直接修改模型参数，与冻结的生产环境 LLM 不兼容，且存在"死记硬背"问题——精确查询能回答但语义等价查询失败；(2) LTE 不显式建模推理路径，要求单步生成正确答案易产生幻觉；(3) EditCoT 需要多模型流水线（一个生成 CoT、一个执行编辑），复杂且不可扩展；(4) 所有现有方法仅处理结构化事实三元组，忽略了新闻、文章等非结构化知识。

核心矛盾：现有方法将知识编辑视为"记住新事实"的记忆问题，而非"理解新事实并推理"的推理问题。SFT 容易过拟合训练分布，面对 OOD 编辑数据泛化差。

本文目标：构建一个单次训练即可泛化到多种编辑场景（结构化/非结构化、单跳/多跳）的知识编辑方法。

切入角度：将知识编辑重新定义为两阶段函数 \(f_{\theta'}(e,q) = g_{\theta'}(h_{\theta'}(e,q))\)——先生成可解释的推理链 \(h\)，再基于推理产出答案 \(g\)。SFT 提供冷启动，GRPO 提供泛化能力。

核心 idea：用 LLM agent 为结构化和非结构化编辑数据生成 CoT 指令，SFT 学习编辑推理范式，GRPO 增强对未见编辑场景的泛化能力，推理时 RAG 检索相关编辑事实。

方法详解¶

整体框架¶

三阶段：(1) 数据构建——从 MQuAKE（结构化）和 MQuAKE-uns（非结构化）生成 CoT 指令数据，从 HotpotQA 实体关系增广训练数据；(2) 训练——Phase 1 SFT 冷启动学习编辑推理模式，Phase 2 GRPO 在合并数据上增强泛化；(3) 推理——RAG 检索相关编辑事实，模型用 CoT 推理生成答案。

关键设计¶

CoT 指令数据构建:
- 功能：教模型学会从编辑事实出发进行逐步推理
- 核心思路：对结构化数据，用 LLM agent 基于编辑事实 \(\mathcal{E}\) 和多跳问题 \(\mathcal{Q}\) 生成推理链 \(\text{Agent}(\mathcal{Q}, \mathcal{E}, \mathcal{T}) \to \text{CoT}, \mathcal{A}\)；对非结构化数据，从编辑上下文 \(\mathcal{C}\) 中提取相关事实再推理 \(\text{Agent}(\mathcal{Q}, \mathcal{C}, \mathcal{T}) \to \mathcal{E}, \text{CoT}, \mathcal{A}\)；数据增广通过 HotpotQA 实体关系合成额外指令数据（~10K）
- 设计动机：覆盖结构化和非结构化两种编辑场景，CoT 提供显式推理路径减少幻觉
两阶段训练（SFT + GRPO）:
- 功能：SFT 提供编辑推理的冷启动，GRPO 增强 OOD 泛化
- 核心思路：Phase 1 SFT 在 CoT 指令数据上自回归训练。Phase 2 GRPO 在合并数据上优化，奖励函数 \(\mathcal{R} = \mathcal{R}_{acc} + \mathcal{R}_{format}\)（准确性+格式），并使用自进化策略——每轮收集高奖励样本加入下轮训练 \(\mathcal{D}_{t+1} = \mathcal{D}_t \cup \{s | \mathcal{R}(s) > \theta\}\)
- 设计动机：纯 SFT 容易过拟合训练编辑模式，GRPO 通过探索多样推理路径提升泛化。自进化策略加速收敛
RAG 推理时知识注入:
- 功能：在推理时动态检索相关编辑事实，无需重新训练
- 核心思路：对用户查询检索最相关的编辑事实作为上下文，模型通过学到的 CoT 推理能力基于检索到的事实回答
- 设计动机：解耦知识存储和推理能力——知识库可随时更新，模型只需学会一次"如何基于给定事实推理"

损失函数 / 训练策略¶

SFT: 标准自回归交叉熵。GRPO: 准确性奖励 + 格式奖励（包含 think/answer 标签和关键词）。在 Llama-3.1-8B、Qwen-2.5-7B、DeepSeek-R1-Distill-Qwen-7B 上验证。

实验关键数据¶

主实验（6 个编辑基准上的综合表现）¶

方法	Edit Succ	Paraphrase	Neighborhood	适用范围
AlphaEdit	88.78	~81	~70	仅结构化
EditCoT	86.13	83.55	~70	仅结构化
CoT2Edit	93.17	89	93	结构化+非结构化

消融实验¶

配置	效果	说明
仅 SFT	过拟合，OOD 差	冷启动但泛化不足
SFT + GRPO	全面提升	GRPO 是核心贡献
无数据增广	GRPO 训练不充分	10K 增广数据很重要
无 RAG	性能下降	检索提供关键编辑事实

关键发现¶

单次训练即泛化到 6 个未见编辑基准，证明模型学到了通用的"基于事实推理"能力
非结构化知识编辑准确率 92%（比 IKE 高约 20%）
在大规模编辑（20K-30K 事实 vs 传统 2K-3K）下仍保持 89% 改写和 93% 邻域成功率
GRPO 是首次应用于知识编辑领域，自进化策略加速了收敛
首次将 GRPO 应用于知识编辑，证明 RL 在编辑泛化上优于纯 SFT

亮点与洞察¶

将知识编辑从"记忆问题"重新定义为"推理问题"——模型不需要记住所有编辑事实，只需学会如何基于给定事实推理。这个范式转换是根本性的
SFT 冷启动 + GRPO 泛化的两阶段训练策略可迁移到其他需要 OOD 泛化的任务
自进化策略（收集高奖励样本加入训练）是一种简单但有效的数据增强方式

局限与展望¶

RAG 检索质量直接影响编辑效果，检索不到相关事实时可能失败
训练数据规模约 13K，在更大规模下的 scaling 行为未验证
仅在 7-8B 模型上验证，更大模型可能有不同表现
编辑事实之间的冲突解决未显式处理

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 GRPO 用于知识编辑，推理范式替代记忆范式
实验充分度: ⭐⭐⭐⭐⭐ 6 个基准、3 个模型、多种编辑场景，分析全面
写作质量: ⭐⭐⭐⭐ 框架图清晰，方法描述完整
价值: ⭐⭐⭐⭐ 单次训练泛化到多场景的实用价值高代码: 待确认
领域: llm_reasoning
关键词: 待补充

一句话总结¶

待深读论文后补充

研究背景与动机¶

待深读论文后补充

方法详解¶

待深读论文后补充

实验关键数据¶

待深读论文后补充

亮点与洞察¶

待深读论文后补充

局限性 / 可改进方向¶

待深读论文后补充

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评

Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（6 个编辑基准上的综合表现）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

实验关键数据¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶