EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models¶
会议: ACL 2025
arXiv: 2502.19765
代码: -
领域: NLP / 文本编辑 / 扩散模型
关键词: diffusion language model, text editing, SDEdit, self-conditioning, controllable generation
一句话总结¶
提出 EdiText,一种基于嵌入扩散模型的可控文本编辑方法,结合 SDEdit 粗粒度编辑和 self-conditioning 细粒度编辑,实现从轻微修改到大幅改写的多尺度文本编辑控制。
研究背景与动机¶
研究领域现状: 文本编辑是将给定参考文本修改为目标属性的任务,已有方法包括基于自回归模型和非自回归模型的方案。扩散模型在图像编辑领域已展现强大的多尺度控制能力,但在文本域的编辑应用仍未被充分探索。
现有方法的局限性:(1)基于能量模型的方法(如 Mireshghallah et al. 2022)只能进行微调级别的控制,范围有限;(2)ParaGuide(Horvitz et al. 2024)使用分类器引导调节编辑强度,但控制范围仍然狭窄;(3)自回归模型(如 Qwen2.5)对编辑程度的指令控制响应有限,修改提示词也难以显著改变编辑幅度。
核心问题: 如何在文本编辑中同时实现粗粒度(大范围调整)和细粒度(精确微调)的编辑控制?
方法详解¶
整体框架¶
EdiText 使用 LD4LG(Latent Diffusion for Language Generation)作为骨干模型。该模型通过 Perceiver Resampler 编码器将离散文本压缩为固定长度的连续潜在表示,再用自回归解码器重建文本。训练一个条件扩散模型来建模潜在表示的分布,并在此基础上叠加两种互补的编辑技术。
关键设计¶
-
SDEdit 粗粒度编辑(EdiText-CE): 将参考文本编码为潜在表示 \(x_0\),在前向扩散过程中加噪至时间步 \(t_{CE}\),然后用训练好的条件扩散模型(目标属性为条件)进行反向去噪。\(t_{CE}\) 控制编辑幅度:接近 \(T\) 时加噪多、原文保留少、编辑大;接近 0 时加噪少、保留多、编辑小。
-
Self-conditioning 细粒度编辑(EdiText-FE): 重新诠释 self-conditioning 机制——在采样过程中,不使用模型自身上一步的预测,而是将参考文本的潜在表示作为条件注入。从 \(t=T\) 到 \(t_{FE}\) 使用参考文本表示作为条件,\(t_{FE}\) 以下恢复正常 self-conditioning。\(t_{FE}\) 越小,参考文本的影响越持久,编辑越小。
-
粗细结合的集成编辑: SDEdit 提供大范围但粗略的控制,self-conditioning 提供小范围但精细的控制。两者叠加使用时,先用 SDEdit 设定总体编辑范围,再用 self-conditioning 在该范围内做精细调整,实现完整的多尺度覆盖。
损失函数¶
- LD4LG 训练损失:\(L(\theta) = \mathbb{E}_{t,x_0,\epsilon_t}[\lambda_t^{-1} \|x_\theta(x_t, t) - x_0\|_2^2]\),其中 \(\lambda_t = 1 - \alpha_t\)
- Self-conditioning 模式下额外训练:以概率 \(p=0.5\) 交替训练无条件和有条件(上一步预测)两种模式
实验¶
主实验(毒性去除任务 - Detoxifying)¶
| 方法 | Hamming ↓ | SacreBLEU ↑ | BERTScore ↑ | Moderation ↓ | PerspectiveAI ↓ |
|---|---|---|---|---|---|
| ParaGuide (λ=200) | 25.3 | 14.9 | 0.903 | 0.446 | 0.321 |
| ParaGuide (λ=10K) | 27.2 | 11.0 | 0.889 | 0.335 | 0.229 |
| Qwen2.5-0.5B | 27.2 | 31.1 | 0.903 | 0.347 | 0.312 |
| EdiText-CE (t=175) | 17.4 | 34.7 | 0.923 | 0.576 | 0.450 |
| EdiText-CE (t=200) | 28.9 | 7.6 | 0.865 | 0.105 | 0.136 |
| EdiText-FE (t=25) | 24.7 | 14.9 | 0.881 | 0.117 | 0.121 |
情感控制任务(Neg → Pos)¶
| 方法 | Hamming ↓ | BERTScore ↑ | Accuracy ↑ |
|---|---|---|---|
| ParaGuide (λ=10K) | 18.0 | 0.857 | 0.89 |
| Qwen2.5-0.5B | 23.9 | 0.881 | 0.60 |
| EdiText-CE (t=200) | 15.1 | 0.879 | 0.77 |
| EdiText-CE (t=225) | 19.5 | 0.846 | 0.90 |
| EdiText-FE (t=25) | 10.7 | 0.916 | 0.60 |
关键发现¶
- 控制范围: EdiText-CE 通过调整 \(t_{CE}\) 可以覆盖从近乎无编辑到完全重写的全范围,而 ParaGuide 和 Qwen2.5 的控制范围极其有限
- 编辑质量: 在相同保留率下,EdiText 的目标属性反映率优于或持平 baseline
- 精细控制: EdiText-FE 提供更细腻的编辑梯度,弥补 EdiText-CE 的跳跃式变化
- 集成优势: 粗细结合后可实现连续无间断的多尺度编辑覆盖
亮点¶
- 创新性地将 SDEdit(图像领域技术)成功迁移到文本编辑,实现粗粒度控制
- 对 self-conditioning 的重新诠释十分巧妙——将"增强生成质量"重新定位为"参考文本锚定"
- 粗+细双层控制机制互补性强,覆盖完整的编辑范围
- 方法简洁优雅,不需要额外分类器(不同于 ParaGuide)
局限性¶
- 基于嵌入扩散模型,生成文本质量仍不如当代大规模自回归模型
- LD4LG 将文本压缩为固定长度潜在表示,可能丢失长文本的细节信息
- 仅在毒性控制和情感控制两类任务上验证,泛化性待确认
- 编辑参数(\(t_{CE}\)、\(t_{FE}\))的最优值需要针对具体任务经验性调整
- 相比自回归 LLM 指令编辑,扩散模型的推理速度更慢
相关工作¶
- 扩散语言模型: LD4LG (Lovelace et al. 2023) 嵌入扩散;MDLM (Sahoo et al. 2024) 离散扩散
- 文本编辑: ParaGuide (Horvitz et al. 2024) 分类器引导;Mireshghallah et al. 2022 基于 EBM
- 图像编辑迁移: SDEdit (Meng et al. 2022) 噪声-去噪编辑框架
- 可控文本生成: Li et al. 2022 基于扩散的约束生成;self-conditioning (Chen et al. 2023) 提升采样质量
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 8 |
| 技术深度 | 7 |
| 实验充分性 | 7 |
| 写作质量 | 7 |
| 实用价值 | 6 |
| 总分 | 7.0 |