WaterDrum: Watermark-based Data-centric Unlearning Metric¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5GVfneFvhq
代码: https://github.com/lululu008/WaterDrum (有，附 HuggingFace 数据集)
领域: LLM 安全 / 机器遗忘 / 隐私
关键词: 机器遗忘、遗忘度量、文本水印、数据版权、反事实

一句话总结¶

针对现有「效用中心」遗忘度量必须对照重训模型、且在遗忘集与保留集语义相近时失灵的问题，本文提出首个「数据中心」的遗忘度量 WaterDrum：给每个数据拥有者的训练文本打上唯一水印，用水印验证分数直接读出「这份数据还残留多少影响」，无需重训模型即可在 AUROC≈1、校准 \(R^2\approx0.99\) 下连续衡量遗忘程度。

研究背景与动机¶

领域现状：LLM 遗忘（unlearning）要在不重训整个模型的前提下，把某批训练数据（遗忘集 \(D_F\)）的影响从模型里抹掉，以应对版权诉讼、GDPR「被遗忘权」、过期/有害数据撤回等现实诉求。要判断算法到底有没有遗忘干净，就需要一个「遗忘度量」。目前主流度量都是效用中心（utility-centric）的：看模型在遗忘集上的困惑度、ROUGE-L、Truth Ratio、KnowMem 这类性能指标变差了多少。

现有痛点：效用中心度量有两个致命缺陷。其一，它们的数值无法单独解读——要判断遗忘是否成功，必须拿「在保留集 \(D_R\) 上从头重训得到的完美模型 \(\varphi_R\)」作参照，而重训 LLM 恰恰是不可承受的成本（遗忘算法存在的意义本来就是为了避免重训）。其二，当遗忘集和保留集语义相近时（如不同新闻社报道同一事件、同一 arXiv 学科下不同作者的摘要），这类度量直接失效：因为 LLM 会对相似查询产生相似输出，度量值因此分不清某条输出到底来自遗忘集还是保留集。论文 Fig.1 显示，在「语义重复」设置下 Truth Ratio 的遗忘/保留两个分布几乎完全重叠，找不到任何阈值能把二者分开。

核心矛盾：效用中心度量是间接地通过「模型性能」去推断「数据影响」，而性能在相似数据下会被泛化能力污染；同时它天然依赖一个现实中拿不到的重训参照。要既不依赖 \(\varphi_R\)、又对相似数据鲁棒，必须换一条路。

本文目标：(1) 先把「一个好的遗忘度量该满足什么」形式化为明确判据；(2) 造一个能体现现实挑战（多拥有者、不同相似度）的基准数据集；(3) 设计一个满足全部判据的度量并验证。

切入角度：作者的关键观察是——与其被动地从性能反推数据影响，不如主动在数据里埋信号。给训练数据打水印就制造了一个清晰的反事实：没在某水印数据上训过的模型，输出里就不会带这个水印信号。于是「数据还残不残留」从一个模糊的性能比较问题，变成一个有明确 0 基准的水印检测问题。

核心 idea：用「文本水印 + 验证算子」直接、连续地度量每个拥有者的数据在 LLM 输出中的残留量，验证分数本身就是遗忘度量，0 即完美遗忘。

方法详解¶

整体框架¶

WaterDrum 把遗忘度量重构成一条「打水印 → 训练 → 遗忘 → 验证」的数据中心流水线。设有一群数据拥有者 \(T\)，每人持有数据集 \(D_i\)；模型拥有者聚合所有数据训练 LLM 对外服务；当子集 \(F\subset T\) 申请删除其数据 \(D_F\) 时，模型拥有者用某遗忘算法把原模型 \(\varphi_T\) 改成近似 \(\varphi_R\) 的遗忘模型 \(\tilde\varphi\)。WaterDrum 的核心改动是：在训练之前，先让每个拥有者 \(i\) 用唯一密钥 \(\mu_i\) 给自己的数据打水印；之后任何人只要有查询权限，就能用验证算子 \(V\) 检测某条输出里还带不带 \(\mu_i\) 的水印，并把这个分数当作遗忘度量：

\[M'(\varphi_\bullet(q_d), i) := V(\varphi_\bullet(q_d), \mu_i).\]

直觉是：完美遗忘的模型 \(\varphi_R\) 没在 \(D_F\) 上训过，所以它对遗忘集查询的输出验不出对应水印（\(V\approx 0\)）；而保留集的水印仍验得出（\(V\gg 0\)）。因此验证分数天然有一个可解读的 0 基准，且因为每人密钥不同，相似甚至完全相同的数据来自不同拥有者也会带不同水印，从根上解决「相似数据分不开」的问题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多拥有者数据 D_T"] --> B["水印反事实信号<br/>每人唯一密钥 µ_i 打水印 W(d,µ_i)"]
    B --> C["模型拥有者聚合训练<br/>LLM φ'_T"]
    C -->|"F 申请删除 D_F"| D["执行遗忘算法<br/>得到遗忘模型 φ̃'"]
    D --> E["验证即度量<br/>M' = V(φ̃'(q_d), µ_i)"]
    E --> F["WaterDrum 值<br/>0=完美遗忘, 连续可解读"]

关键设计¶

1. 把「好度量」形式化为四条判据：先定标准再造度量

论文先不急着造度量，而是把「一个有效且实用的遗忘度量该长什么样」拆成四条判据，逼着度量满足现实约束。D1 可分性（Separability）：在完美遗忘模型 \(\varphi_R\) 上，保留集查询的度量值应以高概率大于遗忘集查询的度量值，即 \(P[M(\varphi_R(q_{d_r}), r) > M(\varphi_R(q_{d_f}), f)]\approx 1\)，这个左式恰好等价于 AUROC，因此「可分性好」就是「AUROC≈1」。D2 校准性（Calibration）：遗忘往往不完美，度量应能连续反映「忘了多少」——若用遗忘集的大小为 \(k\) 的子集 \(D_\#^G\) 连同保留集一起重训，聚合度量值应正比于 \(k/|D_F|\)，于是 \(k=0\)（完美遗忘）时度量值必须为 0。D3 可行性（Feasibility）：(a) 度量不得引用重训模型 \(\varphi_R\)，(b) 只依赖查询输出、不要 logits 或权重。D4 相似数据鲁棒性：D1、D2 在 \(D_R\) 与 \(D_F\) 含相似数据时仍要成立。这套判据把前面两个痛点（依赖重训、相似数据失灵）变成了可检验的硬指标，论文 Table 1 据此判定 ROUGE/Truth Ratio/KnowMem/MIA 全都不满足，唯有 WaterDrum 全过。

2. 水印反事实信号：用唯一密钥把「数据影响」变成可验证的水印

这是 WaterDrum 的灵魂，直接对治「效用中心度量数值无法单独解读、相似数据分不开」。框架给每个拥有者 \(i\) 分配唯一密钥 \(\mu_i\)，配一对算子：水印算子 \(W(d_i, \mu_i)\to d_i'\) 把文本打上专属水印，验证算子 \(V(g', \mu_i)\) 给任意文本 \(g'\) 打出「含 \(\mu_i\) 水印的似然分数」。为支撑前述判据，水印框架本身须满足一组子判据：W0 保真（水印几乎不改语义，\(d\simeq W(d,\mu)\)，保住数据价值）；W1 可验证性（当且仅当水印内容存在于 LLM 中才验得出，故 \(\varphi_R\) 验不出被删拥有者的水印、验得出保留拥有者的水印，且平均验证值正比于残留数据量——这分别撑起 D1 与 D2）；W2 重叠可验证性（即便训练数据里混了别人的水印，本人水印仍验得出，使同一模型输出能验出多个拥有者的水印）；W4 唯一密钥（不同拥有者密钥不同，于是相似/相同数据因密钥不同而带不同水印——这正是 D4 鲁棒性的来源）。论文不重造水印轮子，而是适配训练免重、可扩展、鲁棒的 Waterfall 框架（Lau et al., 2024）来实例化 \(W\) 与 \(V\)，因为它恰好满足 W0、W1(a)、W2。

3. 三阶段部署流程：让度量只靠查询权限就能跑，永不碰重训模型

判据 D3 要求度量既不引用 \(\varphi_R\)、又只需查询权限，这靠流程设计落地，分三步。P1 打水印与训练：每个拥有者先用自己的 \(\mu_i\) 把 \(D_i\) 打成 \(D_i'\)，模型拥有者聚合 \(D_T'\) 训练 \(\varphi_T'\) 对外提供查询。P2 遗忘：子集 \(F\) 申请删除 \(D_F'\)，模型拥有者执行遗忘算法、提供遗忘模型 \(\tilde\varphi'\) 的查询权限。P3 验证即度量：每个 \(i\in F\) 用基于 \(d'\in D_i'\) 的查询去问 \(\tilde\varphi'\)，对输出施加 \(V(\tilde\varphi'(q_{d'}), \mu_i)\)，读出残留量。整个 P3 只需查询权限（满足 W3→D3b），且因为模型拥有者全程不掌握拥有者密钥（满足 W4），相似数据也分得开。值得强调的是，判据里用到 \(\varphi_R\) 的地方仅仅是为了「论证度量的有效性」，真正部署时度量直接作用于不完美遗忘模型，完全不需要重训参照——这正是它相对效用中心度量的根本优势。

4. WaterDrum-Ax：能体现「多拥有者 + 不同相似度」的新基准

现有基准（TOFU、MUSE、WMDP）有两个不现实之处：遗忘/保留集固定且划分单一、二者刻意不相交。本文造 WaterDrum-Ax 来补这两个洞：取 Llama-2 发布后的 arXiv 摘要，覆盖20 个最热门学科类别当作 20 个可自由指派为 \(D_F/D_R\) 的数据拥有者，每类 400 篇、共 8000 条，平均长 260 token（远长于 TOFU 的 59 token）；并构造从精确重复到改写版的不同相似度，使相似数据能跨遗忘集与保留集出现。这个数据集既能按 Sec.3 的判据评估各种度量，也能反过来用 WaterDrum 去横评遗忘算法本身。

实验关键数据¶

实验用 Llama-2-7B 为底座，WaterDrum 在打了水印的数据上微调、其余度量在未打水印版本上微调，所有度量在遗忘前的原模型上都归一到 1.0 以便对比。对照度量为 ROUGE-L、Truth Ratio、KnowMem、MIA。

主实验：可分性 D1（AUROC）¶

评估完美遗忘模型 \(\varphi_R\) 上各度量区分保留集 vs 遗忘集的 AUROC，越接近 1 越好。

数据相似度	数据集	ROUGE	Truth Ratio / KnowMem	WaterDrum
精确重复	WaterDrum-TOFU	0.510	0.508 (TR)	0.926
语义重复	WaterDrum-TOFU	0.798	0.472 (TR)	0.954
无重复	WaterDrum-TOFU	0.908	0.747 (TR)	0.928
精确重复	WaterDrum-Ax	0.334	0.492 (KnowMem)	0.957
语义重复	WaterDrum-Ax	0.960	0.450 (KnowMem)	0.963
无重复	WaterDrum-Ax	0.974	0.491 (KnowMem)	0.965

WaterDrum 在所有相似度设置下都稳定 >0.9 且近 1；对照度量在「精确/语义重复」下 AUROC 掉到约 0.5（与随机猜测无异），Truth Ratio 连传统「无重复」设置也只有约 0.75。

校准实验 D2（最佳拟合线过原点的 \(R^2\)）¶

WaterDrum-Ax 上，按不同 \(k/|D_F|\) 重训并拟合度量值，\(R^2\) 越近 1 校准越好。

配置	ROUGE	KnowMem	MIA	WaterDrum
精确重复	-37.47	-498.1	-285.6	0.987
语义重复	0.693	-276.5	-14.52	0.991
无重复	0.650	-252.9	0.677	0.963

只有 WaterDrum 在所有设置都接近 1；对照度量出现大负值，说明它们对不同 \(k\) 输出近乎不变的值（校准曲线不过原点），在强制 D3（不许引用 \(\varphi_R\)）下根本无法量化遗忘程度。

不同水印方法实例化（消融）¶

把 WaterDrum 换成不同水印框架，看 D1/D2 与验证开销：

水印方法	D1 (AUROC)	D2 (\(R^2\))	验证耗时	需 GPU
Waterfall	0.965	0.963	0.015s	否
适配 KGW	0.871	0.996	0.336s	是
适配 Synth-ID	0.549	-16.951	0.386s	是
适配 EXP-edit	0.789	-17.079	165.5s	否

关键发现¶

水印方法的选择决定成败：Waterfall 同时满足 W1、W2，故 D1/D2 双高且验证最快、无需 GPU；KGW 因只为「单一模型拥有者」在推理时埋水印、不满足 W2，校准虽好但可分性明显偏低，只适合单拥有者场景；Synth-ID、EXP-edit 因不满足 W1/W2 双双失效。
用 WaterDrum 横评遗忘算法：在 \(M'_{D_F}\) vs \(M'_{D_R}\) 平面上，理想点是「右下角」（遗忘集验证值低、保留集验证值高）。结果显示 GD/KL/TV/SCRUB 都离重训甚远——KL、TV 能忘干净却保不住保留集影响（损害效用），GD、SCRUB 能保住保留集却忘不彻底，暴露了现有算法在「忘得净」与「留得住」之间的失衡。

亮点与洞察¶

把「度量数据影响」从被动反推变成主动埋信号：这是最让人「啊哈」的地方——效用中心度量一直在用性能间接猜数据影响，WaterDrum 直接在数据里写一个反事实标记，使「0 = 完美遗忘」成为可解读的硬基准，绕开了对重训模型的依赖。
唯一密钥一招解决相似数据难题：相似/相同内容只要来自不同拥有者就带不同水印，从机制上让度量与「语义相似度」解耦，这一点可迁移到任何「需要按数据来源分账」的场景（如多源数据贡献度评估、数据集成员推断）。
先立判据再造方法的研究范式很干净：D1-D4 既是设计目标也是评测协议，Table 1 直接用判据淘汰一众基线，论证链条清晰。

局限与展望¶

需要预先打水印：度量只对「训练前已打水印」的数据生效，对已经训进现有模型的存量未水印数据无能为力；作者论证这在「数据拥有者主张 IP/隐私权时可要求模型方使用水印版」「面向未来 LLM 训练数据」等场景下是合理的，但仍是部署前提。
W0 保真的边界：水印需几乎不改语义，若水印强度过大可能损害数据/模型价值，论文在附录验证 Waterfall 不降性能，但这是方法可用性的隐含约束。
对抗与可信问题：模型方可能不真遗忘却压低度量值、拥有者可能虚报，论文在附录讨论需依赖密钥私有 + 可信第三方校验，现实部署中第三方与密钥管理是额外工程负担。
遗忘算法横评尚属初步：Sec.5.1 对 GD/KL/TV/SCRUB 的评测是 preliminary，多拥有者、多相似度的系统性评测留作未来工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个数据中心遗忘度量，「水印反事实」把模糊的性能比较变成有 0 基准的检测问题，视角新。
实验充分度: ⭐⭐⭐⭐ 跨两个数据集、四种基线、四种水印方法系统验证 D1/D2，并横评遗忘算法；但算法横评仍偏初步。
写作质量: ⭐⭐⭐⭐⭐ 先立判据再造方法，判据↔水印子判据↔流程的对应关系交代得很清楚。
价值: ⭐⭐⭐⭐⭐ 直击「遗忘评测必须依赖昂贵重训模型」这一现实痛点，对版权/隐私合规场景有直接落地意义。