Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure¶
会议: NeurIPS 2025
arXiv: 2603.07529
代码: 无
领域: Fairness / 概念擦除
关键词: concept erasure, HSIC, RKHS, fairness, nonlinear guardedness
一句话总结¶
提出Obliviator——一种基于RKHS中HSIC最小化的后处理概念擦除方法,通过两步迭代优化逐步变形特征空间,首次实现对非线性对抗者的完全防护,同时量化了非线性防护的效用-擦除代价(utility-erasure trade-off),在多个PLM和数据集上显著优于现有方法。
研究背景与动机¶
领域现状: 预训练语言模型(PLM)广泛编码了人口统计等敏感属性信息,导致偏见和不公平预测。概念擦除(concept erasure)旨在从表示中移除此类信息,同时保留任务相关效用。
现有痛点: - 线性方法(INLP、R-LACE、LEACE、SAL)仅能防护线性对抗者,非线性分类器仍可恢复敏感属性 - 现有非线性方法(kSAL、KCE、AdS、FaRM、KRaM)虽试图处理非线性依赖,但未能完全捕获非线性统计依赖关系,仍对非线性对抗者脆弱 - 即使对PLM做代价高昂的微调(如AdS、FaRM),擦除也不完整
核心矛盾: 概念擦除的两个目标(移除敏感属性 vs 保留任务效用)本质上竞争。现有方法要么无法完全擦除(对非线性对抗者不免疫),要么擦除时丢失过多效用。更关键的是,效用-擦除代价的动态过程从未被研究过。
本文目标: (1) 实现对非线性对抗者的完全防护(即真正的统计独立);(2) 揭示并量化擦除过程中效用与防护之间的trade-off动态。
切入角度: 从函数论视角出发,利用RKHS中的HSIC作为非线性统计依赖的度量,将擦除问题形式化为级联核优化问题,并用迭代方法求解。
核心 idea: 用HSIC衡量非线性统计依赖,通过编码器HSIC最小化+RKHS特征值分解的两步迭代逐步变形特征空间,在保效用的同时实现完全非线性概念擦除。
方法详解¶
整体框架¶
Obliviator是一个后处理、迭代式的概念擦除方法,分两步交替进行(见Figure 2): - Step 1 (编码器训练): 训练编码器最小化表示与敏感属性之间的HSIC,同时最大化与任务标签/原始表示的HSIC以保留效用 - Step 2 (RKHS解纠缠): 利用RKHS中的受约束特征值问题,找到最大化任务相关信息可见性的方向,同时确保这些方向与敏感属性正交 - 每一轮迭代产生一个中间表示,逐步将特征空间变形到敏感属性不可检测的状态
关键设计¶
-
级联核问题(与kSAL/KCE的本质区别):
- kSAL/KCE假设将表示映射到RKHS后做线性擦除就足以实现非线性防护——但这仅防护该RKHS内的线性对抗者,对同一空间内的非线性对抗者仍脆弱
- Obliviator寻找表示 \(\varepsilon(X)\) 使得即使经过后续对抗性特征映射 \(\phi(\cdot)\),敏感属性 \(S\) 仍不可检测。这导致级联核问题:\(\inf_\theta \sup_g \sup_f \mathbb{E}[\bar{g}(S) \bar{f}(\varepsilon(\theta; X))]\)
- 当HSIC \(\to 0\) 时,等价于 \(Z_\theta \perp\!\!\perp S\)(真正的统计独立)
-
Step 1: 编码器——通过RKHS施加独立性: 第 \(i\) 轮迭代训练编码器 \(\varepsilon^i\),损失函数为: \(\inf_{\theta^i} \frac{1}{n^2} \text{trace}\Big(\mathbf{K}_{z^i} \mathbf{H} (\mathbf{K}_s - \tau_x \mathbf{K}_x - \tau_{x^i} \mathbf{K}_{x^i} - \tau_y \mathbf{K}_y) \mathbf{H}\Big)\) 其中 \(\mathbf{K}_\bullet\) 是对应变量的核矩阵,\(\tau\) 是平衡权重。关键创新:不仅用 \(Y\) 显式保护任务信息,还用 \(X\)(原始表示)和 \(X^i\)(当前迭代输入)作为隐式代理,因为HSIC聚合的不同"可见性模式"在不同参考变量下权重不同。
-
Step 2: RKHS解纠缠——特征值问题: 求解受约束优化,找到最大化 \(Z^i\) 与 \((X^i, X, Y)\) 相关性的RKHS函数,同时约束与 \(S\) 的相关性为零: \(\mathbf{Q}^T \Big(\hat{\mathbf{C}}_{x^i z^i}^T \hat{\mathbf{C}}_{x^i z^i} + \tau_y \hat{\mathbf{C}}_{y z^i}^T \hat{\mathbf{C}}_{y z^i} + \tau_x \hat{\mathbf{C}}_{x z^i}^T \hat{\mathbf{C}}_{x z^i}\Big) \mathbf{Q} \mathbf{v} = \lambda \mathbf{v}\) 其中 \(\mathbf{Q}\) 是 \(\hat{\mathbf{C}}_{sz^i}\) 零空间的正交基。选择前 \(m\) 个特征向量投影表示,作为下一轮编码器的输入。
损失函数 / 训练策略¶
- 多目标损失中 \(\tau_x, \tau_{x^i}, \tau_y\) 控制效用保留与擦除之间的平衡
- 逐轮迭代而非一次性优化,每步小幅变形特征空间,获得更保效用的擦除
- 监督模式(利用 \(Y\) 标签)和无监督模式(仅用 \(X, X^i\) 作为代理)均可运行
- 支持冻结表示(post-hoc)和微调表示两种场景
实验关键数据¶
主实验 — BERT Finetuned+Supervised 擦除(基线与Obliviator的最终擦除差距)¶
| 数据集 | 任务Y | 敏感属性S | 基线最优残余S准确率 | Obliviator残余S准确率 | 差距 |
|---|---|---|---|---|---|
| Dial-Mention | Mention | Race | ~62% | ~50% (随机) | 12% |
| Dial-Sentiment | Sentiment | Race | ~63% | ~50% (随机) | 13% |
| Bias in Bios | Profession (28类) | Gender | ~64% | ~50% (随机) | 14% |
跨PLM泛化性 — Frozen+Supervised on Bias in Bios¶
| PLM | 嵌入维度 | Obliviator trade-off | INLP | FaRM | KRaM |
|---|---|---|---|---|---|
| BERT | 768 | 完全擦除+高效用 | 残余泄漏 | 残余泄漏 | 残余泄漏 |
| GPT-2 | 768 | 与BERT相当 | 下降 | 任务准确率崩溃 | 任务准确率崩溃 |
| LLaMA-3.2-1B | 2048 | 优于BERT | 不变 | 不变 | 有改善但不完全 |
| DeepSeek-7B | 4096 | 显著优于BERT | - | 不变 | 准确率下降 |
消融实验 — 监督 vs 无监督 × 冻结 vs 微调¶
| 设置 | 效用保留 | 完全擦除 | Trade-off显著性 |
|---|---|---|---|
| Finetuned+Supervised | ✅ 最优 | ✅ | 最小trade-off |
| Frozen+Supervised | ✅ 较优 | ✅ | 轻微trade-off |
| Finetuned+Unsupervised | ✅ 较优 | ✅ | 中等trade-off |
| Frozen+Unsupervised | ⚠️ 有下降 | ✅ | 最显著trade-off |
公平性指标 — Dial-Sentiment (DP & Gap_rms)¶
| PLM | 擦除方案 | DP (越低越好) | Gap_rms (越低越好) |
|---|---|---|---|
| BERT | Supervised | 接近0 | 接近0 |
| BERT | Unsupervised | 低 | 低 |
| DeepSeek | Supervised | 更低(更好解纠缠) | 更低 |
| DeepSeek | Unsupervised | 低 | 低 |
关键发现¶
- Obliviator是唯一能将敏感属性非线性对抗者的准确率压到随机水平(真正统计独立)的方法
- 更强大的PLM(DeepSeek > LLaMA > GPT-2 ≈ BERT)产生更好解纠缠的表示,Obliviator可直接利用这一特性获得更保效用的擦除
- 监督擦除(利用Y标签)比无监督擦除保留更多效用,因为Y提供了任务相关模式的显式代理
- 数据分布偏斜显著恶化trade-off(80%偏斜比50%平衡情况下效用损失更大),揭示了后处理擦除方法对数据代表性的依赖
- 连微调PLM(如AdS)也无法完全防护非线性对抗者——Obliviator在后处理设定下就能实现完全擦除
亮点与洞察¶
- 理论根基扎实: 从线性协方差到非线性RKHS的统计独立性推导一气呵成,HSIC=0等价于独立性的保证使方法有理论上限
- 迭代而非一次性: 逐步变形特征空间的设计精妙,既产生了utility-erasure trade-off曲线用于分析,又实质性改善了擦除质量
- RKHS解纠缠步骤的创新: 在零空间约束下求特征值问题,巧妙地将"不增加S泄漏"和"重新对齐Y信息"统一到一个优化中
- 泛化性发现: 更强PLM → 更好解纠缠 → 更好trade-off 的链条具有启发性,暗示观测到的utility-erasure trade-off可能是模型表示质量的诊断指标
局限与展望¶
- 迭代过程需要多轮编码器训练和特征值分解,计算开销较大,尤其对4096维DeepSeek嵌入
- 核函数选择(如RBF带宽)对结果有影响,但文中未充分讨论敏感性
- 仅在NLP任务(文本分类/情感/职业)上验证,未涉及视觉或多模态场景
- 后处理方法不修改PLM参数,若原始表示中任务信息和敏感属性高度纠缠,效用损失可能不可避免
相关工作与启发¶
- vs INLP/R-LACE/LEACE: 这些线性方法仅防护线性对抗者,Obliviator在其完全失败的场景(非线性探测)下实现了完全擦除
- vs kSAL/KCE: 同样基于核方法,但kSAL仅在RKHS中做线性擦除,等于只防护特定RKHS中的线性对抗者;Obliviator通过级联核形式化→迭代优化解决了这一根本限制
- vs AdS/FaRM: 需要微调PLM,计算成本更高,但仍无法实现完全非线性擦除;Obliviator作为后处理方法反而更彻底
- vs KRaM: 同为后处理+核方法,但KRaM的率失真最大化框架也未能完全擦除,且在GPT-2上任务准确率崩溃
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 级联核问题形式化揭示了kSAL等方法的根本缺陷,两步迭代框架优雅新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 4个PLM × 3个数据集 × 4种设置 × trade-off曲线 × 公平性 × 偏斜分析,极为全面
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,但符号较多,初读有一定门槛
- 价值: ⭐⭐⭐⭐⭐ 首次实现非线性完全概念擦除,trade-off分析框架为后续工作提供了重要基准