跳转至

Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure

会议: NeurIPS 2025
arXiv: 2603.07529
代码: 无
领域: Fairness / 概念擦除
关键词: concept erasure, HSIC, RKHS, fairness, nonlinear guardedness

一句话总结

提出Obliviator——一种基于RKHS中HSIC最小化的后处理概念擦除方法,通过两步迭代优化逐步变形特征空间,首次实现对非线性对抗者的完全防护,同时量化了非线性防护的效用-擦除代价(utility-erasure trade-off),在多个PLM和数据集上显著优于现有方法。

研究背景与动机

领域现状: 预训练语言模型(PLM)广泛编码了人口统计等敏感属性信息,导致偏见和不公平预测。概念擦除(concept erasure)旨在从表示中移除此类信息,同时保留任务相关效用。

现有痛点: - 线性方法(INLP、R-LACE、LEACE、SAL)仅能防护线性对抗者,非线性分类器仍可恢复敏感属性 - 现有非线性方法(kSAL、KCE、AdS、FaRM、KRaM)虽试图处理非线性依赖,但未能完全捕获非线性统计依赖关系,仍对非线性对抗者脆弱 - 即使对PLM做代价高昂的微调(如AdS、FaRM),擦除也不完整

核心矛盾: 概念擦除的两个目标(移除敏感属性 vs 保留任务效用)本质上竞争。现有方法要么无法完全擦除(对非线性对抗者不免疫),要么擦除时丢失过多效用。更关键的是,效用-擦除代价的动态过程从未被研究过。

本文目标: (1) 实现对非线性对抗者的完全防护(即真正的统计独立);(2) 揭示并量化擦除过程中效用与防护之间的trade-off动态。

切入角度: 从函数论视角出发,利用RKHS中的HSIC作为非线性统计依赖的度量,将擦除问题形式化为级联核优化问题,并用迭代方法求解。

核心 idea: 用HSIC衡量非线性统计依赖,通过编码器HSIC最小化+RKHS特征值分解的两步迭代逐步变形特征空间,在保效用的同时实现完全非线性概念擦除。

方法详解

整体框架

Obliviator是一个后处理、迭代式的概念擦除方法,分两步交替进行(见Figure 2): - Step 1 (编码器训练): 训练编码器最小化表示与敏感属性之间的HSIC,同时最大化与任务标签/原始表示的HSIC以保留效用 - Step 2 (RKHS解纠缠): 利用RKHS中的受约束特征值问题,找到最大化任务相关信息可见性的方向,同时确保这些方向与敏感属性正交 - 每一轮迭代产生一个中间表示,逐步将特征空间变形到敏感属性不可检测的状态

关键设计

  1. 级联核问题(与kSAL/KCE的本质区别):

    • kSAL/KCE假设将表示映射到RKHS后做线性擦除就足以实现非线性防护——但这仅防护该RKHS内的线性对抗者,对同一空间内的非线性对抗者仍脆弱
    • Obliviator寻找表示 \(\varepsilon(X)\) 使得即使经过后续对抗性特征映射 \(\phi(\cdot)\),敏感属性 \(S\) 仍不可检测。这导致级联核问题:\(\inf_\theta \sup_g \sup_f \mathbb{E}[\bar{g}(S) \bar{f}(\varepsilon(\theta; X))]\)
    • 当HSIC \(\to 0\) 时,等价于 \(Z_\theta \perp\!\!\perp S\)(真正的统计独立)
  2. Step 1: 编码器——通过RKHS施加独立性: 第 \(i\) 轮迭代训练编码器 \(\varepsilon^i\),损失函数为: \(\inf_{\theta^i} \frac{1}{n^2} \text{trace}\Big(\mathbf{K}_{z^i} \mathbf{H} (\mathbf{K}_s - \tau_x \mathbf{K}_x - \tau_{x^i} \mathbf{K}_{x^i} - \tau_y \mathbf{K}_y) \mathbf{H}\Big)\) 其中 \(\mathbf{K}_\bullet\) 是对应变量的核矩阵,\(\tau\) 是平衡权重。关键创新:不仅用 \(Y\) 显式保护任务信息,还用 \(X\)(原始表示)和 \(X^i\)(当前迭代输入)作为隐式代理,因为HSIC聚合的不同"可见性模式"在不同参考变量下权重不同。

  3. Step 2: RKHS解纠缠——特征值问题: 求解受约束优化,找到最大化 \(Z^i\)\((X^i, X, Y)\) 相关性的RKHS函数,同时约束与 \(S\) 的相关性为零: \(\mathbf{Q}^T \Big(\hat{\mathbf{C}}_{x^i z^i}^T \hat{\mathbf{C}}_{x^i z^i} + \tau_y \hat{\mathbf{C}}_{y z^i}^T \hat{\mathbf{C}}_{y z^i} + \tau_x \hat{\mathbf{C}}_{x z^i}^T \hat{\mathbf{C}}_{x z^i}\Big) \mathbf{Q} \mathbf{v} = \lambda \mathbf{v}\) 其中 \(\mathbf{Q}\)\(\hat{\mathbf{C}}_{sz^i}\) 零空间的正交基。选择前 \(m\) 个特征向量投影表示,作为下一轮编码器的输入。

损失函数 / 训练策略

  • 多目标损失中 \(\tau_x, \tau_{x^i}, \tau_y\) 控制效用保留与擦除之间的平衡
  • 逐轮迭代而非一次性优化,每步小幅变形特征空间,获得更保效用的擦除
  • 监督模式(利用 \(Y\) 标签)和无监督模式(仅用 \(X, X^i\) 作为代理)均可运行
  • 支持冻结表示(post-hoc)和微调表示两种场景

实验关键数据

主实验 — BERT Finetuned+Supervised 擦除(基线与Obliviator的最终擦除差距)

数据集 任务Y 敏感属性S 基线最优残余S准确率 Obliviator残余S准确率 差距
Dial-Mention Mention Race ~62% ~50% (随机) 12%
Dial-Sentiment Sentiment Race ~63% ~50% (随机) 13%
Bias in Bios Profession (28类) Gender ~64% ~50% (随机) 14%

跨PLM泛化性 — Frozen+Supervised on Bias in Bios

PLM 嵌入维度 Obliviator trade-off INLP FaRM KRaM
BERT 768 完全擦除+高效用 残余泄漏 残余泄漏 残余泄漏
GPT-2 768 与BERT相当 下降 任务准确率崩溃 任务准确率崩溃
LLaMA-3.2-1B 2048 优于BERT 不变 不变 有改善但不完全
DeepSeek-7B 4096 显著优于BERT - 不变 准确率下降

消融实验 — 监督 vs 无监督 × 冻结 vs 微调

设置 效用保留 完全擦除 Trade-off显著性
Finetuned+Supervised ✅ 最优 最小trade-off
Frozen+Supervised ✅ 较优 轻微trade-off
Finetuned+Unsupervised ✅ 较优 中等trade-off
Frozen+Unsupervised ⚠️ 有下降 最显著trade-off

公平性指标 — Dial-Sentiment (DP & Gap_rms)

PLM 擦除方案 DP (越低越好) Gap_rms (越低越好)
BERT Supervised 接近0 接近0
BERT Unsupervised
DeepSeek Supervised 更低(更好解纠缠) 更低
DeepSeek Unsupervised

关键发现

  • Obliviator是唯一能将敏感属性非线性对抗者的准确率压到随机水平(真正统计独立)的方法
  • 更强大的PLM(DeepSeek > LLaMA > GPT-2 ≈ BERT)产生更好解纠缠的表示,Obliviator可直接利用这一特性获得更保效用的擦除
  • 监督擦除(利用Y标签)比无监督擦除保留更多效用,因为Y提供了任务相关模式的显式代理
  • 数据分布偏斜显著恶化trade-off(80%偏斜比50%平衡情况下效用损失更大),揭示了后处理擦除方法对数据代表性的依赖
  • 连微调PLM(如AdS)也无法完全防护非线性对抗者——Obliviator在后处理设定下就能实现完全擦除

亮点与洞察

  • 理论根基扎实: 从线性协方差到非线性RKHS的统计独立性推导一气呵成,HSIC=0等价于独立性的保证使方法有理论上限
  • 迭代而非一次性: 逐步变形特征空间的设计精妙,既产生了utility-erasure trade-off曲线用于分析,又实质性改善了擦除质量
  • RKHS解纠缠步骤的创新: 在零空间约束下求特征值问题,巧妙地将"不增加S泄漏"和"重新对齐Y信息"统一到一个优化中
  • 泛化性发现: 更强PLM → 更好解纠缠 → 更好trade-off 的链条具有启发性,暗示观测到的utility-erasure trade-off可能是模型表示质量的诊断指标

局限与展望

  • 迭代过程需要多轮编码器训练和特征值分解,计算开销较大,尤其对4096维DeepSeek嵌入
  • 核函数选择(如RBF带宽)对结果有影响,但文中未充分讨论敏感性
  • 仅在NLP任务(文本分类/情感/职业)上验证,未涉及视觉或多模态场景
  • 后处理方法不修改PLM参数,若原始表示中任务信息和敏感属性高度纠缠,效用损失可能不可避免

相关工作与启发

  • vs INLP/R-LACE/LEACE: 这些线性方法仅防护线性对抗者,Obliviator在其完全失败的场景(非线性探测)下实现了完全擦除
  • vs kSAL/KCE: 同样基于核方法,但kSAL仅在RKHS中做线性擦除,等于只防护特定RKHS中的线性对抗者;Obliviator通过级联核形式化→迭代优化解决了这一根本限制
  • vs AdS/FaRM: 需要微调PLM,计算成本更高,但仍无法实现完全非线性擦除;Obliviator作为后处理方法反而更彻底
  • vs KRaM: 同为后处理+核方法,但KRaM的率失真最大化框架也未能完全擦除,且在GPT-2上任务准确率崩溃

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 级联核问题形式化揭示了kSAL等方法的根本缺陷,两步迭代框架优雅新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个PLM × 3个数据集 × 4种设置 × trade-off曲线 × 公平性 × 偏斜分析,极为全面
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,但符号较多,初读有一定门槛
  • 价值: ⭐⭐⭐⭐⭐ 首次实现非线性完全概念擦除,trade-off分析框架为后续工作提供了重要基准