跳转至

TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models

基本信息

会议: CVPR 2026
arXiv: 2603.17828
代码: GitHub
领域: 图像生成 / AI安全 / 概念擦除攻击
关键词: Concept Erasure, Machine Unlearning, DDIM Inversion, Text-to-Image Diffusion, Adversarial Attack

一句话总结

提出 TINA(Text-free INversion Attack),通过在 null-text 条件下优化 DDIM 反演找到精确的初始噪声,绕过所有基于文本的概念擦除防御,证明当前擦除方法仅切断了文本-图像映射而未真正删除模型内部的视觉知识。

研究背景与动机

当前文本到图像扩散模型(如 Stable Diffusion)的概念擦除(Concept Erasure)领域存在一个根本性盲区:所有擦除方法和对抗攻击都围绕文本条件通路展开。擦除方法(ESD、UCE、AdvUnlearn 等)通过切断文本提示与目标概念的映射来实现"遗忘";攻击方法(P4D、UDA、CCE 等)则试图找到替代文本/嵌入来重新激活概念。

这种"text-centric co-evolution"带来了一个致命假设:切断文本-图像链接 = 删除视觉知识。作者认为这是错误的——即使文本路径被封堵,模型参数空间中与被擦除概念对应的视觉知识仍然存在。为验证这一假说,需要一种完全绕过文本条件的攻击方式。

核心假说:即使文本-图像映射被移除,被擦除概念的确定性生成路径仍然存在于模型中,可以在完全无文本条件下被重新发现。

方法详解

整体框架

TINA 想证明一件事:当前的概念擦除只是切断了文本到图像的映射,并没真把视觉知识从模型里删掉。为绕开所有“基于文本”的防御,它设计了一条完全不碰文本条件的攻击:第一阶段 无文本反演,给定被擦除模型 \(\epsilon_\theta\) 和一张代表被擦概念的目标图像 \(x\),在 null-text 条件 \(c_\text{null}\) 下优化出能确定性生成该图的初始噪声 \(z_T^*\);第二阶段 确定性概念再生,把 \(z_T^*\) 喂回同一个被擦除模型、仍在 \(c_\text{null}\) 下跑标准 DDIM 采样,就能把被擦概念重新生成出来。整个过程不含任何文本条件,因此所有文本路径上的防御都被跳过。基础模型为 SD v1.4,\(T=50\) 步、CFG=7.5。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入:被擦除模型 ε_θ + 目标概念图像 x<br/>(全程 null-text 条件,不碰文本)"] --> B["两种朴素反演为何失败<br/>(设计动机)"]
    B -->|"文本引导反演"| B1["被擦模型主动抵抗文本路径 → 失败"]
    B -->|"null-text 标准反演"| B2["近似公式逐步累积误差 → z_T 偏离真值"]
    B1 --> C["定点优化反演<br/>自一致性损失约束,K=25 步梯度精炼"]
    B2 --> C
    C --> D["精确初始噪声 z_T*"]
    D --> E["确定性概念再生<br/>null-text 下跑标准 DDIM 采样"]
    E --> F["输出:被擦概念被重新生成<br/>(绕过所有基于文本的防御)"]

关键设计

1. 标准无文本反演为什么失败:误差在 null-text 下快速累积

DDIM 采样是确定性的——给定模型、条件 \(c\) 和初始噪声 \(z_T\),输出 \(z_0\) 唯一确定,更新式为 $\(z_{t-1} = \sqrt{\alpha_{t-1}} \hat{z}_0(z_t) + \sqrt{1-\alpha_{t-1}} \cdot \epsilon_\theta(z_t, t, c)\)$ 其中 \(\hat{z}_0(z_t) = \frac{z_t - \sqrt{1-\alpha_t} \epsilon_\theta(z_t, t, c)}{\sqrt{\alpha_t}}\)。理想的精确反演关系为 \(z_t = C_1(t) z_{t-1} + C_2(t) \cdot \epsilon_\theta(z_t, t, c)\)\(C_1(t) = \frac{\sqrt{\alpha_t}}{\sqrt{\alpha_{t-1}}}\)\(C_2(t) = \sqrt{1-\alpha_t} - \sqrt{\frac{\alpha_t(1-\alpha_{t-1})}{\alpha_{t-1}}}\)),但 \(z_t\) 同时出现在等式两边,标准做法用 \(\epsilon_\theta(z_{t-1}, t-1, c)\) 近似 \(\epsilon_\theta(z_t, t, c)\) 就埋下累积误差。两种朴素方案都行不通:用被擦概念的提示词做文本引导反演会被模型主动抵抗、彻底失败(恰好说明文本防御在文本路径上确实有效);而 null-text 反演 失去了文本引导,近似公式每步的微小误差迅速累积,\(\hat{z}_T\) 偏离真实 \(z_T^*\),还原不出概念。

2. 把反演变成定点优化:用自一致性约束精确追踪轨迹

TINA 不再用近似公式,而是直接把精确反演关系当成一个不动点约束:真实轨迹上的每个 \(z_t\) 都必须满足 $\(z_t = f_\theta^*(z_t, z_{t-1}, t, c) = C_1(t) z_{t-1} + C_2(t) \cdot \epsilon_\theta(z_t, t, c)\)$ 于是在每个时间步把求 \(z_t\) 变成最小化自一致性损失 $\(\mathcal{L}_t(z_t) = \| f_\theta^*(z_t, z_{t-1}, t, c_\text{null}) - z_t \|_2^2\)$ 具体做法是:先用标准 DDIM 反演在 \(c_\text{null}\) 下算个初始估计 \(\tilde{z}_t\),以它为起点做 \(K\) 步梯度下降精炼 \(z_t\),对 \(t=1,\dots,T\) 依次推进,最终得到精确的 \(z_T^*\)。优化内循环取 \(K=25\) 轮、AdamW、\(\eta=0.001\);消融显示优化不足(TINA-Less)ASR 只有 46%,充分优化到自一致后升到 70%,可见精确追踪轨迹靠的就是这些迭代。

3. 确定性概念再生:null-text 采样还原被擦概念

拿到 \(z_T^*\) 后,再生阶段什么花样都不用——把它输入同一个被擦除模型,在 \(c_\text{null}\) 下跑一遍标准 DDIM 采样即可确定性地重建被擦概念。t-SNE 分析显示 \(z_T^*\) 本身在噪声空间分不出概念,但它在 UNet mid_block 的激活会按概念清晰聚类,说明模型内部的概念特异性视觉知识被精确激活了——这正是“文本擦除 ≠ 视觉知识删除”的直接证据。

实验

主实验:裸体概念擦除攻击成功率

攻击方法 ESD FMN UCE MACE RECE AdvUnlearn SalUn STEREO
MMA 13.1 67.0 32.6 6.0 22.8 1.7 1.7 5.5
P4D 69.0 97.9 76.1 75.4 66.2 18.3 15.5 24.7
UDA 76.1 97.9 78.9 81.7 63.4 23.2 13.4 25.4
RAB 50.5 97.9 29.5 6.3 10.5 2.1 0.0 8.4
CCE 74.7 55.0 49.3 50.0 66.9 76.8 2.8 16.9
TINA 82.4 97.9 82.4 93.0 80.3 78.9 71.1 81.0

关键发现:TINA 在所有 8 种防御上均取得最高 ASR。特别是对 AdvUnlearn(78.9%)、SalUn(71.1%)、STEREO(81.0%)等鲁棒防御,文本攻击几乎失效(UDA 仅 23.2%/13.4%/25.4%),而 TINA 依然保持高攻击率。

风格擦除攻击成功率(Van Gogh)

攻击方法 ESD FMN AC MACE SPM RECE AdvUnlearn STEREO
P4D 30.0 54.0 68.0 42.0 78.0 62.0 0.0 0.0
UDA 32.0 56.0 77.0 56.0 88.0 64.0 2.0 0.0
CCE 8.0 18.0 14.0 26.0 36.0 40.0 44.0 4.0
TINA 70.0 72.0 74.0 72.0 80.0 74.0 70.0 44.0

物体擦除攻击成功率(Tench 类别)

攻击方法 ESD EraseDiff SalUn Scissorhands STEREO
P4D 32.0 8.0 18.0 6.0 0.0
UDA 46.0 2.0 12.0 6.0 2.0
CCE 40.0 34.0 58.0 0.0 2.0
TINA 70.0 68.0 72.0 78.0 72.0

消融实验

方法 ASR (%) 说明
Standard Inv.(文本引导标准反演) 30 擦除方法主动对抗文本条件
TINA-Less(优化步数不足) 46 误差纠正不充分
TINA(完整优化 \(K=25\) 70 充分优化达到自一致

TINA-Less → TINA 的 24% ASR 提升证明充分的优化迭代对精确追踪生成轨迹至关重要。

与 DDIM 重建方法对比(EasyInv)

方法 ESD EraseDiff SalUn Scissorhands STEREO
EasyInv 24.0 26.0 30.0 34.0 24.0
TINA 70.0 68.0 72.0 78.0 72.0

通用 DDIM 重建方法在概念恢复任务上远不如 TINA 的专用优化方案。

关键发现

  1. 文本擦除 ≠ 视觉知识删除:TINA 在全部三类任务(裸体/风格/物体)上均高效绕过所有 12 种擦除防御,证明被擦除概念的视觉知识仍保留在模型参数中。
  2. 鲁棒防御对 TINA 无效:AdvUnlearn 和 STEREO 等对抗训练强化的防御能有效阻止文本攻击,但对 TINA 几乎不构成障碍。
  3. 潜变量嵌入分析(t-SNE):优化后的噪声 \(z_T^*\) 本身在噪声空间无法区分概念,但其在 UNet mid_block 的激活清晰地按概念聚类,证明模型内部的概念特异性视觉知识被精确激活。
  4. 架构通用性:TINA 在 DiT 架构(PixArt-XL-2)上同样有效,说明该漏洞不限于 UNet。

亮点

  • 范式突破:首次从视觉角度质疑概念擦除的有效性,揭示"text-centric"范式的根本性缺陷
  • 方法精巧:将 DDIM 反演中的近似误差问题转化为定点优化问题,无需额外模型或文本信息
  • 实验全面:覆盖 12 种擦除方法 × 5 种基线攻击 × 3 类概念任务,论证充分
  • 安全警示:为 AI 安全社区提供关键预警,推动向操作内部视觉表示的擦除范式转变

局限

  • 需要目标概念的参考图像作为反演起点,不是完全零样本的攻击
  • 对 STEREO 在风格擦除任务上 ASR 仅为 44%,说明对抗训练可部分扰动内部视觉表示
  • 攻击计算开销较大(每个时间步需 \(K=25\) 轮优化迭代,共 \(T \times K = 1250\) 次前向传播)
  • 仅在 SD v1.4 上全面评估,未覆盖 SDXL 等更大规模模型
  • 论文主要诊断问题但未提出对应的防御方案

评分

⭐⭐⭐⭐ — 概念擦除领域的重要范式警醒工作。通过优雅的无文本反演攻击揭示了当前擦除方法的根本性不足,实验设计严谨全面。但攻击需要参考图像、未提供防御方案是遗憾。