RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation¶

会议: NeurIPS 2025
arXiv: 2509.15257
代码: 项目页面
领域: 扩散模型 / 图像生成
关键词: 负责任生成, 公平性, 安全性, 瓶颈变换, 分数匹配

一句话总结¶

提出RespoDiff框架，在扩散模型UNet的瓶颈层引入双模块可学习变换——负责任概念对齐模块(RAM)和语义对齐模块(SAM)，通过分数匹配目标实现公平和安全的文本到图像生成，同时保持图像质量和语义忠实度。

研究背景与动机¶

Stable Diffusion、SDXL、FLUX等T2I模型虽然生成质量优秀，但存在严重的社会偏见问题： - 性别偏见：输入"a doctor"主要生成男性形象 - 种族偏见：生成结果偏向特定肤色 - 安全风险：可能生成暴力、裸露等不当内容

现有方法的痛点：

提示修改方法（去除有害词汇、提示调优）：能力有限，无法精确控制

模型微调方法（概念擦除、权重微调）：可能损害模型原始性能，需要针对每个提示重新训练

分类器引导方法：不需额外训练但控制力不够精细

潜向量注入方法（SDisc等）：在瓶颈空间操作中缺乏对中性去噪潜变量的显式引用，导致控制精度不够

核心矛盾：现有方法在提升公平性/安全性时往往牺牲语义忠实度和图像质量。如何同时实现负责任生成且保持生成质量是核心挑战。

本文切入角度：在UNet瓶颈层（被证实是语义潜空间）引入双路变换：一路负责将生成引导向目标概念（如"女性"），另一路负责保持与原始扩散轨迹的一致性，两者互相制衡。

方法详解¶

整体框架¶

UNet被分解为编码器 \(e: \mathcal{Z} \times \mathcal{Y} \to \mathcal{H}\) 和解码器 \(g: \mathcal{H} \times \mathcal{Y} \to \mathcal{Z}\)，在瓶颈表示 \(\boldsymbol{h}_{neu} \in \mathcal{H}\) 上施加双模块变换：

\[\hat{f}(y_{neu}) = g(\mathcal{T}_\theta^{resp,s}(\boldsymbol{h}_{neu}) + \mathcal{T}_\theta^{sem,s}(\boldsymbol{h}_{neu}))\]

关键设计¶

负责任概念对齐模块 (RAM, \(\mathcal{T}_\theta^{resp,s}\))：
- 目标：修改中性提示(如"a person")的瓶颈表示，使其扩散轨迹对齐到目标概念(如"a woman")
- 分数匹配损失：在随机选取的时间步 \(t\)，先通过带RAM的扩散模型逆扩散得到中性去噪潜变量 \(\boldsymbol{z}_{t,neu}\)，然后： \(\mathcal{L}_{resp} = \mathbb{E}_{\boldsymbol{z}_{t,neu}} \left[\|\epsilon_{f_{resp}}(\boldsymbol{z}_{t,neu}, y_{neu}) - \epsilon_f(\boldsymbol{z}_{t,neu}, y_{tar}^s)\|_2^2\right]\)
- 关键创新：以中性去噪潜变量作为稳定锚点，通过对比中性和目标概念的UNet预测来提取精确的方向性指导
- 此阶段只更新 \(\mathcal{T}_\theta^{resp,s}\)，不涉及完整的双模块变换
语义对齐模块 (SAM, \(\mathcal{T}_\theta^{sem,s}\))：
- 目标：防止RAM的变换造成过度偏转，保持与原始扩散模型路径的语义一致性
- 分数匹配损失： \(\mathcal{L}_{sem} = \mathbb{E}_{\boldsymbol{z}_{t,neu}} \left[\|\epsilon_{\hat{f}}(\boldsymbol{z}_{t,neu}, y_{neu}) - \epsilon_f(\boldsymbol{z}_{t,neu}, y_{neu})\|_2^2\right]\)
- 此阶段使用完整的双模块变换 \(\hat{f}\)，但只更新 \(\mathcal{T}_\theta^{sem,s}\)
- 损失以 \(\lambda\) 加权（默认 \(\lambda=0.5\)）
交替训练策略：
- 两步交替：先更新RAM（只用 \(\mathcal{L}_{resp}\)），再更新SAM（只用 \(\lambda \mathcal{L}_{sem}\)）
- 不通过逆扩散过程反向传播（减少计算开销）
- 随着训练迭代，中性去噪潜变量逐步同时对齐目标概念和原始扩散过程
推理时的灵活应用：
- 公平性：为每个敏感概念 \(s \in \mathcal{S}_c\) 学习变换，推理时随机选择以实现均匀分布
- 安全性：将负面概念（暴力、裸露）作为负提示学习"反暴力""反色情"变换，推理时聚合所有安全变换

损失函数 / 训练策略¶

变换实现为常量函数线性加到瓶颈激活上
公平性训练：5000迭代，batch=1
安全性训练：1500迭代，batch=1
使用中性提示 "a person"（公平）或 "a scene"（安全）训练，无需特定职业或场景数据
整个训练过程UNet权重冻结，只更新轻量变换模块

实验关键数据¶

主实验 — 性别公平性 (SD v1.4, Winobias 36职业)¶

方法	DevRat↓	WinoAlign↑	FID(30K)↓	CLIP(30K)↑
SD (原版)	0.68	27.51	14.09	31.33
SDisc	0.17	26.61	23.59	29.94
FDF	0.40	23.90	15.22	30.63
BAct	0.57	27.67	17.07	30.54
RespoDiff	0.14	27.30	14.91	30.67

种族公平性 (SD v1.4)¶

方法	DevRat↓	WinoAlign↑	FID(30K)↓	CLIP(30K)↑
SD (原版)	0.56	27.51	14.09	31.33
SDisc	0.23	26.80	17.47	30.27
RespoDiff	0.16	27.53	12.82	31.02

安全生成 (I2P基准, SD v1.4)¶

方法	I2P不当↓	FID(30K)↓	CLIP(30K)↑
SD	0.27	14.09	31.33
SLD	0.20	18.76	29.75
ESD	0.32	13.68	30.43
RespoDiff	0.16	17.89	31.10

消融实验¶

配置	DevRat↓	WinoAlign↑	FID↓	CLIP↑
仅RAM	0.12	26.12	15.63	29.93
RAM+SAM (完整)	0.14	27.30	14.91	30.67
共享模块	0.16	26.12	15.63	29.93
\(\lambda=0\) (无SAM)	0.12	26.12	15.63	29.93
\(\lambda=0.5\) (默认)	0.14	27.30	14.91	30.67
\(\lambda=4\)	0.29	27.53	14.17	31.24

关键发现¶

RespoDiff在不当内容过滤上超越SLD约20%，同时在图文对齐上也更优
仅用"a person"训练即可泛化到36种具体职业，无需职业特定数据
在SDXL上的迁移：性别DevRat从0.72降至0.26，种族从0.57降至0.23
分离双模块优于共享模块：各自专注于自己的优化目标更高效
\(\lambda=0.5\) 是拐点：更小过度偏向目标概念，更大过度保守

亮点与洞察¶

双模块解耦设计：RAM和SAM各司其职，避免了公平性和质量之间的零和博弈
中性去噪潜变量作为锚点：比间接从目标图像重建更精确的方向性控制
无需职业/场景特定数据：泛化能力强，只从通用中性提示学习即可覆盖多样场景
可扩展到SDXL等大模型：轻量模块设计使得适配大模型成本很低
安全性与公平性可组合：模块化设计允许独立学习、推理时灵活组合

局限与展望¶

公平性和安全性概念需要预先定义——无法自动发现新兴的偏见类别
依赖预定义的中性提示——虽然实验验证了替代提示的鲁棒性，但自动选择仍是开放问题
变换以常量函数实现——更复杂的结构可能带来更细致的控制
交叉偏见（如性别×种族）需要组合现有模块，但未系统评估

评分¶

新颖性: ⭐⭐⭐⭐ — 双模块分数匹配框架是对瓶颈空间操作方法的有力改进
实验充分度: ⭐⭐⭐⭐⭐ — Winobias、I2P基准全面覆盖，包含SDXL迁移和详尽消融
写作质量: ⭐⭐⭐⭐ — 框架描述清晰，但符号较多，初读需一定耐心
价值: ⭐⭐⭐⭐ — 在负责任AI生成方向贡献显著，实际部署价值高