Factored Classifier-Free Guidance¶

会议: ICML 2026
arXiv: 2506.14399
代码: 无公开链接
领域: 扩散模型 / 反事实生成 / 医学图像
关键词: Classifier-Free Guidance, 反事实生成, 因果干预, 属性放大, DDIM

一句话总结¶

本文识别出 CFG 在扩散模型反事实生成中存在「属性放大 (attribute amplification)」失效模式——单一全局 \(\omega\) 会把本不该改变的属性一起放大，并提出 FCFG：按因果图分组、为每组属性分配独立 guidance 权重，从而在 CelebA-HQ / EMBED / MIMIC-CXR 上显著降低非目标属性漂移、改善反事实可逆性。

研究背景与动机¶

领域现状：扩散模型已成为条件生成的事实标准，反事实生成 (counterfactual generation) 的标准流程是 DDIM inversion (abduction) → do-intervention (action) → 用 CFG 引导的反向 DDIM (prediction) 三段式。Classifier-Free Guidance 通过 \(\epsilon_\text{CFG}=(1-\omega)\epsilon_\theta(\varnothing)+\omega\epsilon_\theta(\mathbf{c})\) 在条件/无条件分数间插值，被广泛用作「让生成图像更显著反映目标属性」的旋钮。

现有痛点：CFG 的 \(\omega\) 是全局标量，作用于整个条件向量 \(\mathbf{c}\)。在反事实场景下，\(\mathbf{c}\) 通常编码多个属性（如性别、年龄、笑容），用户只想干预其中一个，却被迫给所有属性都乘上同一个 \(\omega\)。结果：do(Male=no) 时连 Smiling 也被放大，do(Young=no) 时身份与表情一起变；这种 off-target 改动违反因果图的不变性公理，叫做属性放大。

核心矛盾：「intervention effectiveness 越强（更强地改目标属性）」与「保持非目标属性的稳定性」之间存在根本张力——只要 guidance 是 scalar，二者必然耦合。Xia et al. (2024) 把这种现象归咎于训练时的 predictor-finetuning，本文则指出 guidance 机制本身就是元凶。

本文目标：在不改训练、不改模型架构的前提下，仅在 inference 时打破属性间耦合，给每个语义/因果组单独的 guidance 强度。

切入角度：如果各属性组在给定 \(\mathbf{x}_t\) 下条件独立 \(p(\mathbf{pa}\mid\mathbf{x}_t)=\prod_m p(\mathbf{pa}^{(m)}\mid\mathbf{x}_t)\)，那么 proxy posterior 自然可分解为 \(p^\omega(\mathbf{x}_t\mid\mathbf{pa})\propto p(\mathbf{x}_t)\prod_m p(\mathbf{pa}^{(m)}\mid\mathbf{x}_t)^{\omega_m}\)——每组各有自己的 \(\omega_m\)，CFG 是 \(M=1\) 的特例。

核心 idea：用「按属性分块的嵌入 + 按属性组分配 \(\omega_m\)」改写 CFG 的 score 更新，把全局放大改成可分组的细粒度放大；不动模型、不动训练，仅 inference 时间生效。

方法详解¶

整体框架¶

FCFG 由三部分组成：(i) 把语义属性 \(\mathbf{pa}=(pa_1,\dots,pa_K)\) 各自经独立 MLP 嵌入后 concat，形成 \(\mathbf{c}=\text{concat}(\mathcal{E}_1(pa_1),\dots,\mathcal{E}_K(pa_K))\) 这种「attribute-split」结构，使每个属性占嵌入向量的独立 block；(ii) 推理时把属性划成 \(M\) 组（如反事实场景里分为「affected」+「invariant」两组），为每组构造只保留该组属性、其余 block 替为零的 masked embedding \(\underaccent{\rule{4.09723pt}{0.4pt}}{\mathbf{c}}^{(m)}\)；(iii) 把 CFG 的两项 score 差扩展为 \(M\) 项加权和，每组一个 \(\omega_m\)。完整流程嵌入 DDIM 反事实推理的 abduction-action-prediction 三步——前两步与原 CFG 一致，只在 prediction 一步把 \(\epsilon_\text{CFG}\) 替换为 \(\epsilon_\text{FCFG}\)。

关键设计¶

属性切分嵌入 (Attribute-Split Embedding):
- 功能：让每个属性在 \(\mathbf{c}\) 中独占一段维度，便于推理时按需 null-token 化某一组属性。
- 核心思路：每个 \(pa_i\) 通过独立 MLP \(\mathcal{E}_i:\mathbb{R}^{d_i}\to\mathbb{R}^d\) 嵌入，最终 \(\mathbf{c}\in\mathbb{R}^{Kd}\) 由所有 block 拼接而成；要 mask 第 \(i\) 个属性，只需把对应 block 乘以指示 \(\delta_i^{(m)}\in\{0,1\}\)。所有 \(\mathcal{E}_i\) 与去噪网络端到端联合训练，不是独立预训练的特征提取器。
- 设计动机：常规设计常把多个属性混进一个稠密向量，导致语义在嵌入空间纠缠；属性切分天然解耦，是后续分组 guidance 的基础架构。
分组因子化 Guidance (Group-wise Factored Score):
- 功能：让不同属性组拥有独立的 guidance 强度，打破 CFG 的全局耦合。
- 核心思路：假设各组条件独立 \(p(\mathbf{pa}\mid\mathbf{x}_t)=\prod_m p(\mathbf{pa}^{(m)}\mid\mathbf{x}_t)\)，则推得 proxy posterior \(p^\omega(\mathbf{x}_t\mid\mathbf{pa})\propto p(\mathbf{x}_t)\prod_m p(\mathbf{pa}^{(m)}\mid\mathbf{x}_t)^{\omega_m}\)。对应 score 为 \(\epsilon_\text{FCFG}=\epsilon_\theta(\varnothing)+\sum_m \omega_m(\epsilon_\theta(\underaccent{\rule{4.09723pt}{0.4pt}}{\mathbf{c}}^{(m)})-\epsilon_\theta(\varnothing))\)。\(M=1\) 退化为标准 CFG，\(M=K\) 给每个属性独立权重。
- 设计动机：核心数学观察是「全局 \(\omega\) 等价于强行假设所有属性条件独立且权重相同」；放松「权重相同」即得分组 FCFG，理论上最贴近因果图，又只需 inference 改动。
因果导向的 affected/invariant 双分组:
- 功能：把抽象的属性组具体化——根据用户假设的因果图，把被干预属性及其后代归为「affected」组、其余归为「invariant」组，分别用 \(\omega_\text{aff}\) 和 \(\omega_\text{inv}\) 控制。
- 核心思路：典型反事实 do\((A)\) 中，设 \(\omega_\text{aff}\) 较大（如 2.5）强化目标属性变化，\(\omega_\text{inv}\) 接近 1（无放大）保持非目标属性稳定；这种两组划分既保留了 CFG 推动 effectiveness 的能力，又消解了对 invariant 属性的拉扯。
- 设计动机：直接对应反事实公理「干预外的属性应保持稳定」，让公理性指标 (Δ on invariant) 几乎为 0，又不牺牲 Δ on target；同时框架天然支持更细粒度（如 \(M=K\) 时支持多属性独立调控）。

损失函数 / 训练策略¶

训练目标完全沿用标准条件扩散 loss \(\mathbb{E}\|\epsilon-\epsilon_\theta(\mathbf{x}_t,t,\mathbf{c})\|^2\)，并继续做经典的 classifier-free dropout（整段 \(\mathbf{c}\) 随机替换为 \(\varnothing\)），不引入新损失；FCFG 仅在推理时修改 score 计算方式。作者承认这会带来轻微 train-test mismatch（训练时见到的是全 null，推理时见到的是部分 null），但实验未观察到稳定性问题。FCFG 还可与 CFG++、APG 等改进版 guidance 组合，把分组思想嵌进它们的 score 公式即可。

实验关键数据¶

主实验¶

数据集	任务	指标	CFG	FCFG	说明
CelebA-HQ 64×64	do(Smiling)	Δ target ↑ / Δ off-target ↓	高 target 但 off-target 也高	接近 target / off-target 几乎 0	关键 off-target 抑制
CelebA-HQ	do(Smiling) 反向重建 MAE/LPIPS	越低越好	随 \(\omega\) 急增	在相同 \(\omega\) 下显著更低	身份保持更好
EMBED 192×192 (乳腺)	do(circle)	Δ density (off-target)	显著增加	接近 0	医学上避免虚假特征放大
MIMIC-CXR	do(finding)	Δ race/sex (off-target)	出现明显漂移	大幅压制	临床公平性意义大
MIMIC-CXR	do(finding) Δ target AUC	+18.8	+18.8 (FCFG) vs CFG +X	off-target 仅 +0.6	同等 target effectiveness 下 off-target 减少一个量级

消融实验¶

配置	效果	说明
\(M=1\)（退化 CFG）	出现 attribute amplification	验证 FCFG 是 strict generalization
两组 affected/invariant (\(M=2\))	主实验设定，最佳 effectiveness/off-target trade-off	默认配置
多属性独立 (\(M=K\))	支持 do(Smiling,Male,Young) 多干预，每属性独立 \(\omega_s,\omega_m,\omega_y\)	当全部属性都被干预时，\(M=2\) 退化回全局 CFG，必须用 \(M=K\)
FCFG + CFG++ / FCFG + APG	在原 advanced guidance 上叠加	同样改善 off-target amplification，框架兼容
对比 SA-DCG / HVAE / HVAE-soft	CelebA-HQ do(Smiling) target +13.1 / off-target -1.5 vs SA-DCG +12.9 / +3.0	target 略胜，off-target 反向（更不漂移）

关键发现¶

属性放大的根源：作者通过控制实验（CelebA-HQ 三独立属性）证明，放大不是数据集 artefacts 或因果图错配造成的，而是 guidance 机制本身——这把锅从「数据/模型」甩到了「inference 算法」上。
FID 反向获益：直觉上多组分 score 可能更不稳定，但实验中 FCFG 在 CelebA-HQ 上反而显著优于全局 CFG 的 FID，说明减少 off-target 漂移有助于停留在数据流形上。
反事实可逆性：在 do(A) 后再做 do\((A^{-1})\)，CFG 会因 off-target 漂移残留导致 MAE/LPIPS 越来越差，FCFG 几乎保持初值水平，是评估 counterfactual soundness 的良好新指标。
多属性极端情形：当所有属性都被同步干预时，\(M=2\) 分组失效（没有 invariant 组），此时唯一出路是 \(M=K\) 的 per-attribute FCFG，作者把这个 corner case 也讨论了。

亮点与洞察¶

把「CFG 的全局 \(\omega\)」直接拆成「按因果图分组的 \(\omega_m\) 向量」，是个一拍脑袋就明白却之前没人系统做的好点子；理论上从 proxy posterior 推回 score 公式，干净利落。
提出 attribute-split embedding 这个轻量训练时设计，使后续任意 inference 时分组都可行，相当于把「为未来准备 mask 接口」前置——对任何条件扩散框架都有借鉴价值。
对反事实生成定义了「intervention effectiveness vs reversibility」双维评估，比单看 FID 更贴近因果公理；这套评估也可借鉴到 video editing、3D consistency 等条件生成场景。
兼容 CFG++ / APG 等更先进 guidance 变体，说明这是个正交于 score 改进路线的 dimension——以后所有 conditional sampling 改进都可考虑「先因子化再改进」。

局限与展望¶

依赖预先指定的因果图或语义分组，FCFG 本身不解决因果发现；当属性间关系未知或动态时，分组选错可能反而放大问题。
\(\omega_m\) 仍需人为调，未来可结合输入条件或时间步自适应选 \(\omega\)，做 timestep-aware FCFG。
训练-测试 mismatch 是轻度但存在的问题：训练只见过全 null，推理出现 group-mask，当 \(M\) 很大、\(\omega\) 很强时可能出现稳定性问题。
当所有属性都被同步干预时，两组划分退化为全局 CFG，又得依赖更细粒度的 \(M=K\)，这个 corner case 暴露了分组的脆弱性。
实验最大分辨率 192×192，对高分辨率 latent diffusion / SDXL / 视频扩散是否同样有效仍待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 想法朴素但击中要害，是 CFG 公式的自然但被忽视的扩展
实验充分度: ⭐⭐⭐⭐ 覆盖 CelebA-HQ/EMBED/MIMIC-CXR 三数据集 + 与 HVAE/SA-DCG/CFG++/APG 多角度对比，但缺高分辨率 latent diffusion 验证
写作质量: ⭐⭐⭐⭐ 数学推导清晰，failure mode 用 Δ 指标量化，可视化对比直观
价值: ⭐⭐⭐⭐ 即插即用，对医学反事实推理、公平性评估有直接价值，社区采纳成本极低