Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Westlake-AGI-Lab/SGG
领域: 图像生成 / 扩散模型
关键词: 扩散引导, 弱到强, CFG, AutoGuidance, 分段引导

一句话总结¶

把扩散采样里的引导方法统一在"弱到强（weak-to-strong, W2S）"视角下分成"条件相关引导（CDG，如 CFG）"和"条件无关引导（CAG，如 AG/SLG）"两类，用合成实验刻画各自的有效区间，进而提出按噪声水平切换两类引导的 SGG（Segmented Guidance），并把这一原则进一步迁移进训练目标，让无引导模型本身的泛化能力变强。

研究背景与动机¶

领域现状：扩散 / 流匹配模型靠多步迭代去噪生成图像，推理时几乎都要叠加"引导"来提升生成质量与可控性。最常用的是 Classifier-Free Guidance（CFG）——训练时随机丢弃条件、推理时在无条件预测和条件预测之间外推；近期 AutoGuidance（AG）则换了个思路，用一个"条件对齐但更弱"的劣质模型来引导主模型。

现有痛点：这些引导方法的"适用边界"一直很模糊。AG 这类用弱模型引导的方法在 ImageNet 类条件生成上能超过 CFG，但在大规模文生图（T2I）里单独用往往不如 CFG 稳健，常常只能当 CFG 的补充。实践者面对一个新任务时，无从判断到底该选哪种引导。

核心矛盾：引导的本质是用一个"弱信号"去外推出"强信号"，\(\mathbf{v}_w = \mathbf{v}_{\text{weak}} + w(\mathbf{v}_{\text{strong}} - \mathbf{v}_{\text{weak}})\)。不同方法的差别只在于"弱信号怎么造"——CFG 靠丢条件造弱信号，AG 靠弱化模型造弱信号。而这两种造法在不同条件粒度、不同模型拟合程度下，效果会此消彼长，没有哪个绝对更好。

本文目标：(1) 说清 CDG 与 CAG 各自在什么场景下有效、什么场景下失效；(2) 设计一个能同时吃到两者好处的混合引导；(3) 把这套原则从"推理时的外挂"搬进"训练目标"，减少推理时额外的引导前向开销。

切入角度：作者用一个可控的递归高斯混合 toy 数据集，精确调节"类别数（条件粒度）"和"递归深度（类内复杂度）"，把两类引导的失效模式隔离出来观察；再在 ImageNet 上量化两类引导在不同时间步对"最优速度场"的纠偏能力。

核心 idea：CDG 擅长在高噪声阶段做"类间分离 / 寻找正确流形"，CAG 擅长在低噪声阶段做"类内细节精修"——既然两者在时间轴上各管一段，那就按采样时间 \(\tau\) 把引导分段：高噪声用 CDG、低噪声用 CAG，并把这一思想固化进训练目标。

方法详解¶

整体框架¶

本文不是提一个新网络，而是给"引导该怎么用"建立一套统一的 W2S 框架，并在推理与训练两端落地。统一外推公式为 \(\mathbf{v}_w(\mathbf{x}_t,t,\mathbf{c}) = \mathbf{v}_{\text{weak}} + w(\mathbf{v}_{\text{strong}} - \mathbf{v}_{\text{weak}})\)，其中强信号是条件模型输出 \(\mathbf{v}(\mathbf{x}_t,t,\mathbf{c})\)，弱信号 \(\tilde{\mathbf{v}}(\mathbf{x}_t,t,\tilde{\mathbf{c}})\) 的构造方式区分出两大类：CDG（条件相关，改条件、模型不变，\(\tilde{\mathbf{v}}=\mathbf{v},\tilde{\mathbf{c}}=\varnothing\)，代表 CFG）与 CAG（条件无关，保条件、弱化模型，\(\tilde{\mathbf{v}}=\mathbf{v}_{\text{inferior}},\tilde{\mathbf{c}}=\mathbf{c}\)，代表 AG/SLG）。作者先用合成实验和 ImageNet 量化分析两类引导的有效区间，发现它们在时间轴上互补；据此推理端提出按时间分段的 SGG，训练端把同一原则写进回归目标。整套方法是"引导机制 + 训练目标"的改进，不涉及多模块串行 pipeline，因此不配框架图。

关键设计¶

1. CDG / CAG 二分法与有效区间分析：先搞清楚两类引导各自管哪一段

作者把五花八门的引导统一到弱信号构造这一个轴上：CDG 通过"操纵条件"造弱信号（典型是 CFG 丢掉条件 \(\mathbf{c}\to\varnothing\)），CAG 通过"操纵模型"造弱信号（用更小/欠训的网络如 AG，或扰动主模型如 SLG）。为了把两者的失效模式分离出来，作者构造递归高斯混合 toy 数据集，独立控制类别数（条件粒度）和递归深度（类内复杂度）。结论很清晰：在"类少、类内复杂、模型已拟合好"时（CLS=4, Depth=3），CDG 出现 mode-seeking，把样本挤向高密度区、丢失类内多样性，CAG 反而能保住类内覆盖；在"类多、类内简单、模型欠拟合"时（CLS=24, Depth=1），CAG 会产生 off-manifold 的离群样本，CDG 靠强制条件把跑偏的样本拉回正确类别。进一步在 ImageNet 上用 SiT-B/2 度量引导速度与最优速度 \(\dot{\mathbf{v}}\) 的 Inception 距离 \(\Delta_e = \mathbb{E}_{\mathbf{x}_t}[d(\dot{\mathbf{v}}, \mathbf{v}_w)]\)，发现 CDG 的纠偏集中在高噪声步、CAG 集中在低噪声步——这与"语义/类间信息在采样早期定型、细粒度感知细节在采样末期定型"的认知一致。这一分析是后面所有设计的依据。

2. SGG 分段引导：高噪声用 CDG 寻流形、低噪声用 CAG 修细节

既然两类引导在时间轴上各管一段，就没必要二选一。SGG 把引导方向 \(\mathbf{g}\) 按时间阈值 \(\tau\) 分段：

\[\mathbf{g}(\mathbf{x}_t, t, \mathbf{c}) = \begin{cases} \mathbf{v}(\mathbf{x}_t, t, \mathbf{c}) - \mathbf{v}(\mathbf{x}_t, t, \varnothing) & t > \tau \;(\text{CDG}) \\ \mathbf{v}(\mathbf{x}_t, t, \mathbf{c}) - \tilde{\mathbf{v}}(\mathbf{x}_t, t, \mathbf{c}) & t \le \tau \;(\text{CAG}) \end{cases}\]

最终引导速度为 \(\mathbf{v}_w(\mathbf{x}_t,t,\mathbf{c}) = \mathbf{v}(\mathbf{x}_t,t,\mathbf{c}) + (w-1)\cdot\mathbf{g}(\mathbf{x}_t,t,\mathbf{c})\)。直白说就是：高噪声阶段（\(t>\tau\)）先用 CFG 式的条件相关引导把样本送到正确的条件流形上，低噪声阶段（\(t\le\tau\)）切换到条件无关引导精修类内细节。这样既拿到 CFG 的 prompt 贴合度（对应 HPSv2.1），又拿到 CAG 的美学质量（对应 Aesthetic），避开了单用 CFG"美学低"或单用 SLG"贴合度掉"的偏科问题。推理实现里作者用 CFG 当 CDG、SLG 当 CAG。

3. W2S 训练目标迁移：把分段引导写进回归目标，减少推理引导开销

引导本来是推理时的外挂，每步要额外前向。作者把 W2S 原则直接搬进训练目标：在标准速度匹配目标 \(\mathbf{u}=\epsilon-\mathbf{x}_0\) 上加一项引导差，\(\mathbf{u}_{\text{w2s}} = \mathbf{u} + w\cdot\mathbf{g}(\mathbf{x}_t,t,\mathbf{c})\)，训练损失为 \(\mathcal{L}_s = \mathbb{E}\big[\|\mathbf{v}_\theta(\mathbf{x}_t,t,\mathbf{c}) - (\mathbf{u} + w\cdot\text{sg}[\mathbf{g}])\|_2^2\big]\)，其中 \(\text{sg}[\cdot]\) 是 stop-gradient 用于稳定训练。这鼓励强模型在训练时就学到引导的外推能力，推理时无需再额外前向（NFE/s 降到 1）。弱信号的训练时构造给了一套选择：CDG 用 CFG/MG（把无条件项迁进训练），CAG 用 AG（维护一个更小、欠训的弱网络）或 BR（Branch）——从中间层引出一个辅助输出分支当弱信号，条件无关且训练时不需要额外引导前向，开销最低。训练版 SGG 同样按 \(\tau\) 分段：高噪声用 CFG 信号、低噪声用 BR 信号。⚠️ 文中 SLG 这类层扰动方法被作者发现"整进训练会掉点"而排除，细节以原文附录为准。

实验关键数据¶

主实验：推理时引导对比（SD3 / SD3.5）¶

在 SD3-Medium 与 SD3.5-Medium 上、用 MS-COCO-1K 与 LAION-1K 提示评测，指标为 HPSv2.1（与 prompt 贴合度正相关）和 Aesthetic（美学分）。可见 CFG 偏向贴合度、SLG 偏向美学，SGG 在两者上都取得有竞争力的分数（下表为 SD3.5 / MS-COCO-1K 一列）：

方法	NFE/s	HPSv2.1 ↑	Aesthetic ↑
Conditional（无引导）	1	21.204	4.978
CFG	2	29.199	5.279
SLG	2	27.295	5.714
S2-Guidance	3	29.614	5.342
SGG（本文）	2	29.736	5.717

CFG 美学偏低（5.279），SLG 贴合度偏低（27.295），SGG 同时拿到高 HPSv2.1（29.736）和高 Aesthetic（5.717），印证了"分段吃两者好处"的设计意图。

消融 / 训练时集成（ImageNet 256×256，SiT-B/2）¶

训练时把 W2S 写进目标，条件设定下各弱信号构造（MG / AG / BR / SGG）都优于 baseline，SGG 最好且把推理 NFE/s 压到 1：

配置	NFE/s	FID ↓	sFID ↓	IS ↑
SiT-B/2（baseline）	1	31.22	6.41	49.59
+ CFG（推理引导）	2	6.02	5.47	183.83
MG	1	5.88	6.19	253.74
BR	1	16.02	5.13	76.21
SGG	1	4.58	4.95	264.06
SGG + REPA	1	3.07	4.88	242.15

关键发现¶

SGG 在单次前向（NFE/s=1）下 FID 4.58，优于需要两次前向的推理时 CFG（6.02），说明把引导迁进训练既省推理开销又提质量。
叠加 REPA 表征对齐后 FID 进一步降到 3.07，W2S 训练与表征加速方法正交可叠加。
无条件设定下 CDG 天然不适用，但 CAG（AG/BR）仍能把 FID 从 61.27 降到 43–46，说明条件无关引导在无条件生成里仍有价值。
AG 作为弱信号需要额外维护一个弱网络（time/it 1.27），BR 几乎零额外训练开销（time/it 1.02），是更实用的 CAG 构造。

亮点与洞察¶

把"选哪种引导"从经验玄学变成区间问题：用 toy 实验把 CDG/CAG 的失效模式（mode-seeking vs off-manifold 离群）干净地隔离出来，并对应到采样时间轴的高/低噪声段，这个"时间分段"的洞察是全文最有解释力的地方。
分段引导几乎零成本：SGG 只是在采样过程中按阈值 \(\tau\) 切换引导项，不改网络、不加训练，却能同时拿到贴合度和美学，是可以直接迁移到任意 CFG 流程的 trick。
引导可以"内化"进训练：W2S 训练目标 + stop-gradient 的写法，把推理外挂变成模型自带能力，对追求低 NFE 的部署场景很有启发；BR 这种"中间层引出辅助分支当弱信号"的造法尤其轻量。

局限与展望¶

训练时集成的验证主要在 SiT-B/2 / ImageNet 这种受控规模上（受算力约束），大规模文生图的训练时集成是否同样有效尚未直接验证；推理时 SGG 才在 SD3/SD3.5 上验证。
分段阈值 \(\tau\) 是一个需要选的超参，文中未充分展开它对不同任务/模型的敏感性，实际使用可能需要调。
SLG 这类层扰动弱信号"整进训练会掉点"被直接排除，背后机理只在附录讨论，说明训练时弱信号的构造仍较脆弱、并非任意 CAG 都能迁移。⚠️ 相关细节以原文附录为准。
评测指标偏感知质量（HPSv2.1 / Aesthetic / FID），对"多样性"这一 CDG 的核心短板缺少直接定量刻画。

评分¶

新颖性: ⭐⭐⭐⭐ 统一视角 + 时间分段 + 训练迁移三连，分段引导的洞察清晰，但单个组件多基于已有方法重组。
实验充分度: ⭐⭐⭐⭐ 推理（SD3/SD3.5）+ 训练（SiT/ImageNet）双线验证，但训练集成受算力限制规模偏小。
写作质量: ⭐⭐⭐⭐ 从 toy 分析到方法落地逻辑链完整，公式与区间结论讲得清楚。
价值: ⭐⭐⭐⭐ SGG 是可直接套用的引导 trick，W2S 训练对低 NFE 部署有实际意义。