What Exactly Does Guidance Do in Masked Discrete Diffusion Models¶

会议: ICLR 2026
代码: 无
领域: 扩散模型 / 离散扩散 / 理论分析
关键词: 掩码离散扩散, classifier-free guidance, tilted 分布, 收敛速率, 双指数

一句话总结¶

这篇论文在低维（1D/2D）可解析的设定下，第一次严格刻画了 classifier-free guidance（CFG）在掩码离散扩散模型里到底干了什么——它把概率质量从"类间重叠区域"挪到"类专属区域"，并且让反向采样动力学向目标分布收敛的速度随引导强度 $w$ 呈双指数加速。

研究背景与动机¶

领域现状：扩散模型早期建立在连续状态空间上（加高斯噪声再去噪），近年来出现了离散扩散——用掩码或类别跳变替代高斯腐蚀，特别适合语言、分子、蛋白质这类离散数据。其中"吸收态/掩码"前向过程（每个维度独立地被替换成掩码符号 [M]）是最常用的一类。为了做可控的条件生成，连续扩散里大获成功的 classifier-free guidance 被搬到了离散扩散上（Nisonoff et al. 2024 等），靠改写反向转移速率来实现，实践中明显提升了样本质量和可控性。

现有痛点：连续扩散里 CFG 的机制已经有理论解释（在 1D 高斯等简化设定下），但离散扩散里 CFG 到底改变了什么，几乎没有理论刻画。大家只知道"中等的 $w>0$ 效果最好"，可这个最优点既不对应采样自某个简单显式分布，也说不清它怎么影响采样轨迹的动力学。

核心矛盾：CFG 在 $w>0$ 时并不是从任何一个显式分布里采样，而是以非线性方式修改了反向动力学。所以"它生成的到底是什么分布""收敛快慢由什么决定"这两个最基本的问题都悬而未决。连续扩散的已有结论又高度依赖高斯/紧支撑假设、且只到 1D，没法直接搬过来。

本文目标：在掩码离散扩散这个可解析的子类里，针对任意有限混合的数据分布，精确回答两个问题——(Q1) guidance 如何改变生成样本的分布？(Q2) guidance 如何改变反向动力学的收敛速率？

切入角度：作者把维度压到 $D=1$ 和 $D=2$。掩码扩散在低维下反向速率矩阵有显式解，于是生成分布和采样轨迹都能被解析地、精确地算出来并解释，而不是近似。

核心 idea：用低维可解析性把 CFG 这个"黑箱启发式"算成白箱——证明 guidance 本质是在"利用数据支撑集重叠的几何结构"，放大类专属区、压制类间共享区，并让收敛速率随 $w$ 双指数变快。

方法详解¶

整体框架¶

这是一篇纯理论分析论文，没有提出新模型或新算法，而是对一个已有的离散 CFG 构造做严格刻画。整体逻辑是：先把数据分布设成多类混合（Assumption 1.1，$p(\cdot)=\sum_{k=1}^{M} a_k\, p(\cdot|z_k)$），目标是只采样类 $z_1$；再在掩码（吸收态）前向过程下写出带 CFG 的反向动力学；最后在 $D=1$ 与 $D=2$ 下把"最终生成分布"和"沿反向轨迹的收敛速率"两件事算到底，并讨论向高维的推广。

掩码扩散的前向是连续时间马氏过程 $\frac{dp_t}{dt}=Q_t p_t$，每个维度独立地往掩码态 [M] 跳。对应的精确反向过程 $\frac{dq_t}{dt}=\bar Q_{T-t} q_t$，其速率由 concrete score $\frac{p_t(y)}{p_t(x)}$（连续扩散里 $\nabla\log p_t$ 的离散类比）决定。论文假设 score 精确、模拟精确，专注分析 CFG 本身对动力学的作用，把 score 估计误差和数值离散误差留给未来。

CFG 的目标分布是 tilted（倾斜）分布

\[p_{z,w}(\cdot)\ \propto\ p(\cdot)\,p(z|\cdot)^{1+w}\ \propto\ p(\cdot)^{-w}\,p(\cdot|z)^{1+w},\]

其中 $w\ge -1$ 是引导强度：$w=-1$ 退回完整数据分布 $p$，$w=0$ 退回类条件分布 $p(\cdot|z)$，$w>0$ 越大越偏向"更像类 $z$"的状态。关键在于：因为扩散是靠动力学走的，没法直接从 $p_{z,w}$ 采样，只能去改反向速率矩阵——这正是后面分析"实际生成分布到底偏离 tilted 分布多少"的源头。

下面四个关键设计依次是：CFG 的离散构造（铺垫）→ 1D 精确结果 → 2D 偏离结果 → 双指数收敛速率。

关键设计¶

1. CFG 的离散构造：用速率矩阵的几何插值实现"倾斜"

连续扩散里 guidance 是把 score $\nabla\log p_t$ 做线性外推；离散里没有连续 score，作者沿用 Nisonoff et al. (2024) 的构造，改在反向转移速率上做。先把类条件分布 $p(\cdot|z)$ 在同一前向 $Q_t$ 下演化，得到类条件反向速率 $\bar Q^z_t(y,x)=\frac{p_t(y|z)}{p_t(x|z)}Q_t(x,y)$；再把无引导速率 $\bar Q_t$ 和类条件速率 $\bar Q^z_t$ 做几何插值得到 CFG 速率：

\[\hat Q^{z,w}_t(y,x)=\bar Q_t(y,x)^{-w}\,\bar Q^z_t(y,x)^{1+w},\qquad y\ne x.\]

$w=-1$ 时 $\hat Q^{z,-1}_t=\bar Q_t$（生成整个混合 $p$，对类别没有控制）；$w=0$ 时 $\hat Q^{z,0}_t=\bar Q^z_t$（精确生成 $p(\cdot|z)$）。实践里最好的结果出现在中间的 $w>0$，但此时 $\hat Q^{z,w}_t$ 不对应任何显式分布的精确反向——这就是论文要解析的对象。

2. 1D 精确刻画：生成分布恰好等于 tilted 分布，质量在重叠区被搬走

在 $D=1$（单 token）时，CFG 反向速率矩阵会戏剧性地简化：它恰好等于以 tilted 分布 $p_{z,w}$ 为目标的无引导反向速率（差一个归一化常数 $Z_{z,w}=\sum_{x=1}^{N-1}p(x)^{-w}p(x|z)^{1+w}$）。由此 Theorem 3.1 给出反向轨迹的显式公式，并得到一个干净结论：最终生成分布 $q^{z,w}_T$ 精确等于 tilted 分布 $p_{z,w}$——这与连续扩散不同（连续 1D 下 CFG 会偏离 tilted 分布）。

进一步（Proposition 3.1）：若类 $z_1$ 的支撑 $X_1$ 与其他类不相交，则 $q^{z_1,w}_T=p(\cdot|z_1)$，guidance 不起作用；若存在重叠区 $S_1=X_1\cap(\cup_{k\ge2}X_k)$，则在专属区 $X_1\setminus S_1$ 上保持 $p(x|z_1)$，在重叠区 $S_1$ 上按 $\big(\tfrac{a_1 p(x|z_1)}{\sum_{k\in I_1}a_k p(x|z_k)}\big)^{w}p(x|z_1)$ 重新加权。当 $w\to\infty$，重叠区质量被彻底清空，分布收敛到 $p(\cdot|z_1)$ 在专属区上的限制。直观上：CFG 把模糊区 $S_1$ 的质量搬到专属区，同时保持专属区内部的局部均值和方差不变（Remark 3.1）。

3. 2D 偏离刻画：生成分布不再等于 tilted 分布，边缘投影重叠引入新系数

到 $D=2$（多 token）故事就变了：CFG 反向速率矩阵不再等于 tilted 分布的反向速率（$\hat Q^{z,w}_t\ne C\,\bar Q_t[p_{z,w}]$）。Theorem 3.2 给出 2D 反向动力学的显式表达，里面除了 $p_{z,w},Z$，还多出一组系数 $\{c_x,d_x\}$，专门编码 guidance 对边缘分布的操控，例如 $c_{x_1}=\frac{\sum_l p(x_1,l)^{-w}p(x_1,l|z)^{1+w}}{p(x_1)^{-w}p(x_1|z)^{1+w}}$（$d_{x_2}$ 同理沿另一坐标）。最终生成分布是 tilted 分布的"加权版"：

\[q^{z,w}_T(x)=\frac{1/c_{x_1}+1/d_{x_2}}{1/c_N+1/d_N}\,p_{z,w}(x).\]

更重要的是几何图像（Proposition 3.3、Remark 3.4）：类 $z_1$ 的专属支撑被切成 5 个区域 $R_1,R_{2,1},R_{2,2},R_3,R_4$，反映不同程度的"私密性"——$R_1$ 最私密（连边缘投影都不与别类相交），$R_4=S_1$ 是完全重叠区，$R_3$ 两条投影都重叠、$R_{2,i}$ 只在第 $i$ 维投影重叠。它们的（归一化前）权重满足 $A_1^{z_1,w}\ge A_{2,i}^{z_1,w}\ge A_3^{z_1,w}\ge A_4^{z_1,w}$，即越私密的区域被 guidance 加越大的权。这说明哪怕在全空间里不重叠、只要某个坐标投影撞上别的类，CFG 也会按"撞了几维"分级压制——这是 1D 看不到的新现象。

4. 双指数收敛速率：TV 随引导强度 $w$ 双指数变快

第二个核心结论关于动力学的"快慢"。1D 下（Proposition 3.2）反向轨迹到生成分布的总变差距离 $\mathrm{TV}(q^{z,w}_t,p_{z,w})=\big(\tfrac{1-e^{-(T-t)}}{1-e^{-T}}\big)Z$，随时间指数衰减、速率为 $Z$。而把 $Z$ 用 $\alpha$-散度改写 $Z=\exp\!\big(w D_{1+w}(p(\cdot|z)\,\|\,p)\big)$，可得 $\log Z_{z,w}\sim w\sup_x\frac{p(x|z)}{p(x)}$（$w\gg1$）。于是 TV 的整体衰减率对 $w$ 呈双指数依赖（Remark 3.2）——这解释了实践中 $w$ 一大、采样行为就出现极陡转变的现象。2D 下（Proposition 3.4）同样有 $-\ln\mathrm{TV}(q^{z,w}_t,q^{z,w}_T)=\exp(\Theta(w))\ln\!\big(\tfrac{1-e^{-T}}{1-e^{-(T-t)}}\big)$，双指数依赖被保留。结论是：guidance 不只重塑输出分布，还在控制采样轨迹的动力学速度。

损失函数 / 训练策略¶

论文不引入新训练目标，沿用离散扩散标准的 denoising score entropy（DSE）来学 concrete score： $$L_{\text{DSE}}=\mathbb{E}_{x_0\sim p}\,\mathbb{E}_{x\sim p_{t|0}(\cdot|x_0)}\Big[\sum_{y\ne x}\big(s^\theta_t(x,y)-\tfrac{p_{t|0}(y|x_0)}{p_{t|0}(x|x_0)}\log s^\theta_t(x,y)\big)\Big].$$ 分析部分则假设 score 与模拟均精确，只研究 CFG 本身的作用。

实验关键数据¶

数值实验用一个小 transformer 训练 score，Tau-leaping 50 步、log-linear schedule、每组实验采 10K 样本，单卡 RTX 4070 Laptop GPU。实验目的是验证理论而非刷性能。

主实验（理论 vs 经验的对照）¶

设定	关键现象	与理论对应
1D 支撑不相交	guidance 完全无效，生成/tilted/类分布三者重合	Prop. 3.1-(1)
1D 支撑重叠	重叠区质量被搬走，生成分布逼近 tilted 分布（即便有 score/离散化误差）	Prop. 3.1-(2)
1D，固定 $t=0.5$，扫 $w$	小 $w$ 时经验 TV 曲线吻合理论；大 $w$ 出现平台/上翘	Prop. 3.2（大 $w$ 偏差归因于陡转变让 Tau-leaping 不稳）
2D 全空间不相交但投影重叠	guidance 压制中心菱形的上、右角	Prop. 3.3 / Thm. 3.2
2D 支撑重叠	右上重叠区被强压制，左上、右下因投影重叠被轻压制	Prop. 3.3

消融 / 高维分析（5D 混合超立方体）¶

5D 设定：两类分别支撑在 $\{0,1,2\}^5$ 与 $\{2,3,4\}^5$，仅在单点 $(2,2,2,2,2)$ 重叠；采样目标类 $\{2,3,4\}^5$。按"有几维等于 2"（$k=\#\{d:x_d=2\}$）把空间分区，$k=0$ 是专属区、$k=5$ 是完全重叠点。

$\#\{d:x_d=2\}$	0	1	2	3	4	5
状态数	32	80	80	40	10	1
单态密度均值 $w=1$（1e-3）	4.984	4.541	4.020	3.386	2.208	0.280
单态密度均值 $w=2$（1e-3）	5.573	4.783	3.867	2.844	1.588	0.200

关键发现¶

单态质量随重叠度单调下降：专属区（$k=0$）每个状态分到的质量最大，完全重叠点（$k=5$）最小，部分重叠居中——与 2D 的"私密性分级加权"完全一致。
$w$ 越大、再分配越剧烈：从 $w=1$ 到 $w=2$，质量进一步从高重叠区（大 $k$）挪向专属/低 $k$ 区（$k=0$ 均值 4.984→5.573，$k=5$ 0.280→0.200）。
部分重叠区不是被均匀压制：取决于 $k$，部分重叠区相对 $p(\cdot|z)$ 可能得到也可能失去质量，印证了 $\{c_x,d_x\}$ 那种"按投影维度分级"的机制能推广到高维。
大 $w$ 的数值代价：理论预测的陡转变会让 Tau-leaping 在大 $w$ 下不稳，TV 曲线偏离理论——提醒实践中大引导强度需要更精细的数值方案。

亮点与洞察¶

把"启发式 CFG"算成白箱：在低维可解析设定下给出生成分布和收敛速率的精确（而非近似）刻画，是离散扩散 CFG 的首个严格理论。
1D/2D 行为的定性差异很反直觉：1D 生成分布恰等于 tilted 分布，2D 却偏离，且偏离量由边缘投影重叠的系数 $\{c_x,d_x\}$ 显式给出——告诉我们"维度"本身会改变 guidance 的几何作用。
"私密性分级"是可迁移的直觉：CFG = 利用数据支撑集重叠几何，越私密的类专属区越被放大、越模糊的共享区越被压制。这条直觉可指导高维下对 guidance 行为的预期，也解释了"强 guidance 牺牲多样性"。
双指数收敛把"$w$ 一大就剧烈变化"量化了，对理解/调参引导强度很有用。

局限与展望¶

维度受限：精确结果只到 1D/2D，$D\ge3$ 只有基于边缘投影重叠的猜想（unique/partial-overlap/full-overlap 三类区域的预期行为），尚无形式化证明。
理想化假设：分析假设 score 精确、反向模拟精确，回避了 score 估计误差和数值离散误差；而实验恰恰显示大 $w$ 时 Tau-leaping 会失稳，这部分理论与实践的鸿沟留给未来。⚠️ 2D 系数 $\{c_x,d_x\}$、$\alpha_t(x)$ 等复杂表达式建议以原文 Theorem 3.2 / Appendix E 为准。
数据假设：依赖"多类混合 + 各类支撑在子集 $X_k\subsetneq S$"的结构（Assumption 1.1），对真实语言/分子数据的支撑几何是否成立未验证。
改进思路：把 1D/2D 蓝图推到一般 $D$ 的形式化结果；分析 score 近似与 Tau-leaping 离散对上述精确结论的扰动；据双指数现象设计大 $w$ 下更稳的采样器。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 离散扩散 CFG 的首个严格、可解析理论，1D/2D 差异与双指数收敛都是新结论。
实验充分度: ⭐⭐⭐⭐ 1D/2D/5D 数值实验充分支撑理论，但本就是分析型论文、无真实数据规模实验。
写作质量: ⭐⭐⭐⭐ 问题动机清晰、结论提炼到位；2D 显式表达较重，需对照原文细读。
价值: ⭐⭐⭐⭐ 为理解和调参离散扩散 guidance 提供了坚实的理论锚点与可迁移直觉。

\(\#\{d:x_d=2\}\)	0	1	2	3	4	5
状态数	32	80	80	40	10	1
单态密度均值 \(w=1\)（1e-3）	4.984	4.541	4.020	3.386	2.208	0.280
单态密度均值 \(w=2\)（1e-3）	5.573	4.783	3.867	2.844	1.588	0.200