跳转至

What Exactly Does Guidance Do in Masked Discrete Diffusion Models

会议: ICLR 2026
代码: 无
领域: 扩散模型 / 离散扩散 / 理论分析
关键词: 掩码离散扩散, classifier-free guidance, tilted 分布, 收敛速率, 双指数

一句话总结

这篇论文在低维(1D/2D)可解析的设定下,第一次严格刻画了 classifier-free guidance(CFG)在掩码离散扩散模型里到底干了什么——它把概率质量从"类间重叠区域"挪到"类专属区域",并且让反向采样动力学向目标分布收敛的速度随引导强度 \(w\)双指数加速。

研究背景与动机

领域现状:扩散模型早期建立在连续状态空间上(加高斯噪声再去噪),近年来出现了离散扩散——用掩码或类别跳变替代高斯腐蚀,特别适合语言、分子、蛋白质这类离散数据。其中"吸收态/掩码"前向过程(每个维度独立地被替换成掩码符号 [M])是最常用的一类。为了做可控的条件生成,连续扩散里大获成功的 classifier-free guidance 被搬到了离散扩散上(Nisonoff et al. 2024 等),靠改写反向转移速率来实现,实践中明显提升了样本质量和可控性。

现有痛点:连续扩散里 CFG 的机制已经有理论解释(在 1D 高斯等简化设定下),但离散扩散里 CFG 到底改变了什么,几乎没有理论刻画。大家只知道"中等的 \(w>0\) 效果最好",可这个最优点既不对应采样自某个简单显式分布,也说不清它怎么影响采样轨迹的动力学。

核心矛盾:CFG 在 \(w>0\) 时并不是从任何一个显式分布里采样,而是以非线性方式修改了反向动力学。所以"它生成的到底是什么分布""收敛快慢由什么决定"这两个最基本的问题都悬而未决。连续扩散的已有结论又高度依赖高斯/紧支撑假设、且只到 1D,没法直接搬过来。

本文目标:在掩码离散扩散这个可解析的子类里,针对任意有限混合的数据分布,精确回答两个问题——(Q1) guidance 如何改变生成样本的分布?(Q2) guidance 如何改变反向动力学的收敛速率?

切入角度:作者把维度压到 \(D=1\)\(D=2\)。掩码扩散在低维下反向速率矩阵有显式解,于是生成分布和采样轨迹都能被解析地、精确地算出来并解释,而不是近似。

核心 idea:用低维可解析性把 CFG 这个"黑箱启发式"算成白箱——证明 guidance 本质是在"利用数据支撑集重叠的几何结构",放大类专属区、压制类间共享区,并让收敛速率随 \(w\) 双指数变快。

方法详解

整体框架

这是一篇纯理论分析论文,没有提出新模型或新算法,而是对一个已有的离散 CFG 构造做严格刻画。整体逻辑是:先把数据分布设成多类混合(Assumption 1.1,\(p(\cdot)=\sum_{k=1}^{M} a_k\, p(\cdot|z_k)\)),目标是只采样类 \(z_1\);再在掩码(吸收态)前向过程下写出带 CFG 的反向动力学;最后在 \(D=1\)\(D=2\) 下把"最终生成分布"和"沿反向轨迹的收敛速率"两件事算到底,并讨论向高维的推广。

掩码扩散的前向是连续时间马氏过程 \(\frac{dp_t}{dt}=Q_t p_t\),每个维度独立地往掩码态 [M] 跳。对应的精确反向过程 \(\frac{dq_t}{dt}=\bar Q_{T-t} q_t\),其速率由 concrete score \(\frac{p_t(y)}{p_t(x)}\)(连续扩散里 \(\nabla\log p_t\) 的离散类比)决定。论文假设 score 精确、模拟精确,专注分析 CFG 本身对动力学的作用,把 score 估计误差和数值离散误差留给未来。

CFG 的目标分布是 tilted(倾斜)分布

\[p_{z,w}(\cdot)\ \propto\ p(\cdot)\,p(z|\cdot)^{1+w}\ \propto\ p(\cdot)^{-w}\,p(\cdot|z)^{1+w},\]

其中 \(w\ge -1\) 是引导强度:\(w=-1\) 退回完整数据分布 \(p\)\(w=0\) 退回类条件分布 \(p(\cdot|z)\)\(w>0\) 越大越偏向"更像类 \(z\)"的状态。关键在于:因为扩散是靠动力学走的,没法直接从 \(p_{z,w}\) 采样,只能去改反向速率矩阵——这正是后面分析"实际生成分布到底偏离 tilted 分布多少"的源头。

下面四个关键设计依次是:CFG 的离散构造(铺垫)→ 1D 精确结果 → 2D 偏离结果 → 双指数收敛速率。

关键设计

1. CFG 的离散构造:用速率矩阵的几何插值实现"倾斜"

连续扩散里 guidance 是把 score \(\nabla\log p_t\) 做线性外推;离散里没有连续 score,作者沿用 Nisonoff et al. (2024) 的构造,改在反向转移速率上做。先把类条件分布 \(p(\cdot|z)\) 在同一前向 \(Q_t\) 下演化,得到类条件反向速率 \(\bar Q^z_t(y,x)=\frac{p_t(y|z)}{p_t(x|z)}Q_t(x,y)\);再把无引导速率 \(\bar Q_t\) 和类条件速率 \(\bar Q^z_t\)几何插值得到 CFG 速率:

\[\hat Q^{z,w}_t(y,x)=\bar Q_t(y,x)^{-w}\,\bar Q^z_t(y,x)^{1+w},\qquad y\ne x.\]

\(w=-1\)\(\hat Q^{z,-1}_t=\bar Q_t\)(生成整个混合 \(p\),对类别没有控制);\(w=0\)\(\hat Q^{z,0}_t=\bar Q^z_t\)(精确生成 \(p(\cdot|z)\))。实践里最好的结果出现在中间的 \(w>0\),但此时 \(\hat Q^{z,w}_t\) 不对应任何显式分布的精确反向——这就是论文要解析的对象。

2. 1D 精确刻画:生成分布恰好等于 tilted 分布,质量在重叠区被搬走

\(D=1\)(单 token)时,CFG 反向速率矩阵会戏剧性地简化:它恰好等于以 tilted 分布 \(p_{z,w}\) 为目标的无引导反向速率(差一个归一化常数 \(Z_{z,w}=\sum_{x=1}^{N-1}p(x)^{-w}p(x|z)^{1+w}\))。由此 Theorem 3.1 给出反向轨迹的显式公式,并得到一个干净结论:最终生成分布 \(q^{z,w}_T\) 精确等于 tilted 分布 \(p_{z,w}\)——这与连续扩散不同(连续 1D 下 CFG 会偏离 tilted 分布)。

进一步(Proposition 3.1):若类 \(z_1\) 的支撑 \(X_1\) 与其他类不相交,则 \(q^{z_1,w}_T=p(\cdot|z_1)\),guidance 不起作用;若存在重叠区 \(S_1=X_1\cap(\cup_{k\ge2}X_k)\),则在专属区 \(X_1\setminus S_1\) 上保持 \(p(x|z_1)\),在重叠区 \(S_1\) 上按 \(\big(\tfrac{a_1 p(x|z_1)}{\sum_{k\in I_1}a_k p(x|z_k)}\big)^{w}p(x|z_1)\) 重新加权。当 \(w\to\infty\),重叠区质量被彻底清空,分布收敛到 \(p(\cdot|z_1)\) 在专属区上的限制。直观上:CFG 把模糊区 \(S_1\) 的质量搬到专属区,同时保持专属区内部的局部均值和方差不变(Remark 3.1)。

3. 2D 偏离刻画:生成分布不再等于 tilted 分布,边缘投影重叠引入新系数

\(D=2\)(多 token)故事就变了:CFG 反向速率矩阵不再等于 tilted 分布的反向速率(\(\hat Q^{z,w}_t\ne C\,\bar Q_t[p_{z,w}]\))。Theorem 3.2 给出 2D 反向动力学的显式表达,里面除了 \(p_{z,w},Z\),还多出一组系数 \(\{c_x,d_x\}\),专门编码 guidance 对边缘分布的操控,例如 \(c_{x_1}=\frac{\sum_l p(x_1,l)^{-w}p(x_1,l|z)^{1+w}}{p(x_1)^{-w}p(x_1|z)^{1+w}}\)\(d_{x_2}\) 同理沿另一坐标)。最终生成分布是 tilted 分布的"加权版":

\[q^{z,w}_T(x)=\frac{1/c_{x_1}+1/d_{x_2}}{1/c_N+1/d_N}\,p_{z,w}(x).\]

更重要的是几何图像(Proposition 3.3、Remark 3.4):类 \(z_1\) 的专属支撑被切成 5 个区域 \(R_1,R_{2,1},R_{2,2},R_3,R_4\),反映不同程度的"私密性"——\(R_1\) 最私密(连边缘投影都不与别类相交),\(R_4=S_1\) 是完全重叠区,\(R_3\) 两条投影都重叠、\(R_{2,i}\) 只在第 \(i\) 维投影重叠。它们的(归一化前)权重满足 \(A_1^{z_1,w}\ge A_{2,i}^{z_1,w}\ge A_3^{z_1,w}\ge A_4^{z_1,w}\),即越私密的区域被 guidance 加越大的权。这说明哪怕在全空间里不重叠、只要某个坐标投影撞上别的类,CFG 也会按"撞了几维"分级压制——这是 1D 看不到的新现象。

4. 双指数收敛速率:TV 随引导强度 \(w\) 双指数变快

第二个核心结论关于动力学的"快慢"。1D 下(Proposition 3.2)反向轨迹到生成分布的总变差距离 \(\mathrm{TV}(q^{z,w}_t,p_{z,w})=\big(\tfrac{1-e^{-(T-t)}}{1-e^{-T}}\big)Z\),随时间指数衰减、速率为 \(Z\)。而把 \(Z\)\(\alpha\)-散度改写 \(Z=\exp\!\big(w D_{1+w}(p(\cdot|z)\,\|\,p)\big)\),可得 \(\log Z_{z,w}\sim w\sup_x\frac{p(x|z)}{p(x)}\)\(w\gg1\))。于是 TV 的整体衰减率对 \(w\)双指数依赖(Remark 3.2)——这解释了实践中 \(w\) 一大、采样行为就出现极陡转变的现象。2D 下(Proposition 3.4)同样有 \(-\ln\mathrm{TV}(q^{z,w}_t,q^{z,w}_T)=\exp(\Theta(w))\ln\!\big(\tfrac{1-e^{-T}}{1-e^{-(T-t)}}\big)\),双指数依赖被保留。结论是:guidance 不只重塑输出分布,还在控制采样轨迹的动力学速度

损失函数 / 训练策略

论文不引入新训练目标,沿用离散扩散标准的 denoising score entropy(DSE)来学 concrete score: $\(L_{\text{DSE}}=\mathbb{E}_{x_0\sim p}\,\mathbb{E}_{x\sim p_{t|0}(\cdot|x_0)}\Big[\sum_{y\ne x}\big(s^\theta_t(x,y)-\tfrac{p_{t|0}(y|x_0)}{p_{t|0}(x|x_0)}\log s^\theta_t(x,y)\big)\Big].\)$ 分析部分则假设 score 与模拟均精确,只研究 CFG 本身的作用。

实验关键数据

数值实验用一个小 transformer 训练 score,Tau-leaping 50 步、log-linear schedule、每组实验采 10K 样本,单卡 RTX 4070 Laptop GPU。实验目的是验证理论而非刷性能。

主实验(理论 vs 经验的对照)

设定 关键现象 与理论对应
1D 支撑不相交 guidance 完全无效,生成/tilted/类分布三者重合 Prop. 3.1-(1)
1D 支撑重叠 重叠区质量被搬走,生成分布逼近 tilted 分布(即便有 score/离散化误差) Prop. 3.1-(2)
1D,固定 \(t=0.5\),扫 \(w\) \(w\) 时经验 TV 曲线吻合理论;大 \(w\) 出现平台/上翘 Prop. 3.2(大 \(w\) 偏差归因于陡转变让 Tau-leaping 不稳)
2D 全空间不相交但投影重叠 guidance 压制中心菱形的上、右角 Prop. 3.3 / Thm. 3.2
2D 支撑重叠 右上重叠区被强压制,左上、右下因投影重叠被轻压制 Prop. 3.3

消融 / 高维分析(5D 混合超立方体)

5D 设定:两类分别支撑在 \(\{0,1,2\}^5\)\(\{2,3,4\}^5\),仅在单点 \((2,2,2,2,2)\) 重叠;采样目标类 \(\{2,3,4\}^5\)。按"有几维等于 2"(\(k=\#\{d:x_d=2\}\))把空间分区,\(k=0\) 是专属区、\(k=5\) 是完全重叠点。

\(\#\{d:x_d=2\}\) 0 1 2 3 4 5
状态数 32 80 80 40 10 1
单态密度均值 \(w=1\)(1e-3) 4.984 4.541 4.020 3.386 2.208 0.280
单态密度均值 \(w=2\)(1e-3) 5.573 4.783 3.867 2.844 1.588 0.200

关键发现

  • 单态质量随重叠度单调下降:专属区(\(k=0\))每个状态分到的质量最大,完全重叠点(\(k=5\))最小,部分重叠居中——与 2D 的"私密性分级加权"完全一致。
  • \(w\) 越大、再分配越剧烈:从 \(w=1\)\(w=2\),质量进一步从高重叠区(大 \(k\))挪向专属/低 \(k\) 区(\(k=0\) 均值 4.984→5.573,\(k=5\) 0.280→0.200)。
  • 部分重叠区不是被均匀压制:取决于 \(k\),部分重叠区相对 \(p(\cdot|z)\) 可能得到也可能失去质量,印证了 \(\{c_x,d_x\}\) 那种"按投影维度分级"的机制能推广到高维。
  • \(w\) 的数值代价:理论预测的陡转变会让 Tau-leaping 在大 \(w\) 下不稳,TV 曲线偏离理论——提醒实践中大引导强度需要更精细的数值方案。

亮点与洞察

  • 把"启发式 CFG"算成白箱:在低维可解析设定下给出生成分布和收敛速率的精确(而非近似)刻画,是离散扩散 CFG 的首个严格理论。
  • 1D/2D 行为的定性差异很反直觉:1D 生成分布恰等于 tilted 分布,2D 却偏离,且偏离量由边缘投影重叠的系数 \(\{c_x,d_x\}\) 显式给出——告诉我们"维度"本身会改变 guidance 的几何作用。
  • "私密性分级"是可迁移的直觉:CFG = 利用数据支撑集重叠几何,越私密的类专属区越被放大、越模糊的共享区越被压制。这条直觉可指导高维下对 guidance 行为的预期,也解释了"强 guidance 牺牲多样性"。
  • 双指数收敛把"\(w\) 一大就剧烈变化"量化了,对理解/调参引导强度很有用。

局限与展望

  • 维度受限:精确结果只到 1D/2D,\(D\ge3\) 只有基于边缘投影重叠的猜想(unique/partial-overlap/full-overlap 三类区域的预期行为),尚无形式化证明。
  • 理想化假设:分析假设 score 精确、反向模拟精确,回避了 score 估计误差和数值离散误差;而实验恰恰显示大 \(w\) 时 Tau-leaping 会失稳,这部分理论与实践的鸿沟留给未来。⚠️ 2D 系数 \(\{c_x,d_x\}\)\(\alpha_t(x)\) 等复杂表达式建议以原文 Theorem 3.2 / Appendix E 为准。
  • 数据假设:依赖"多类混合 + 各类支撑在子集 \(X_k\subsetneq S\)"的结构(Assumption 1.1),对真实语言/分子数据的支撑几何是否成立未验证。
  • 改进思路:把 1D/2D 蓝图推到一般 \(D\) 的形式化结果;分析 score 近似与 Tau-leaping 离散对上述精确结论的扰动;据双指数现象设计大 \(w\) 下更稳的采样器。

相关工作与启发

  • vs 连续扩散 CFG 理论(Bradley & Nakkiran 2024;Chidambaram et al. 2024):他们在 1D 高斯/紧支撑假设下分析连续 CFG,发现生成分布偏离 tilted 分布;本文针对离散扩散、允许任意有限混合,且发现 1D 离散下生成分布恰等于 tilted 分布(与连续相反),2D 才偏离——条件更一般、结论更精确。
  • vs 离散 CFG 构造(Nisonoff et al. 2024;Schiff et al. 2024):他们提出/改进离散 guidance 的速率改写并报告实证增益;本文不改方法,而是把这套构造的作用机理算清楚,补上理论解释。
  • 启发:把"可控生成"理解为"在数据支撑集的重叠几何上做质量再分配",这个视角或可迁移到其他可控生成任务(如多样性-保真权衡的定量分析)。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 离散扩散 CFG 的首个严格、可解析理论,1D/2D 差异与双指数收敛都是新结论。
  • 实验充分度: ⭐⭐⭐⭐ 1D/2D/5D 数值实验充分支撑理论,但本就是分析型论文、无真实数据规模实验。
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰、结论提炼到位;2D 显式表达较重,需对照原文细读。
  • 价值: ⭐⭐⭐⭐ 为理解和调参离散扩散 guidance 提供了坚实的理论锚点与可迁移直觉。