Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation¶

会议: ICLR 2026
arXiv: 2510.04504
代码: https://github.com/hu-zijing/AsynDM
领域: 扩散模型 / 文图对齐
关键词: 异步去噪, 像素级时间步, 文图对齐, cross-attention mask, 即插即用

一句话总结¶

AsynDM 通过为不同像素分配不同的时间步调度（prompt 相关区域去噪更慢），使其能利用更清晰的上下文参考，从而在不需要微调的情况下显著提升文图生成的语义对齐。

研究背景与动机¶

领域现状：扩散模型在文图生成中取得了优异的多样性和保真度，但文图对齐（alignment）仍是显著痛点——生成的图像经常在文字、颜色、数量等方面与 prompt 不一致

现有痛点： - 现有方法要么需要微调（RL-based alignment），要么在推理时修改 CFG 或中间噪声图像 - 这些方法都没有触及同步去噪这一根本机制

核心矛盾：同步去噪中所有像素按相同时间步演进，prompt 相关区域只能参考同等噪声水平的其他区域作为上下文——但这些参考区域本身也是模糊的，无法提供清晰的语义引导

本文目标：让 prompt 相关区域（如目标对象）在去噪过程中获得更清晰的上下文参考，以改善最终图像与 prompt 的语义对齐

切入角度：观察到图像中不同区域对去噪精细度的需求不同——背景约束少可以快速去噪，而 prompt 相关对象需要更精细的渐进式去噪

核心 idea：让 prompt 无关区域先变清晰作为更好的上下文参考，prompt 相关区域慢慢去噪以更好地聚焦 prompt 语义

方法详解¶

整体框架¶

扩散模型生成的图像常和 prompt 对不上（文字、数量、颜色出错），AsynDM 把根因归到「同步去噪」——所有像素按同一个标量时间步 \(t\) 一起变清晰，于是 prompt 相关的目标区域只能参考到同样模糊的邻域，拿不到可靠的语义引导。它的解法是让不同像素异步去噪：先把标量时间步扩展成空间张量，使每个像素能走各自的噪声水平；随后在去噪循环的每一步，先用 cross-attention 圈出当前的 prompt 相关区域，再给这块区域配一条「先慢后快」的凹函数调度、其余背景走普通线性调度。这样背景早早变清晰、成为目标区域的清晰上下文参考，目标区域则慢慢精修以更好地聚焦 prompt 语义。整个方法 plug-and-play、无需任何微调，只改预训练扩散模型的推理过程，兼容 DDPM/DDIM 等采样器与 UNet/DiT 架构。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IN["文本 prompt + 初始噪声图"]
    D1["像素级时间步分配<br/>状态扩展为 (x_i, 时间步张量 t_i)"]
    subgraph STEP["每个去噪步 i（循环至 t=0）"]
        direction TB
        D2["Mask 引导提取目标区<br/>cross-attention → 二值化 → OR 合并得 M"]
        D3["凹函数时间步调度<br/>目标区放慢、背景走线性先变清晰"]
        UP["按 t_i 逐像素去噪一步"]
        D2 --> D3 --> UP
    end
    IN --> D1 --> STEP
    UP -->|未到 t=0| STEP
    UP -->|t=0| OUT["语义对齐的生成图"]

关键设计¶

1. 像素级时间步分配：把标量时间步 \(t\) 拆成空间张量，让每个像素各走各的噪声水平

同步去噪的根源在于一个标量 \(t\) 同时控制全图，要打破它就得先证明扩散模型允许逐像素的时间步。本文的观察是：时间步信息是在注意力模块之外、以 pixel-wise 的方式嵌入特征的，并不直接参与注意力计算——这意味着不同像素天然可以挂上不同的时间步，无需改动网络结构。据此把 DDPM 的转移分布扩展为 \(p_\theta(\mathbf{x}_{i+1}|\mathbf{x}_i, \mathbf{c}) = \mathcal{N}(\mathbf{x}_{i+1} | \mu_\theta(\mathbf{x}_i, \mathbf{t}_i, \mathbf{c}), \sigma_i^2 \mathbf{I})\)，其中时间步从标量 \(t\) 变成张量 \(\mathbf{t}_i \in \mathbb{R}^{h \times w}\)，相应的 \(\alpha_{\mathbf{t}_i}\)、\(\beta_{\mathbf{t}_i}\) 都改为逐元素索引。关键是这一扩展并没有破坏马尔科夫性质：只要把状态从原来的 \(\mathbf{x}_t\) 重新定义为 \((\mathbf{x}_i, \mathbf{t}_i)\)，整个过程仍是一条合法的马尔科夫链，于是后续的异步调度才有理论落脚点。

2. Mask 引导的目标区域提取：用 cross-attention map 在每一步动态圈出 prompt 相关区域

有了逐像素时间步，接下来要决定哪些像素属于需要放慢的「目标区域」，而这件事随去噪推进在变化，所以 mask 必须每步重算。做法是借用扩散模型本就有的 cross-attention map：对 prompt 里每个目标 token \(o\) 取其注意力图 \(A^o\)，以该图均值为阈值二值化，再把所有目标 token 的二值 mask 做 OR 合并，得到当前步的目标区域

\[M = \bigvee_{o \in \mathcal{O}_\mathbf{c}} \mathbf{1}[A^o > A^o_{\text{mean}}].\]

之所以直接用 cross-attention 而不是额外训一个分割模型，是因为它天然编码了图像区域与文本 token 的对应关系，且零成本可得；随着去噪推进、图像逐渐成形，这张 mask 也会从早期粗糙的大致定位，收敛到越来越精确地贴合物体形状，正好与下一步凹函数「后期才精修目标」的节奏吻合。

3. 凹函数时间步调度：让 prompt 无关区域先去噪干净，给目标区域当清晰参考

知道了目标区域在哪，最后一步是给「谁快谁慢」配上具体轨迹。本文给 prompt 相关区域配一条凹函数轨迹 \(f(i) = T - \frac{1}{T}i^2\)，其余区域走普通的线性调度。凹函数的形状决定了目标区域在早期几乎原地不动（仍是高噪声），到后期才加速冲向 \(t=0\)；而背景按线性调度早早变清晰。这样在去噪的中间阶段就形成了想要的不对称：目标区域还很模糊，但它能参考到的背景已经相对清晰，从而拿到更可靠的上下文语义引导，而不是像同步去噪那样只能参考同样模糊的邻域。这条凹轨迹不是随手画的——Proposition 1 证明了夹在凹函数与线性函数之间区域里的任意一点，都能通过一条适当平移的凹函数最终到达 \(t=0\)，保证不管某个像素在哪一步被选为「目标」，都存在合法路径把它去噪到底，避免了复杂的状态管理。

损失函数 / 训练策略¶

无需训练：AsynDM 直接在预训练扩散模型上使用，只修改推理过程
兼容 DDPM、DDIM 等多种采样器
时间步编码独立处理后以 per-pixel 方式注入

实验关键数据¶

主实验 — 4 个 prompt 集上的对齐性能（SD 2.1）¶

方法	BERTScore↑	CLIPScore↑	ImageReward↑	QwenScore↑
DM (baseline)	0.6353	0.3685	0.7543	4.94
Z-Sampling	0.6353	0.3708	0.8283	5.02
SEG	0.6309	0.3605	0.6493	4.76
S-CFG	0.6383	0.3716	0.8653	5.04
CFG++	0.6249	0.3565	0.3284	4.45
AsynDM	0.6414	0.3750	0.9219	5.52

（以 Animal Activity 为例，其他 3 个集上趋势一致）

消融实验 — 调度函数对比¶

配置	BERTScore	ImageReward
线性调度（baseline DM）	0.6353	0.7543
全局凹函数（DMconcave）	0.6381	0.8544
异步（AsynDM）	0.6414	0.9219

关键发现¶

AsynDM 在所有 4 个 prompt 集、4 个指标上均为最优，且是唯一不需要微调的方法
QwenScore 提升最显著：Animal Activity 上 +0.58（从 4.94 到 5.52），说明 VLM 评测认为对齐改善很大
SEG 和 CFG++ 反而损害对齐：说明简单修改 guidance 不一定有效
mask 质量随去噪推进而提升：早期 mask 粗糙但足够定位大致区域，后期精确捕捉物体形状

亮点与洞察¶

重新思考同步去噪：之前的工作几乎都默认所有像素同步去噪，本文首次指出这是对齐问题的根源之一并提出解决方案——视角新颖
plug-and-play 实用性强：不需要训练、不需要额外模型、兼容 UNet 和 DiT 架构，易于部署
凹函数调度的数学优雅性：Proposition 1 保证了任意时刻被选为目标的区域都能通过平移的凹函数最终到达 t=0，避免了复杂的状态管理

局限与展望¶

依赖 cross-attention map 的质量来提取 mask，如果 prompt 中的实体在 attention 中未被正确定位则无效
二次函数 \(f(i) = T - i^2/T\) 是手选的，不同 prompt 可能需要不同的调度强度
额外的像素级时间步编码会增加一些计算开销（虽然论文说可忽略）
对 prompt 中隐含的抽象概念（如风格、情绪）可能不如对具体物体有效

评分¶

新颖性: ⭐⭐⭐⭐⭐ 像素级异步去噪是全新的视角，重新定义了扩散模型的 MDP 状态
实验充分度: ⭐⭐⭐⭐ 4 个 prompt 集 + 4 个指标 + 多个 baseline + 消融，但缺少人类评测
写作质量: ⭐⭐⭐⭐⭐ 动机阐述极清晰，图示直观，数学推导优雅
价值: ⭐⭐⭐⭐ 提升对齐性能显著且实用，但场景受限于具体物体的对齐