ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 扩散模型 / 图像生成
关键词: 免训练高分辨率生成、Diffusion Transformer、位置编码、局部注意力、频域融合

一句话总结¶

ResDiT 通过机制分析发现 DiT 在超分辨率推理时「位置编码决定布局、注意力感受野决定细节」，据此把原始注意力拆成「缩放位置编码的全局分支 + patch 级局部分支」并在频域融合二者，免训练、不依赖低分图引导就能让 FLUX/SD3 直出 3K–4K 高保真图像。

研究背景与动机¶

领域现状：FLUX、SD3 这代文生图模型已经全面转向 Diffusion Transformer（DiT），靠全局注意力建模长程依赖、在训练分辨率上能出高保真图。但它们几乎只能在训练分辨率附近工作，一旦把推理分辨率拉到 3K、4K，画面就会明显退化甚至彻底崩坏。

现有痛点：直接在高分辨率上训练/微调要海量高清数据和算力，不现实。于是大量免训练方法被提出，但分两类各有问题：一类是为 U-Net 架构设计的（如 ScaleCrafter 用空洞卷积扩大感受野、PBC 用虚拟零填充边界），强依赖卷积结构，迁移不到 DiT；另一类专为 DiT 设计，但几乎都走「两阶段」路线——先生成一张基准分辨率图，再用它的去噪轨迹去引导高分辨率采样（I-Max、HiFlow 等）。

核心矛盾：两阶段方法本质上把高分辨率生成当成了「超分任务」——高分图被低分图的分布牢牢拽住，结构虽稳但细节常被抹平（HiFlow 在孩子脸、树干纹理、远山轮廓上都过度平滑）。它依赖外部引导，而非真正释放模型自身直接生成高分内容的能力，还平白增加了 pipeline 复杂度。

切入角度：作者不打补丁，而是回到机制层面问「DiT 高分崩坏到底坏在哪」。注意力是 DiT 里决定 token 空间交互的核心，于是他们对注意力里的两个空间因子——位置编码（PE）和注意力感受野范围——做受控干预实验（论文 Fig. 2）：(a) 基准分辨率全局注意力 + 原始 PE，布局细节都好；(b) 直接搬到高分辨率，主体被缩小、错位，发生「布局崩坏」，说明外推的 PE 和被放大的注意力场失配；(c) 换上缩放后的 PE，布局恢复了但细节模糊；(d) 给每个 patch 贴基准分辨率 PE，局部结构对了细节仍差；(e) 进一步用 patch 级局部注意力，细节才显著变好。

核心 idea：这串实验得出一个清晰的机制结论——位置编码决定空间布局，注意力感受野尺度决定细节保真度。顺着这个洞察，把注意力拆成「修布局的全局分支」和「补细节的局部分支」，再设法把两者的优点干净地合起来，就能免训练地直出高分图。

方法详解¶

整体框架¶

ResDiT 不改权重、不依赖基准分辨率图，只在推理时把 DiT 每个 block 里原本那一次「全分辨率全局注意力」重构成两条互补分支并行跑：全局分支用缩放后的位置编码做全局注意力，负责把整张图的大尺度布局摆正；局部分支把高分特征图切成与训练分辨率匹配的 patch，在每个 patch 内做局部注意力，负责恢复精细纹理。为了让局部分支切 patch 不留接缝，作者用「最小重叠切分 + 高斯加权拼接」保证 patch 边界平滑无网格伪影。最后用「patch 级频域融合」把两支的输出在频率域里合并——取全局分支的低频（布局结构）+ 局部分支的高频（细节），得到既结构连贯又细节丰富的高分输出。推理时还按「去噪由粗到细」的规律做时间步调度：前 10 步只用全局分支定结构、后 15 步只用局部分支抠细节、中间步用频域融合兼顾两者。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["高分辨率潜变量<br/>(超出训练分辨率)"] --> B["位置编码矫正<br/>全局缩放PE / 局部独立PE"]
    B -->|全局分支| C["全局注意力<br/>缩放PE→定大尺度布局"]
    B -->|局部分支| D["最小重叠切分 + 高斯加权拼接<br/>patch局部注意力→补细节、消接缝"]
    C --> E["Patch级频域融合<br/>全局低频 + 局部高频"]
    D --> E
    E --> F["高保真高分辨率图像<br/>3K~4K, 任意宽高比"]

关键设计¶

1. 位置编码矫正：双分支各用一套 PE，把布局先摆正

布局崩坏的根因是原始 PE 外推到高分辨率时编码了错误的位置信息。作者针对两个分支给出两套 PE。全局分支用 PE Scaling（插值）：把高分特征图的位置索引等比缩回训练分辨率，让位置信息落在预训练模型「认识」的范围内，从而保住全局结构骨架。设高分特征图尺寸为 \(H\times W\)、训练分辨率为 \(h\times w\)，原始 2D 索引 \((p_h,p_w)\in\{0,\dots,H-1\}\times\{0,\dots,W-1\}\) 被缩放为

\[(p_h,p_w)\in\Big\{\tfrac{0}{s_h},\tfrac{1}{s_h},\dots,\tfrac{H-1}{s_h}\Big\}\times\Big\{\tfrac{0}{s_w},\dots,\tfrac{W-1}{s_w}\Big\},\quad s_h=H/h,\ s_w=W/w\]

缩放后的索引再去算位置编码（与 RoPE 等编码方案都兼容，因为只操作索引）。局部分支用 Patch-wise Independent PE：给每个 patch 配一套独立的、基准分辨率范围内的 PE，让每个 patch 内的局部结构都对，从而强化细节生成。一句话：全局分支靠缩放 PE 定「整张图怎么摆」，局部分支靠独立 PE 保「每块内部怎么长」。

2. patch 切分与拼接：让局部注意力既补细节又不留接缝

把全分辨率注意力硬塞进训练时没见过的尺度会模糊细节，最自然的解法是把注意力限制在和训练分辨率匹配的 patch 内；但简单按网格硬切会在 patch 边界留下可见接缝和网格伪影。作者用两招治这个病。Minimum-Overlap Partitioning（最小重叠切分）：让相邻 patch 略微重叠以共享边界上下文。沿长度为 \(H\)、patch 大小为 \(h\) 的某一轴，取整数 \(N>H/h\)，第 \(k\) 个 patch 起点为 \(t_k=\frac{(k-1)(H-h)}{N-1}\)，使首块从 0 开始、末块恰好结束于 \(H\)、相邻步长小于 \(h\)，从而用尽量少的分块数同时保证全覆盖和正重叠。Gaussian Weighting Splicing（高斯加权拼接）：拼接重叠区时不等权平均，而是按到 patch 中心的距离给高斯权重。对落在重叠区的 token \(p\)，覆盖它的窗口集 \(W(p)\) 中第 \(i\) 个 patch 权重为

\[w_i(p)=\exp\!\Big(-\frac{\lVert p-c_i\rVert_2^2}{2\sigma^2}\Big)\]

最终融合特征 \(f(p)=\frac{\sum_{i\in W(p)}w_i(p)f_i(p)}{\sum_{i\in W(p)}w_i(p)}\)（\(c_i\) 为 patch 中心）。离哪个 patch 中心近就更信哪个，特征过渡更平滑，进一步压掉边界伪影。

3. patch 级频域融合：在频率域里各取所长地合并两支

全局分支贡献可靠的低频布局结构，局部分支擅长高频细节——这种互补性天然适合在频率域分离再重组。而且频率成分在空间上分布不均（纹理/边缘区高频多、平滑区低频多），所以融合按 patch 做、而非全局一刀切的频率滤波，才能逐区自适应。具体地，把全局输出特征 \(x_g\) 用同样的最小重叠切分切成 \(\{x_g^i\}\)，与局部 patch 输出一一对应；对每对 \((x_g^i,x_l^i)\) 做 FFT 得 \(\hat x_g^i=\mathcal F(x_g^i)\)、\(\hat x_l^i=\mathcal F(x_l^i)\)，再用二值掩码 \(M\) 在频谱上融合并逆变换回空间域：

\[x^i=\mathcal F^{-1}\big(M\odot\hat x_g^i+(1-M)\odot\hat x_l^i\big)\]

即保留全局分支的低频、保留局部分支的高频（归一化频率截止设为 0.2），实现布局级与细节级成分的干净分离与有效整合。

实验关键数据¶

主实验¶

基座为 FLUX.1-dev，采样 35 步、guidance scale 3.5，单卡 RTX 4090。收集 500 条高质量 caption 生成图像；KID 对 LAION-Aesthetics-v2 6.5+ 的 2K 真实高清图算，IS 看多样性/清晰度，CLIP Score 看文图对齐，并补充 patch 版 KID/IS 与 20 人用户研究（1–5 分）。对比对象 Demofusion / DiffuseHigh / I-Max / HiFlow 全是「先出基准图再外推」的两阶段法。

分辨率	方法	KID↓	KIDp↓	IS↑	ISp↑	CLIP↑	User↑
3072²	Demofusion	0.0211	0.0342	12.20	10.21	31.92	3.1
3072²	DiffuseHigh	0.0195	0.0213	12.61	10.13	32.74	4.2
3072²	I-Max	0.0192	0.0207	12.96	10.48	32.73	4.2
3072²	HiFlow	0.0190	0.0194	12.87	10.67	32.76	4.6
3072²	ResDiT	0.0189	0.0199	12.91	10.87	32.85	4.8
4096²	HiFlow	0.0203	0.0245	11.65	10.12	32.74	4.3
4096²	ResDiT	0.0217	0.0252	11.46	9.97	32.71	4.3

在 3072×3072 上 ResDiT 取得最佳 KID、最高 CLIP 与最高 ISp 和用户分（4.8），且不靠任何基准分辨率输入。4096×4096 上 KID/IS 略掉——作者归因于单阶段高分生成本身更难：两阶段法的输出紧贴自己生成的低分图分布，指标自然好看；ResDiT 直接在高分噪声空间采样，细节更真更丰富但和原模型生成分布有偏移，反映到 KID/IS 上略低。

消融实验¶

消融以定性图（论文 Fig. 6）为主，定量在附录。

配置	现象	说明
Full（PES+PIPE+PSF）	结构连贯 + 细节锐利	完整模型
w/o PES	结构完全崩坏	退回原始 PE，全局布局失控，证明 PES 是高分结构的根本
w/o PIPE	布局尚可但细节严重退化	去掉 patch 独立 PE，局部保真垮掉
w/o PSF	重复生成伪影 + 整体模糊	把频域融合换成空间域相加平均，无法各取所长
w/o MOP & GWS	明显边界/网格伪影	不重叠切分，patch 边界不连续
仅 MOP	接近完整但局部仍有残留伪影	重叠缓解可见性但增加伪影数量、损伤细节

关键发现¶

三件套各管一段、缺一不可：PES 管全局结构（去掉直接崩）、PIPE 管局部细节（去掉细节烂）、PSF 负责把两者在频域无损合并（去掉就出重复伪影+模糊）。
重叠切分不能只靠重叠：单用 MOP 已接近完整效果，但必须配高斯加权拼接 GWS 才能真正消掉边界伪影、不伤细节。
单阶段的代价是分布偏移：ResDiT 在 4K 上 KID/IS 略输两阶段法，是「直采高分空间」换来的真实细节与多样性的合理代价，而非方法缺陷——CLIP 与用户分仍有竞争力。
下游兼容：可无缝接 ControlNet（depth/HED 边缘图）做结构可控的 3072² 生成，且原生支持任意宽高比（2048×4096、4096×2048）。

亮点与洞察¶

先做机制分析再设计方法：Fig. 2 的受控干预把「PE 管布局 / 注意力感受野管细节」这个解耦结论钉死，后续每个模块都是这条洞察的直接产物，方法因此显得「该这么做」而非堆 trick。
频域分工很优雅：低频=布局、高频=细节，本就是图像的天然分解，用 FFT + 二值掩码 patch 级融合比空间域相加干净得多，还能逐区自适应频率成分。
真·免训练、不依赖低分引导：跳出「高分=超分」的两阶段框架，直接在高分噪声空间采样，是和现有 SOTA 最本质的区别，也解释了它指标与画质的取舍。
时间步调度可迁移：前期全局定结构、后期局部抠细节、中段融合，这套「coarse-to-fine 分阶段切换注意力」的调度思路可复用到其他需要在不同尺度间切换的扩散推理任务。

局限与展望¶

4K 上指标略逊：单阶段直采带来分布偏移，KID/IS 在 4096² 不及两阶段法；作者自己也点明这是设计取舍。若想兼顾分布相似度，可能需要轻量的分布对齐而非回到低分引导。
依赖人工超参：频率截止 0.2、时间步分配（10/15/中间）、patch 数 \(N\)、高斯 \(\sigma\) 等都是经验设定，跨基座/跨分辨率是否稳定、能否自适应未充分讨论。
评测偏主观：核心证据大量靠定性图与用户研究，定量消融放在附录，难以严格量化各模块贡献幅度。
计算开销：双分支并行 + patch 级 FFT 融合相比单次全局注意力会增加推理成本，正文只说延迟对比在附录，未在主文给出量化代价。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用机制分析把「PE 管布局、注意力感受野管细节」解耦，并据此重构注意力为双分支 + 频域融合，跳出两阶段超分范式。
实验充分度: ⭐⭐⭐⭐ 对比 4 个 SOTA、含 patch 指标与用户研究、消融覆盖全部模块，但定量消融与延迟对比都放附录、4K 指标偏弱。
写作质量: ⭐⭐⭐⭐⭐ 从受控实验到方法推导逻辑链清晰，机制叙事让每个设计都有据可依。
价值: ⭐⭐⭐⭐ 免训练直出 3K–4K、兼容 ControlNet 与任意宽高比，对 DiT 高分生成实用性强。