Remote Sensing Image Super-Resolution for Imbalanced Textures: A Texture-Aware Diffusion Framework¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ZezFuture/TexAdiff
领域: 遥感图像 / 超分辨率 / 扩散模型
关键词: 遥感超分、纹理不均衡、扩散先验、相对纹理密度图、纹理感知采样

一句话总结¶

针对遥感图像"纹理全局随机、局部成团，导致纹理极度不均衡"这一与自然图像不同的特性，本文提出 TexADiff：先估计一张相对纹理密度图（RTDM）刻画纹理分布，再把它当作"空间条件 + 损失调制 + 采样调度"三管齐下地注入扩散超分流程，让模型在纹理丰富区生成更多真实高频细节、在纹理稀疏区抑制幻觉，从而在多数遥感基准上取得更优的感知指标。

研究背景与动机¶

领域现状：遥感图像超分（RSISR）要从低分输入重建高分图像，直接服务目标检测、语义分割、变化检测等下游任务。近期把预训练文生图（T2I）扩散先验引入超分，在自然图像上能生成锐利逼真的细节，是处理未知退化的有力方向。

现有痛点：遥感图像有一个自然图像没有的特性——空间异质性极强：少量纹理丰富区（路网、建成区）承载了绝大部分高频能量，而大片纹理稀疏区（水体、雪地、农田）结构简单。纹理分布高度不均衡且局部成团，且这些团块位置随场景而变、没有全局位置先验。现有扩散 RSISR 却对全图施加统一的复原强度，于是出现两种可预测的失败：在纹理稀疏区"用力过猛"，凭空造出冗余/幻觉细节引入伪影（如水面条纹）；在纹理丰富区"用力不足"，重建模糊、细节丢失。

核心矛盾：遥感图像内部"哪里该多生成细节、哪里该少生成"是空间变化的，而空间不变（spatially-invariant）的统一处理无法识别区域纹理差异、也无法自适应分配模型的表征能力。

本文目标：让扩散超分具备"纹理感知"能力——能识别低分图里的区域纹理差异，并据此自适应地把生成能力分配到真正需要细节的地方。

切入角度：用一张能量化逐像素纹理密度的图（RTDM）作为统一的纹理先验，把"哪里纹理多"这件事显式告诉扩散模型，并在条件、损失、采样三个环节同时利用它。

核心 idea：用相对纹理密度图 RTDM 三处协同地"指挥"扩散过程——既当空间条件、又当损失调制项、还当采样步数调度器，从而在纹理丰富区强化细节、在稀疏区抑制幻觉。

方法详解¶

整体框架¶

TexADiff 建在预训练 T2I 扩散先验（SDXL）之上，由三块组成：① RTDM 估计与预测模块——训练时从 HR-LR 对直接估计纹理密度图，推理时因为没有 HR，改用一个预测网络从 LR/PSR 预测 RTDM；② 轻量 MiniControlNet——把 LR、噪声 latent、RTDM 等多个异质条件在单一高效分支里融合注入，避免给每个条件各配一个 ControlNet 的参数/显存膨胀；③ 纹理感知去噪扩散模型——用 RTDM 同时做空间条件、损失调制（TADL）和采样调度（TA-sampling）。整条流程：LR 先过一个 PSNR 导向的超分得到去噪平滑的初步图 PSR，再据 PSR 与 LR 预测 RTDM，二值化后连同 LR、噪声 latent 经 MiniControlNet 注入主干 U-Net，并在训练损失和采样步数上按纹理密度区别对待，最终输出 SR 图。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：低分遥感图 LR"] --> B["PSNR 导向 SR 得到初步图 PSR"]
    B --> C["RTDM 估计与预测<br/>CCT+空间LPIPS→二值纹理密度图"]
    C --> D["MiniControlNet<br/>单分支融合 LR/噪声latent/RTDM"]
    D --> E["纹理感知去噪 U-Net（SDXL 先验，选择性解冻）"]
    C --> F["TADL 纹理感知损失<br/>纹理丰富区加权噪声预测"]
    C --> G["TA-sampling 纹理感知采样<br/>稀疏区跳过部分后期去噪步"]
    F --> E
    G --> E
    E --> H["输出：高分遥感图 SR<br/>富区细节↑ / 稀疏区抑幻觉"]

关键设计¶

1. RTDM 相对纹理密度图：用统计 + 感知双判据量化"哪里纹理多"

这是整套方法的先验来源，直接对应"模型分不清区域纹理差异"的痛点。RTDM 捕捉 HR \(I_{HR}\) 与 LR \(I_{LR}\) 之间的局部纹理密度差异，也就是退化过程中丢失的高频细节，从而刻画目标 SR 图的逐像素纹理分布。训练时因为有 HR，先用 PSNR 导向超分得到去噪、在纹理丰富区偏过平滑的初步图 \(I_{PSR}\)，再用两个互补判据：一是基于 SSIM 的局部对比一致性项 \(M_{CCT}=\mathrm{CCT}(I_{PSR},I_{HR})\)（对退化局部纹理敏感），二是空间 LPIPS 响应 \(M_{SL}\)（捕捉感知差异、对各向异性纹理鲁棒），组合成 \(M=(1-M_{SL})\cdot M_{CCT}\)，\(M\) 越低代表纹理密度差异越强。由于连续值 \(M\) 直接引导会让输出不稳定，作者按阈值 \(\tau\)（每个 batch 从 \([0.35,0.4]\) 随机采）二值化得 \(M_b\)，再经形态学腐蚀/膨胀/去小连通域后处理、8× 最大池化下采到 latent 分辨率，得到最终二值 RTDM \(\hat M_b\)。推理时 HR 不可得，改用一个 RTDM 预测网络：以 LR 与 PSR 为输入、分支编码 + 门控机制选择性送入 U-Net 解码器，以连续 \(M\) 作为伪标签用 L1 监督，输出后再用同样方式二值化。预测准确率在四个数据集为 71%–80%。

2. MiniControlNet：单分支高效融合多个异质条件

引入 RTDM 后，模型要同时吃 LR 图和 RTDM 两类条件，痛点是常规做法给每个条件各配一个 ControlNet 会让参数、推理延迟和显存都暴涨。受 ControlNext 启发，本文设计轻量 MiniControlNet：用并行条件嵌入分支分别编码不同条件，配时间感知残差块（接收 timestep）和空间特征变换层（SFT）把 RTDM 特征注入主特征流，并用 Cross Normalization 把融合后的控制特征与主干特征对齐、在首个 U-Net block 之后注入控制。整个控制分支被压到仅约 20M 参数，相对庞大的去噪 U-Net 几乎可忽略。为补偿这种压缩带来的引导能力不足、并弥合"自然图先验 ↔ 遥感数据"的域差，作者选择性解冻 U-Net 的一部分参数（首个下采样 block + 全部上采样 block），而非全冻或全调。

3. 纹理感知去噪：把 RTDM 同时用作损失调制(TADL)与采样调度(TA-sampling)

光把 RTDM 当条件还不够，本文进一步在训练和采样两端利用它。训练端提出纹理感知扩散损失 TADL：在纹理丰富区给噪声预测误差更高权重，\(L_{TADL}=\mathbb{E}\big[(1+\alpha\hat M_b)\odot\|\epsilon-\epsilon_\theta(z_t,c,t,I_{LR},\hat M_b)\|^2\big]\)（\(\alpha=1\)），逼模型把表征能力分配到高纹理区——这建立在"像素空间的空间结构在 VAE 编码后的 latent 空间基本保留"的观察上，因此 latent 域的空间调制可行有效。采样端提出纹理感知动态采样调度 TA-sampling：扩散早期步搭全局布局、后期步注入高频细节，而纹理稀疏区不需要那么多细节，于是在预设的后期时间区间（如 \(t\in[100,500]\)）对稀疏区 latent 采用隔步更新——这些被 \(\hat M_b\) 标记的稀疏区 latent 每隔一步才更新一次，中间步保持不变，等于暂停其细化，与全局更新交替进行。消融显示这种步数分配让 LPIPS/DISTS 进一步变好，说明扩散模型受益于"合理的步数分配"而非一味增加去噪步数。

损失函数 / 训练策略¶

主干训练用 TADL（上式）。RTDM 预测网络单独用 L1（对连续 \(M\) 伪标签）训练。整体在约 30 万张遥感图（LoveDA-train + DOTA-train + MillionAID 子集）上训 30,000 步、batch size 256，LR 用 Real-ESRGAN 退化管线合成（与 FaithDiff 一致），所有对比方法在同一数据/退化设置下重训以求公平。

实验关键数据¶

主实验¶

合成评测集为 AID、DOTA-Test、LoveDA-Val、RSC11，指标含参考型（PSNR/SSIM/LPIPS/DISTS）与无参考型（NIQE/BRISQUE/CLIP-IQA+）；真实集为 SIRI-WHU（无 GT，只用无参考指标 + 用户研究）。下表摘录关键感知指标（本文报告两个推理阈值，取代表值）：

数据集	指标	本文	次优	说明
LoveDA-Val	LPIPS↓	0.3253	0.3548 (PASD)	参考型感知指标领先
LoveDA-Val	DISTS↓	0.1751	0.1594 (PASD)*	*PASD 略低，本文次优
RSC11	LPIPS↓	0.4693	0.4861 (FaithDiff)	—
RSC11	DISTS↓	0.2364	0.2586 (FaithDiff)	—
AID	DISTS↓	0.1939	0.2065 (FaithDiff)	—
SIRI-WHU(真实)	用户研究↑	46.4%	36.7% (PASD)	18 位遥感专家盲选最清晰最真实

注：扩散类方法普遍 PSNR/SSIM 偏低（牺牲像素对齐换感知真实），故本文在 LPIPS/DISTS 等感知指标上"持续排进前二"是主要卖点，而非 PSNR。⚠️ 无参考指标（NIQE/BRISQUE/CLIP-IQA+）为自然图设计、对遥感未必适用，作者只当辅助参考。

消融实验¶

在 AID 上逐策略叠加（baseline 仅扩散先验）：

RTDM 条件	TADL	TA-sampling	PSNR↑	LPIPS↓	DISTS↓
–	–	–	21.86	0.4173	0.2042
✓	–	–	22.58	0.4023	0.2049
✓	–	✓	22.59	0.4001	0.2039
✓	✓	–	22.78	0.3887	0.2044
✓	✓	✓	22.78	0.3883	0.2038

RTDM 掩码变体（推理时）：

掩码变体	PSNR↑	LPIPS↓	DISTS↓	说明
全 1（全富）	21.82	0.4098	0.2059	全图当纹理丰富
全 0（全稀疏）	23.70	0.4205	0.2142	PSNR 最高但感知差
反转 RTDM	23.16	0.4305	0.2115	富/稀疏弄反，感知明显变差
预测 RTDM（本文）	22.62	0.3823	0.1953	感知最佳
GT RTDM（oracle）	22.84	0.3493	0.1831	上界，预测越准越好

关键发现¶

三策略累计生效：RTDM 条件 → +TADL → +TA-sampling 逐步把 PSNR 从 21.86 提到 22.78、LPIPS 从 0.4173 降到 0.3883，TADL 对感知质量贡献最明显。
采样步数应"按需分配"而非一味增多：TA-sampling 在稀疏区减少采样步反而让 LPIPS/DISTS 更好，挑战了"步数越多越好"的直觉。
RTDM 必须"指对方向"：把预测 RTDM 反转（富/稀疏弄反）导致感知指标显著下降，反证了正确纹理引导的有效性；全 0 掩码 PSNR 最高但感知差，说明零值在抑制细节合成、偏向像素保真。
下游获益：在 LoveDA 用 DeepLabV3+ 做语义分割，本文 mIoU 44.06 / OA 64.57 / mF1 60.27 全面优于 PASD、FaithDiff，重建质量提升直接转化为下游收益。
更省：可训练参数仅 1.3B（FaithDiff 2.6B），总参数同为 2.7B，用更少可训练参数超过全量微调的 FaithDiff（推理时间 9.0s vs 7.8s，略慢）。

亮点与洞察¶

"一图三用"的设计很经济：同一张 RTDM 同时服务条件注入、损失加权、采样调度，三处协同把"空间异质"这件事贯穿到扩散全流程，而不是只在某一环打补丁。
训练/推理 RTDM 解耦：训练用 HR 直接估计、推理用预测网络补位，巧妙绕开"推理时没有 HR"的死结，是可复用的模式。
把扩散步数当资源做空间分配：TA-sampling 提出"稀疏区隔步更新"，揭示步数应按区域纹理需求分配，对扩散加速/质量权衡有启发。
MiniControlNet 用 20M 参数融合多条件，相比多 ControlNet 大幅省参，是落地友好的工程点。

局限与展望¶

受算力限制，消融用了更小 batch、更少迭代，消融结论的强度需打折看待（作者明示）。
无参考指标（NIQE/BRISQUE/CLIP-IQA+）源自自然图域，对遥感未必可靠，缺乏公认 RSISR 基准，评测主要靠参考型感知指标 + 用户研究，客观性有限。
RTDM 预测准确率仅 71%–80%，oracle（GT RTDM）与预测之间仍有感知差距，预测网络是当前瓶颈，作者也指出其改进空间。
推理略慢于 FaithDiff（9.0s vs 7.8s @1024²），多出的 RTDM 预测与交替采样有额外开销。

评分¶

新颖性: ⭐⭐⭐⭐ 把遥感纹理不均衡显式建成 RTDM 并三处协同注入扩散，切入点新颖具体
实验充分度: ⭐⭐⭐⭐ 四合成+一真实数据集、多指标、用户研究、下游分割、丰富消融，但消融受算力限制缩水
写作质量: ⭐⭐⭐⭐ 动机—方法—实验链条清晰，图示完整，RTDM 推理流程讲得明白
价值: ⭐⭐⭐⭐ 思路（按纹理密度做空间自适应生成）可迁移到其他异质场景超分，且开源