Low-Rank Residual Diffusion Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/JF-Tan/LRDM
领域: 扩散模型 / 图像恢复 / 低秩建模
关键词: 残差扩散, 低秩子空间, 图像去雨, 非对称扩散, 自适应秩

一句话总结¶

LRDM 发现"近域图像恢复"（去雨/去模糊/去阴影等源域与目标域已高度相似的任务）里，退化残差天然是低秩的，于是把扩散的前向过程约束在低秩残差子空间、反向过程保持全秩，并按时间步自适应调整秩，从理论上收紧变分下界、用更少采样步换来更好的恢复保真度。

研究背景与动机¶

领域现状：扩散模型在图像恢复（image-to-image）任务上很强。残差扩散模型（RDDM）是一支重要路线——它不直接生成清晰图，而是学退化域到清晰域之间的"残差"（pixel 级差异），前向过程按方差表 \(\{\alpha_t, \beta_t\}\) 逐步把残差 \(I_{res} = I_{in} - I_0\) 注入并叠加高斯噪声，闭式采样为 \(I_t = I_0 + \bar\alpha_t I_{res} + \bar\beta_t\epsilon\)。

现有痛点：RDDM、DiffUIR、DeblurDiff 等虽模型设计各异，但都在全秩空间里跑扩散，即每一步都在完整的像素/隐空间里反复操作。然而在很多实际恢复场景里，源域（退化图）与目标域（清晰图）在像素空间已经高度相似——作者称之为"近域恢复"（near-domain restoration），此时残差本质是稀疏的、只占一个低维子空间。在这种稀疏残差空间里用标准全秩扩散，生成过程要去探索一个大部分为空的语义空间，采样既低效又不稳。

核心矛盾：残差实际只活在一个低维子空间里，全秩扩散却给残差语义空间引入了过多自由度——表达能力的冗余反而拖慢采样、损害稳定重建。

本文目标：为近域恢复显式建模残差的低维结构，把扩散搬进低秩残差子空间，既要效率（更少采样步）又要保真（不丢细节）。

切入角度：作者对去雨数据（Raindrop）做残差的奇异值分析，发现残差的奇异值谱急剧衰减——前 10 个秩就累积了约 90% 的能量；用截断 SVD 只保留少量低秩成分重建，与原图差别极小。这从经验上确认了残差的强低秩性。

核心 idea：把扩散建在低秩残差子空间里。理论上证明"残差落在低秩子空间"能收紧变分下界（VLB），工程上用"前向低秩、反向全秩"的非对称过程 + 随时间步自适应调秩来落地。

方法详解¶

整体框架¶

LRDM 的出发点是一条经验观察（残差低秩）和一条理论保证（低秩 → 更紧 VLB），整套方法围绕"如何安全地把扩散约束进低秩子空间又不破坏反向重建"展开，由三块构成：(1) 低秩残差假设给出理论地基，证明把生成过程限制到低秩子空间会得到严格更紧的变分下界；(2) 非对称残差扩散过程是核心机制——前向只在低秩子空间 \(S_k\) 注入残差信号、反向解放到全秩空间做重建，避免低秩参数化无法匹配全秩后验的模型失配；(3) 自适应秩选择承认残差复杂度随扩散时间步演变，用一个秩调度 \(k(t)\) 动态调整子空间维度，让模型容量与每一步的结构复杂度对齐。这是一篇以理论与采样机制改进为主的工作，没有多模块串行的 pipeline，故不配框架图，下面用公式逐块讲清。

关键设计¶

1. 低秩残差假设：证明把扩散限制到低秩子空间会收紧变分下界

这是全文地基。设残差 \(I_{res}\in\mathbb{R}^D\)，其未中心化协方差 \(\Sigma = \mathbb{E}[I_{res}I_{res}^\top]\)。假设近域恢复下 \(\Sigma\) 的特征值 \(\lambda_1\ge\cdots\ge\lambda_D\ge 0\) 快速谱衰减，于是存在一个秩 \(k\ll D\) 的子空间 \(S_k\)，使投影误差 \(\mathbb{E}[\|I_{res} - Q_k(I_{res})\|_2^2] = \sum_{i=k+1}^D \lambda_i \le \epsilon\) 被任意小阈值界住（\(Q_k\) 为到 \(S_k\) 的正交投影）。基于此，把 \(I_t - I_0\) 投到两个正交子空间：在 \(S_k\) 内 \(I_{t,k} = \bar\alpha_t I_{res} + \bar\beta_t Q_k(\epsilon)\) 含全部残差信息；在补空间 \(S_k^\perp\) 内 \(I_{t,k}^\perp = \bar\beta_t Q_k^\perp(\epsilon)\) 只是纯噪声、不含残差信息。于是 \(q(I_t|I_0, I_{res})\) 自然分解成"一条携带全部残差的 RDDM 过程 + 一条纯 DDPM 噪声过程"。变分损失也随之分解 \(L_{t-1} = L_{t-1,k}(\theta) + L_{t-1,k}^\perp(\theta)\)，由 KL 散度非负 \(L_{t-1,k}^\perp(\theta)\ge 0\)，立刻得到 \(L_{t-1}(\theta) = L_{t-1,k}(\theta) + L_{t-1,k}^\perp(\theta)\ge L_{t-1,k}(\theta)\)。由于优化扩散等价于最大化 VLB（即最小化 \(L_{t-1}\)），而 \(L_{t-1,k}\) 是只在信息性低秩空间 \(S_k\) 上算的精确损失，这条不等式给出了"把生成过程限制到低秩子空间内在地收紧 VLB"的理论保证——补空间那条纯噪声链是白白付出的代价。

2. 非对称残差扩散过程：前向低秩约束信号、反向全秩保表达力

直接把整个扩散搬进低秩空间会出问题。把残差换成低秩残差 \(I_{res}^{(k)}\triangleq Q_k(I_{res})\)，前向过程的高斯转移均值被约束在低秩空间 \(q(I_t|I_{t-1}) := \mathcal{N}(I_t; I_{t-1} + \alpha_t I_{res}^{(k)}, \beta_t^2 I)\)，任意 \(t\) 的采样 \(I_t = I_0 + \bar\alpha_t Q_k(I_{res}) + \bar\beta_t\epsilon\)。但注意：尽管加噪信号是低秩的，由于各向同性噪声项 \(\bar\beta_t\epsilon\) 的存在，\(I_t\) 本身仍是全秩的，因此真实后验 \(q(I_{t-1}|I_t, I_0, I_{res}^{(k)})\) 是全秩各向同性高斯。如果强行让学到的反向核 \(p_\theta(I_{t-1}|I_t)\) 也落在低秩子空间，就会产生根本性的模型失配——低秩参数化无法表示全秩后验，必然丢掉匹配真实条件分布所需的成分。LRDM 的"非对称"正是为此：前向只在 \(S_k\) 注入信号（起到正则化学到的信号先验、防止各向同性噪声污染背景不变量的作用），反向模型 \(p_\theta\) 不受限、在全秩环境空间 \(\mathbb{R}^D\) 操作（保留逼近全秩后验的表达力）。这样既享受了低秩前向带来的更紧变分界与归纳偏置，又不牺牲重建保真度。

3. 自适应秩选择：让子空间秩随扩散时间步动态变化

非对称过程默认整个前向用固定秩，这太死板：图像的结构统计随时间步演变——早期由粗糙、高能量成分主导，后期偏精细细节与噪声样变化。LRDM 因此把残差分解到时变维度的子空间，引入秩调度 \(k(t)\)，前向写成 \(I_t = I_0 + \bar\alpha_t Q_k^{(t)}(I_{res}) + \bar\beta_t\epsilon\)。作者给出四种代表性调度：线性递增 \(k_{LI}(t) = \lceil\frac{t}{T}R_m\rceil\)、线性递减 \(k_{LD}(t) = \lceil(1-\frac{t}{T})R_m\rceil\)、多项式递增 \(k_{PI}\) 与多项式递减 \(k_{PD}\)（后两者用包络函数 \(\text{envelope}(d;p) = 1 + a d^p + b d^{p+1} + c d^{p+2}\)，\(d=t/T\)，系数 \(a=-\frac{(p+1)(p+2)}{2}\)、\(b=p(p+2)\)、\(c=-\frac{p(p+1)}{2}\)）。其中 \(R_m\) 为最大秩。实验表明调度方式对收敛稳定性与感知质量影响显著，多项式递减（PD）整体最优——它早期保持低秩正则、后期给足容量恢复细节，恰好契合扩散"由粗到细"的固有进程。

损失函数 / 训练策略¶

沿用 RDDM 的两项损失：残差预测 \(\mathbb{E}[\|I_{res} - I_{res}^\theta(I_t, t, I_{in})\|^2]\) 与噪声预测 \(\mathbb{E}[\|\epsilon - \epsilon_\theta(I_t, t, I_{in})\|^2]\)，训练输入 \(I_t\) 由 \(I_0\)、\(I_{res}\)、\(\epsilon\) 按前向闭式合成。区别在于前向的残差被替换为低秩投影残差 \(Q_k^{(t)}(I_{res})\)，反向网络仍在全秩空间预测。最优配置为 PD 调度、多项式阶 \(p\) 取较低值（如 \(p=1,2\) 表现更好）。

实验关键数据¶

主实验¶

评测覆盖去雨（Raindrop、Rain1400）、去模糊（GoPro、RealBlur-J/R）、去阴影（ISTD）、图像修复（CelebA-HQ），指标为 PSNR/SSIM（均↑）。

数据集	指标	LRDM（本文）	RDDM	最强对比基线
Raindrop（去雨滴）	PSNR / SSIM	33.09 / 0.967	32.51 / 0.956	Restormer 31.67 / 0.958
Rain1400（去雨）	PSNR / SSIM	34.39 / 0.954	32.21 / 0.952	Restormer 33.68 / 0.939
RealBlur-J（真实去模糊）	PSNR / SSIM	30.21 / 0.933	—	AdaRevD 30.12 / 0.894
RealBlur-R（真实去模糊）	PSNR / SSIM	37.92 / 0.976	—	AdaRevD 36.53 / 0.957

Raindrop 上 LRDM 取得最佳 SSIM、第二高 PSNR（且为所有扩散类模型第一）；Rain1400 取得最佳整体表现；两个真实去模糊基准上 LRDM 在本文对比中拿到最佳分数（SSIM 提升尤为明显，如 RealBlur-J 0.933 vs AdaRevD 0.894）。作者指出对扩散类方法提升显著，对顶尖非扩散基线优势较小但仍为正。

消融实验¶

固定秩消融（Fig. 6/7）与自适应秩调度消融（Tab. 3/4）：

配置	Raindrop PSNR/SSIM	Rain1400 PSNR/SSIM	说明
固定低秩 r=20/40	—	—	已可媲美甚至超过全秩（w.o. LR）基线
lin increase	32.95 / 0.9670	33.01 / 0.9535	线性递增
lin decrease	32.92 / 0.9668	32.79 / 0.9534	线性递减
poly increase	32.69 / 0.9650	32.88 / 0.9516	多项式递增
poly decrease (PD)	33.03 / 0.9669	33.39 / 0.9540	动态调度中整体最优

多项式阶消融（PD）：Raindrop 上 \(p=2\) 达 33.09/0.9670 最佳，Rain1400 上 \(p=1\) 达 34.39/0.9542 最佳；总体低阶调度表现更好。

关键发现¶

存在最优中间秩：所有数据集上 PSNR/SSIM 随秩从极低快速上升、在中等秩（如 Raindrop 约 rank 80、Rain1400 约 rank 100）达峰，再向全秩略降——证明适度低秩约束是有益的归纳偏置，全秩反而引入冗余自由度。
动态秩优于固定秩，PD 最佳：让秩"先高后低地多项式递减"最契合扩散由粗到细的进程，低阶 \(p\) 更稳。
低秩残差建模跨退化普适：在合成与真实退化、去雨/去模糊/去阴影/修复上都有效，且用更少采样步即可达到 SOTA 保真。
固定低秩已足够、动态秩再加成：固定 r=20/40 就能媲美甚至超过全秩基线（Fig. 7），说明大部分任务相关残差结构确实集中在少数主成分；在此之上叠加 PD 动态调度进一步提升，二者贡献可叠加。

亮点与洞察¶

从"现象观察"到"理论保证"再到"机制落地"闭环：先用奇异值谱衰减（前 10 秩占 ~90% 能量）观察到残差低秩，再证明低秩 → 更紧 VLB，最后用非对称过程把理论变成可训练机制——动机链非常扎实。
"非对称"是点睛之笔：识别出"前向信号低秩但 \(I_t\) 因噪声仍全秩、故后验全秩"这一关键，从而前向约束、反向解放，避开了"全程低秩"必然的模型失配。这个"在哪一端施加结构约束才不破坏分布匹配"的洞察可迁移到其他带结构先验的扩散设计。
低秩 = 免费的归纳偏置：把先验做进前向过程而非额外正则项，既收紧变分界又减少采样步，几乎零额外推理成本。

局限与展望¶

核心假设依赖"近域"：低秩残差假设只在源/目标域已高度相似时成立，对源目标域差异大的恢复/转换任务（如严重退化、跨模态）可能失效。⚠️ 论文未给出远域场景的失败分析。
秩调度仍是人工设计的确定性函数：\(k(t)\) 在四类调度里挑，未做端到端学习；最优阶 \(p\) 需逐数据集调（Raindrop 偏好 \(p=2\)、Rain1400 偏好 \(p=1\)），泛化到新任务需调参。
最大秩 \(R_m\)、阈值等超参对结果敏感：固定秩消融显示峰值秩因数据集而异，实际部署需针对性选择。
理论假设的理想化：\(\epsilon\to 0\) 的"理想近域极限"在真实数据上只是近似，补空间损失虽非负但被当作可忽略代价。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "近域残差低秩 + 非对称低秩/全秩扩散 + 自适应秩"是新颖且有理论支撑的视角。
实验充分度: ⭐⭐⭐⭐ 覆盖去雨/去模糊/去阴影/修复多任务、固定秩与动态秩双消融充分；但部分对比缺统一采样步数/速度的定量对照，"更少步"未给精确数字。
写作质量: ⭐⭐⭐⭐ 观察—理论—机制层层递进、推导清晰；变分分解处符号密集，需对照公式细读。
价值: ⭐⭐⭐⭐ 为近域恢复给出高效且理论可解释的扩散范式，对去雨/去模糊等实用任务有直接价值，远域适用性待拓展。