跳转至

Low-Rank Residual Diffusion Models

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/JF-Tan/LRDM
领域: 扩散模型 / 图像恢复 / 低秩建模
关键词: 残差扩散, 低秩子空间, 图像去雨, 非对称扩散, 自适应秩

一句话总结

LRDM 发现"近域图像恢复"(去雨/去模糊/去阴影等源域与目标域已高度相似的任务)里,退化残差天然是低秩的,于是把扩散的前向过程约束在低秩残差子空间、反向过程保持全秩,并按时间步自适应调整秩,从理论上收紧变分下界、用更少采样步换来更好的恢复保真度。

研究背景与动机

领域现状:扩散模型在图像恢复(image-to-image)任务上很强。残差扩散模型(RDDM)是一支重要路线——它不直接生成清晰图,而是学退化域到清晰域之间的"残差"(pixel 级差异),前向过程按方差表 \(\{\alpha_t, \beta_t\}\) 逐步把残差 \(I_{res} = I_{in} - I_0\) 注入并叠加高斯噪声,闭式采样为 \(I_t = I_0 + \bar\alpha_t I_{res} + \bar\beta_t\epsilon\)

现有痛点:RDDM、DiffUIR、DeblurDiff 等虽模型设计各异,但都在全秩空间里跑扩散,即每一步都在完整的像素/隐空间里反复操作。然而在很多实际恢复场景里,源域(退化图)与目标域(清晰图)在像素空间已经高度相似——作者称之为"近域恢复"(near-domain restoration),此时残差本质是稀疏的、只占一个低维子空间。在这种稀疏残差空间里用标准全秩扩散,生成过程要去探索一个大部分为空的语义空间,采样既低效又不稳。

核心矛盾:残差实际只活在一个低维子空间里,全秩扩散却给残差语义空间引入了过多自由度——表达能力的冗余反而拖慢采样、损害稳定重建。

本文目标:为近域恢复显式建模残差的低维结构,把扩散搬进低秩残差子空间,既要效率(更少采样步)又要保真(不丢细节)。

切入角度:作者对去雨数据(Raindrop)做残差的奇异值分析,发现残差的奇异值谱急剧衰减——前 10 个秩就累积了约 90% 的能量;用截断 SVD 只保留少量低秩成分重建,与原图差别极小。这从经验上确认了残差的强低秩性。

核心 idea:把扩散建在低秩残差子空间里。理论上证明"残差落在低秩子空间"能收紧变分下界(VLB),工程上用"前向低秩、反向全秩"的非对称过程 + 随时间步自适应调秩来落地。

方法详解

整体框架

LRDM 的出发点是一条经验观察(残差低秩)和一条理论保证(低秩 → 更紧 VLB),整套方法围绕"如何安全地把扩散约束进低秩子空间又不破坏反向重建"展开,由三块构成:(1) 低秩残差假设给出理论地基,证明把生成过程限制到低秩子空间会得到严格更紧的变分下界;(2) 非对称残差扩散过程是核心机制——前向只在低秩子空间 \(S_k\) 注入残差信号、反向解放到全秩空间做重建,避免低秩参数化无法匹配全秩后验的模型失配;(3) 自适应秩选择承认残差复杂度随扩散时间步演变,用一个秩调度 \(k(t)\) 动态调整子空间维度,让模型容量与每一步的结构复杂度对齐。这是一篇以理论与采样机制改进为主的工作,没有多模块串行的 pipeline,故不配框架图,下面用公式逐块讲清。

关键设计

1. 低秩残差假设:证明把扩散限制到低秩子空间会收紧变分下界

这是全文地基。设残差 \(I_{res}\in\mathbb{R}^D\),其未中心化协方差 \(\Sigma = \mathbb{E}[I_{res}I_{res}^\top]\)。假设近域恢复下 \(\Sigma\) 的特征值 \(\lambda_1\ge\cdots\ge\lambda_D\ge 0\) 快速谱衰减,于是存在一个秩 \(k\ll D\) 的子空间 \(S_k\),使投影误差 \(\mathbb{E}[\|I_{res} - Q_k(I_{res})\|_2^2] = \sum_{i=k+1}^D \lambda_i \le \epsilon\) 被任意小阈值界住(\(Q_k\) 为到 \(S_k\) 的正交投影)。基于此,把 \(I_t - I_0\) 投到两个正交子空间:在 \(S_k\)\(I_{t,k} = \bar\alpha_t I_{res} + \bar\beta_t Q_k(\epsilon)\) 含全部残差信息;在补空间 \(S_k^\perp\)\(I_{t,k}^\perp = \bar\beta_t Q_k^\perp(\epsilon)\) 只是纯噪声、不含残差信息。于是 \(q(I_t|I_0, I_{res})\) 自然分解成"一条携带全部残差的 RDDM 过程 + 一条纯 DDPM 噪声过程"。变分损失也随之分解 \(L_{t-1} = L_{t-1,k}(\theta) + L_{t-1,k}^\perp(\theta)\),由 KL 散度非负 \(L_{t-1,k}^\perp(\theta)\ge 0\),立刻得到 \(L_{t-1}(\theta) = L_{t-1,k}(\theta) + L_{t-1,k}^\perp(\theta)\ge L_{t-1,k}(\theta)\)。由于优化扩散等价于最大化 VLB(即最小化 \(L_{t-1}\)),而 \(L_{t-1,k}\) 是只在信息性低秩空间 \(S_k\) 上算的精确损失,这条不等式给出了"把生成过程限制到低秩子空间内在地收紧 VLB"的理论保证——补空间那条纯噪声链是白白付出的代价。

2. 非对称残差扩散过程:前向低秩约束信号、反向全秩保表达力

直接把整个扩散搬进低秩空间会出问题。把残差换成低秩残差 \(I_{res}^{(k)}\triangleq Q_k(I_{res})\),前向过程的高斯转移均值被约束在低秩空间 \(q(I_t|I_{t-1}) := \mathcal{N}(I_t; I_{t-1} + \alpha_t I_{res}^{(k)}, \beta_t^2 I)\),任意 \(t\) 的采样 \(I_t = I_0 + \bar\alpha_t Q_k(I_{res}) + \bar\beta_t\epsilon\)。但注意:尽管加噪信号是低秩的,由于各向同性噪声项 \(\bar\beta_t\epsilon\) 的存在,\(I_t\) 本身仍是全秩的,因此真实后验 \(q(I_{t-1}|I_t, I_0, I_{res}^{(k)})\) 是全秩各向同性高斯。如果强行让学到的反向核 \(p_\theta(I_{t-1}|I_t)\) 也落在低秩子空间,就会产生根本性的模型失配——低秩参数化无法表示全秩后验,必然丢掉匹配真实条件分布所需的成分。LRDM 的"非对称"正是为此:前向只在 \(S_k\) 注入信号(起到正则化学到的信号先验、防止各向同性噪声污染背景不变量的作用),反向模型 \(p_\theta\) 不受限、在全秩环境空间 \(\mathbb{R}^D\) 操作(保留逼近全秩后验的表达力)。这样既享受了低秩前向带来的更紧变分界与归纳偏置,又不牺牲重建保真度。

3. 自适应秩选择:让子空间秩随扩散时间步动态变化

非对称过程默认整个前向用固定秩,这太死板:图像的结构统计随时间步演变——早期由粗糙、高能量成分主导,后期偏精细细节与噪声样变化。LRDM 因此把残差分解到时变维度的子空间,引入秩调度 \(k(t)\),前向写成 \(I_t = I_0 + \bar\alpha_t Q_k^{(t)}(I_{res}) + \bar\beta_t\epsilon\)。作者给出四种代表性调度:线性递增 \(k_{LI}(t) = \lceil\frac{t}{T}R_m\rceil\)、线性递减 \(k_{LD}(t) = \lceil(1-\frac{t}{T})R_m\rceil\)、多项式递增 \(k_{PI}\) 与多项式递减 \(k_{PD}\)(后两者用包络函数 \(\text{envelope}(d;p) = 1 + a d^p + b d^{p+1} + c d^{p+2}\)\(d=t/T\),系数 \(a=-\frac{(p+1)(p+2)}{2}\)\(b=p(p+2)\)\(c=-\frac{p(p+1)}{2}\))。其中 \(R_m\) 为最大秩。实验表明调度方式对收敛稳定性与感知质量影响显著,多项式递减(PD)整体最优——它早期保持低秩正则、后期给足容量恢复细节,恰好契合扩散"由粗到细"的固有进程。

损失函数 / 训练策略

沿用 RDDM 的两项损失:残差预测 \(\mathbb{E}[\|I_{res} - I_{res}^\theta(I_t, t, I_{in})\|^2]\) 与噪声预测 \(\mathbb{E}[\|\epsilon - \epsilon_\theta(I_t, t, I_{in})\|^2]\),训练输入 \(I_t\)\(I_0\)\(I_{res}\)\(\epsilon\) 按前向闭式合成。区别在于前向的残差被替换为低秩投影残差 \(Q_k^{(t)}(I_{res})\),反向网络仍在全秩空间预测。最优配置为 PD 调度、多项式阶 \(p\) 取较低值(如 \(p=1,2\) 表现更好)。

实验关键数据

主实验

评测覆盖去雨(Raindrop、Rain1400)、去模糊(GoPro、RealBlur-J/R)、去阴影(ISTD)、图像修复(CelebA-HQ),指标为 PSNR/SSIM(均↑)。

数据集 指标 LRDM(本文) RDDM 最强对比基线
Raindrop(去雨滴) PSNR / SSIM 33.09 / 0.967 32.51 / 0.956 Restormer 31.67 / 0.958
Rain1400(去雨) PSNR / SSIM 34.39 / 0.954 32.21 / 0.952 Restormer 33.68 / 0.939
RealBlur-J(真实去模糊) PSNR / SSIM 30.21 / 0.933 AdaRevD 30.12 / 0.894
RealBlur-R(真实去模糊) PSNR / SSIM 37.92 / 0.976 AdaRevD 36.53 / 0.957

Raindrop 上 LRDM 取得最佳 SSIM、第二高 PSNR(且为所有扩散类模型第一);Rain1400 取得最佳整体表现;两个真实去模糊基准上 LRDM 在本文对比中拿到最佳分数(SSIM 提升尤为明显,如 RealBlur-J 0.933 vs AdaRevD 0.894)。作者指出对扩散类方法提升显著,对顶尖非扩散基线优势较小但仍为正。

消融实验

固定秩消融(Fig. 6/7)与自适应秩调度消融(Tab. 3/4):

配置 Raindrop PSNR/SSIM Rain1400 PSNR/SSIM 说明
固定低秩 r=20/40 已可媲美甚至超过全秩(w.o. LR)基线
lin increase 32.95 / 0.9670 33.01 / 0.9535 线性递增
lin decrease 32.92 / 0.9668 32.79 / 0.9534 线性递减
poly increase 32.69 / 0.9650 32.88 / 0.9516 多项式递增
poly decrease (PD) 33.03 / 0.9669 33.39 / 0.9540 动态调度中整体最优

多项式阶消融(PD):Raindrop 上 \(p=2\) 达 33.09/0.9670 最佳,Rain1400 上 \(p=1\) 达 34.39/0.9542 最佳;总体低阶调度表现更好。

关键发现

  • 存在最优中间秩:所有数据集上 PSNR/SSIM 随秩从极低快速上升、在中等秩(如 Raindrop 约 rank 80、Rain1400 约 rank 100)达峰,再向全秩略降——证明适度低秩约束是有益的归纳偏置,全秩反而引入冗余自由度。
  • 动态秩优于固定秩,PD 最佳:让秩"先高后低地多项式递减"最契合扩散由粗到细的进程,低阶 \(p\) 更稳。
  • 低秩残差建模跨退化普适:在合成与真实退化、去雨/去模糊/去阴影/修复上都有效,且用更少采样步即可达到 SOTA 保真。
  • 固定低秩已足够、动态秩再加成:固定 r=20/40 就能媲美甚至超过全秩基线(Fig. 7),说明大部分任务相关残差结构确实集中在少数主成分;在此之上叠加 PD 动态调度进一步提升,二者贡献可叠加。

亮点与洞察

  • 从"现象观察"到"理论保证"再到"机制落地"闭环:先用奇异值谱衰减(前 10 秩占 ~90% 能量)观察到残差低秩,再证明低秩 → 更紧 VLB,最后用非对称过程把理论变成可训练机制——动机链非常扎实。
  • "非对称"是点睛之笔:识别出"前向信号低秩但 \(I_t\) 因噪声仍全秩、故后验全秩"这一关键,从而前向约束、反向解放,避开了"全程低秩"必然的模型失配。这个"在哪一端施加结构约束才不破坏分布匹配"的洞察可迁移到其他带结构先验的扩散设计。
  • 低秩 = 免费的归纳偏置:把先验做进前向过程而非额外正则项,既收紧变分界又减少采样步,几乎零额外推理成本。

局限与展望

  • 核心假设依赖"近域":低秩残差假设只在源/目标域已高度相似时成立,对源目标域差异大的恢复/转换任务(如严重退化、跨模态)可能失效。⚠️ 论文未给出远域场景的失败分析。
  • 秩调度仍是人工设计的确定性函数\(k(t)\) 在四类调度里挑,未做端到端学习;最优阶 \(p\) 需逐数据集调(Raindrop 偏好 \(p=2\)、Rain1400 偏好 \(p=1\)),泛化到新任务需调参。
  • 最大秩 \(R_m\)、阈值等超参对结果敏感:固定秩消融显示峰值秩因数据集而异,实际部署需针对性选择。
  • 理论假设的理想化\(\epsilon\to 0\) 的"理想近域极限"在真实数据上只是近似,补空间损失虽非负但被当作可忽略代价。

相关工作与启发

  • vs RDDM [27]:同为残差扩散,RDDM 在全秩空间学残差引导的扩散;LRDM 指出近域残差本质低秩、把前向约束进低秩子空间,去雨/去模糊上全面超越(如 Rain1400 34.39 vs 32.21 dB)。
  • vs DiffUIR / DeblurDiff:它们各自用选择性沙漏结构、隐式模糊核引导,但都保留全秩生成过程;LRDM 从"残差子空间维度"这一新维度做改进,正交于它们的结构设计。
  • vs 视觉中的传统低秩方法(RPCA / 低秩补全):传统低秩用于去噪/背景建模/对齐等;LRDM 首次把"近域恢复残差低秩"这一观察深度融进扩散管线(区别于此前仅针对高光谱谱低秩的尝试)。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "近域残差低秩 + 非对称低秩/全秩扩散 + 自适应秩"是新颖且有理论支撑的视角。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖去雨/去模糊/去阴影/修复多任务、固定秩与动态秩双消融充分;但部分对比缺统一采样步数/速度的定量对照,"更少步"未给精确数字。
  • 写作质量: ⭐⭐⭐⭐ 观察—理论—机制层层递进、推导清晰;变分分解处符号密集,需对照公式细读。
  • 价值: ⭐⭐⭐⭐ 为近域恢复给出高效且理论可解释的扩散范式,对去雨/去模糊等实用任务有直接价值,远域适用性待拓展。