CARD: Correlation Aware Restoration with Diffusion¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（论文未公开提供，基于公开 DDRM 代码库改造）
领域: 扩散模型 / 图像恢复
关键词: 相关噪声, 扩散逆问题, DDRM, 噪声白化, 协方差估计

一句话总结¶

CARD 把 DDRM 这套扩散逆问题求解器从「i.i.d. 高斯噪声」假设推广到真实传感器的「空间相关噪声」——先用协方差矩阵的逆平方根 \(\Sigma^{-1/2}\) 把观测白化成 i.i.d.，再在白化后的测量空间里跑 DDRM 的闭式更新，全程免训练，在合成相关噪声和作者新采集的真实 rolling-shutter 数据集 CIN-D 上的去噪/去模糊/超分都稳定超过现有方法。

研究背景与动机¶

领域现状：近几年图像恢复（去噪、去模糊、超分）的 SOTA 大量来自扩散先验方法。其中 DDRM（Denoising Diffusion Restoration Model）特别有代表性：它把一个预训练的无条件扩散模型当先验，对退化算子 \(H\) 做奇异值分解、在频谱基里推出闭式的后验更新，无需为每个任务重新训练就能解线性逆问题，效率很高。

现有痛点：这一整套方法（从经典 BM3D、监督学习 Restormer/DnCNN，到 DDRM/DDNM 这些扩散方法）几乎都建立在一个共同假设上——噪声是独立同分布（i.i.d.）的高斯噪声。但真实相机，尤其是手机和单反广泛采用的 rolling-shutter（卷帘快门）CMOS 传感器，因为逐行读出的电路机制，噪声在空间上是强相关的：作者在暗帧里能直接看到条纹状（row banding）的相关噪声结构。一旦把这些方法搬到真实传感器噪声上，恢复质量明显下降。

核心矛盾：DDRM 之所以能推出闭式更新，关键正是 i.i.d. 假设——在频谱基下每个分量退化成一维独立高斯，才能逐分量解析求解。而相关噪声的协方差 \(\Sigma\) 不是对角阵，它把各个频谱分量耦合在一起，DDRM 赖以工作的闭式条件化直接失效。

现有相关噪声方法的不足：已有处理相关噪声的工作（信息论监督、空间自适应损失、burst 伪标签、结构化噪声建模等）几乎都需要重新训练，而且多数是用启发式去近似相关性，而非直接对协方差建模。

本文目标 / 核心 idea：能不能在不重训、不改预训练扩散模型的前提下，让 DDRM 直接吃下相关噪声？作者的切入点很直接——既然 DDRM 只在 i.i.d. 下成立，那就先把相关噪声「掰直」成 i.i.d.：用噪声协方差的逆平方根对观测做白化预处理，把问题搬进一个噪声重新独立的等价测量空间，再在那里原封不动地复用 DDRM 的闭式采样。一句话：先白化、再 DDRM。

方法详解¶

整体框架¶

CARD 是一个完全免训练的两步框架，只需要两样东西：一个噪声协方差矩阵 \(\Sigma\) 的估计、一个预训练的无条件扩散模型。

退化观测模型从标准 DDRM 的

\[y = Hx_0 + z,\quad z \sim \mathcal{N}(0,\sigma_y^2 I)\]

推广为带相关噪声的版本：

\[y = Hx_0 + n,\quad n \sim \mathcal{N}(0,\sigma_y^2\Sigma)\]

其中 \(y\) 是退化观测、\(H\) 是退化算子、\(x_0\) 是待恢复的干净图像、\(\Sigma\) 是对称正定的协方差矩阵，捕捉像素间的空间相关性。整条流水线是：先（在真实场景下）从暗帧或噪声本身盲估出 \(\Sigma\) → 用 \(\Sigma^{-1/2}\) 白化观测，把相关噪声转回 i.i.d. → 在白化后的测量空间对白化算子 \(\tilde H\) 做 SVD、跑 DDRM 的闭式更新 → 输出恢复图像。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：相关噪声观测 y"] --> C
    B["盲协方差估计<br/>暗帧 / 平坦块采样 → Σ"] --> C["白化预处理<br/>Σ⁻¹ᐟ² 左乘，相关噪声转 i.i.d."]
    C --> D["白化空间 DDRM 更新<br/>对 H̃ 做 SVD，闭式采样"]
    D --> E["恢复图像 x₀"]

关键设计¶

1. 白化预处理：用 \(\Sigma^{-1/2}\) 把相关噪声掰直成 i.i.d.

这一步正面解决「相关噪声让 DDRM 闭式更新失效」的核心矛盾。做法是对整个测量方程左乘协方差的对称逆平方根 \(\Sigma^{-1/2}\)：

\[\Sigma^{-1/2}y = \Sigma^{-1/2}Hx_0 + \Sigma^{-1/2}n\]

令 \(\tilde y = \Sigma^{-1/2}y\)、\(\tilde H = \Sigma^{-1/2}H\)、\(\tilde n = \Sigma^{-1/2}n\)，则白化后的噪声 \(\tilde n \sim \mathcal{N}(0,\sigma_y^2 I)\) 重新变成了 i.i.d.，得到一个标准形式的测量 \(\tilde y = \tilde H x_0 + \tilde n\)。这正好满足 DDRM 的独立性要求。直觉上，\(\Sigma^{-1/2}\) 是一个「去相关」线性变换：它把噪声的相关结构吸收进退化算子（\(H \to \tilde H\)），代价是退化算子变得更复杂，但噪声侧干净了。实现上不直接求逆平方根，而是对 \(\Sigma\) 做 Cholesky 分解 \(LL^\top=\Sigma\)，取 \(W=L^{-1}\)，使 \(W\Sigma W^\top=I\)，计算高效且数值稳定。

2. 白化空间的 DDRM 闭式更新：在 \(\tilde H\) 的频谱基里复用 DDRM

白化只是把问题搬了个家，真正的恢复仍要靠扩散先验。CARD 把 DDRM 整套搬进白化测量空间：对白化算子做 SVD \(\tilde H = \tilde U \tilde S \tilde V^\top\)，把变量投影到这个新频谱基

\[\bar{\tilde x}_t = \tilde V^\top x_t,\quad \bar{\tilde y} = \tilde S^\dagger \tilde U^\top \tilde y\]

关键区别在于：原始 DDRM 的逐步更新依赖原算子 \(H\) 的奇异值 \(s_i\)，而 CARD 改用白化算子 \(\tilde H\) 的奇异值 \(\tilde s_i\) 来驱动同一套闭式插值更新（在网络预测的干净分量 \(x_{\theta,t}=f_\theta(x_{t+1},t+1)\) 与白化测量之间插值）。因为白化后噪声已是 i.i.d.，每个频谱分量重新退化为一维独立高斯，DDRM 的闭式后验得以成立——于是 CARD 继承了 DDRM 的采样效率（论文用 20 次 NFE），却把适用范围扩到相关噪声。它与预训练模型无关，可以即插即用替换任意线性恢复任务里的 DDRM。⚠️ 完整的白化更新方程作者放在补充材料，正文只给了投影式。

3. 盲协方差估计 + CIN-D 数据集：让方法在真实相机上能落地

白化的前提是拿到 \(\Sigma\)，这一步解决「真实场景从哪儿弄协方差」的问题。理想情况下用暗帧（盖上镜头盖、同曝光同增益拍摄）估计：假设暗帧近似零均值、在小块内局部平稳，对图像块计算样本协方差即得 \(\Sigma\)。没有标定数据（暗帧）时，CARD 还能全盲估计：从噪声图本身切非重叠块，用基于梯度的打分准则挑出空间平坦区域（假设平坦块由噪声主导），对这些块向量算样本协方差再做 Cholesky 分解得到白化算子。为支撑「相关噪声确实是真问题」这一论点，作者额外采集并贡献了 CIN-D（Correlated Image Noise Dataset）：用 FLIR Blackfly 卷帘机器视觉相机拍 100 个场景、各 3 个噪声等级（联合调增益/曝光/光圈），配长曝光图作无噪 GT 和暗帧供协方差估计，共 400 张，填补了「公开数据集都只有 i.i.d. 噪声」的空白。此外为高分辨率图像，白化和噪声采样按非重叠 tile 分块进行（传感器相关性通常是短程的，分块是合理近似）。

损失函数 / 训练策略¶

CARD 无任何训练，所有超参沿用 DDRM，仅把测量参数 \(\eta\) 针对相关噪声调过（网格搜索取 \(\eta=0.80\)，\(\eta_b=1.0\) 与 DDRM 一致）。采用与 1000 步预训练模型相同的均匀时间步表，每个样本 20 次神经网络评估（NFE）。

实验关键数据¶

评测三类线性恢复任务：相关高斯噪声下的去噪、三种核（均匀/各向同性高斯/各向异性高斯）的去模糊、2×/4× 超分。在 ImageNet、LSUN-Bed/Cat（注入合成相关噪声 \(\Sigma_{\text{synth}}=\sigma^2(I+\alpha B)+\varepsilon I\)）和真实数据集 CIN-D 上评估，指标为 PSNR / LPIPS（SSIM 在补充材料）。

主实验¶

ImageNet 去噪（PSNR↑ / LPIPS↓，三种噪声强度 \(\sigma_0\)）：

方法	\(\sigma_0\)=0.1	\(\sigma_0\)=0.5	\(\sigma_0\)=0.9
Restormer（i.i.d. 监督）	31.3 / 0.10	23.9 / 0.28	18.5 / 0.59
BM3D（i.i.d. 先验）	30.1 / 0.11	25.8 / 0.33	22.4 / 0.50
DDRM（i.i.d. 扩散，最强基线）	31.0 / 0.14	24.8 / 0.33	22.7 / 0.40
CARD（本文）	34.0 / 0.07	29.1 / 0.15	26.7 / 0.22

CARD 在所有噪声强度上全面领先，且优势随噪声增大而拉大：高噪声 \(\sigma_0\)=0.9 时 DDRM 已不稳定（22.7 dB），CARD 仍保持 26.7 dB。去模糊（高斯核）与超分同样领先：

任务 / ImageNet	DDRM	CARD（本文）
高斯去模糊 \(\sigma_0\)=0.2	24.3 / 0.36	26.6 / 0.23
高斯去模糊 \(\sigma_0\)=0.5	22.2 / 0.42	24.4 / 0.30
2× 超分 \(\sigma_0\)=0.2	25.7 / 0.32	28.0 / 0.20
2× 超分 \(\sigma_0\)=0.5	22.7 / 0.41	25.1 / 0.33

真实相关噪声（CIN-D 去噪，PSNR↑ / LPIPS↓）——这是最能说明问题的一组，因为噪声来自真实卷帘传感器：

方法	Low	High
PCST（i.i.d. 学习）	37.2 / 0.20	29.4 / 0.40
DDRM（i.i.d. 扩散）	35.3 / 0.28	30.8 / 0.39
APRRD-NBSN（相关噪声学习）	17.0 / 0.28	17.1 / 0.38
CARD（本文）	38.1 / 0.19	31.5 / 0.34

值得注意的是，专为相关噪声训练的方法（APRRD-BSN/NBSN）反而泛化最差（仅 ~17 dB），说明「针对特定噪声统计重训」并不可靠，而 CARD 的「显式白化 + 通用扩散先验」更稳健。

消融实验¶

协方差估计误差敏感性（去噪 PSNR，对白化变换注入随机扰动模拟标定不准）：

协方差扰动	CARD PSNR	对照 DDRM
0%（完美已知）	29.6 dB	25.0 dB
5%（小误差）	26.5 dB	—
20%（中高误差）	23.6 dB	—

关键发现¶

优势随噪声增大而扩大：低噪声时各方法都还行，CARD 的领先主要体现在中高噪声——白化把相关噪声拆解后，扩散先验才能正确发挥作用，否则相关结构会被当成图像内容保留下来。
白化是优雅退化的：协方差估计扰动 5% 仅掉到 26.5 dB（仍高于 DDRM 的 25.0），扰动 20% 才掉到 23.6 dB，说明对标定误差有相当容忍度，不需要完美协方差。
协方差可跨传感器迁移：用 Blackfly 暗帧估计的 \(\Sigma\) 直接套到 Nikon Z30 相机图像上，CARD 仍优于 DDRM——相关噪声的空间结构在同类卷帘传感器间有共性。
针对相关噪声重训的方法泛化差：APRRD 系列在 CIN-D 上崩到 17 dB 左右，反衬出 CARD「白化 + 免训练通用先验」路线的优势。

亮点与洞察¶

把问题转化而非硬解：核心 trick 是「白化预处理」——不去改 DDRM 的内核，而是用 \(\Sigma^{-1/2}\) 把相关噪声变换回 i.i.d. 这个 DDRM 能处理的形式。这种「先把输入掰成已有方法能吃的样子」的思路可迁移到任何对噪声分布有强假设的逆问题求解器。
免训练、即插即用：与任意预训练扩散模型解耦，只多了一个线性白化步骤，几乎零额外成本就把 DDRM 的适用边界从理想噪声推到真实传感器噪声。
数据集补了真空白：CIN-D 是（据作者所知）首个显式包含真实空间相关噪声的公开评测集，附暗帧供协方差估计，对后续相关噪声恢复研究是实打实的基础设施。
全盲协方差估计：用「梯度打分挑平坦块 → 块协方差」在没有暗帧时也能估 \(\Sigma\)，让方法不依赖相机标定，落地门槛更低。

局限与展望¶

依赖协方差质量：方法整体建立在 \(\Sigma\) 估计之上，扰动 20% 时掉到 23.6 dB，极端相关或快速变化的噪声场景下估计误差可能更伤性能。
短程相关 + 分块近似：高分辨率靠非重叠 tile 处理，前提是「相关性只跨几个邻近像素」。对长程相关（如全局条纹）这个近似可能不成立，作者也把分块大小的影响放进了补充材料。⚠️ 正文未给出长程相关的失败案例。
只覆盖线性逆问题：CARD 继承 DDRM 框架，仅适用于线性退化算子 \(H\)（去噪/去模糊/超分），非线性退化（如复杂 ISP、JPEG）不在覆盖范围。
CIN-D 规模有限：100 场景静态拍摄，缺动态/运动场景，且仅一两款卷帘相机，跨更多传感器的泛化仍需更大规模验证。

评分¶

新颖性: ⭐⭐⭐⭐ 思路简洁但切中要害——用一步白化把 DDRM 推广到相关噪声，加真实数据集，组合扎实。
实验充分度: ⭐⭐⭐⭐ 覆盖去噪/去模糊/超分三任务、合成+真实噪声、协方差敏感性与跨传感器泛化；SSIM 与部分结果放在补充。
写作质量: ⭐⭐⭐⭐ 动机（卷帘相关噪声）讲得清楚，公式推导紧凑，图示直观。
价值: ⭐⭐⭐⭐ 免训练即插即用 + 公开 CIN-D 数据集，对真实相机恢复有直接实用价值。