跳转至

Bridging Degradation Discrimination and Generation for Universal Image Restoration

会议: ICLR 2026
arXiv: 2602.00579
代码: 无
领域: 图像生成
关键词: 通用图像修复, GLCM退化表征, 扩散模型, 三阶段训练, all-in-one restoration

一句话总结

BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。

研究背景与动机

领域现状:通用图像修复要求单一模型处理多种退化类型,需要同时具备退化判别和条件生成两种能力

现有痛点: - 退化判别路线(AirNet、PromptIR 等):引入额外判别网络识别退化类型,但使用 L1/L2 损失导致输出过于平滑,真实场景效果差 - 生成先验路线(StableSR、DiffBIR 等):利用预训练扩散模型的生成能力恢复丰富纹理,但 all-in-one 场景中容易把轻度退化误判为严重退化,生成与原图不一致的细节

核心矛盾:退化判别和生成先验是两种独立发展的能力,缺乏统一框架将二者有机融合

本文目标:在保持扩散模型生成先验的同时,为其注入细粒度退化判别能力,使其能根据退化程度自适应调整输出

切入角度:提出新的退化表征(MAS-GLCM)+ 三阶段扩散训练策略,将判别信息逐步桥接到生成过程中

核心 idea:用灰度共生矩阵做内容无关的退化表征,通过三阶段训练将其与扩散模型特征对齐,实现判别与生成的统一

方法详解

整体框架

三阶段训练流程:(1) 生成预训练——在高质量图像上学习 VE-SDE 去噪;(2) 桥接阶段——引入残差条件,将 MAS-GLCM 特征与扩散模型中间特征通过对比学习对齐;(3) 修复微调——启用全部条件(残差+LQ图像),用 L1 损失提升保真度。

关键设计

  1. 多角度多尺度灰度共生矩阵 (MAS-GLCM):

    • 功能:从退化图像中提取与图像内容无关的退化特征
    • 核心思路:标准 GLCM 计算特定距离和方向上像素对的共现频率;MAS-GLCM 在多个角度 \(\Theta\) 和尺度 \(L\) 上计算 GLCM 后取平均:\(M_{mas} = \frac{1}{n \times m} \sum_{i,j} M_{L_i \cdot \sin(\Theta_j), L_i \cdot \cos(\Theta_j)}\)
    • 设计动机:GLCM 的计算天然丢弃图像内容信息(只统计灰度共现),避免了 Sobel、频率等方法与内容耦合的问题。多角度多尺度覆盖避免局部性
    • 实验验证:在退化类型分类上 KNN 准确率 97.13%(vs Fourier 65.80%),退化等级分类 74.17%(vs Fourier 30.83%)
  2. 三阶段扩散训练:

    • 基础公式:\(x_{t-1} = x_t - \alpha_t x_{res}^\theta - \frac{\beta_t^2}{\bar{\beta}_t} \epsilon^\theta + \delta_t x_{lq}\)
    • 生成阶段\(\alpha_t \equiv 0, \delta_t \equiv 0\),退化为 VE-SDE 去噪,纯生成先验学习
    • 桥接阶段\(\delta_t \equiv 0\),引入残差 \(x_{res}\) 作为条件,残差本身携带退化信息。此阶段将 MAS-GLCM 特征 \(F_{mas}\) 与扩散模型中间特征 \(F_{diff}\) 通过双向交叉熵对齐,同时用 MLP 做退化分类确保 \(F_{mas}\) 保持判别力
    • 修复阶段:启用 \(\alpha_t, \beta_t, \delta_t\),直接注入 \(x_{lq}\) 增强保真度。将退化分类改为全负样本对比学习适应真实场景
  3. 退化-生成桥接损失:

    • 功能:在桥接阶段对齐 GLCM 特征和扩散特征
    • 核心思路:\(\mathcal{L}_{bridge} = \frac{1}{2}[\text{H}(y^{m2d}, p^{m2d}) + \text{H}(y^{d2m}, p^{d2m})]\),双向交叉熵对齐
    • 总损失:\(\mathcal{L}_{bdg} = \mathcal{L}_{gen} + \lambda(\mathcal{L}_{bridge} + \mathcal{L}_{deg-cls})\)\(\lambda = 0.1\)

损失函数 / 训练策略

  • 生成阶段:标准去噪损失(噪声预测+残差预测)
  • 桥接阶段:去噪 + 特征对齐 + 退化分类
  • 修复阶段:L1 保真损失 + 特征对齐桥接损失 + 全负样本对比学习
  • 真实世界退化用 Real-ESRGAN 的多步退化链模拟,定义 8 个中间状态作为"退化顺序"伪标签

实验关键数据

主实验 — All-in-One 修复

方法 路线 保真度 (PSNR↑) 感知质量 (LPIPS↓)
PromptIR 判别型 差(过平滑)
DiffBIR 生成型 低(不一致)
BDG 判别+生成统一 显著提升 保持

消融实验 — MAS-GLCM 退化分类能力

退化表征 类型分类 Acc (%) 等级分类 Acc (%)
LQ 图像 51.44 20.00
Sobel (梯度) 40.80 23.33
Laplace (梯度) 83.05 20.83
Fourier (频率) 65.80 30.83
MAS-GLCM 97.13 74.17

关键发现

  • MAS-GLCM 远优于现有退化表征:在细粒度退化等级分类上领先 Fourier 43 个百分点
  • 三阶段训练缺一不可:去掉桥接阶段直接从生成到修复,保真度显著下降
  • 生成先验被成功保留:修复结果的纹理丰富度接近纯生成模型,但保真度大幅提升
  • 不改变模型架构:BDG 通过训练策略和损失设计实现改进,无需修改网络结构

亮点与洞察

  • MAS-GLCM 的内容无关性是最大亮点:GLCM 的计算方式天然排除内容信息,只保留纹理统计特性——这使得退化判别不受图像语义干扰
  • 三阶段过渡设计的优雅:生成→桥接→修复,通过逐步引入扩散公式中的参数来控制模型能力的演进——从纯生成到条件生成再到修复
  • 将退化分类重构为对比学习:桥接阶段用离散类别标签,修复阶段用全负对比——适应真实世界退化无法明确分类的现实

局限与展望

  • MAS-GLCM 的角度和尺度参数需要手动选择
  • 三阶段训练增加了训练复杂度
  • 真实世界退化的"顺序分类"是近似的伪标签,不完全反映真实退化
  • 未在视频修复等时序场景验证

相关工作与启发

  • vs PromptIR/AirNet:这些方法用额外网络判别退化但输出过平滑;BDG 在扩散模型内部完成判别
  • vs DiffBIR/StableSR:这些方法利用生成先验但缺乏退化感知,all-in-one 场景保真度差;BDG 通过 MAS-GLCM 桥接解决
  • vs DiffUIR:DiffUIR 只预测残差丢失了生成先验;BDG 同时预测噪声和残差保留生成先验

评分

  • 新颖性: ⭐⭐⭐⭐ MAS-GLCM 退化表征有新意,三阶段训练设计有深度
  • 实验充分度: ⭐⭐⭐⭐ 退化分类验证 + all-in-one + 真实超分,但缺少与更多基线的定量对比
  • 写作质量: ⭐⭐⭐⭐ 方法推导清晰,但符号较多需要仔细跟踪
  • 价值: ⭐⭐⭐⭐ 统一判别和生成的思路对图像修复领域有实际指导意义