Bridging Degradation Discrimination and Generation for Universal Image Restoration¶
会议: ICLR 2026
arXiv: 2602.00579
代码: 无
领域: 图像生成
关键词: 通用图像修复, GLCM退化表征, 扩散模型, 三阶段训练, all-in-one restoration
一句话总结¶
BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。
研究背景与动机¶
领域现状:通用图像修复要求单一模型处理多种退化类型,需要同时具备退化判别和条件生成两种能力
现有痛点: - 退化判别路线(AirNet、PromptIR 等):引入额外判别网络识别退化类型,但使用 L1/L2 损失导致输出过于平滑,真实场景效果差 - 生成先验路线(StableSR、DiffBIR 等):利用预训练扩散模型的生成能力恢复丰富纹理,但 all-in-one 场景中容易把轻度退化误判为严重退化,生成与原图不一致的细节
核心矛盾:退化判别和生成先验是两种独立发展的能力,缺乏统一框架将二者有机融合
本文目标:在保持扩散模型生成先验的同时,为其注入细粒度退化判别能力,使其能根据退化程度自适应调整输出
切入角度:提出新的退化表征(MAS-GLCM)+ 三阶段扩散训练策略,将判别信息逐步桥接到生成过程中
核心 idea:用灰度共生矩阵做内容无关的退化表征,通过三阶段训练将其与扩散模型特征对齐,实现判别与生成的统一
方法详解¶
整体框架¶
三阶段训练流程:(1) 生成预训练——在高质量图像上学习 VE-SDE 去噪;(2) 桥接阶段——引入残差条件,将 MAS-GLCM 特征与扩散模型中间特征通过对比学习对齐;(3) 修复微调——启用全部条件(残差+LQ图像),用 L1 损失提升保真度。
关键设计¶
-
多角度多尺度灰度共生矩阵 (MAS-GLCM):
- 功能:从退化图像中提取与图像内容无关的退化特征
- 核心思路:标准 GLCM 计算特定距离和方向上像素对的共现频率;MAS-GLCM 在多个角度 \(\Theta\) 和尺度 \(L\) 上计算 GLCM 后取平均:\(M_{mas} = \frac{1}{n \times m} \sum_{i,j} M_{L_i \cdot \sin(\Theta_j), L_i \cdot \cos(\Theta_j)}\)
- 设计动机:GLCM 的计算天然丢弃图像内容信息(只统计灰度共现),避免了 Sobel、频率等方法与内容耦合的问题。多角度多尺度覆盖避免局部性
- 实验验证:在退化类型分类上 KNN 准确率 97.13%(vs Fourier 65.80%),退化等级分类 74.17%(vs Fourier 30.83%)
-
三阶段扩散训练:
- 基础公式:\(x_{t-1} = x_t - \alpha_t x_{res}^\theta - \frac{\beta_t^2}{\bar{\beta}_t} \epsilon^\theta + \delta_t x_{lq}\)
- 生成阶段:\(\alpha_t \equiv 0, \delta_t \equiv 0\),退化为 VE-SDE 去噪,纯生成先验学习
- 桥接阶段:\(\delta_t \equiv 0\),引入残差 \(x_{res}\) 作为条件,残差本身携带退化信息。此阶段将 MAS-GLCM 特征 \(F_{mas}\) 与扩散模型中间特征 \(F_{diff}\) 通过双向交叉熵对齐,同时用 MLP 做退化分类确保 \(F_{mas}\) 保持判别力
- 修复阶段:启用 \(\alpha_t, \beta_t, \delta_t\),直接注入 \(x_{lq}\) 增强保真度。将退化分类改为全负样本对比学习适应真实场景
-
退化-生成桥接损失:
- 功能:在桥接阶段对齐 GLCM 特征和扩散特征
- 核心思路:\(\mathcal{L}_{bridge} = \frac{1}{2}[\text{H}(y^{m2d}, p^{m2d}) + \text{H}(y^{d2m}, p^{d2m})]\),双向交叉熵对齐
- 总损失:\(\mathcal{L}_{bdg} = \mathcal{L}_{gen} + \lambda(\mathcal{L}_{bridge} + \mathcal{L}_{deg-cls})\),\(\lambda = 0.1\)
损失函数 / 训练策略¶
- 生成阶段:标准去噪损失(噪声预测+残差预测)
- 桥接阶段:去噪 + 特征对齐 + 退化分类
- 修复阶段:L1 保真损失 + 特征对齐桥接损失 + 全负样本对比学习
- 真实世界退化用 Real-ESRGAN 的多步退化链模拟,定义 8 个中间状态作为"退化顺序"伪标签
实验关键数据¶
主实验 — All-in-One 修复¶
| 方法 | 路线 | 保真度 (PSNR↑) | 感知质量 (LPIPS↓) |
|---|---|---|---|
| PromptIR | 判别型 | 高 | 差(过平滑) |
| DiffBIR | 生成型 | 低(不一致) | 好 |
| BDG | 判别+生成统一 | 显著提升 | 保持 |
消融实验 — MAS-GLCM 退化分类能力¶
| 退化表征 | 类型分类 Acc (%) | 等级分类 Acc (%) |
|---|---|---|
| LQ 图像 | 51.44 | 20.00 |
| Sobel (梯度) | 40.80 | 23.33 |
| Laplace (梯度) | 83.05 | 20.83 |
| Fourier (频率) | 65.80 | 30.83 |
| MAS-GLCM | 97.13 | 74.17 |
关键发现¶
- MAS-GLCM 远优于现有退化表征:在细粒度退化等级分类上领先 Fourier 43 个百分点
- 三阶段训练缺一不可:去掉桥接阶段直接从生成到修复,保真度显著下降
- 生成先验被成功保留:修复结果的纹理丰富度接近纯生成模型,但保真度大幅提升
- 不改变模型架构:BDG 通过训练策略和损失设计实现改进,无需修改网络结构
亮点与洞察¶
- MAS-GLCM 的内容无关性是最大亮点:GLCM 的计算方式天然排除内容信息,只保留纹理统计特性——这使得退化判别不受图像语义干扰
- 三阶段过渡设计的优雅:生成→桥接→修复,通过逐步引入扩散公式中的参数来控制模型能力的演进——从纯生成到条件生成再到修复
- 将退化分类重构为对比学习:桥接阶段用离散类别标签,修复阶段用全负对比——适应真实世界退化无法明确分类的现实
局限与展望¶
- MAS-GLCM 的角度和尺度参数需要手动选择
- 三阶段训练增加了训练复杂度
- 真实世界退化的"顺序分类"是近似的伪标签,不完全反映真实退化
- 未在视频修复等时序场景验证
相关工作与启发¶
- vs PromptIR/AirNet:这些方法用额外网络判别退化但输出过平滑;BDG 在扩散模型内部完成判别
- vs DiffBIR/StableSR:这些方法利用生成先验但缺乏退化感知,all-in-one 场景保真度差;BDG 通过 MAS-GLCM 桥接解决
- vs DiffUIR:DiffUIR 只预测残差丢失了生成先验;BDG 同时预测噪声和残差保留生成先验
评分¶
- 新颖性: ⭐⭐⭐⭐ MAS-GLCM 退化表征有新意,三阶段训练设计有深度
- 实验充分度: ⭐⭐⭐⭐ 退化分类验证 + all-in-one + 真实超分,但缺少与更多基线的定量对比
- 写作质量: ⭐⭐⭐⭐ 方法推导清晰,但符号较多需要仔细跟踪
- 价值: ⭐⭐⭐⭐ 统一判别和生成的思路对图像修复领域有实际指导意义