🖼️ 图像恢复¶
📷 CVPR2025 · 43 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (5) · 📷 CVPR2026 (47) · 🔬 ICLR2026 (15) · 🤖 AAAI2026 (13) · 🧠 NeurIPS2025 (26) · 📹 ICCV2025 (30)
🔥 高频主题: 图像恢复 ×15 · 扩散模型 ×8 · 超分辨率 ×6 · 对抗鲁棒 ×3 · 自监督学习 ×2
- A Flag Decomposition for Hierarchical Datasets
-
本文提出Flag Decomposition (FD),一种将层次结构数据分解为保持层级关系的flag流形表示(Stiefel坐标)的算法,在去噪、聚类和少样本学习任务中展示了相比SVD等标准方法的优势。
- A Physics-Informed Blur Learning Framework for Imaging Systems
-
提出基于物理的 PSF 学习框架,设计新型波前基(每个基仅影响单一 SFR 方向)消除梯度冲突,结合课程学习(中心→边缘),无需镜头参数即可精确估计成像系统的空间变化 PSF。
EQ-Reg: A Regularization-Guided Equivariant Approach for Image Restoration
- AdcSR: Adversarial Diffusion Compression for Real-World Image Super-Resolution
-
提出对抗扩散压缩(ADC)框架,将一步扩散模型 OSEDiff 蒸馏为精简的扩散-GAN 混合模型,实现 73% 推理时间压缩、78% 计算量削减、74% 参数缩减,同时保持生成质量,达到 34.79 FPS 实时超分。
- Augmenting Perceptual Super-Resolution via Image Quality Predictors
-
利用无参考图像质量评估(NR-IQA)模型代替人工标注,通过加权采样和直接优化两种方式提升感知超分辨率的图像质量,在无需人工数据的条件下超越依赖人工反馈的 SOTA 方法。
- Classic Video Denoising in a Machine Learning World: Robust, Fast, and Controllable
-
重新审视经典视频去噪方法并与现代ML工具结合,实现鲁棒、快速且噪声级别可控的视频去噪
- Complexity Experts are Task-Discriminative Learners for Any Image Restoration
-
提出 MoCE-IR,用具有不同计算复杂度和感受野大小的"复杂度专家"替代传统均匀 MoE 的统一架构,配合偏向低复杂度的弹簧式路由机制,意外地实现了任务判别性分配——不同退化类型自动路由到适当复杂度的专家,可在推理时跳过无关专家。
- DarkIR: Robust Low-Light Image Restoration
-
DarkIR 提出一种高效 CNN 多任务低光照图像恢复方法,编码器用 SpAM+FreMLP(频域幅值增强)处理光照,解码器用 Di-SpAM(空洞空间注意力)处理模糊,不对称设计仅 3.31M 参数在 LOLBlur 上达 27.30dB PSNR。
- Degradation-Aware Feature Perturbation for All-in-One Image Restoration
-
本文提出DFPIR框架,通过退化类型引导的通道打乱扰动和注意力选择性掩码扰动两种机制,在编解码器之间调整特征空间以适配统一参数空间,在去噪/去雾/去雨/去模糊/低光增强五个任务上取得SOTA。
- Detail-Preserving Latent Diffusion for Stable Shadow Removal
-
本文提出两阶段Stable Diffusion微调方案用于阴影去除:第一阶段在latent空间微调去噪器完成主要阴影消除,第二阶段通过阴影感知的Detail Injection模块从VAE编码器提取特征调制解码器,恢复第一阶段丢失的高频细节,实现高质量且泛化性强的阴影去除。
- DiffFNO: Diffusion Fourier Neural Operator
-
提出 DiffFNO,将加权傅里叶神经算子(WFNO)与扩散框架结合用于任意尺度超分辨率,通过模式再平衡(Mode Rebalancing)保留关键高频分量,门控融合机制融合频域和空间域特征,自适应步长 ODE 求解器加速推理,在多个基准上超越现有方法 2-4 dB PSNR。
- DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables
-
提出基于查找表(LUT)的超高效彩色图像去噪框架 DnLUT,通过 Pairwise Channel Mixer (PCM) 捕获通道间相关性和 L 形卷积核扩展感受野,仅需 500KB 存储和 DnCNN 0.1% 的能耗即可实现 SOTA 的 LUT 去噪性能。
- DPIR: Dual Prompting Image Restoration with Diffusion Transformers
-
提出 DPIR,首个基于 Diffusion Transformer(SD3)的图像修复方法,通过轻量低质量图像条件分支和视觉-文本双提示控制分支,从全局上下文和局部外观两个视觉维度增强修复质量和保真度。
- EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation
-
提出 Audio-Pose Dynamic Harmonization(APDH)策略渐进式将控制权从全身姿态转移到音频——逐步移除关键点(保留手部)同时扩大音频控制范围(从唇部到全身),实现仅需音频+参考图+手部姿态的高质量半身动画。
- Efficient Diffusion as Low Light Enhancer (ReDDiT)
-
提出 ReDDiT 将扩散式低光增强从 10+ 步蒸馏到 2-4 步——通过线性外推修正拟合误差、用 Retinex 分解的反射率做轨迹精炼弥合推理间隙,4 步即在 10 个基准上全面达到 SOTA。
- Efficient Visual State Space Model for Image Deblurring
-
本文提出一种高效视觉状态空间模型 EVSSM,通过几何变换替代多方向扫描策略捕获非局部信息,并设计高效频域前馈网络增强局部细节,在图像去模糊任务上以仅四分之一的计算代价超越现有 SSM 方法,达到 SOTA 效果。
- FiRe: Fixed-points of Restoration Priors for Solving Inverse Problems
-
本文提出 FiRe 框架,通过将通用图像恢复模型(去模糊、超分、修复等)与其训练时的退化算子复合,利用不动点理论推导出显式先验公式,扩展了传统 PnP 中仅限去噪先验的范围,并支持多恢复模型的集成,在多种逆问题上显著超越现有 PnP 和扩散方法。
- Generalized Recorrupted-to-Recorrupted: Self-Supervised Learning Beyond Gaussian Noise
-
本文提出Generalized R2R (GR2R),将原始R2R自监督去噪框架从高斯噪声推广到自然指数族(NEF)分布——包括Poisson/Gamma/Binomial噪声,证明GR2R损失是有监督损失的无偏估计,并且SURE可视为其特例,在低光成像和SAR等应用中达到接近监督学习的性能。
- Gyro-based Neural Single Image Deblurring
-
提出 GyroDeblurNet,通过新颖的相机运动场嵌入表示复杂手抖、陀螺仪细化模块利用图像模糊信息校正陀螺仪误差、陀螺仪去模糊模块用校正后的运动信息去除模糊,配合课程学习策略,在合成和真实数据集上大幅超越现有方法。
- HVI: A New Color Space for Low-light Image Enhancement
-
本文提出了一种新的色彩空间 HVI(Horizontal/Vertical-Intensity),通过极化的 HS 映射消除红色伪影、可学习的强度分量压缩暗区黑色伪影,并配合 CIDNet 解耦网络在 10 个数据集上超越了现有低光增强 SOTA。
- INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations
-
INFP 提出了一个统一的音频驱动交互式头部生成框架,通过双轨音频(agent + 对话伙伴)驱动 agent 在说话和倾听状态间自然切换,无需手动角色分配或显式角色切换,同时引入大规模 DyConv 数据集支持研究。
- Iterative Predictor-Critic Code Decoding for Real-World Image Dehazing
-
IPC-Dehaze 提出了一种基于 VQGAN 码本先验的迭代式 Predictor-Critic 解码框架,通过 Code-Critic 评估码本序列间的相互关联来决定哪些码应保留或重采样,实现了从清晰区域到密集雾区的由易到难渐进去雾,在真实场景中显著超越 SOTA。
- MaIR: A Locality- and Continuity-Preserving Mamba for Image Restoration
-
提出 MaIR,核心创新是嵌套 S 形扫描策略(NSS)通过条带划分保持局部性 + S 形路径保持连续性,以及序列洗牌注意力(SSA)通过通道级注意力智能聚合不同扫描方向的序列,在超分、去噪、去模糊、去雾 4 大任务 14 个数据集上达到 SOTA。
- MambaIRv2: Attentive State Space Restoration
-
提出 MambaIRv2,通过 Attentive State-space Equation(ASE)在 Mamba 的输出矩阵 \(\mathbf{C}\) 中注入可学习 prompt 实现类似注意力的非因果全局查询,并用 Semantic Guided Neighboring(SGN)按语义标签重排序列缓解长距离衰减,仅需单方向扫描即超越多方向方法,轻量 SR 上以 9.3% 更少参数超 SRFormer 0.35dB。
- One-Step Event-Driven High-Speed Autofocus
-
提出Event Laplacian Product (ELP)对焦检测函数,结合事件数据与灰度拉普拉斯信息,将对焦搜索重新定义为检测任务,首次实现事件驱动的一步自动对焦,对焦时间减少2/3,对焦误差降低22-24倍。
- PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution
-
PIDSR 提出了一个将偏振图像去马赛克(PID)和超分辨率(PISR)联合互补优化的框架,通过两阶段循环管线(空间-物理相干重建 + 偏振感知分辨率增强)和 Stokes 辅助网络,从 CPFA 原始图像直接获得高质量高分辨率偏振图像,显著减少了 DoP 和 AoP 的误差。
- Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach
-
提出PiSA-SR,通过双LoRA模块将像素级回归和语义级增强解耦到两个独立权重空间,实现单步扩散高质量超分辨率,并支持推理时通过两个引导尺度灵活调节保真度和感知质量。
- PolarFree: Polarization-based Reflection-Free Imaging
-
构建 6500 对的大规模 RGB-偏振图像数据集 PolaRGB,并提出 PolarFree 两阶段网络——先用条件扩散模型生成无反射先验,再用去反射骨干网络分离透射层,在偏振引导的反射去除任务上超越先前方法约 2dB PSNR。
- POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery
-
在 POLISH 框架基础上提出 POLISH+/++,通过分块训练+拼接推理和arcsinh 非线性变换两项改进,使深度学习方法首次能处理宽视场(12,960×12,960 像素)、高动态范围(~10⁶)的射电干涉成像,并展示了超分辨率对强引力透镜发现的 10× 提升潜力。
- Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models
-
NaviBridger 将去噪扩散桥模型(DDBM)引入视觉导航任务,用信息丰富的先验动作替代高斯噪声作为去噪起点,理论证明源分布越接近目标分布误差上界越低,并设计了高斯/规则/学习三种先验策略,在室内外仿真和真实场景中均加速推理并超越基线。
- Progressive Focused Transformer for Single Image Super-Resolution
-
PFT 提出渐进聚焦注意力(PFA)机制,通过在相邻 Transformer 层之间传递注意力图的 Hadamard 乘积,实现逐层筛选不相关 token 并增强关键 token 的权重,在超分辨率任务上达到 SOTA 性能的同时显著降低计算开销。
- Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging
-
提出 ProxUnroll 方法,通过设计近端轨迹(PT)损失函数训练 HQS/ADMM 展开网络,使其中的深度图像修复器(DIR)逼近理想正则化的近端算子,从而让展开网络同时具备 PnP 算法的灵活性(一个模型处理任意压缩比)和展开网络的高精度高速度。
- QMambaBSR: Burst Image Super-Resolution with Query State Space Model
-
提出 QMambaBSR,通过 Query State Space Model(QSSM)实现帧间查询和帧内扫描的联合子像素提取与噪声抑制,结合自适应上采样模块,在合成和真实连拍超分辨率任务上达到 SOTA。
- Reversible Decoupling Network for Single Image Reflection Removal
-
RDNet 提出了一种基于可逆解耦架构的单图像反射去除方法,通过多列可逆编码器保证多尺度语义信息在前向传播中的无损传递,并设计传输率感知提示生成器来自适应不同反射强度,在五个基准数据集上全面超越 SOTA,赢得 NTIRE 2025 挑战赛。
- Rotation-Equivariant Self-Supervised Method in Image Denoising
-
首次将旋转等变卷积引入自监督图像去噪,严格分析了上/下采样算子对等变性的影响并给出 U-Net 完整网络的等变误差界,进一步提出自适应旋转等变网络 AdaReNet,通过 Mask 融合模块自动决定图像哪些区域更适合使用旋转等变网络,在 N2N、N2V、R2R 三种典型自监督方法上均取得一致性能提升。
- SoftShadow: Leveraging Soft Masks for Penumbra-Aware Shadow Removal
-
提出SoftShadow框架,用连续灰度软掩码替代传统二值硬掩码来表示阴影区域,通过SAM+LoRA预测软掩码并引入半影形成约束损失联合训练检测与去阴影网络,在SRD/ISTD+/LRSS/UIUC四个数据集上达到SOTA且无需外部掩码输入。
- Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
-
DehazeXL 提出了一种端到端的大图像去雾方法,将输入图像分割为固定大小的 patch 并编码为 token,通过高效全局注意力模块融合上下文信息,使得在仅 21GB 显存下即可推理 10240×10240 图像,并在自建的 8K 去雾数据集上达到 SOTA。
- OptiFusion: Towards Universal Computational Aberration Correction in Photographic Cameras
-
扩展 OptiFusion 自动设计 120 种多样化镜头,提出 ODE 综合评估指标和大规模 benchmark,系统对比 24 种算法,发现 CNN 模型在像差校正中提供最佳速度-精度权衡,反直觉地超越 Transformer。
- URWKV: Unified RWKV Model with Multi-State Perspective for Low-Light Image Restoration
-
提出 URWKV 模型,在 RWKV 架构中引入多状态(intra-stage 和 inter-stage)视角,通过亮度自适应归一化(LAN)、多状态聚合的 token shift(SQ-Shift)和状态感知选择性融合(SSF)模块,用一个统一模型处理低光图像的动态耦合退化(噪声、亮度失真、运动模糊),参数量仅 2.25M 即在 8 个基准数据集上全面超越现有方法。
- Variational Garrote for Sparse Inverse Problems
-
系统比较 \(\ell_1\) 正则化 (LASSO) 与 Variational Garrote (VG, 概率 \(\ell_0\) 近似) 在信号重采样、去噪和稀疏视角 CT 重建三种逆问题上的表现,发现 VG 在强欠定情况下(采样率低/角度稀疏)通常获得更低的泛化误差,因为 spike-and-slab 先验与真实稀疏分布更匹配。
- DiTFlow: Video Motion Transfer with Diffusion Transformers
-
DiTFlow提出了首个专为扩散Transformer(DiT)设计的运动迁移方法,通过分析跨帧注意力图提取Attention Motion Flow(AMF)作为逐patch的运动信号,以无训练的优化方式引导新视频生成复现参考视频的运动模式。
- Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks
-
提出 VLU-Net,首个全合一(All-in-One)深度展开网络(DUN)框架,利用微调 CLIP 模型自动检测退化类型并引导梯度下降模块,结合层次化特征展开结构,在去雾上超越最佳端到端方法 3.74dB。
- Visual-Instructed Degradation Diffusion for All-in-One Image Restoration
-
Defusion 提出用"视觉指令"替代文本指令来引导 all-in-one 图像复原,通过将退化效果施加到标准化视觉元素上构建可视化的退化描述,并在退化空间(而非图像空间)进行扩散去噪,在 8 个复原任务上超越 task-specific 和 all-in-one 方法。