🖼️ 图像恢复¶
📷 CVPR2026 · 135 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (61) · 🧪 ICML2026 (21) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (26) · 📹 ICCV2025 (31) · 🧪 ICML2025 (5)
🔥 高频主题: 图像恢复 ×35 · 超分辨率 ×27 · 扩散模型 ×26 · 自监督学习 ×7 · 对抗鲁棒 ×6
- 2-Shots in the Dark: Low-Light Denoising with Minimal Data Acquisition
-
这篇论文提出一种"两张图就够"的传感器噪声合成方法——每个 ISO 只需一张噪声图 + 一张暗帧,用傅里叶域随机相位采样把信号无关噪声当作纹理来合成,配合迭代直方图匹配修正边缘分布,从而无需大规模配对数据就能生成无限多样的训练对,让去噪网络在多个低光基准上达到物理类方法的 SOTA。
- A Bit is All You Need! Efficient Video Capture via Single Bit Imaging
-
传感器端每个像素只采 1 比特、靠逐帧变化的阈值把强度信息"编码"进二值流,再用不含光流的视频重建网络把全比特深度视频恢复回来——既砍掉了功耗最大的高精度 ADC,又在 GoPro 上拿到 32.77 dB PSNR 的高保真重建。
- AceTone: Bridging Words and Colors for Conditional Image Grading
-
提出AceTone,首个支持文本和参考图像多模态条件色彩调色的统一框架,通过VQ-VAE将3D-LUT压缩为64个离散token,训练VLM预测LUT token序列,再用GRPO强化学习对齐色彩相似度和美学偏好,在风格迁移和指令调色上LPIPS改善50%。
- Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration
-
提出IQPIR框架,引入预训练NR-IQA模型的图像质量先验(IQP)作为条件信号,通过质量条件化Transformer、双Codebook结构和离散表示空间质量优化三个机制,引导图像修复过程趋向最高感知质量,在盲人脸修复等任务上全面超越SOTA。
- Beyond Strict Pairing: Arbitrarily Paired Training for High-Performance Infrared and Visible Image Fusion
-
本文挑战红外可见光图像融合(IVIF)必须用"严格对齐配对数据"训练的惯例,提出任意配对训练范式(APTP)——把 \(N\) 对基础数据自由重组成 \(N^2\) 个跨模态对,配上一套自适应加权的像素级自监督损失,在仅 150 对、内容不一致的数据上训练,就能逼近用 100 倍数据严格配对训练的融合性能。
- Beyond the Ground Truth: Enhanced Supervision for Image Restoration
-
提出通过超分辨率+频域自适应混合来增强现有数据集中次优GT图像的感知质量,并训练轻量级ORNet精修模块,无需修改预训练修复模型即可提升输出的感知质量。
- BHCast: Unlocking Black Hole Plasma Dynamics from a Single Blurry Image with Long-Term Forecasting
-
BHCast从单张模糊的EHT黑洞图像出发,通过U-Net动力学代理模型进行超分辨率+长期自回归预测(100步稳定),从预测的等离子体动力学中提取物理特征(旋转速度、螺旋角等),再通过XGBoost推断黑洞自旋和倾角,在真实M87*观测图像上也展示了有效性。
- Bi-Bridge: Bidirectional Diffusion Bridges for Low-Light Image Enhancement
-
把"低光→正常光"的增强和"正常光→低光"的退化塞进同一个对称扩散桥里、用一张共享 U-Net 同时学,靠这个双向一致性约束当隐式正则,让低光增强在保真度(PSNR/LPIPS)上显著超过现有 SOTA。
- BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement
-
针对事件相机辅助低光增强中"事件流被 BA 噪声污染、去噪与增强割裂"的痛点,BiEvLight 把事件去噪从静态预处理改写成受增强任务约束的双层优化问题,让下层增强的增益反馈去校准上层去噪,再配一个用图像梯度引导的空间自适应去噪先验,在真实噪声数据集 SDE 上平均涨 1.30dB PSNR / 0.047 SSIM。
- BiProLoRA: Bilevel Prompt LoRA for Real Scene Recovery
-
针对扩散大模型"训练于合成、泛化到真实"时退化严重的问题,BiProLoRA 先用自监督的分布保真学习把 VAE 自编码通路校准到真实退化分布,再把"LoRA 负责结构恢复、Prompt 负责退化感知调制"写成一个双层(超参数优化)问题联合训练,只用合成数据 10% 量级的真实数据就在低光/去雾/水下五个无参考指标上全面超过 SOTA。
- BluRef: Unsupervised Image Deblurring with Dense-Matching References
-
提出 BluRef,首个利用非配对参考清晰图像通过稠密匹配生成伪 ground truth 来训练去模糊网络的无监督框架,性能逼近甚至超越有监督方法。
- Bridging the Perception Gap in Image Super-Resolution Evaluation
-
通过大规模用户研究揭示现有 SR 评估指标(PSNR、SSIM、LPIPS 等)与人类感知严重不一致,分析其内在缺陷后提出极简但有效的 RQI(Relative Quality Index)框架,通过学习图像对之间的相对质量差异实现更可靠的 SR 评估,且可作为损失函数指导 SR 训练。
- CanonCGT: Reference-Based Color Grading via Canonical Pivot Representation
-
CanonCGT 把"参考图调色"拆成两步——先用 canonicalizer 把输入图洗成一张"无风格"的中性图(canonical pivot),再用 grader 把参考图的色调贴上去;配合监督+自监督的双阶段训练(DP-CGT),在 6 个数据集上 PSNR 从次优的 18.62 拉到 28.99,明显更稳更自然。
- CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness
-
CASR 把"任意大倍率超分"拆成一连串"始终落在训练分布内"的小倍率放大循环,用一个单模型反复迭代,并配两个模块(超像素结构对齐 SSAM 抑制循环中的分布漂移、自相似感知精修 SARM 保证分块重建的纹理一致),在 ×8~×30 极端放大下 LPIPS / MUSIQ 等感知指标大幅领先现有任意尺度方法。
- ColorFLUX: A Structure-Color Decoupling Framework for Old Photo Colorization
-
ColorFLUX 把"保结构"和"补颜色"拆成相互冻结的两段训练,让生成扩散模型 FLUX 在不被结构任务干扰的前提下学到准确语义着色,再用一套由粗到细的渐进式 DPO 后训练修正老照片特有的褪色,在合成与真实老照片上都超过了现有开源/闭源商业上色模型。
- Convexity-Aware Noise Calibration: A Self-Supervised Framework for Noise-Level-Unknown Image Denoising
-
本文(CANC)发现"对含噪图再加合成噪声、跑 Noisier2Noise 校正"后,去噪输出的方差关于"合成噪声/真实噪声方差比 \(k\)"是一条凸曲线、且在 \(k=1\)(合成噪声恰好等于真实噪声)处取最小,于是用一个以合成噪声方差为条件的网络 + 三分搜索把这个最小点找出来,从而在没有干净图、不知道噪声水平的前提下精确估计噪声 \(\sigma_N\),再用估计值合成监督训练对,让自监督去噪逼平甚至略超"已知噪声水平"的监督模型。
- Coordinate Denoising for Non-Equilibrium Molecular Representation Learning
-
针对"坐标去噪等价于力场学习"这一结论只在平衡态成立的缺陷,本文用势能面的二阶有限差分推导出对任意构象都成立的去噪目标 NDeM,把它做成一个即插即用、无需预训练的辅助任务,在 MD17 / QM9 / OC20 上稳定提升各种等变 GNN 的力预测精度。
- Degradation-Consistent Test-Time Adaptation for All-in-One Image Restoration
-
针对全能图像复原(AiOIR)模型在测试退化分布偏离训练分布时性能骤降的问题,本文提出 DCTTA:在测试时用扩散退化生成器把"伪干净图→退化图"的过程学出来,构造"退化–再退化"自监督对,靠复原一致性在线微调模型,并只更新退化敏感参数以稳住预训练知识,在 Rain100H 上单数据集最高带来 +4.57 dB PSNR。
- Degradation-Robust Fusion: An Efficient Degradation-Aware Diffusion Framework for Multimodal Image Fusion in Arbitrary Degradation Scenarios
-
针对真实场景里源图普遍带噪声/模糊/低分辨率的多模态图像融合,本文把扩散模型从"显式预测噪声"改成"直接回归融合图",并在 DDIM 采样里插入一个把两路退化约束和融合约束写进同一块矩阵的"联合观测校正"步骤,从而在少数几步采样内同时完成复原与融合,在 M3FD 和 Harvard 数据集的多种退化场景下显著超过"先复原再融合"的级联方案。
- DetectSCI: Toward Object-Guided ROI Reconstruction for High-Resolution Video Snapshot Compressive Imaging
-
针对高分辨率视频快照压缩成像(SCI)"全帧重建太耗显存、背景占大头却没信息"的痛点,DetectSCI 提出直接在编码测量上做目标检测、再按检测框只重建感兴趣区域(ROI)的工作流,其检测器用权重共享的 Mamba-Implicit 模块抗时空混叠、用 Frequency Mamba 找回被压制的高频细节,在 SportsMOT 改造的 SCI 数据集上拿到 80.9 AP,超过最好的 CNN 检测器 ≥2.8 AP、最好的 Transformer 检测器 ≥4.1 AP。
- DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
-
针对玻璃、雾气、水印、X 光等半透明/透明遮挡场景,这篇论文把"从单张合成图里拆出前景层和背景层"重新定义成一个生成式后验推断问题,配套发布了首个大规模 AlphaBlend 数据集,并用扩散 Transformer 框架 DiffDecompose(核心是"上下文分解 ICD"+"图层位置编码克隆 LPEC")实现无需掩码的多层分解,在多个去除/分解子任务上 RMSE 平均比次优方法低约 36%。
- PNG: Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning
-
PNG提出用可学习的Global/Local Prompt组件从真实噪声中自动提取噪声特征(替代ISO/相机型号等metadata),通过Prompt AutoEncoder编码噪声到latent空间+Prompt DiT(基于一致性模型)一步生成latent code,实现无需任何metadata的真实sRGB噪声合成,下游DnCNN去噪在SIDD上仅落后真实数据0.08dB。
- Disentangled Textual Priors for Diffusion-based Image Super-Resolution
-
提出 DTPSR,通过将文本先验沿空间层级(全局/局部)和频率语义(低频/高频)两个维度解耦,构建解耦的跨注意力注入管线和多分支 CFG 策略,实现感知质量优越的扩散超分辨率。
- Disentanglement-wise Image Dehazing through Cross-Domain Manifold Consensus
-
本文把"不同感知域(空间/频率/非局部/扩散/压缩感知)的雾图特征其实共享同一个散射语义核"这个假设落地成一个跨域不变流形 CIM,用共识密度驱动的对比学习把多域特征对齐到统一隐空间,再叠一条物理引导的 HSV 解耦网络专门拆解雾导致的颜色通道耦合,从而同时解决"误判雾特征"和"颜色失真"两大顽疾,在多个真实/合成基准上达到 SOTA 且推理最快(0.062s)。
- Distilling Quasi-Conformal Mapping: A Generalizable and Efficient Solution for Wide-Angle Correction
-
用拟共形映射(QC mapping)作"教师"自动生成无标注的广角校正流真值,再蒸馏给一个 CNN-Mamba 学生网络 QDWC-Net 直接预测校正流,既摆脱人工标注、又把单图推理从 26.33s 压到 0.81s(32× 加速),在人体畸变校正上取得 SOTA。
- DNF-SR: Dual-Input and Negative-Aware Feature Fine-Tuning for Real-World Image Super-Resolution
-
DNF-SR 把"带噪 LR + 原始 LR"双路喂进一个图像编辑扩散模型(Flux-Kontext)在中间时间步做单步超分,再用一种把偏好优化从隐空间搬到图像/特征空间的负样本感知微调(NF²T)做后训练,在四个真实超分基准的无参考指标上全面领先。
- DPGF-Net: Dual-Prior Guided Fusion Network for Joint Assessment of Perceptual Quality and Semantic Consistency in AI-Generated Images
-
DPGF-Net 用 Re-IQA 的双编码器抽出"失真先验 Qmap"和"内容先验 Cmap"来把渲染失真和语义内容解耦,再配合单一文本模板与"局部 TCPGA + 全局 FIM"双路自适应融合,在一个 CLIP 框架里同时打"感知质量"和"文图一致性"两个分,在三个 AGIQA 数据集和跨数据集上 12 项指标拿下 11 项第一。
- DreamSR: Towards Ultra-High-Resolution Image Super-Resolution via a Receptive-Field Enhanced Diffusion Transformer
-
DreamSR 用一个"全局 + 局部"双分支的 MM-ControlNet 给基于 FLUX(DiT) 的超分模型注入 patch 级文本提示,配合一步去退化 LoRA 和感受野增强训练,专门解决超高清(≥4K)图像分块推理时"全局 prompt 和局部 patch 语义错配导致的过度生成 (over-generation)",在多个真实数据集的无参考指标上达到 SOTA。
- Dual Ascent Diffusion for Inverse Problems
-
DDiff 把求解逆问题的 MAP 优化重新组织成 ADMM 式的对偶上升框架,用一个「停留在扩散流形上」的去噪步替换掉朴素 plug-and-play 的离流形去噪,让预训练扩散先验既保住数据一致性又不引入幻觉,在超分/去模糊/相位恢复等 8 类任务上比 SOTA 更准、更抗噪、更快。
- Dual Graph Regularized Deep Unfolding Network for Guided Depth Map Super-resolution
-
本文提出 LapNet,把"行/列双图拉普拉斯先验 + 深度隐式先验"写进一个统一变分模型,用 ADMM 推出闭式更新后展开成可解释的多阶段网络,在把图构造复杂度从 \(O(H^3W^3)\) 压到 \(O(H^3+W^3)\) 的同时,以 3.84M 参数刷到引导深度超分(GDSR)的 SOTA。
- DVAR: Dynamic Visual Autoregressive Modeling for Image Super-Resolution
-
DVAR 把视觉自回归(VAR)超分模型从「一个分辨率一套权重」的死板设计中解放出来:用一套相对比例的标准缩放序列(canonical scaling dynamic)+ 由 LQ 图像导出的动态起始 token 取代固定的 1×1 起点和绝对尺度表,再配一个几乎零开销的动态采样调度器缓解训练-推理失配,从而让单一模型处理任意尺寸输入,并在真实超分上取得 SOTA 的感知质量。
- Dynamic Exposure Burst Image Restoration
-
DEBIR 第一次把"为每张连拍帧预测最优曝光时间"作为一个可学习模块塞进 burst 复原流程:用 BAENet 根据预览图、增益和运动幅度预测每帧曝光时间,再用一个对曝光时间可微的 burst 仿真器把它和复原网络端到端连起来训练,在低光场景下复原 PSNR 比固定曝光档位高 0.28 dB,并在真实双相机系统上验证有效。
- Edge-Focused Super-Resolution for Omnidirectional Images with Spherical Geometric Augmentation
-
针对全景图像在 8×/16× 极端放大下「公开数据稀缺 + 边缘塌陷」两大痛点,本文提出一个端到端轻量网络 EAM:用边缘聚焦模块(EFB = 边缘增强 EEB + 边缘精修 ERB)和全局整合模块(GIB)强化边缘的捕获与全局一致性,并配一套基于球面投影的旋转-平移数据增强;在 ODI-SR / SUN360 上以约 2.0M 参数、38G FLOPs 取得超越现有 SOTA 的 WS-PSNR(ODI-SR 上比 FATO 高 1.15dB/1.13dB)。
- Edit-aware RAW Reconstruction
-
针对"RAW 重建的真实目的是后期编辑、而现有方法只优化逐像素 RAW 保真度"的错配,本文提出一个即插即用的 edit-aware loss——用一个可微、模块化、参数随机采样的简化 ISP 把真值 RAW 与重建 RAW 都渲染到 sRGB 再算误差,使重建结果在各种渲染风格/编辑下更鲁棒,在多种编辑条件下 sRGB PSNR 提升最高 1.5–2 dB。
- Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning
-
针对"低分辨率高光谱图 + 一张未配准高分辨率参考图"的超分任务,本文用光谱解混把空间和光谱信息解耦,让网络只去增强解混出的丰度图(而非直接做易受错位干扰的空谱耦合融合),再配合由粗到细的可变形聚合、空间-通道丰度交叉注意力和调制融合模块,在 ICVL/REAL 数据集上以约一半参数量刷出 SOTA(×4 上 PSNR 41.84/42.05 dB)。
- Event-Based Motion Deblurring Using Task-Oriented 3D Gaussian Event Representations
-
针对现有事件去模糊普遍使用「固定权重核」把稀疏事件聚合成事件帧、无法适配局部运动快慢差异的问题,本文提出一个可学习的 3D 高斯事件表示:根据模糊图内容与事件密度自适应采样关键时空坐标、用 3D 高斯核加权聚合事件,再配一个两阶段融合网络(局部细节增强 + 1D 高斯全局对齐),在 GoPro/HS-ERGB/REBlur 三个数据集上 PSNR 全面超越 SOTA。
- Event-Based Motion Deblurring Using Task-Oriented 3D Gaussian Event Representations
-
针对事件相机去模糊里"手工固定权重核无法适应空间各异的运动速度/方向"这一痛点,本文提出一个可学习的 3D 高斯事件表示模块(3D-GSER)——根据模糊图内容和事件密度自适应地采样关键时空坐标、用 3D 高斯核聚合事件成帧,再配合两阶段融合(局部细节增强 + 双向注意力做全局对齐),在 GoPro / HS-ERGB / REBlur 三个数据集上全面超过 SOTA。
- Event-Illumination Collaborative Low-light Image Enhancement with a High-resolution Real-world Dataset
-
EIC-LIE 让事件信号(提供 HDR 细节)和图像光照先验(提供全局亮度)通过一个"前向汇聚 + 反向注入、复用注意力矩阵"的双向交互模块协同增强,再用图像亮度统计驱动一个动态事件滤波器压噪声,并配套了首个 1024×768 高分辨率真实事件低光数据集 RLE,在五个数据集上 PSNR 最高超 SOTA 1.24dB。
- EVLF: Early Vision-Language Fusion for Generative Dataset Distillation
-
提出 EVLF,一种在编码器-骨干网络接口处进行视觉-语言早期融合的即插即用方法,解决了扩散模型数据集蒸馏中晚期语义注入导致的文本过度主导和视觉保真度下降问题。
- ExpoCM: Exposure-Aware One-Step Generative Single-Image HDR Reconstruction
-
ExpoCM 把单图 HDR 重建建模成一个曝光感知的一致性模型轨迹:先用软曝光掩码把 LDR 分成过曝/欠曝/正常三类区域,对每类区域设计不同的 PF-ODE 一致性轨迹(过曝纯噪声幻想细节、欠曝注入低频先验、正常区直接用输入),再配一个在 CIE L*a*b* 空间按曝光加权的亮度-色度损失,从而无需蒸馏、单步推理就拿到 SOTA 保真度,且比 DDPM 快 400 倍以上。
- FAPE-IR: Frequency-Aware Planning and Execution Framework for All-in-One Image Restoration
-
FAPE-IR 用一个冻结的多模态大模型(Qwen2.5-VL)当"规划器"读懂退化图像、生成频率感知的恢复计划,再用扩散执行器里的 LoRA-MoE 按计划动态调度高/低频专家来修图,配合对抗训练和频率正则,在七类恢复任务上拿到 SOTA 并对未见的复合退化有强零样本泛化。
- FastGaMer: Efficient GainMap Learning for Practical Inverse Tone Mapping
-
FastGaMer 把逆色调映射(SDR→HDR/WCG)重新表述为「预测一张三通道彩色增益图(Color Gain Map)」,并按照本地色调映射的退化结构把全局压缩与局部自适应分开求逆——用动态双边网格反演局部畸变、用可学习 3D LUT 做全局重映射、用轻量神经调制器保证全局一致,所有高分辨率算子都是「无网络」操作,因此能在 V100 上 6.2 ms 处理一张 4K 图,PQ-PSNR 比此前最好的轻量方法高 1.4 dB,runtime 降 70%。
- FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution
-
提出 FiDeSR,一种高保真和细节保持的单步扩散超分框架,通过细节感知加权(DAW)、隐空间残差精炼块(LRRB)和潜在频率注入模块(LFIM)三个互补组件,同时解决单步扩散超分中的结构保真度退化和高频细节恢复不足问题。
- FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution
-
提出细粒度感知奖励模型 FinPercep-RM 和协同进化课程学习(CCL)策略,解决 RLHF 应用于真实世界超分辨率时的奖励黑客和训练不稳定问题,通过同时输出全局质量分数和空间退化热力图实现局部缺陷感知。
- FoundIR-v2: Optimizing Pre-Training Data Mixtures for Image Restoration Foundation Model
-
FoundIR-v2 发现「不同恢复任务的训练数据混合比例」本身就是决定 all-in-one 图像恢复性能的关键变量,于是用一套「数据均衡调度(动态调比例)+ MoE 驱动的扩散调度器(动态分配任务自适应生成先验)」的双调度方案在 SDXL 上做生成式预训练,单模型覆盖 50+ 子任务并在多基准上超过现有 SOTA。
- From Events to Clarity: The Event-Guided Diffusion Framework for Dehazing
-
EvDehaze 首次把事件相机引入去雾任务,将去雾重新建模成「以事件为条件的图像生成」,在隐空间 DDIM 扩散里通过交叉注意力注入事件的高动态范围边缘/对比度线索,在无需真实成对数据监督的情况下生成更真实清晰的去雾图,并附带首个真实雾天 RGB-事件无人机数据集。
- FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration
-
针对红外-可见光图像融合(IVIF)里"先配准再融合"的高成本、依赖人造形变、难以适配真实场景的痛点,FusionRegister 反过来"先融合、再只对错配区域做后配准"——它挂在任意冻结的融合骨干之后,用融合结果当视觉先验定位错配区域、做双向 warping 纠偏、再用 gMLP 模块找回纹理,以仅 2.94M 参数、19ms 推理把五种主流融合方法的配准精度(SAM IoU)平均提升约 5%,同时完全保留原融合质量。
- Gaussian Splatting-based Low-Rank Tensor Representation for Multi-Dimensional Image Recovery
-
把 3D 重建里的高斯泼溅搬进 t-SVD:用 2D 高斯泼溅生成隐张量、1D 高斯泼溅生成变换矩阵,得到一种连续、紧凑、擅长刻画局部高频细节的低秩张量表示 GSLR,并据此搭一个无监督的多维图像恢复模型,在随机/管状/切片三种缺失下的 PSNR/SSIM 全面超过 SOTA。
- GDPO-SR: Group Direct Preference Optimization for One-Step Generative Image Super-Resolution
-
针对一步扩散超分(one-step Real-ISR)确定性输出导致无法做偏好优化的问题,本文先用"可控噪声注入 + 不等时间步"让一步模型生成多样化候选,再把 DPO 的像素级约束与 GRPO 的组内相对优势融合成 GDPO,并配一个按图像平滑/纹理占比动态加权的奖励函数,在不增加任何推理开销的前提下同时提升保真度和感知质量。
- GFRRN: Explore the Gaps in Single Image Reflection Removal
-
GFRRN 把单图反射去除(SIRR)里两条长期被忽视的"鸿沟"——预训练模型与去反射模型之间的语义鸿沟、合成数据与真实数据之间的反射标签不一致——分别用 Mona 参数高效微调和统一低频标签补上,再叠加高斯自适应频率块与动态智能体注意力,在 5 个真实测试集上把平均 PSNR 推到 27.33 dB(较此前 SOTA +0.7 dB)。
- GSNR: Graph Smooth Null-Space Representation for Inverse Problems
-
提出图平滑零空间表示(GSNR),通过谱图理论构建零空间受限拉普拉斯矩阵并选择最平滑的 p 个谱模式作为零空间投影基,为 PnP、DIP 和扩散模型等逆问题求解器提供结构化的零空间约束,在去模糊、压缩感知、去马赛克和超分辨率上提升高达 4.3dB PSNR。
- Gyro-based Deep Video Deblurring
-
GyroDVD 是第一个面向「陀螺仪辅助视频去模糊」的学习式框架:它用一个分解式相机运动模型把每个像素的运动拆成旋转(陀螺仪测)和平移(光流估)两部分,据此构造逐像素模糊核,再用核引导的图像编码器 + 视频解码器把模糊视频还原成清晰视频,在自建的大规模真实数据集 GyroVD 上显著超过此前所有陀螺仪图像/视频去模糊方法。
- HDW-SR: High-Frequency Guided Diffusion Model based on Wavelet Decomposition for Image Super-Resolution
-
HDW-SR 用「只对残差扩散 + 小波采样替换 U-Net 卷积 + 高低频稀疏交叉注意力 + 动态阈值选元」的组合,把预超分图像的高频先验显式注入扩散去噪过程,在合成与真实超分数据集上把细节恢复做得更锐利、更自然。
- HFR and HDR Video from Multi-Attenuated Spikes Using a Rapidly Rotating SpokeND Filter
-
在脉冲(spike)相机前架一片高速旋转的镂空式中性密度滤光片(SpokeND),让每个像素周期性地以多档衰减采样光强,再用两阶段的 ReST-Net(ReGain 去空间衰减 + ReFine 去时间闪烁)从这些「多衰减脉冲」里重建出最高 2000 FPS 的高帧率(HFR)兼高动态范围(HDR)视频。
- HiDRA: Hierarchical Degradation Representation and Adaptation with Generative Priors for Enhancing Infrared Vision
-
HiDRA 把热红外(TIR)图像增强拆成「退化表示估计 + 生成模型微调」两层任务:用一个退化估计模块(DEM)从退化图像里反推出热红外特有的退化向量,再让这个向量去调制一步式 Stable Diffusion 的 LoRA 参数,并用双层(bi-level)优化在多种退化等级上联合训练,从而在 FPN 噪声、盲超分、复合退化和真实跨设备退化上都显著超过现有 SOTA。
- Human-Centric Multi-Exposure Fusion: Benchmark and Bi-level Cognition Distillation Framework
-
本文把人类脑电(EEG)认知信号引入多曝光融合(MEF):先构建首个 MEF-EEG 配对数据集 Cog-Expo,再用「双层优化」把一个受脑电引导的 Teacher 的认知知识蒸馏给一个只用图像、推理时无需脑电的 Student,在 MEF 基准上达到 SOTA 且融合结果更贴合人眼感知。
- Hybrid Agents for Image Restoration
-
针对真实图像恢复中「外行不会选工具」和「逐个去退化会误差传播」两个痛点,提出 HybridAgent——用「快/慢/反馈」三个智能体协同调度,配合一套三阶段训练得到的单退化 + 混合退化恢复工具,让简单指令走轻量快路、复杂退化走 MLLM 慢路并闭环反馈,从而又快又稳地完成自动图像恢复。
- IAFMNet: Information-Aware Feature Modulation for Efficient Super-Resolution
-
IAFMNet 把"图像不同区域信息量不均"这件事用信息论量化成一张信息密度图(IDM),再用它驱动一个稀疏卷积 + 仿射调制的双分支网络,把算力集中投到纹理/边缘等"难重建、信息密集"的区域,在更低 FLOPs 下取得比同量级高效超分方法更好的重建质量。
- IFCSR: Inference-Free Fidelity-Realism Control for One-Step Diffusion-based Real-World Image Super-Resolution
-
IFCSR 让"调保真度 vs 真实感"这件事从扩散模型的隐空间搬到图像空间——先用两个专精网络分别推一张保真图和一张真实感图,之后用户只需调一个参数 \(\gamma\) 在图像空间线性混合两图,不需要任何额外网络推理就能在保真-真实谱上任意滑动。
- Flickerformer: A Duet of Periodicity and Directionality for Burst Flicker Removal
-
揭示闪烁伪影具有周期性和方向性两个内在物理特性,设计Flickerformer三模块(PFM/AFFN/WDAM)分别针对帧间/帧内周期性和方向性建模,以3.92M参数量在BurstDeflicker基准上达到31.226dB PSNR,超越第二名AST +0.580dB且仅用其19.70%参数。
- Language-Guided One-Step Diffusion Model for Nighttime Flare Removal
-
针对"夜间强光源造成的炫光会遮挡局部区域、现有方法缺乏被遮挡区的语义先验因而补出伪影/丢细节"的痛点,本文做了首个炫光专用视觉语言模型 Flare-VLM 输出结构化炫光描述、用它引导一步扩散在单次前向里重建严重受损区,并提出语义感知分布蒸馏(SADD)把噪声集中到炫光区、配合指令驱动的数据合成管线生成更贴近真实的训练数据,在恢复质量与下游检测上都优于现有方法。
- Learned Image Compression via Sparse Attention and Adaptive Frequency
-
SAAF 用一条"空间-频率双路"变换网络做学习式图像压缩:空间路用稀疏窗口注意力(CSWA)以极少全局 token 高效建模长程依赖,频率路用内容自适应的频率重加权(AFB)替代固定小波变换,再加一个只在训练期生效的去噪正则(DaR)让潜空间更平滑,最终在 Kodak/CLIC/Tecnick 上同时拿到最优 BD-rate 和最低延迟(67 ms)。
- Learning Personalized Photographic Style from Pairwise User Preferences
-
这篇论文把「从用户的成对偏好判断中学个性化色调审美、再把它应用到任意新照片上」定义成一个新任务 PPS(Personalized Photographic Style),并配套交付了一个 767 人、约 6 万条偏好判断的大规模数据集 PPSD、三种可行的基线模型,以及一个专门衡量「保真度 + 偏好对齐」的评估指标 CQS,证明从纯比较信号里学个人审美是可行的。
- LF-BVN: Blind-View Network for Self-Supervised Light Field Denoising
-
把单图去噪里的「盲点(blind-spot)」思想推广到光场的「盲视点(blind-view)」——遮住一部分视点、用其它视点的多视角一致性来重建它们,从而无需任何干净图像就能训练,并靠几何不变掩膜让一张权重共享网络去噪全部视点,在合成、真实和显微光场上都达到或超过监督方法。
- Life-IQA: Boosting Blind Image Quality Assessment through GCN-enhanced Layer Interaction and MoE-based Feature Decoupling
-
针对盲图像质量评估(BIQA)中"把所有层特征一股脑融合反而引入噪声"的问题,Life-IQA 只用骨干网最深两层特征做质量解码:用 GCN 增强的查询拓扑把 stage4 特征当 query、stage3 特征当 key/value 做跨层交互,再用一个后置的 MoE 头按失真类型解耦特征,在七个 BIQA 基准上以约 95M 参数取得 SOTA。
- LightRR: A Lightweight Network for Single Image Reflection Removal
-
针对单图反射去除(SIRR)模型又大又慢的问题,LightRR 用小波分频把反射主要集中的低频交给 Mamba 状态空间模型重点处理、高频走轻量旁路无损保留,再用知识蒸馏让小编码器在训练时偷师大预训练模型、推理时丢弃,最终只用 RDNet 的 3.01% 参数和 5.22% FLOPs 就拿到接近 SOTA 的去反射效果。
- LRDUN: A Low-Rank Deep Unfolding Network for Efficient Spectral Compressive Imaging
-
把高光谱图像(HSI)的低秩分解 \(X=A\times_3 E\) 直接嵌进 CASSI 的成像(感知)模型,让网络不再去重建整块高维数据立方体,而是交替求解维度低得多的「光谱基 \(E\)」和「空间子空间图 \(A\)」两个子问题;据此把近端梯度下降(PGD)展开成 LRDUN,并用 GFUM 解耦物理秩与特征维度,在 KAIST 上以 30.58 GFLOPs 的代价拿到 40.96 dB 的 SOTA PSNR,算力比同档方法低一截。
- LRHDR: Learning Representation-enhanced HDR Video Reconstruction
-
LRHDR 用交替曝光的 LDR 视频帧重建 HDR 视频,把"先对齐再融合"的传统范式换成"映射到统一表征再投票融合":通过 ACCR 网络把不同曝光的特征经逐像素仿射调制对齐到一个曝光无关的统一表征域,再由 APSWF 把融合改写成逐像素稀疏候选选择,在两曝光/三曝光设置下都取得了 PSNR/SSIM 的 SOTA。
- MMDIR: Multimodal Instruction-Driven Framework for Mixed-Degradation Document Image Restoration
-
MMDIR 把"用文字指令问模型这张文档图里有没有/有哪些退化"这件事塞进文档复原流程:一张退化文档图配一条文本指令,经视觉编码器和 LLM 联合处理后,LLM 先输出"哪几种退化存在"的诊断文本,再用这段语义特征去引导视觉解码器做有针对性的复原,从而在不依赖退化先验、不为每种退化单独训模型的前提下,统一处理模糊、阴影、文字水印、印章四类混合且不确定的退化。
- MR. Illuminate: Zero-Shot Low-Light Image Enhancement with Diffusion Prior
-
MR. Illuminate 用一个完全冻结、零训练、零优化的预训练扩散模型(SD v1.5)做低光增强:先把输入做 DDIM 反演,再用 AdaIN 把反演潜变量的统计量对齐到模型期望的标准正态分布完成全局亮度/色彩矫正(Modulate),同时把反演阶段记录的自注意力特征注入采样阶段以恢复局部结构与色彩(Refine),全程不用任何辅助损失、退化假设或调参,就能在标准低光基准上超过 SOTA、并保持同场景不同光照下的色彩恒常性。
- Multi-Scale Gradient-Guided Unrolling Architecture with Adaptive Mamba for Compressive Sensing
-
MambaCS 把经典近端梯度下降(PGD)算法在多个特征尺度上展开成一个 U 形深度网络,用定制的自适应状态空间块(A-SSB)替换传统展开网络里的卷积/Transformer 模块,并重新设计梯度注入(HDGF)与近端算子(FAPO),在多个压缩感知重建数据集上以相近参数量取得 SOTA 的 PSNR/SSIM。
- Multinex: Lightweight Low-light Image Enhancement via Multi-prior Retinex
-
Multinex 把 Retinex 分解从「重建目标」改写成「加性残差先验」,再用一组解析计算出的多视角亮度/色度先验喂给两个超轻量融合网络,只用 45K(甚至 0.7K)参数就在 7 个低光基准上把同量级轻量 SOTA 全面压过、逼近百万级大模型。
- NEC-Diff: Noise-Robust Event–RAW Complementary Diffusion for Seeing Motion in Extreme Darkness
-
提出 NEC-Diff,一个基于扩散模型的事件-RAW 混合成像框架,利用 RAW 图像的光照先验引导事件去噪、事件的高动态范围边缘辅助图像去噪,结合双模态 SNR 引导的可靠信息提取和交叉模态注意力扩散,在极暗环境下(0.001-0.8 lux)实现高质量动态场景重建,PSNR 达 24.51 dB(REAL 数据集)。
- Next-Scale Prediction: A Self-Supervised Approach for Real-World Image Denoising
-
NSP 借鉴视觉自回归的「下一尺度预测」,让盲点网络(BSN)以大下采样因子得到的低分辨率、已解相关子图为输入、去预测小下采样因子对应的高分辨率、保细节目标,从而把「噪声解相关」和「细节保留」这对长期对抗的目标在不同尺度上各自解决,在真实去噪基准上刷到自监督 SOTA,还顺带白送一个噪声图超分能力。
- OMoBlur: An Object Motion Blur Dataset and Benchmark for Real-World Local Motion Deblurring
-
针对静止场景中由运动物体造成的"局部、非均匀"模糊,作者用工业相机的可编程曝光控制做出一套物理保真的累积式合成数据集 OMoBlur(2 万对 blur–sharp–mask,有效曝光占比高达 98%),并配套提出能在不依赖像素级 mask 标注的情况下"只修模糊区、保住静止背景"的去模糊网络 OMDNet。
- One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution
-
基于 Qwen-Image 的一步式扩散 Transformer(ODTSR),用「噪声混合视觉流」让保真度和提示可控性可以同时拿到、并由一个保真度权重 \(f\) 连续调节,再配合「保真度感知对抗训练」把多步去噪压成单步推理,在通用真实超分和中英文文字图超分上都达到 SOTA。
- Outlier-Robust Diffusion Solvers for Inverse Problems
-
针对真实测量中常见的离群值(outlier),本文给基于预训练扩散模型的逆问题求解器加了两道保险——先用显式噪声估计精炼测量,再把数据保真项从平方 \(\ell_2\) 换成 Huber 损失的迭代重加权最小二乘,并分别用梯度下降(Robust-GD)和共轭梯度(Robust-CG)求解,在超分/修复/去模糊等线性与非线性任务上对离群污染显著比 DPS、DAPS 等近期方法更稳。
- PhaSR: Generalized Image Shadow Removal with Physically Aligned Priors
-
提出PhaSR框架,通过双层物理先验对齐——全局级的PAN执行无参数Retinex分解抑制色彩偏差、局部级的GSRA利用差分注意力对齐DepthAnything深度先验和DINO-v2语义嵌入——实现从单光源直射阴影到多光源环境光场景的泛化阴影去除,在WSRD+和Ambient6K上达到SOTA且FLOPs最低。
- Physically-Grounded Turbulence Mitigation with Frame-Shared Degradation Parameters
-
TMFS 是一个无监督、基于优化的多帧大气湍流复原方法:它把"tilt-then-blur"物理退化模型里每一帧的畸变场和模糊参数拆成场景共享的相关函数 + 逐帧噪声图,用同一场景多帧之间的湍流统计相关性来约束本就高度病态的逐帧估计,在真实湍流数据上比在合成数据上训练的监督方法泛化更好。
- Physics-Guided Multistep Deformation Reversal for Ancient Bamboo Slip Restoration
-
针对出土古竹简因脱水应力产生的复杂非线性形变,本文用木材流变学建立一套可计算的"前向物理形变引擎"无配对地造数据,再训一个 ControlPointUNet 逐步预测逆向位移场把竹简一步步"拗"回原状,在文字保真度(TRQ)与形变物理合理性(DCI)上显著超过 CycleGAN / DewarpNet / DDRM 等数据驱动方法。
- PnP-CM: Consistency Models as Plug-and-Play Priors for Inverse Problems
-
把一致性模型(consistency model, CM)重新解释成"先验的近端算子",塞进 ADMM 形式的即插即用(PnP)框架,再用噪声注入和动量两招把迭代压到 2–4 个神经网络评估(NFE),就能统一求解线性/非线性逆问题,并首次把 CM 训练应用到 MRI 重建。
- Polarization State Tracing for Reflection Removal and Color-Consistent Reconstruction
-
针对"透过彩色玻璃拍照会出现重影 + 颜色偏色"这一被忽视的退化问题,本文首次把偏振成像理论引入建模,提出物理成像模型 PSTM(追踪偏振光多路径传播 + 波长选择性吸收)并据此设计带 Channel Ring Attention 的偏振感知网络 PANet,在自建真实数据集 GlassPol 上比现有 SOTA 最高提升约 3dB PSNR,同时恢复出颜色保真的透射场景。
- RADAR: VQ-VAE Decoder of VAR is a Good Student for Restoring Against Degradation by Acceleration
-
针对视觉自回归(VAR)模型加速后隐表示退化、图像质量下降的问题,本文提出两段式框架 RADAR:先用语义代价感知掩码(SCA-Mask)把注意力剪枝转成"预算约束下保留最多语义信息"的优化问题,再用后加速适配(PAA)——只给 VQ-VAE 解码器挂一个 LoRA、用未加速分支做教师做内部知识蒸馏,把退化的隐表示重新还原成高保真图像;在 ImageNet-1K 上实现约 1.6–1.9× 提速且 FID 几乎无损(VAR-d20 从退化的 5.02 复原到 2.68,原始为 2.61)。
- RAW-Domain Degradation Models for Realistic Smartphone Super-Resolution
-
证明了精心设计的设备特定退化建模(通过标定获取真实的 blur 和 noise 参数)可以显著提升手机超分辨率的真实场景性能——通过将公开渲染图像 unprocess 到不同手机的 RAW 域生成高低分辨率训练对,训练的 SR 模型在保留设备的真实数据上明显优于使用大量任意退化组合训练的基线。
- RawMetaDiff: Unlocking Extreme Darkness from Dual-Exposure RAW with Meta-Guided Diffusion
-
RawMetaDiff 把"对齐短/长曝光帧"这个脆弱的显式配准问题重写成"条件生成"问题——以噪声短曝光 RAW 作为扩散初始化,用可能错位的长曝光 RAW 作参考、并由 RAW 元数据(ISO/CCM/曝光)引导一步式潜空间扩散,借 MACT 做全局颜色迁移、MNCA 做阴影细节注入,在合成与真实数据上 LPIPS 提升 33%、真实数据 DeQA 涨 15%。
- Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset
-
提出 Real-IISR 统一自回归框架,通过热-结构引导模块、条件自适应码本和热序一致性损失解决真实红外图像超分辨率的特有挑战,并构建了 FLIR-IISR 数据集(1457 对真实 LR-HR 红外图像)。
- ReasonX: MLLM-Guided Intrinsic Image Decomposition
-
ReasonX 把一个微调过的多模态大模型(MLLM)当作"感知裁判",对 RGB 图上的点对做相对本征判断(谁更近、谁更亮、是否同材质),再用裁判判断与模型预测的解析关系是否一致作为 GRPO 奖励,在完全无本征真值标注的真实图像上微调本征分解模型,让 PRISM / Marigold 这类模型在野外场景上 IIW 反照率 WHDR 降低 9–25%、ETH3D 深度精度提升最高 46%。
- Rectifying Latent Space for Generative Single-Image Reflection Removal
-
GenSIRR 把一个图像编辑扩散大模型(FLUX.1 Kontext)改造成单图反射去除器,核心是让 VAE 的潜空间"看懂"反射图是背景层和反射层的线性叠加(reflection-equivariant VAE),再配上可学习的任务嵌入替代含糊的语言提示、以及用深度图早期分支挑选最优采样轨迹,在 Real20/SIR2/Nature 等基准上刷到新 SOTA,并在真实野外照片上展现出强泛化。
- Reflection Separation from a Single Image via Joint Latent Diffusion
-
针对单张图在强眩光、弱反射等极端场景下难以同时还原透射层和反射层的问题,本文微调一个潜扩散模型,用统一模型加「Transmission / Reflection」提示词同时生成两层,配合跨层自注意力、解耦采样和测试时潜空间合成优化,在多个真实基准上把透射和反射的分离质量都刷到 SOTA(Real20 PSNR 25.32、反射层 LPIPS 从 0.52 降到 0.37)。
- ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation
-
ReflexSplit提出一种显式层融合-分离框架,通过跨尺度门控融合(CrGF)自适应聚合多尺度特征,层融合-分离模块(LFSB)中的差分双维度注意力 \(\mathbf{A}^t - \lambda_\ell \mathbf{A}^r\) 进行跨流干扰抑制,配合深度依赖初始化+epoch-wise warmup的课程训练,在合成和真实世界反射分离基准上取得SOTA。
- RegionFuse: Region-Adaptive Pixel Distribution Learning for Infrared and Visible Image Fusion
-
RegionFuse 把红外-可见光图像融合(IVIF)的融合权重从「全图统一」细化到「按局部像素分布逐区域自适应」:用一个区域级的混合专家注意力(MoRA)把不同像素分布的区域分派给不同的掩码注意力专家、再用区域特征压缩模块(RFCM)增强有效区域、抑制冗余,在四个 IVIF 基准上拿到 SOTA,且对过/欠曝这类非均匀光照尤其鲁棒。
- Restore, Assess, Repeat: A Unified Framework for Iterative Image Restoration
-
RAR 把"图像质量评估(IQA)"和"图像恢复(IR)"塞进同一个潜空间、做成一个端到端可训练的模型,让它在潜空间里反复地"评估→恢复→再评估",从而在未知/复合退化上又准又快(比 SOTA 快 11.27×)地把图像修干净。
- Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance
-
TiGeSR 用"先修字、后修图"的两阶段范式把场景文字超分中"图像质量"与"文字可读性"的固有取舍拆开:先用扩散模型在文字区域重建精确字形结构,再把这些字形作为条件注入 ControlNet 做全图超分,并配套发布了首个最大变焦 ×14.29 的中文场景文字数据集 UZ-ST,在 Real-CE 与 UZ-ST 上的图像质量与 OCR 准确率都拿到 SOTA。
- Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features
-
DGAF-VSR 重新审视扩散视频超分里"对齐 + 补偿"的作用,先用量化实验得出两条观察——特征域比像素域时空相关性更强、在高分辨率上 warping 更能保住高频,再据此设计在特征域做"上采样-warp-下采样"对齐的 OGWM 模块和用完整 U-Net 做稠密时序引导的 FTCM 模块,在感知质量、保真度、时序一致性三方面同时刷过 SOTA(DISTS −35.82%、PSNR +0.20dB、tLPIPS −30.37%)。
- Rethinking Knowledge Transfer in Image Quality Assessment: A Perceptual Preference Structure Alignment Perspective
-
作者把 IQA 跨数据集迁移失败的根因归结为「感知偏好结构」错配(即不同数据集的条件分布 \(P(Y|X)\) 不同),提出用特征-分数相关向量 PPR 量化这种偏好、用余弦相似度 PPC 衡量数据集间兼容性,再用贪心剔除策略 PreSTA 只挑出与目标域偏好一致的源样本——仅用 20% 源数据就反超全量基线。
- Retrieve-to-Restore: Efficient All-in-One Image Restoration with a Retrieval-Based Degradation Bank
-
R2R 把"退化适配"从骨干网络里抽出来,外置成一个可检索的"退化银行"——训练期用退化融合器把各类退化的干净先验蒸馏进银行,推理期用退化匹配检索最相关的先验来调制特征,从而在单一轻量骨干上稳定处理多种退化,PSNR 与 SOTA 持平却只用约 9% 的算力。
- RL-ScanIQA: Reinforcement-Learned Scanpaths for Blind 360deg Image Quality Assessment
-
RL-ScanIQA 把 360° 全景图的盲质量评估(BIQA)重构成一个"主动感知"问题:用 PPO 训练一个 scanpath 策略去自主选择该看哪些视口,再用一个质量评估器给分,两者端到端联合优化、靠质量预测反馈直接驱动策略(不再需要人类眼动标注),配合多层奖励和失真空间增强,在三个 360° IQA 基准上取得 SOTA。
- Scan Clusters, Not Pixels: A Cluster-Centric Paradigm for Efficient Ultra-high-definition Image Restoration
-
针对超高清(4K)图像恢复中 Mamba 仍要逐像素扫描、显存爆炸的瓶颈,C2SSM 把"逐像素扫描"改成"逐聚类中心扫描"——先用一个神经参数化的混合分布把上百万像素蒸馏成几个语义质心,只对质心跑 Mamba,再把全局上下文按相似度分布扩散回所有像素,从而在五项 UHD 恢复任务上同时拿下 SOTA 和最低 FLOPs(0.407G)。
- SDUIE: Semi-Supervised Diffusion for Underwater Image Enhancement with Quant-Text Dual Control
-
针对水下图像增强里"每个人对增强程度偏好不同、但现有方法只能输出固定结果"的痛点,SDUIE 用一个半监督双分支扩散框架,既能通过融合因子 \(\alpha\) 做连续数值调级(SDUIE-Quant),又能通过自然语言提示做语义调级(SDUIE-Text),在保住水下蓝绿色调美学的同时取得 SOTA。
- DeSpike:脉冲相机的离焦去模糊与图像重建
-
DeSpike 是首个针对脉冲相机(spike camera)离焦模糊的端到端去模糊与重建框架,先用薄透镜物理模型刻画离焦如何扭曲脉冲发放,再用多时间尺度 IF 神经元 + 可学习离散 PSF 先验 + 多空间尺度迭代精修把模糊脉冲流恢复成清晰图像,在合成与真实离焦脉冲数据上全面超越现有去模糊方法。
- Self-Attention Driven Tensor Representation for High-Order Data Recovery
-
把自注意力机制搬进低秩张量表示(LRTR)的因子建模里,用「因子自表示」替代固定的 MLP/CNN 映射来动态捕捉因子空间的局部与非局部非线性依赖,再用 MLP 参数化核张量隐式施加稀疏约束,配上可恢复性理论证明,在补全、去噪、视频插帧三类高阶数据恢复任务上一致超过现有 SOTA。
- Self-Diffusion Driven Blind Imaging
-
DeblurSDI 把"自扩散"(self-diffusion,一种无需预训练的逆问题求解器)从已知退化算子的非盲场景拓展到盲场景,用两个随机初始化、互不预训练的网络在一段从纯噪声出发的反向扩散过程里同时重建清晰图像和模糊核(PSF),靠噪声调度天然稳住这个本来极易崩塌的联合优化,在光学像差和运动模糊上大幅超过现有盲去模糊方法。
- Self-supervised Dynamic Heterogeneous Degradation Modeling for Unified Zero-Shot Image Restoration
-
UP-ZeroIR 发现噪声/雾霾/低光等异质退化在潜空间里都能被一个两参数的广义高斯分布(GGD)刻画,于是把退化建模重写成"分布对齐"问题,再配上一个自评估质量、动态调整采样轨迹的策略,让预训练扩散模型在不重训的零样本设定下同时刷新单退化与混合退化的恢复 SOTA。
- SelfHVD: Self-Supervised Handheld Video Deblurring
-
SelfHVD 利用手持视频中自然存在的清晰帧作为监督信号,通过自增强视频去模糊(SEVD)构建高质量训练对和自约束空间一致性维护(SCSCM)防止位移偏移,实现了无需配对数据的手持视频去模糊。
- SGDE: Self-supervised Geometry Degradation Estimation Framework for Coded Aperture Compressive Spectral Imaging
-
针对编码孔径压缩光谱成像(CASSI)中掩膜(mask)微小错位会严重破坏重建质量的问题,本文把掩膜错位显式建模成仿射变换嵌进成像模型,用一套自监督的"双生成器 + 多核估计"框架在不需要任何参考靶标和设备专属训练数据的情况下,同时估计仿射参数并重建高光谱图像,让重建在 1 像素平移、0.4° 旋转等扰动下仍能稳定保持 PSNR > 35 dB,且估出的仿射参数能即插即用地迁移到现有重建算法。
- ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration
-
提出 ShiftLUT,通过可学习空间偏移模块(LSS)实现 LUT 方法中最大感受野(65×65),配合非对称双分支架构和误差有界自适应采样(EAS),在存储 104KB + 推理 84ms 的条件下超越所有现有 LUT 方法。
- ShreddingNet: Coarse-to-Fine Restoration for Multi-Source Shredded Manuscripts
-
ShreddingNet 用「粗匹配先按来源聚类、再细粒度逐对评分」的两阶段流程,解决多张书画作品碎片混在一起的修复问题,把模型调用次数从 \(O(n^2)\) 降到 \(O(n)\),在两个数据集上全局拼装 F1 达 98.37%,比此前 SOTA 高 5.72%。
- Similarity-Consistent Likelihood Diffusion enables Hidden Person Detection from Wall Reflections
-
SLD-Net 把墙面漫反射里几乎看不见的差分光信号先回归成一个带逐像素精度的高斯伪似然 \((\mu_0,\Lambda_0)\),再以"精度加权能量项"注入确定性 DDIM 采样,让扩散先验既严格贴合物理测量又保证同一观测必得同一重建,从墙上反射"还原"出拐角后隐藏的人,在两个真实数据集上把 FID 从 264.91/177.05 降到 73.54/26.89。
- Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor
-
针对 RGB 单帧去模糊本质病态、事件相机又会饱和且边缘/运动纠缠的问题,本文用天眸(Tianmouc)互补视觉传感器在单次 RGB 曝光内同步采到的高帧率空间差分(SD,编码结构边缘)与时间差分(TD,编码运动),设计了递归多分支网络 STGDNet 把 SD/TD 逐时序注入 RGB 特征空间做去模糊,并配套一套 DMD 数据制造管线生成真实对齐训练对,在合成 CVS 数据集和 100+ 真实极端运动场景上都取得 SOTA。
- Spectral Super-Resolution via Adversarial Unfolding and Data-Driven Spectrum Regularization
-
提出 UALNet,通过将数据驱动的光谱先验(PriorNet)和对抗学习项同时嵌入深度展开框架,实现从 Sentinel-2 多光谱数据(12 波段)到 NASA AVIRIS 高光谱图像(186 波段)的光谱超分辨率,性能超越 Transformer 的同时仅需 15% 计算量和 1/20 参数。
- Statistical Characteristic-Guided Denoising for Rapid High-Resolution Transmission Electron Microscopy Imaging
-
提出统计特征引导去噪网络 SCGN,利用空间域的窗口标准差加权和频域的频带引导加权,分别在空间和频率两个域自适应地增强信号、抑制噪声,结合 HRTEM 专用噪声标定方法生成含无序结构的真实噪声数据集,实现毫秒级高分辨率透射电子显微镜图像的高质量去噪。
- Task-Aware Image Signal Processor for Advanced Visual Perception
-
TA-ISP 把 RAW→RGB 这一步从"重网络/或只调几个传统 ISP 参数"换成"预测一小撮全局/区域/像素三级的调制算子",用仅 3K 参数、亚 27ms 的代价产出对下游检测/分割友好的图像表示,在多个 RAW 检测/分割基准上同时刷高精度并大幅压参降时延。
- TextOVSR: Text-Guided Real-World Opera Video Super-Resolution
-
针对老旧戏曲视频画质差、真实退化难建模的问题,TextOVSR 引入「退化描述文本」和「内容描述文本」两类提示,搭一个正/负双分支网络——负分支用退化文本约束解空间、正分支用内容文本补语义,再配一个退化鲁棒的跨模态融合模块(DRF)和一个吃文本语义的判别器(TED),在自建 OperaLQ 真实退化基准上把无参考画质指标刷到 SOTA。
- The Surprising Effectiveness of Noise Pretraining for Implicit Neural Representations
-
本文通过系统的实验分析发现:用非结构化噪声(均匀/高斯分布)预训练 INR 可在图像拟合中达到惊人的 ~80dB PSNR,远超所有数据驱动初始化方法;而具有自然图像 \(1/|f^\alpha|\) 频谱结构的噪声则在信号拟合和去噪之间实现最佳平衡,无需任何真实数据即可匹配 SOTA 数据驱动初始化性能。
- TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking
-
提出 TIACam 框架,通过可学习自动增强器模拟相机失真、文本锚定跨模态对抗训练学习不变特征、零水印头在特征空间绑定消息,实现无需修改图像像素的相机鲁棒零水印方案,在屏幕翻拍/打印翻拍/截图三种真实场景下均达到 SOTA 提取精度。
- Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution
-
TADSR 指出现有单步扩散超分都把 student 的 timestep 写死在 999,白白浪费了 SD 在不同时间步上各异的生成先验;它给 VAE encoder 加时间嵌入、让同一张图随 timestep 编出不同 latent,再用一个映射把 student 和 teacher 的 timestep 绑起来,从而单步就能拿到一致的生成引导,并且只靠调一个 \(t_s\) 就能在保真度和真实感之间无级滑动,多个真实/合成数据集上无参考指标全面 SOTA。
- Time-Specialized Event-Image Alignment for Blur-to-Video Decomposition
-
TSANet 用事件相机辅助,把一张运动模糊图像「展开」成高帧率清晰视频——核心是先把事件特征和图像特征都「时间专门化」对齐到任意查询时刻 \(t\),再做轻量融合,在 GoPro / HighREV / EBD 三个数据集上一致超过此前 SOTA。
- Time Without Time: Pseudo-Temporal Representation for Space-Time Super-Resolution
-
针对时空视频超分(STVSR)缺乏有效预训练策略的问题,本文提出把单张图片"复制成多帧 + 逐帧独立随机置零"伪造出一段没有真实时间的视频,让目标 STVSR 网络自己做"从退化的伪时间输入重建高时空分辨率干净输出"的预训练,并用难度自适应像素损失聚焦难生成区域;这套架构无关、只用图像就能跑的预训练在少样本微调下把多种 STVSR 网络的 PSNR 提升最多 +5dB。
- TM-BSN: Triangular-Masked Blind-Spot Network for Real-World Self-Supervised Image Denoising
-
提出三角掩码盲点网络 TM-BSN,通过将盲点区域设计为与真实 sRGB 噪声的菱形空间相关模式精确对齐的形状,在原始分辨率上实现无需下采样的自监督图像去噪,并通过知识蒸馏进一步提升性能,在 SIDD 和 DND 基准上达到自监督去噪 SOTA。
- Towards Generalized Representations for Low-Light Understanding: When Signal Constancy Meets Semantic Enrichment
-
UniPrior 把"光照不变信号先验"和"视觉基础模型(DINOv2/CLIP)的语义先验"统一起来,在完全不用任何真实低光数据训练的前提下,让白天训好的模型稳健泛化到各种没见过的夜间/低光场景,并在分类、分割、人脸检测三类任务上大幅刷新零样本 SOTA。
- TUDSR: Twice Upsampling-Diffusion for Higher Super-Resolution
-
针对 SD 这类原生分辨率只有 512² 的扩散模型在 ×8 高倍超分(如 256²→2048²)上崩坏的问题,TUDSR 把"一次性高倍上采样"拆成"两段各自落在模型原生能力内的上采样-扩散",用两个串联的 LoRA + 一步 GAN 完成,在 4 张 RTX 4090 上训练就能产出 2048² 高质量图,多个真实数据集的感知指标刷到 SOTA,尤其在 ×8 任务上领先明显。
- UCAN: Unified Convolutional Attention Network for Expansive Receptive Fields in Lightweight Super-Resolution
-
提出 UCAN 轻量级超分辨率网络,统一卷积和注意力机制来高效扩展有效感受野,通过 Hedgehog 注意力解决线性注意力的秩坍缩问题,引入大核蒸馏模块和半共享参数策略,在 Manga109 (4×) 上以仅 48.4G MACs 达到 31.63 dB PSNR。
- UCMNet: Uncertainty-Aware Context Memory Network for Under-Display Camera Image Restoration
-
UCMNet 用一张逐像素的不确定性图来标定屏下相机(UDC)图像中"哪里退化得最不规则、最难恢复",再让一对可学习的 Memory/Context Bank 按不确定性模式检索对应的高频上下文,从而对空间非均匀退化做自适应恢复——在 POLED/TOLED/SYNTH 上以比 BNUDC 少约 30% 参数(3.2M vs 4.6M)拿到 SOTA。
- UDAPose: Unsupervised Domain Adaptation for Low-Light Human Pose Estimation
-
UDAPose通过基于稳定扩散的低光照图像合成(保持高频低光特征)和动态注意力控制模块(自适应平衡视觉线索与姿态先验),在低光照硬集上实现56.4%的AP提升。
- Towards Universal Computational Aberration Correction in Photographic Cameras: A Comprehensive Benchmark Analysis
-
本文构建了首个大规模通用计算像差校正(CAC)基准 UniCAC,提出光学退化评估器(ODE)量化像差难度,并对24种图像恢复/CAC算法进行了全面评估,揭示了先验利用、网络架构和训练策略三大关键因素对CAC性能的影响。
- UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration
-
UniLDiff 以 Stable Diffusion XL 为底座搭一个统一图像恢复框架,用「退化感知特征融合 DAFF」把低质特征在每个去噪步动态注入扩散轨迹、用解码器里的「细节专家模块 DAEM」靠 MoE 找回 VAE 压缩丢掉的高频细节,在多任务、复合退化与零样本真实退化上都拿到 SOTA 感知质量。
- UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization
-
提出 UniRain 统一图像去雨框架,通过 RAG 驱动的数据蒸馏从百万级公开数据集筛选高质量样本,结合非对称 MoE 架构和多目标重加权优化策略,在雨条纹和雨滴(白天/夜间)四种退化类型上实现一致优异性能。
- UniSER: A Foundation Model for Unified Soft Effects Removal
-
UniSER 把镜头炫光、雾霾、阴影、反光这四类「半透明遮挡」统一成一个 Soft Effects Removal(SER)任务,用 380 万对像素对齐数据微调一个 Diffusion Transformer,在保留场景身份的前提下实现可控(掩码 + 强度)、可泛化(零样本去未知退化)的高保真去效果,单模型同时超越专家模型和 Nano Banana 这类通用大模型。
- Unpaired Image Deraining Using Reward-Guided Self-Reinforcement Strategy
-
针对无监督去雨缺乏配对监督、优化空间不受约束的问题,本文提出 RGSUD:在训练中用 VLM 感知质量评分(DACLIP-IQA)把偶尔冒出的高质量去雨结果"回收"成奖励,再用这些奖励同时改进伪配对数据合成、并构造一个充当数据一致性项的自强化损失,从而把优化空间压紧,在合成/真实配对和真实无配对数据上都取得无监督 SOTA。
- UnReflectAnything: RGB-Only Highlight Removal by Rendering Synthetic Specular Supervision
-
用单目几何 + Blinn-Phong/Fresnel 渲染在任意 RGB 图上"凭空"造出物理合理的合成高光,从而无需成对数据就能训练;模型在 DINOv3 特征空间里把高光遮挡的 token 修补回扩散反射的样子,再解码成去高光图像,在自然与手术(内窥镜)多个数据集上取得有竞争力到 SOTA 的结果。
- VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba
-
VEMamba 第一次把 Mamba 用到体积电镜(VEM)的各向同性重建上:通过「轴向-侧向分块选择性扫描(ALCSSM)+ 动态权重聚合(DWAM)」把 3D 体素依赖重排成 1D 序列做线性复杂度建模,并用真实退化模拟 + 动量对比(MoCo)把退化先验注入网络,在 EPFL/CREMI 两个数据集上以最低的参数量和算力拿到多数指标 SOTA。
- VoDaSuRe: A Large-Scale Dataset Revealing Domain Shift in Volumetric Super-Resolution
-
作者构建了 VoDaSuRe——迄今体素总量最大(∼194 gigavoxels、16 个样本 32 次扫描)的真实配对多分辨率 CT 数据集,并用它揭示了一个被现有体积超分研究掩盖的事实:当前 SOTA 模型的"惊艳效果"主要来自在下采样合成数据上训练,一旦换成物理采集的真实低分辨率扫描,模型只会输出空间平均后的模糊结果,根本没在重建丢失的微结构。
- White-Balance First, Adjust Later: Cross-Camera Color Constancy via Vision-Language Evaluation
-
把颜色恒常性(估计光源色)从"直接回归 RGB"改写成"先白平衡、再让 VLM 看图给反馈、迭代修正"的闭环过程:每轮用当前估计白平衡并转成 pseudo-sRGB,让一个 LoRA 微调的 VLM 判断画面还偏红/绿/蓝,据此把光源方向往对应轴旋转一个角度,直至收敛——无需目标相机的标定或重训,就在四个跨相机基准上拿到 SOTA,尤其大幅压低了最难 25% 样本的误差。
- Zero-Shot Image Denoising via Hybrid Prior-Guided Pseudo Sample Generation
-
ZS-HPD 只用一张噪声图自己造训练对来训去噪网络:用「梯度排序分组」的下采样器抓局部先验、用「高斯约束的全局随机采样器」抓非局部自相似先验,再配一个在傅里叶域给高频加权的损失,让零样本去噪在性能和开销上同时压过 Pixel2Pixel 等现有方法。
- ZeroIDIR: Zero-Reference Illumination Degradation Image Restoration with Perturbed Consistency Diffusion Models
-
ZeroIDIR 把光照退化图像复原拆成「自适应光照校正 + 扩散重建」两步,只用低质退化图训练、不需要任何参考图/配对数据:先用自适应 Gamma 校正模块(AGCM)把曝光修正到自然分布,再把校正结果当作扩散过程的中间噪声态喂给扰动一致性扩散模型(PCDM)补细节去噪,在无监督方法里全面领先、对未见场景的泛化甚至超过有监督方法。