🖼️ 图像恢复¶
🔬 ICLR2026 · 61 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (135) · 🧪 ICML2026 (21) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (26) · 📹 ICCV2025 (31) · 🧪 ICML2025 (5)
🔥 高频主题: 扩散模型 ×20 · 图像恢复 ×17 · 超分辨率 ×14 · 压缩/编码 ×4 · 对抗鲁棒 ×3
- A Statistical Benchmark for Diffusion-Posterior-Sampling Algorithms
-
这篇论文为扩散后验采样(DPS)算法造了一把"标准尺":用可以精确 Gibbs 采样的 Lévy 过程信号作为测试分布,拿到分布级别的"金标准"后验样本,再用 MMSE 最优性差距和后验覆盖率两项指标,把主流 DPS 算法(C-DPS / DiffPIR / DPnP)放在去噪、去卷积、缺失填补、部分傅里叶重建四类反问题上系统评测,结论是这些算法普遍没有校准。
- Adaptive Moments are Surprisingly Effective for Plug-and-Play Diffusion Sampling
-
把优化器里的 Adam 自适应矩估计直接搬到扩散采样的引导梯度上——对跨采样步的似然分数估计维护一阶/二阶矩的指数滑动平均,几乎零额外成本就把 DPS、CG 这类即插即用引导方法的噪声梯度稳住,在图像恢复(超分/去模糊/补全)和类别条件生成上反超一众更复杂、更慢的方法。
- Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization
-
作者追踪图像恢复(IR)Transformer 的训练过程,发现标准 LayerNorm 会让特征幅值发散到百万量级、通道熵急剧坍缩,根因是 LN 的"逐 token 归一化"和"输入无关缩放"与 IR 任务相冲突;据此提出 i-LN——把归一化改成跨整个空间-通道维度做、并在每个 Attention/FFN 后按输入自适应地把缩放因子加回去,作为 LN 的即插即用替换件,在 SR/去噪/去雨/去 JPEG 伪影上稳定训练并普遍涨点。
- Are Deep Speech Denoising Models Robust to Adversarial Noise?
-
首次系统性评估 4 款 SOTA 深度语音去噪(DNS)模型在对抗噪声下的鲁棒性:通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声,可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish,实验覆盖多种声学条件和人类评估,同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes
-
LSP 调度器通过在每个去噪步骤中原子性地提交最长连续稳定前缀(而非分散接受离散 token),将 DLM 推理加速 3.4 倍,同时保持或略微提升输出质量。
- Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training
-
定义了"Scale Anchoring"新问题(低分辨率训练导致高分辨率推理误差锚定),并提出架构无关的频率表征学习(FRL),通过 Nyquist 归一化频率编码使误差随分辨率提升而下降,在 8 种主流架构上验证有效。
- CL-DPS: A Contrastive Learning Approach to Blind Nonlinear Inverse Problem Solving via Diffusion Posterior Sampling
-
CL-DPS 用一个离线训练的对比学习编码器去近似扩散后验采样里那个棘手的似然项 \(p(y\mid x_t)\),从而在不知道、也不估计测量算子参数的前提下,第一次让扩散模型能解盲非线性逆问题(如旋转模糊、缩放模糊),在这些任务上现有方法全部崩溃而它能干净复原,同时在线性盲去模糊上也保持竞争力。
- Content-Aware Mamba for Learned Image Compression
-
针对 Mamba 在学习式图像压缩里"固定光栅扫描 + 严格因果"两大硬伤,本文提出内容感知 Mamba(CAM):用基于码本聚类的 token 重排把内容相似的 token 排到一起扫描,再用冗余感知的 prompt 字典把全局先验注入 SSM 输出投影来打破因果性;最终 CMIC 模型在 Kodak/Tecnick/CLIC 上以 BD-rate −15.91%/−21.34%/−17.58% 全面超越 VTM-21.0,且显存比同类 Mamba 方法低近 80%。
- Continuous Space-Time Video Super-Resolution with 3D Fourier Fields
-
这篇论文提出 V3,用一个统一的 3D Fourier 场(Video Fourier Field, VFF)把视频直接表示成 \((x,y,t)\) 空间里一组正弦波的和,抛弃了"空间 INR + 光流 warp"那套割裂又脆弱的做法,让任意空间/时间倍率的超分变成一次连续采样,还能闭式地塞进 Gaussian 点扩散函数做抗混叠,在多个基准上把 PSNR 拉高约 1.5–2 dB 的同时跑得更快、更省显存。
- DeAltHDR: Learning HDR Video Reconstruction from Degraded Alternating Exposure Sequences
-
DeAltHDR 首次正面处理「交替曝光 LDR 帧本身就带噪声和运动模糊」这一被忽视的现实问题,用一个光流引导的掩码注意力(FGMA)只在光流不可靠的遮挡区域才做跨帧注意力对齐、其余区域沿用廉价的光流 warp,从而在效率和质量间取得可调权衡;再配一套面向视频大运动改进的自监督适配方法,在合成与真实数据集上都超过了现有 SOTA。
- DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining
-
DeLiVR 把 SO(2) Lie 群的"每帧旋转 + 帧间角速度差分"两类几何先验直接写成注意力偏置加进 Transformer 的打分项里,不依赖光流就实现几何一致的跨帧对齐与时序去雨,在真实雨天 WeatherBench 上以 2.64M 参数刷到 SOTA。
- Denoising Neural Reranker for Recommender Systems
-
本文指出工业级两阶段推荐里"检索→重排"中被忽略的检索分数其实是有用但带噪的信号,于是把重排重新形式化成对检索分数的去噪任务,并配上一个对抗噪声生成器,用去噪 + 对抗 + 分布正则三个目标联合训练,在三个公开数据集和一个工业系统上稳定超过现有重排 SOTA。
- DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
-
提出 DiffusionBlocks,将残差网络的逐层更新解释为连续时间扩散过程的离散化步骤,从而将网络切分为可完全独立训练的 block,在保持端到端训练性能的同时按 block 数 B 倍减少训练显存。
- DISK: Differentiable Sparse Kernel Complex for Efficient Spatially-Variant Convolution
-
把一个大而复杂的稠密卷积核重新表示成「一串稀疏核的级联」,用端到端可微优化(而非启发式搜索)学出每层稀疏采样点的偏移与权重,再配上形状感知初始化和滤波器空间插值,在移动设备上以接近 ground-truth 的画质实现最高约 20× 的空间变滤波加速。
- Divergence-Free Neural Networks with Application to Image Denoising
-
本文提出一种"设计上散度恒为零"的神经网络参数化方法 CENSURE:先用一个 representer 定理把散度自由向量场写成「反对称矩阵 × 保守场梯度」的结构化组合,再做稀疏近似让它在图像这种高维问题上可算,从而在噪声水平 \(\sigma\) 未知且逐样本变化的自监督去噪场景下,比 Noise2Self、UNSURE 等约束类方法更稳更准。
- Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization
-
MIRAGE 通过“按通道拆分注意力特征给 CNN/Attention/MLP 三分支各司其职 + 在 SPD 协方差空间做浅层-深层对比对齐”,在 all-in-one 图像恢复里同时拿到更高精度和更低计算开销。
- Energy-oriented Diffusion Bridge for Image Restoration with Foundational Diffusion Models
-
提出 E-Bridge 框架,通过构造低能量流形测地线轨迹和闭合式一步一致性求解器,在单步推理下实现多任务图像复原的最优效果。
- Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content
-
针对压缩流媒体视频超分这个被现有数据集忽略的场景,本文构建了从 YouTube 采集的 5200 段压缩视频数据集 StreamSR、用它系统评测 11 个实时超分模型,并提出在 RLFN 基础上换用 tanh 激活 + ECA 注意力 + 复合损失的轻量模型 EfRLFN,在保持实时帧率(271 FPS)的同时取得新的质量-复杂度 SOTA。
- FAST-DIPS: Adjoint-Free Analytic Steps and Hard-Constrained Likelihood Correction for Diffusion-Prior Inverse Problems
-
FAST-DIPS 用一套"免伴随(adjoint-free)的硬约束似然校正"替换掉训练无关扩散逆问题求解器里昂贵的内层 MCMC / 多步梯度循环:每个噪声层只在去噪器预测点附近做一个带闭式投影 + 解析最优步长的少步 ADMM 校正,把每层计算预算压到极小,在八类线性/非线性恢复任务上质量持平甚至更好,速度最高快 19.5×。
- FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring
-
把运动去模糊重新表述成"以模糊程度为时间步"的类扩散过程,用一致性训练让所有时间步都对齐到同一张清晰图,从而实现单步、高保真的预训练扩散去模糊,并配上 Kernel ControlNet 注入模糊核先验和自适应时间步预测。
- Flower: A Flow-Matching Solver for Inverse Problems
-
Flower 把预训练 flow-matching 生成模型改造成一个线性逆问题求解器:每个时间步先预测干净终点,再用观测算子做数据一致性近端投影,最后沿 flow 轨迹推进,从而在去噪、去模糊、超分和 inpainting 等图像复原任务上取得强于现有 flow-based solver 的结果。
- FreeAdapt: Unleashing Diffusion Priors for Ultra-High-Definition Image Restoration
-
提出免训练的"频率-特征协同引导"(FFSG)机制,在 patch 推理的每一步去噪中用低分辨率参考图的相位谱与全局注意力约束局部生成,再配一个可选的 VAE 解码器微调模块,从而即插即用地把预训练 LDM 适配到超高清(4K/8K)图像恢复,平均带来 2 dB 以上 PSNR 提升且不动 U-Net。
- Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss
-
将 EDLAE 推荐模型的目标函数推广为解耦期望二次损失(DEQL),在超参数 \(b>0\) 的更广范围内推导出闭式解,并通过 Miller 矩阵逆定理将计算复杂度从 \(O(n^4)\) 降至 \(O(n^3)\),在多个基准数据集上超越 EDLAE 和深度学习模型。
- Horizon Imagination: Efficient On-Policy Rollout in Diffusion World Models
-
提出 Horizon Imagination (HI):让扩散世界模型在单次前向里并行去噪多帧未来观测,配合稳定动作采样抑制带噪帧上动作的无谓翻转、Horizon 时间表把去噪节奏与总预算解耦,从而在每帧不足一步去噪(sub-frame 预算)、算力减半下仍保持 on-policy 想象的控制性能。
- Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution
-
把 11B 的 3D DiT 视频超分教师 DOVE 压成一个 0.57B 的「2D+1D」学生网络 AdcVSR,靠双头双判别器的对抗蒸馏把「细节丰富」和「时序一致」两个互相冲突的目标解耦优化,参数砍 95%、提速 8×,画质几乎不掉。
- InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
-
提出 InterActHuman,通过自动推断时空布局的掩码预测器和迭代掩码引导策略,实现多人/人物交互场景下的音频驱动视频生成,支持每个角色独立的语音驱动口型同步和身体动作。
- KernelFusion: Zero-Shot Blind Super-Resolution via Patch Diffusion
-
KernelFusion 只在单张 LR 图像上训练一个 patch-based 扩散模型,利用「跨尺度 patch 相似性最大化的核才是正确核」这一原理,在反向扩散过程中同时恢复任意(含非高斯)下采样核与对应 HR 图像,把盲超分推进到完全无训练分布假设的零样本范式。
- Learning Domain-Aware Task Prompt Representations for Multi-Domain All-in-One Image Restoration
-
提出首个多域全能图像复原方法DATPRL-IR,通过双提示池(任务提示池+域提示池)学习域感知的任务提示表征,利用MLLM蒸馏域先验并通过自适应门控融合指导复原,在自然/医学/遥感三域9任务上显著超越SOTA。
- Learning Heterogeneous Degradation Representation for Real-World Super-Resolution
-
本文提出 SAVL(空间摊销变分学习),把每个像素的退化建模成从局部邻域推断出的「空间变化高斯分布」,并用互信息抑制项把退化从图像内容里剥离开,得到既能刻画空间异质退化、又高度判别退化因子的隐式表示,再用后验的「均值(通道调制)+ 方差(空间调制)」双路引导超分网络重建。
- LearnIR: Learnable Posterior Sampling for Real-World Image Restoration
-
LearnIR 用一个轻量网络直接学习扩散后验采样里的"梯度修正项分布",从而摆脱传统 DPS 必须已知前向退化算子 \(A\) 的限制,再配合无需 VAE 的动态分辨率模块(DRM),在去雾、去阴影等真实退化任务上做到端到端、高保真的图像恢复。
- LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution
-
LinearSR 首次把 O(N) 的线性注意力成功用到照片级真实感的扩散超分上,靠"拐点早停微调(ESGF)+ 基于 SNR 的专家混合(MoE)+ 标签引导(TAG)"三件套同时解决了线性注意力 SR 的训练崩溃、感知-失真权衡与引导信号选择三大难题,把 1024×1024 的核心扩散前向压到 0.036s(1-NFE SOTA)的同时拿到 SOTA 级感知质量。
- LiveMoments: Reselected Key Photo Restoration in Live Photos via Reference-guided Diffusion
-
针对 Live Photo 中"重选关键帧"画质骤降的真实痛点,LiveMoments 用 SD3 双分支扩散网络把原始高质量关键帧当作同序列参考,再配合"潜空间运动引导注意力 + 图像级 Patch 检索对齐"双层运动对齐,把模糊错位的重选帧修复到接近原图质量。
- LucidFlux: Caption-Free Photo-Realistic Image Restoration via a Large-Scale Diffusion Transformer
-
LucidFlux 用冻结的 12B Flux.1 大规模扩散 Transformer 做真实图像恢复,通过双分支条件器、时间步-层级自适应调制、SigLIP 无字幕语义对齐和大规模高质量数据筛选,在多项真实与合成退化基准上取得更强的感知质量和语义一致性。
- Mechanism of Task-oriented Information Removal in In-context Learning
-
从"信息移除"的新视角解释 In-context Learning(ICL)的内部机制:发现 LM 在零样本时将查询编码为包含所有可能任务信息的"非选择性表征"(导致随机输出),而 few-shot ICL 的核心作用是模拟一种"任务导向的信息移除"过程——通过识别出的"Denoising Heads"(去噪注意力头)从纠缠的表征中选择性移除冗余任务信息,引导模型聚焦目标任务。消融实验证实阻断去噪头后 ICL 准确率显著下降。
- Noise-Adaptive Diffusion Sampling for Inverse Problems Without Task-Specific Tuning
-
这篇论文把扩散模型逆问题求解从“中间图像状态上加数据一致性梯度”改成“在 DDIM 初始噪声空间做 HMC 后验采样”,并通过边缘化未知测量噪声得到 NA-NHMC,在超分、修复、去模糊、相位恢复和 HDR 等图像逆问题上无需任务级调参就取得更稳健的重建质量。
- One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs
-
OFTSR 把一个噪声增强的条件 rectified flow 教师蒸馏成单步学生,并要求学生在不同时刻 \(t\) 的预测落在教师同一条 PF-ODE 轨迹上,从而在一次前向里就能通过调节单个参数 \(t\) 连续滑动 fidelity(保真)与 realism(真实感)之间的权衡,在 FFHQ / DIV2K / ImageNet 及真实超分数据集上取得一步超分的 SOTA。
- Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement
-
EditedID 是一个训练无关、即插即用的扩散反演框架,通过「对齐—解耦—纠缠」三步在不微调任何模型的前提下,把多模态编辑大模型编辑后丢失的人脸身份重新修复回来,同时保留编辑引入的配饰/服饰元素(Element IP),在单人/多人开放场景下取得 SOTA 的 ID 一致性。
- Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling
-
本文提出 ContinuousSR,用「像素到高斯」范式把低分辨率图像一次性显式重建成一张连续的 2D 高斯场,之后任意放大倍数都只靠一次约 1ms 的快速渲染完成,在七个基准上质量超过 SOTA(Manga109 上 +0.18 dB)的同时,连续放大 40 个尺度时整体加速 19.5×。
- PlantRSR:面向参考引导超分辨率的新植物数据集与方法
-
本文构建了首个面向植物场景的参考引导超分(RefSR)数据集 PlantRSR(16,585 对人工对齐的 HR–Ref 训练补丁),并提出一套专门应对植物不规则纹理的方法——用选择性关键区域匹配(SKRM)只在富纹理区域做匹配以大幅省算力,再用纹理引导扩散模块(TGDM)以匹配到的参考纹理为条件逐步精修 LR 特征,在 PlantRSR 及多个公开基准上以 11.1M 参数取得了全面领先。
- ProtoTS: Learning Hierarchical Prototypes for Explainable Time Series Forecasting
-
提出 ProtoTS,通过层级原型学习实现可解释时间序列预测:少量粗粒度原型提供全局模式概览,逐级细分捕捉局部变化,结合多通道嵌入与瓶颈融合处理异质外生变量。在 LOF 数据集上 MSE 降低 48.3%,MAE 降低 20.9%,且支持专家编辑原型以进一步提升性能。
- Reconstruct Anything Model: A Lightweight General Model for Computational Imaging
-
本文提出 Reconstruct Anything Model (RAM),用一个 36M 参数的非迭代 DRUNet 系重建网络把成像算子、测量值和噪声参数直接注入特征层,在去模糊、MRI、CT、超分、补全和低光子成像等任务上实现强零样本重建,并能只用少量无真值测量进行自监督微调。
- Recover Cell Tensor: Diffusion-Equivalent Tensor Completion for Fluorescence Microscopy Imaging
-
这篇论文把 3D 荧光显微(FM)活细胞成像的恢复问题,从"逆问题去模糊"换成"张量补全"视角:把 Z 轴等距稀疏采样看作一次均匀随机采样下的低秩张量补全,先推导出精确恢复的观测数下界,再证明用 Tucker 分解 + ADMM 求解这个补全问题的迭代过程在数学上等价于一条条件扩散的反向轨迹,从而无需训练 score 网络就能得到去噪、几何连贯的 3D 细胞体重建,在 SR-CACO-2 和三套真实活体 C. elegans 数据上 PSNR / SSIM / LPIPS 全面领先。
- RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration
-
RestoreVAR 把视觉自回归模型 VAR 从纯图像生成改造成全能图像恢复模型,用退化图像的连续 latent 做跨注意力条件,再用 latent refiner 和连续 latent 解码器补回细节,在生成式 AiOR 方法中取得更高恢复质量,并把 LDM 类方法的秒级推理压到约 0.201 秒。
- Rethinking Expressivity and Degradation-Awareness in Attention for All-in-One Blind Image Restoration
-
针对 Restormer 式通道注意力在 All-in-One 盲图像恢复中暴露的两个被忽视的瓶颈——value 路径纯线性、缺少显式全局槽位——本文提出两个极简且骨干无关的原语(非线性 value 变换 + 全局空间 token),在几乎零额外开销下把注意力从"特征选择器"升级为"选择器+变换器"并赋予退化感知能力,在六大 All-in-One 基准上一致超越更大的 SOTA。
- SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
-
SeedVR2 把多步扩散式视频恢复模型通过扩散对抗后训练压缩成一步生成器,并用自适应窗口注意力、渐进蒸馏和判别器特征匹配损失支撑高分辨率视频恢复,在一步推理下达到接近甚至优于多步视频恢复模型的感知质量。
- Seeing Through the PRISM: Compound & Controllable Restoration of Scientific Images
-
PRISM 把复合退化样本、加权对比解耦的 CLIP 表征和文本条件扩散结合起来,让科学图像可以一次性恢复多种混合退化,也能按专家提示只修正指定退化,从而在保真指标、零样本复合退化和下游科学任务上都优于现有 all-in-one / diffusion / composite restoration 基线。
- SFBD-OMNI: Bridge Models for Lossy Measurement Restoration with Limited Clean Samples
-
当只有海量含损测量、却几乎没有干净样本时,本文把"从损坏分布恢复真实分布"重写成一个单边熵正则最优传输问题,用桥模型(bridge model)做交替最小化求解,得到一套能处理任意黑盒损坏过程(掩码、灰度、模糊、加噪等)的算法 SFBD-OMNI,并证明:损坏过程可辨识时纯靠噪声样本就能恢复,不可辨识时只需 50 张干净图就能把分布拉回真实,FID 显著优于 AmbientGAN / EMDiffusion / SFBD 等基线。
- Sharpness-Aware Machine Unlearning
-
本文从信号-噪声分解的视角系统分析了 SAM 在机器遗忘场景下的理论特性,发现 SAM 在遗忘集上会"放弃"去噪能力但在保留集上仍维持优势,进而提出 Sharp MinMax 算法——将模型拆成两部分分别做锐度最小化(保留)和锐度最大化(遗忘),达到SOTA遗忘效果。
- SoFlow: Solution Flow Models for One-Step Generative Modeling
-
提出 Solution Flow Models (SoFlow),直接学习速度 ODE 的解函数 \(f(x_t, t, s)\)(将 \(t\) 时刻的 \(x_t\) 映射到 \(s\) 时刻的解),通过 Flow Matching 损失 + 无需 JVP 的解一致性损失从头训练,在 ImageNet 256 上 1-NFE FID 优于 MeanFlow(XL/2: 2.96 vs 3.43)。
- SuperF: Neural Implicit Fields for Multi-Image Super-Resolution
-
SuperF 把多帧低分辨率图像当成"重建目标"而不是网络输入,用一个跨帧共享的坐标 MLP(隐式神经表示)在高分辨率连续网格上拟合场景,并同时优化每帧的仿射对齐参数,从而在完全不需要高分辨率训练数据的测试时优化(TTO)框架下实现卫星与手持相机 burst 的多图超分,放大倍率最高到 ×8。
- Taming Hierarchical Image Coding Optimization: A Spectral Regularization Perspective
-
针对分层学习式图像压缩"理论很美、实测打不过单尺度模型"的反差,本文从训练动力学的谱分析切入,定位到根因是跨尺度能量色散与谱混叠,进而提出两个只在训练期生效、推理零开销的谱正则——intra-scale 频率截断(让每个尺度低到高频逐步专精)与 inter-scale 隐变量相似度惩罚(压制尺度间频谱重叠),使训练加速 2.3×、相对 VTM-22.0 平均节省 20.65% 码率,刷新学习式图像压缩 SOTA。
- Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework
-
本文提出 ADMM-PnP + AC-DC 三阶段去噪器,先用「加噪自校正 + Langevin 方向校正」把 ADMM 迭代点拉回 score 函数训练过的噪声流形,再做 score 去噪,从而把扩散先验稳定地嵌进带对偶变量的 ADMM,并首次给出该组合的不动点收敛性证明,在多类图像逆问题上一致优于 DPS/DiffPIR/DDRM 等基线。
- Test-Time Domain Generalization for Image Super-Resolution
-
针对超分这类像素级任务,本文提出 MC-TTDG:在源域上学一组「域不变码本 + 多个域专属码本」,测试时把目标域特征逐像素最近邻替换成码字来完成细粒度迁移,并用投票策略选出最合适的域专属码本,从而无需在目标域微调就显著提升了超分网络的跨域性能。
- Text-Aware Image Restoration with Diffusion Models
-
本文提出"文字感知图像复原 (TAIR)"这一新任务——同时恢复画面观感与文字内容,并用一个把 text-spotting 模块嵌进扩散复原网络、共享扩散特征联合训练的模型 TeReDiff,配上 10 万张高质量带密集文字标注的 SA-Text 数据集,显著缓解了扩散复原模型"把退化文字编造成似是而非乱码"的文字幻觉问题,并在 STISR 基准 TextZoom 上刷新 SOTA。
- Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution
-
针对 VQ 类生成式超分的两大顽疾——码本编码误差大、预测器用「码级」监督训练,本文提出纹理向量量化(TVQ)只把 LR 里缺失的纹理交给码本、把结构剥离出去,再用重建感知预测(RAP)借助直通估计器把图像级重建损失直接灌给索引预测器,从而以极小算力(38ms/图)拿到 SOTA 级感知质量。
- Trajectory-aware Shifted State Space Models for Online Video Super-Resolution
-
本文提出 TS-Mamba,把"视频轨迹建模"和"低复杂度 Mamba"结合起来做在线视频超分:先沿轨迹从历史帧里挑出与当前 token 最相似的若干 token,再用一组带"移位"的状态空间模型块在时空维上聚合它们,从而在保持长程时序建模能力的同时,相比现有在线 VSR 方法把计算量(MACs)降低 22.7% 以上,并在多数测试集上取得 SOTA。
- Trust but Verify: Adaptive Conditioning for Reference-Based Diffusion Super-Resolution
-
提出 Ada-RefSR,一个基于"Trust but Verify"原则的单步参考引导扩散超分辨率框架,通过自适应隐式相关性门控(AICG)机制在利用可靠参考信息的同时抑制错误融合,仅增加 0.13% 计算开销。
- Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression
-
本文把零样本扩散压缩方法 DDCM 的逐步"贪心匹配追踪"换成一个闭式的稀疏最小二乘选择规则,每一步一次性组合上百个噪声原子,从而把扩散步数砍掉 92%,单图往返压缩-解压时间从 65 秒降到 1.8 秒,质量与 SOTA 持平,并顺带支持区域优先和按目标 PSNR 压缩两种灵活变体。
- UniRestorer: Universal Image Restoration via Adaptively Estimating Image Degradation at Proper Granularity
-
UniRestorer 把图像退化空间层次化成多粒度退化组,并训练与之对应的 MoE 复原专家,再用退化估计和粒度估计共同路由,使全能图像复原模型既能利用细粒度退化先验,又不至于被错误退化估计拖垮。
- VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution
-
把一个预训练的文生图视觉自回归模型(VAR)通过 token 级分布匹配蒸馏成一步式真实世界超分模型,再配上跨尺度金字塔条件让低质输入信息被充分利用,只微调 1.2% 参数就在 DIV2K-Val 上拿到 72.32 MUSIQ / 0.7669 CLIPIQA,同时把推理加速约 10 倍。
- Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
-
Vivid-VR 在预训练 T2V 扩散 Transformer(CogVideoX1.5-5B)上接 ControlNet 做生成式视频恢复,通过一套「概念蒸馏」训练策略让 T2V 模型自己合成图文对齐的训练数据来抑制微调时的分布漂移,再配上轻量控制特征投影器和双分支连接器,从而在真实、合成与 AIGC 视频上同时拿到更真实的纹理和更稳的时序一致性。