UniSER: A Foundation Model for Unified Soft Effects Removal¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Evergreen0929/UniSER-Datasets （仅数据集）
领域: 图像恢复
关键词: 软效果去除, 扩散 Transformer, 数据驱动基础模型, 强度可控, 零样本泛化

一句话总结¶

UniSER 把镜头炫光、雾霾、阴影、反光这四类「半透明遮挡」统一成一个 Soft Effects Removal（SER）任务，用 380 万对像素对齐数据微调一个 Diffusion Transformer，在保留场景身份的前提下实现可控（掩码 + 强度）、可泛化（零样本去未知退化）的高保真去效果，单模型同时超越专家模型和 Nano Banana 这类通用大模型。

研究背景与动机¶

领域现状：镜头炫光、雾霾、阴影、反光这些「软」退化是真实拍摄图像的常见劣化，它们只是降低观感、并没有彻底毁掉底层像素。学界长期把它们当成各自独立的问题——去雾从 Dark Channel Prior 一路做到散射参数估计网络，去阴影、去炫光、去反光各自有一套基于物理建模 / 图层分解 / 专用数据的「专家模型」。

现有痛点：专家模型在各自任务上很强，但可扩展性差、不共享底层规律，换到 in-the-wild 的极端多样场景就崩。另一条路是 GPT-4o、Flux Kontext、Nano Banana 这类文本驱动通用编辑大模型，但它们对软效果去除这类细粒度任务严重依赖精心调的 prompt、表现不稳定，而且缺乏像素级控制——把去效果当成普通 inpainting，会改变局部结构、破坏物体身份，专业修图根本不敢用。

核心矛盾：专家模型「专但不通用」，通用大模型「通用但不精细、保不住身份」。两边都没抓住这几类退化的共同本质。

本文目标：用一个统一框架同时处理多种软效果退化，既要专家级保真度，又要基础模型级泛化，还要给用户精确的空间 + 强度控制。

切入角度：作者观察到炫光、雾霾、反光、阴影虽然外观各异，却共享同一个本质——它们都是半透明遮挡（semi-transparent occlusion）：劣化了图像但没有彻底摧毁底层场景身份。于是这几类去除天然可以统一成同一个「解构遮挡」问题。

核心 idea：定义统一可扩展的 Soft Effects Removal 任务，走「数据为中心」路线——堆一个 380 万对的高质量数据集，再微调一个 DiT 学习鲁棒的恢复先验，并把掩码和强度作为条件注入，得到可控、可泛化的 UniSER。

方法详解¶

整体框架¶

UniSER 的整体逻辑是：把四类软效果去除统一成一个「带条件的潜空间扩散重建」任务。输入是被软效果劣化的图像 + 一句任务 prompt（如 "remove haze"）+ 一个可选的强度掩码，输出是去掉效果、但场景身份不变的干净图像。整条管线分两大支柱：数据侧先把四个任务的像素对齐数据统一扩成 3.8M 对（并用 3D 渲染 / 物理建图补上公共数据集的缺口）；模型侧借鉴 UniReal 把任务重构成「不连续帧生成」，VAE 把输入图编码进潜空间、文本编码器产出指令嵌入，二者与噪声目标潜变量拼成一个序列喂给 DiT，靠 full attention 同时看视觉上下文和文本指令迭代去噪，最后 VAE 解码出干净图。训练时通过「随机掩码 + 强度标量」合成监督目标，让同一个模型既能学会「在哪去、去多少」，又能通过通用 prompt + 辅助遮挡任务泛化到没见过的退化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["劣化图 + 任务prompt"] --> B["大规模数据构建<br/>3.8M对·3D渲染补缺"]
    B --> C["统一DiT框架<br/>VAE+文本编码→序列full attention去噪"]
    C --> D["随机掩码+强度合成监督<br/>软值掩码αM·线性混合目标"]
    D --> E["未知效果泛化<br/>通用prompt+辅助遮挡任务"]
    E --> F["去效果干净图<br/>可控·可加效果·零样本"]

关键设计¶

1. 380 万对数据为中心的统一供给：用 3D 渲染和物理建图补齐专家数据的结构性缺口

UniSER 把性能瓶颈定位在「数据」而非网络结构——专家方法之所以泛化差，是因为公共数据集严重不均衡且不真实：炫光去除几乎没有大规模配对数据，雾霾合成数据则普遍均匀、算法上过于简单。作者把镜头炫光、阴影、雾霾、反光四个域的开源像素对齐数据统一进来，再从三个来源扩充：① 真实拍摄；② 2D 合成；③ 3D 渲染。其中三个自建数据集是亮点：HALO 在 Blender 里搭 78 个室内外 3D 场景渲染约 70K 对炫光图，和 Flare7K「把炫光层叠加到干净图」不同，它产生几何一致、物理真实的炫光（涵盖反射炫光、眩光、微光、条纹）；LR-SRD 通过把无阴影物体拼进背景再合成对应阴影版本，得到 26K 对真实阴影数据；SYN-HAZE 用单目深度 + 物理大气渲染管线（可控能见度、空气光颜色、散射、光学厚度，并用程序噪声场和路径模糊模拟非均匀雾）合成更逼真且包含极端浓雾的数据。最终约 3.8M 对的均衡分布，是 UniSER 能学到「内容不变性」并在 in-the-wild 泛化的根基。

2. 统一 DiT 框架：把异质退化重构成同一个「半透明遮挡解构」的潜空间生成问题

四类退化外观差异巨大，怎么让一个模型同时学？作者借鉴 UniReal，把它们都重构成潜空间扩散里的不连续帧生成。具体地，VAE 编码器把输入图压成紧凑潜变量，文本编码器把任务 prompt 编成指令嵌入，二者再与噪声目标潜变量拼接成一个序列送入 DiT；DiT 的 full attention 在整条序列上运作，同时条件化于视觉上下文和文本指令，迭代预测并去除目标潜变量上的噪声，最后由 VAE 解码器重建出无效果图像。训练用预测噪声与真值噪声之间的 MSE 损失，并配一个随时间步加权的方案来平衡不同噪声级别的贡献。这个设计的关键在于：full attention 让模型在同一框架里既能借生成先验补全被完全遮挡（如过曝炫光区、极浓雾区）的不可逆信息，又能靠视觉条件锚住未被劣化的区域、维持身份一致——这正是通用 inpainting 大模型做不到的。

3. 随机掩码 + 强度合成监督：在缺少效果掩码的数据上，凭一条混合公式同时教会模型「在哪去」和「去多少」

绝大多数训练集没有效果的掩码标注，而 UniSER 又想让用户用任意形状掩码做局部编辑、用一个标量控制去除力度。作者用一条合成监督巧妙绕过了标注缺失。训练时随机合成各种二值掩码 \(M\)（矩形等几何基元与自由笔刷描边的组合，模拟用户涂抹），并均匀采样一个强度标量 \(\alpha\in[0,1]\)；不把模型条件化在二值掩码上，而是给一个软值掩码 \(\alpha M\)，让模型学会「掩码值 1.0 = 完全去除、0.0 = 不变、中间值 = 部分去除」。对应的监督目标则在干净真值 \(I_{gt}\) 和带效果输入 \(I_{input}\) 之间按同一个 \(\alpha M\) 线性插值合成：

\[I_{target} = \alpha M_{blur}\cdot I_{gt} + (1-\alpha M_{blur})\cdot I_{input}\]

其中 \(M_{blur}\) 是经膨胀 + 高斯模糊柔化过边界的掩码，让合成监督看起来自然。这样模型学到的行为被规整为三条：掩码内有效果区按强度去除、掩码内无效果区保持不变、掩码外保持不变。「软掩码条件 + 对应混合目标」这一对，让控制信号到去除程度之间形成连续直观的映射——既解决了无掩码标注问题，又一并把空间和强度控制学了出来。

4. 未知效果泛化：用通用 prompt 和辅助遮挡任务，逼模型学「去除遮挡」这个更大的概念

只在四个预定义类别上训练，会过拟合到「炫光 / 雾 / 阴影 / 反光」这几个词，碰到雨、污渍等没见过的退化就失效。作者用两条互补的微调策略把模型推向零样本泛化：① 随机把任务专属 prompt 替换成通用的 "remove effects"，迫使模型跨任务捕捉一个共享的「去除」概念，而不是把能力绑死在具体效果名上；② 引入一个用干净图构造的辅助任务——随机生成掩码并叠上半透明或不透明区域来合成劣化输入，且只用通用 prompt 训练。这等于在告诉模型「任何半透明 / 不透明遮挡都该被去掉」，从而学到比预定义类别更宽的「去任意遮挡」概念，使它能零样本去除雨、污渍等未见退化。此外，由于框架对称，只要对调输入和目标的角色，同一个模型还能反过来给干净图加效果或增强已有效果，同样受掩码和强度控制。

实验关键数据¶

主实验¶

评测覆盖四类任务、八个标准 benchmark（炫光 Flare7K；阴影 SRD / ISTD+ / WSRD+；雾 SOTS / HSTS；反光 SIR2 / Nature20），用 PSNR / SSIM 全参考指标；另在自采 39 张 in-the-wild 图上用无参考指标（LIQE、Contrast gain）和 Qwen2.5-VL-72B 判分的 QwenQA（去除百分比）评测真实鲁棒性。下表为统一模型 UniSER vs 各任务专家模型的全参考结果（节选）：

任务 / 数据集	指标	UniSER	代表专家 SOTA	结论
炫光 Flare7K	PSNR	27.34	Uformer 26.98 / Difflare 26.06	最高 PSNR
雾 HSTS	PSNR / SSIM	32.17 / 0.962	MSFNet 31.03 / 0.931	双指标最优
阴影 SRD	PSNR / SSIM	34.16 / 0.971	StableShadowDiff 33.63 / 0.968	最优
阴影 ISTD+	PSNR	35.59	StableShadowDiff 35.19	最优
反光 SIR2	PSNR / SSIM	25.98 / 0.911	L-DiffER 25.18 / 0.911	PSNR 最优

在更难的 in-the-wild 无参考评测里（Table 2），UniSER 在四个任务上几乎全面领先专家和通用模型。以 QwenQA（去除百分比，越高越好）为例：炫光 92.7（次优 Seedream 4.0 73.6 / Nano Banana 71.8）、阴影 65.0（次优 36.3）、雾 60.0（次优 52.7）、反光 75.6（次优 56.7），且 LIQE 和 Contrast gain 多数最优——专家模型 out-of-domain 去不干净或引入伪影，通用大模型则身份漂移严重。

消融实验¶

核心消融是「联合任务学习 JTL（完整 UniSER） vs 单任务独立训练 STL」（Table 4）：

配置	炫光 Flare7K	雾 HSTS	阴影 ISTD+	反光 SIR2-wild	说明
STL（单任务）	27.18 / 0.890	31.91 / 0.963	35.43 / 0.963	26.40 / 0.876	每个任务单独训一个同结构模型
JTL（完整模型）	27.34 / 0.891	32.17 / 0.962	35.59 / 0.964	27.44 / 0.918	四任务联合训练

（格式 PSNR / SSIM）

关键发现¶

联合训练全面优于单任务：JTL 在四个任务各自的 benchmark 上都不低于 STL，反光（SIR2-wild）涨幅最明显（PSNR 26.40→27.44，SSIM 0.876→0.918）。这印证了核心假设——四类软效果共享「半透明遮挡」本质，联合学到的统一表征反过来增益每个单任务，而不是相互拖累。
数据是泛化的主因：UniSER 在标准 benchmark 上经过域内 fine-tune 才追平 / 超过专家，但在 in-the-wild 上的优势远大于在标准集上的优势，说明 3.8M 数据带来的「内容不变性 / 鲁棒先验」才是它真正拉开差距的地方。
零样本泛化成立：模型能零样本去除训练中没见过的雨、污渍等退化（Fig. 5d），佐证了「通用 prompt + 辅助遮挡任务」确实把能力从预定义类别推广到了「去任意遮挡」。

亮点与洞察¶

「半透明遮挡」这个本质归纳很漂亮：把炫光 / 雾 / 阴影 / 反光这四个表面毫不相干的任务，用「半透明、可逆、不毁身份」这一条性质统一成 SER，是整篇论文的灵魂——一旦统一，数据和模型都能共享，泛化自然就来了。
软值掩码 + 线性混合目标这一对设计可复用：用 \(\alpha M\) 当条件、用同一个 \(\alpha M\) 去插值合成监督目标，把「在哪去 + 去多少」一次性学出来，且完全不需要效果掩码标注。这套「条件信号和监督目标用同一参数耦合」的思路可以迁移到任何需要连续强度控制的可控生成 / 编辑任务。
数据驱动战胜结构创新的又一例证：模型主体直接沿用 UniReal 的 DiT，真正的功夫全花在数据（3D 渲染炫光、物理建图雾、拼接合成阴影）和监督构造上——提醒做恢复 / 编辑的人，瓶颈往往在数据分布而非网络。
去除 / 添加对称：对调输入输出就能从「去效果」变「加效果」，一个模型顺带做了数据增强和创意编辑工具。

局限与展望¶

作者承认的局限：计算开销高、训练资源消耗大——一个基于 DiT 的大模型 + 3.8M 数据，复现成本不低。
标准 benchmark 上优势有限：在域内标准集上 UniSER 多数只是「追平或小幅超过」专家（且需 fine-tune），真正的优势体现在 in-the-wild。这意味着如果只看传统 PSNR/SSIM 数字，它的「基础模型」价值会被低估；论文也因此引入了 QwenQA 等更贴近真实感知的指标。
代码 / 模型未开源：目前公开的只有数据集仓库，方法和权重未释出，限制了可复现性。
评测依赖大模型判分：in-the-wild 的 QwenQA 用 Qwen2.5-VL-72B 打分，VLM 判分本身存在偏差，横向比较时需谨慎。
可改进方向：把 DiT 蒸馏 / 加速以降低推理成本；探索把「半透明遮挡」框架扩到运动模糊、噪声等更广义的退化。

评分¶

新颖性: ⭐⭐⭐⭐ 「半透明遮挡」统一四类退化的视角很有洞察力，但模型主体沿用 UniReal，创新主要在任务定义和数据
实验充分度: ⭐⭐⭐⭐ 八个 benchmark + in-the-wild + JTL/STL 消融较扎实，但消融维度偏少（缺数据规模 / 各控制组件的拆解）
写作质量: ⭐⭐⭐⭐ 动机和本质归纳讲得清楚，图示直观；部分公式排版（原文 OCR）需以原文为准
价值: ⭐⭐⭐⭐ 实用的可控去效果基础模型 + 3.8M 数据集开源，对修图和恢复 pipeline 有现实价值