MERIT: Multi-domain Efficient RAW Image Translation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 有（论文称已开源，链接待确认）
领域: 图像生成 / RAW 图像翻译 / 跨相机域适应
关键词: RAW2RAW 翻译, 多域生成, 传感器噪声建模, 大核注意力, GAN

一句话总结¶

MERIT 是首个用单一模型完成多相机域 RAW-to-RAW 翻译的统一框架：靠风格嵌入条件化实现任意源域到任意目标域的转换，用传感器感知噪声建模损失显式对齐 Poisson-Gaussian 噪声统计，配合多尺度大核注意力增强 RAW 特征建模，并发布首个多域 RAW 基准 MDRAW，在画质（+5.56 dB PSNR）和可扩展性（训练迭代减少约 80%）上同时超过此前方法。

研究背景与动机¶

领域现状：RAW 数据因保留线性光信号、动态范围大，被越来越多下游视觉任务（超分、低光成像、检测、3D 重建等）采用。但不同相机传感器的光谱响应、噪声特性、色调行为差异巨大——同一场景被不同设备拍出的 RAW 在颜色、动态范围、噪声结构上都不一样（论文图 1a）。

现有痛点：要复用为某台相机训练好的下游模型，就得做 RAW-to-RAW（RAW2RAW）翻译把别的相机 RAW 映射过来。但此前方法（Rawformer、Xie et al. 等）只能学一对一映射：每个"源相机→目标相机"对都要单独训一个翻译模型。当现实中要支持 \(n\) 台商用相机时，需要 \(O(n^2)\) 量级的模型，参数量和训练成本随域数迅速膨胀（论文图 1e），完全不可扩展。

核心矛盾：跨相机域偏移的根源是图像形成物理过程中相机光谱响应 \(R_c(\lambda)\) 的差异（成像方程 \(I(x)=\int_\omega R_c(\lambda)S(x,\lambda)L(\lambda)d\lambda\)），而其中很大一部分域特有变化来自相机相关的噪声模式。现有 GAN 方法只靠对抗训练隐式地学这些特性，往往无法准确复现目标域的噪声统计。

本文目标：(1) 用一个模型支持任意域对的多域 RAW2RAW 翻译；(2) 把噪声从隐式学习改成显式建模，提升翻译保真度；(3) 提供能标准化评测多域 RAW 翻译的数据集。

切入角度：作者观察到 RAW 域差异的"物理可建模性"——噪声服从 Poisson-Gaussian 模型，可以用统计量直接对齐；同时 RAW 的信号/噪声分布在不同空间尺度和传感器间变化，需要既看局部细节又看长程依赖的特征建模。

核心 idea：用风格嵌入条件化单生成器实现"一对多/多对多"翻译，把噪声建模从隐式变显式，再用多尺度大核注意力做域自适应的特征调制。

方法详解¶

整体框架¶

设 \(X\)、\(Y\) 分别为 RAW 图像集合与 RAW 域集合。给定源域 \(a\) 的图像 \(I_a\)，目标是训练单个生成器 \(G\)，能生成除源域外任意目标域 \(b\in Y\setminus\{a\}\) 的对应 RAW 图像 \(\hat I_b=G(I_a,s_b)\)。整个框架由三个模块协同：可学习的风格编码器 \(E\) 从目标域样例提取域风格嵌入 \(s_b=E(I_b)\)；生成器 \(G\) 据风格嵌入翻译图像，其上采样路径嵌入多尺度大核注意力（MS-LKA）；patch 判别器 \(D\) 对图像分块判别真假并用多数投票出图级结论。损失侧由传感器感知噪声建模损失与一组对抗/循环一致性损失共同约束。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源域 RAW Ia + 目标域样例 Ib"] --> B["统一多域翻译架构<br/>风格编码器 E 提取域嵌入 sb<br/>生成器 G 条件化翻译"]
    B --> C["多尺度大核注意力 MS-LKA<br/>多膨胀卷积 + 风格调制通道注意力"]
    C --> D["翻译 RAW 图像 Îb"]
    D --> E["patch 判别器 D<br/>分块判真假 + 多数投票"]
    D --> F["传感器感知噪声建模 SANM<br/>平坦 patch 噪声直方图对齐"]
    E --> G["跨域可复用 RAW"]
    F --> G

关键设计¶

1. 统一多域翻译架构：单模型 + 风格嵌入打破一对一瓶颈

此前方法每个相机对都要单训模型，根源在于翻译被绑死成两域间的固定映射。作者用风格编码器 \(E\) 把"目标域是什么"编码成域特有、内容无关的风格嵌入 \(s_b=E(I_b)\)（同域任意图像应得到相似嵌入），再让生成器条件化生成 \(\hat I_b=G(I_a,s_b)\)，这样一个 \(G\) 就能在任意域对间转换，去掉了"必须提供参考图"的约束。判别器 \(D\) 采用 patch 级对抗：把图像切块、每块独立判真假，再对块级结果多数投票得到图级判定，从而既鼓励全局一致又保证局部真实。这套设计把模型数量从 \(O(n^2)\) 降到 1，是可扩展性提升（约 80% 训练迭代、2× 更小）的根本来源。

2. 多尺度大核注意力 MS-LKA：在不上昂贵自注意力的前提下做域自适应特征建模

RAW 图像有空间相关的光照模式、传感器特有色调、信号相关噪声，既需要全局感受野又要保住局部结构。常规卷积抓不到长程依赖，而 Transformer 自注意力对高分辨率输入太贵。作者把大核注意力扩展为多尺度版本，放在 \(G\) 的上采样路径：先用三路不同膨胀率的深度卷积并行抽取不同感受野的特征 \(F_1,F_2,F_3\)，拼接后用 \(1\times1\) 卷积压回原维度得 \(F_{concat}\)；再做风格调制通道注意力——把风格嵌入 \(s\) 过一个轻量 FFN 产生通道权重 \(A_s\in\mathbb{R}^C\)，逐通道相乘 \(F_{out}=A_s\odot F_{concat}\)。这让 \(G\) 能按目标传感器风格动态强调相关通道，在几乎不增参数的前提下兼顾多尺度局部细节与长程依赖。

3. 传感器感知噪声建模 SANM：把噪声从隐式学习变成显式统计对齐

RAW2RAW 不像 sRGB 翻译那样"看起来真"就够，必须复现传感器相关的噪声统计才有物理可信度（尤其高 ISO/低光）。RAW 仍在线性光域，噪声可用 Poisson-Gaussian 模型近似：\(\text{Var}(x)=\alpha\cdot z+\beta\)（\(\alpha\) 为信号相关散粒噪声、\(\beta\) 为信号无关读出噪声）。作者要让翻译图像的"强度—方差"依赖关系与目标传感器一致。具体地，从图像取小的不重叠 patch、算每块的均值强度与基于中值绝对偏差的稳健方差估计；为保证方差反映传感器噪声而非纹理，用 Sobel 梯度幅值筛出平坦区（梯度低于某百分位阈值的 patch 才保留）。再按强度把 patch 分到固定宽度的强度 bin（如 \([0,1]\) 内 100 个 bin），求每 bin 平均方差，得到生成图的噪声直方图 \(H_{fake}\in\mathbb{R}^{C\times B}\)；目标域真实图预先按同流程算 \(H_{real}\) 存成查找表。噪声损失对齐两者：\(L_{noise}=\tfrac{1}{BC}\sum_{c=1}^{C}\sum_{b=1}^{B}|H_{fake}[c,b]-H_{real}[c,b]|\cdot\mathbb{1}_{valid}[c,b]\)，其中 \(\mathbb{1}_{valid}\) 屏蔽空 bin 防止退化梯度。该损失完全可微、对图像内容鲁棒、且有物理噪声模型支撑，让生成器学到的不只是外观风格还有统计噪声行为。

损失函数 / 训练策略¶

总损失为五项加权和：\(L_{total}=\lambda_1 L_{noise}+\lambda_2 L^D_{adv}+\lambda_3 L^G_{adv}+\lambda_4 L_{cycle\text{-}L1}+\lambda_5 L_{cycle\text{-}SSIM}\)。其中对抗损失 \(L_{adv}\) 让 \(D\) 区分真实/生成 RAW、\(G\) 生成以假乱真的目标域图；风格重建损失 \(L_{style}=\mathbb{E}\|E(I_b)-E(G(I_a,E(I_b)))\|_1\) 强制 \(G\) 真正用上风格嵌入；循环一致性 \(L_{cycle\text{-}L1}\) 保内容与布局不变；并额外引入循环 SSIM 损失 \(L_{cycle\text{-}SSIM}=\mathbb{E}[1-\text{SSIM}(I_a,G(G(I_a,E(I_b)),E(I_a)))]\)——作者发现单靠像素级 L1 不足以保住 RAW 的纹理与细粒度传感器细节，SSIM 项补上结构/感知保真。训练用 Adam（\(\beta_1=0.9,\beta_2=0.99\)）、batch 8、固定学习率 \(1\times10^{-4}\)、200K 迭代，单张 NVIDIA H200，输入裁成 \(256\times256\) patch。推理时按亮度相似度从训练集挑目标域参考图来抽风格嵌入（用四个 Bayer 通道的空间均值组成 4 维向量比对）。

实验关键数据¶

主实验¶

在公开 RAW-to-RAW mapping 数据集（Samsung Galaxy S9 / iPhone X，各 196 张无配对训练 + 115 张配对测试）上，对比非学习、半监督、无监督多种范式。MERIT 在无监督设定下取得 SOTA，6 个指标中 5 个最优。

方向	指标	本文 MERIT	之前最好（无监督）	提升
Samsung→iPhone	PSNR↑	35.29	Rawformer 29.73 / Xie 29.73 ⚠️	+5.56 dB
Samsung→iPhone	MAE↓	0.015	Rawformer 0.023	−0.008
iPhone→Samsung	PSNR↑	31.90	Rawformer 28.45	+3.45 dB
iPhone→Samsung	MAE↓	0.021	Rawformer 0.034	−0.013

⚠️ 缓存中 Xie et al. 与 Rawformer 在不同方向的 PSNR 数值存在 OCR 串行，"之前最好"以 Rawformer（作者按相同设置重训）为准；半监督的 Afifi et al. 在 Samsung→iPhone 达 29.65/0.89 但需配对监督，MERIT 无需配对即超过它。

跨域可扩展性与 MDRAW 基准¶

作者发布首个多域 RAW 基准 MDRAW：5 台不同传感器相机（三星 S23 Ultra、华为 P30、iPhone 13 Pro、尼康 Z5、佳能 EOS Rebel T6），共 519 张无配对 + 285 张配对（57 组）RAW，并用扩展自 LoFTR 的跨域匹配管线抽取像素级对齐 patch 对做评测。下表为 MDRAW 上 MERIT 的部分成对翻译结果（格式 MAE / PSNR / SSIM / KL）：

源→目标	MAE↓	PSNR↑	SSIM↑	KL↓
Samsung→Huawei	0.026	30.77	0.77	1.53
Samsung→iPhone	0.026	31.15	0.78	1.46
Samsung→Nikon	0.036	29.11	0.75	1.64
Huawei→iPhone	0.033	29.20	0.77	2.38

在 20 个非对角域对上，单个 MERIT 模型即覆盖全部组合；相比为每对单训模型的范式，随域数增长其参数量与训练迭代显著更省（论文图 1e：约 80% 训练迭代缩减、2× 更小模型）。

关键发现¶

显式噪声建模是画质提升关键：把噪声从对抗训练隐式学习改成 SANM 显式直方图对齐，使生成 RAW 在噪声敏感区（高 ISO/低光）更物理可信，是 +5.56 dB 的重要来源（⚠️ SANM 与 MS-LKA 的逐组件消融数值在补充材料，缓存正文未给全表）。
单模型多域是可扩展性来源：模型数从 \(O(n^2)\) 降到 1，随相机域数增加，MERIT 在参数量和训练成本上的优势越发明显。
无需配对监督仍超半监督：MERIT 全程用无配对图训练，却超过需要配对监督的 Afifi et al.，说明风格条件化 + 物理噪声先验的组合很有效。

亮点与洞察¶

把"域差异"拆成可显式建模的物理量：作者识别出跨相机域偏移很大一部分来自噪声模式，于是用 Poisson-Gaussian + 噪声直方图把它显式对齐——这种"先归因、再针对性建模"的思路比一股脑交给对抗损失更可控，可迁移到任何需要保真传感器特性的低层视觉任务。
用 Sobel 平坦区筛选解耦噪声与纹理：估方差时只取梯度低的平坦 patch，巧妙避免纹理污染噪声统计，是个简单但实用的工程 trick。
风格嵌入条件化把 \(O(n^2)\) 压成单模型：这是从"模型即映射"转向"模型 + 域条件"的范式转变，对任何多域翻译问题都有借鉴意义。
MS-LKA 用多膨胀大核 + 风格调制替代自注意力：在高分辨率 RAW 上兼顾长程依赖与效率，提供了一种比 Transformer 更省的域自适应特征建模方式。

局限与展望¶

噪声建模假设 Poisson-Gaussian 模型成立，对偏离该假设的传感器（如复杂非线性 ISP 前处理）是否仍准确，正文未深入讨论。
推理依赖"按亮度挑参考图"来抽风格嵌入，若目标域训练集缺少亮度匹配样本，风格嵌入质量可能下降。
缓存正文未给出 SANM、MS-LKA、循环 SSIM 等组件的完整消融表（在补充材料），各组件单独贡献难以从正文定量核对（⚠️）。
MDRAW 规模仍偏小（519 无配对 + 285 配对），5 台相机的覆盖面对"任意商用相机"的泛化仍是开放问题。
改进方向：引入更通用/可学习的噪声模型替代固定 Poisson-Gaussian；用自动参考选择或域原型替代亮度匹配的参考图策略。

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一多域 RAW2RAW + 显式噪声直方图建模，思路新颖
实验充分度: ⭐⭐⭐⭐ 公开集 + 自建 MDRAW 多域成对评测充分，但正文缺完整组件消融表
写作质量: ⭐⭐⭐⭐ 物理动机—方法—基准闭环清晰，公式与图示完整
价值: ⭐⭐⭐⭐⭐ 单模型多域 + 新基准 MDRAW，对跨相机 RAW 视觉的实用与生态价值高