跳转至

CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hgMsOJOm1c
代码: 待确认
领域: 3D 视觉 / 新视角合成
关键词: 外观协调, 双边网格, 多视角一致性, 3D 高斯泼溅, 前馈 Transformer, 自监督

一句话总结

CHROMA 用一个多视角感知的 Transformer 一次性为整段图像序列预测逐帧 3D 双边网格仿射变换,把因相机 ISP/曝光差异造成的外观不一致前馈式地校正到同一参考帧,从而在不拖慢 3DGS 训练的前提下显著提升新视角合成质量。

研究背景与动机

  • 领域现状:3DGS/NeRF 类重建默认多视角图像满足光度一致性,但真实采集中相机的曝光、白平衡、色彩校正等 on-device ISP 处理会让同一场景的不同视角颜色/亮度对不齐,破坏一致性假设、产生 floater 与色偏。
  • 现有痛点:主流做法是给每张图学一个外观嵌入(NeRF-W、WildGaussians、GS-W、Luminance-GS、BilaRF 等),把外观建模和几何重建绑在一起联合优化。这在每一步优化里都加额外计算,训练时间动辄翻倍甚至到几小时,直接抵消了 3DGS「秒级拟合」的速度优势;而且去掉嵌入后恢复的外观不可控,往往收敛到所有视角的「平均外观」。
  • 核心矛盾:外观协调既要多视角一致(2D 单帧增强方法做不到),又要便宜且可泛化(不想为每个场景重训);同时真实配对数据几乎无法采集——现实里的外观变化在时空上唯一,拿不到像素对齐的「干净/退化」标签。
  • 本文目标:把外观协调从场景优化里解耦出来,做成一个泛化的、前馈的预处理模块,处理几百帧只需一次前向,可无缝接到 3DGS/2DGS/DashGS 乃至前馈重建模型前面。
  • 核心 idea【前馈双边网格预测】——不直接回归校正后图像,而是让一个多视角 Transformer 为每帧预测低分辨率 3D 双边网格(逐顶点仿射变换),通过跨帧注意力对齐到参考帧;再配合【参考帧自动挑选】【3D 基础模型自监督】解决「对齐到谁」和「没有真实标签」两大难题。

方法详解

整体框架

输入一段多视角帧 \(\{I_i\}\) 与一个定义目标外观的参考帧 \(I_{ref}\),模型把每帧切成 patch token,经 encoder-decoder Transformer 输出逐帧的双边网格 \(B_i\) 和置信网格 \(C_i\);网格经 slicing(三线性插值)作用回全分辨率原图得到协调后帧 \(I_i'\),再喂给任意下游 3DGS 类重建器。训练同时用合成 ISP 配对数据(监督)和真实无配对数据(3D 基础模型渲染自监督)。

flowchart LR
    A["参考帧 I_ref + 源帧 {I_i}"] --> B["Patchify + 位置编码"]
    B --> C["Encoder: 帧内自注意力 ⇄ 全局自注意力 ×3"]
    C --> D["Decoder: 帧内自注意力 ⇄ 与 ref 跨注意力 ×3"]
    D --> E["网格预测头<br/>双边网格 B_i + 置信网格 C_i"]
    E --> F["Slicing 全分辨率仿射<br/>协调帧 I'_i + 置信图 C'_i"]
    F --> G["下游 3DGS/2DGS/DashGS 重建"]
    H["参考帧选择<br/>LAB 光度分 + DINO 语义分"] --> A

关键设计

1. 多视角双边网格 Transformer:用 patch token 直接预测逐顶点仿射,让校正天然跨视角一致。 双边网格把图像升维到一个低分辨率的 \((H_s, W_s, D)\) 三维空间,每个顶点存一组 \(3\times4\) 仿射参数(\(3\times3\) 矩阵 \(A\) 加偏置 \(b\)),像素 \(d\) 的颜色按 \(I'_d = A_d I_d + b_d\) 校正,其中 \(\theta_d=\sum_{i,j,k} w_{ijk}(d)\theta_{ijk}\) 由邻近顶点三线性插值得到(即 slicing),guidance 维用像素亮度。作者抓住了「Transformer 的 patch 处理」和「双边网格的顶点局部仿射」之间的结构同构——每个 patch token 正好对应一个网格顶点,于是用一个小 MLP 从 token 直接预测该顶点的 \(D\times12\) 仿射参数即可。架构借鉴 VGGT 的交替注意力:encoder 交替「帧内自注意力(建模单视角空间上下文)」和「全局自注意力(在相同 patch 位置跨视角交换信息)」各 3 层;decoder 把全局注意力换成「源帧 query、参考帧 key/value」的跨注意力,让每个源帧特征显式以参考帧为条件对齐,从而输出外观一致的多视角网格。由于网格分辨率远低于图像(224×224 输入、8×8 patch → 28×28×8 顶点),既省算力又天然只编码低频外观、不破坏高频细节。

2. 不确定性感知的置信网格:用概率损失给难恢复区域降权,稳住训练。 过曝/欠曝区域信息已丢失、真值本身也含光度噪声,硬拟合会带偏。作者额外预测一个低分辨率置信网格 \(C_i\in\mathbb{R}^{H_s\times W_s\times D\times1}\),slicing 成全分辨率置信图 \(C'_i\),把 L1 重建损失调制成 aleatoric 概率损失:\(L_{conf}=\sum_i C'_i\odot\|\hat I_i - I'_i\|_1 - \beta\log(C'_i)\)。这样模型可以在细节难以恢复的区域主动调低置信、减少其对损失的拉扯;再叠加一个全变差损失 \(L_{TV}\) 约束网格在空间和 guidance 维上平滑,避免顶点参数突变。

3. 参考帧自动选择:光度可靠 + 语义代表,避免对齐到坏帧。 「把所有帧对齐到参考帧」的前提是参考帧本身得好——随便取第一帧/随机帧可能选到天空、欠曝或离群帧,导致整段漂移。作者用两路打分加权:语义上算各帧 DINOv2 嵌入的余弦相似度 \(S_{DINO}\)(偏好信息丰富的帧),但 DINO 对光照鲁棒、欠曝帧也可能拿高分,于是再用 CIE-LAB 的亮度通道算光度分 \(S_{LAB}=\lambda_{ent}(-\sum_l p(l)\log p(l)) + \lambda_{ov}\frac{1}{|L|}\sum[L_{ij}\ge250] + \lambda_{un}\frac{1}{|L|}\sum[L_{ij}\le5]\),用亮度直方图熵奖励信息量、对过曝/欠曝像素比例(>250 或 <5)惩罚。最终 \(S_i=\alpha S_{LAB,i}+(1-\alpha)S_{DINO,i}\)\(\alpha=0.5\))取最高者为参考帧,兼顾可解释性、自动化与可手动指定。

4. 3D 基础模型自监督 + 合成 ISP 数据:解决真实配对数据缺失。 一路靠合成监督:在 DL3DV(10K 场景、每场景 300+ 帧)上用 unprocessing 反演相机管线得到线性 RGB,再随机加白平衡、曝光、增益、gamma、色彩校正矩阵扰动造配对;曝光用昼/夜双峰高斯混合 \(e\sim\pi\mathcal{N}(\mu_{day},\sigma^2_{day})+(1-\pi)\mathcal{N}(\mu_{night},\sigma^2_{night})\) 模拟明暗。另一路靠自监督消除合成到真实的域差:拿一个预训练前馈 3D 重建模型 \(h_\theta\)(如 AnySplat),把参考帧和校正后帧一起预测相机位姿与高斯,再把非参考帧的高斯重投影到参考视角,对渲染图与原参考帧算 VGG 感知损失 \(L_{ss}=\mathrm{VGG}(I_{ref}-\mathrm{Rasterizer}(p_{ref},\{G_i\}))\),迫使网络输出停在一致色彩空间里。总损失 \(L=L_{conf}+\lambda_{tv}L_{TV}+\lambda_{ss}L_{ss}\),其中 \(L_{conf}\) 只用于配对的 DL3DV,\(L_{ss}\)\(L_{TV}\) 在 DL3DV 与真实无配对的 WildRGB-D 上联合优化,并用预测高斯不透明度 mask 掉重建不可靠的区域。

实验关键数据

主实验表格(接入不同 3DGS 后端,CC 为逐通道仿射色彩校正后指标)

数据集 方法 PSNR↑ PSNR-CC↑ SSIM-CC↑ LPIPS-CC↓ 时间↓
DL3DV (ISP变化) DashGS 23.35 28.17 0.9029 0.1782 3m12s
DL3DV WildGaussians 18.15 24.08 0.8188 0.2567 2h10m
DL3DV Luminance-GS 20.00 26.14 0.8466 0.2290 14m29s
DL3DV DashGS + Ours 26.45 28.92 0.9035 0.1703 3m27s
MipNeRF360-VE GS-W 15.66 25.81 0.7580 0.2912 48m45s
MipNeRF360-VE Luminance-GS 18.12 23.12 0.7352 0.2851 22m16s
MipNeRF360-VE 2DGS + Ours 18.99 26.37 0.8125 0.2446 25m50s
BilaRF (真实夜景) 3DGS-4DBAG - 24.90 0.774 0.256 -
BilaRF GS-W - 24.94 0.8056 0.2764 40m34s
BilaRF DashGS + Ours - 26.25 0.8356 0.2158 3m50s

要点:接上 CHROMA 后各后端在三个数据集上普遍超过把外观联合优化的 per-scene 方法,且训练时间几乎不变(DashGS+Ours 仅 3 分多钟,而 WildGaussians 要 2 小时);300+ 帧单次前向,BilaRF 推理仅 2-3 秒。

消融实验表格(MipNeRF360-VE / BilaRF,PSNR-CC)

消融项 PSNR-CC SSIM-CC LPIPS-CC
单帧独立处理 26.19 0.8131 0.2435
随机参考帧 25.11 0.7559 0.3089
仅 DINO 选参考帧 25.95 0.7871 0.2758
完整模型 26.25 0.8149 0.2428
w/o 自监督损失 (BilaRF) 25.21 0.8245 0.2375
L1 自监督损失 25.28 0.8227 0.2377
VGG 自监督损失 25.60 0.8240 0.2368

关键发现

  • 跨视角联合处理优于单帧独立处理,证明 Transformer 跨视角信息确有增益。
  • 参考帧选择影响最大:随机帧从 26.25 掉到 25.11;仅靠 DINO 也不够(25.95),光度分必须加。
  • 自监督 \(L_{ss}\) 让模型能用真实无配对数据训练,桥接合成→真实域差,BilaRF 上 PSNR-CC 从 25.21 提到 25.60;VGG 感知损失比像素 L1 更稳、更抗低层噪声/错位。
  • 对比 2D 曝光校正方法(CoTF/MSEC/UEC 等):它们单帧效果尚可但缺多视角一致性,CHROMA 在 PSNR-CC、motion smoothness、temporal flickering 上全面更优。

亮点与洞察

  • 结构同构的巧思:把「Transformer patch token」直接映射到「双边网格顶点仿射参数」,省去了双边网格学习里常见的笨重 dense 预测头,预测的是紧凑低频参数、slicing 几乎零成本作用回高分辨率原图。
  • 解耦带来速度与可控:外观协调从重建里拆出来后,重建器保持原速,且能显式指定参考帧控制最终外观,而非收敛到「平均外观」。
  • 用前馈 3D 模型当 pretext task:拿 AnySplat 的可微渲染当自监督信号来逼一致性,是绕开真实配对数据缺失的实用路子。

局限与展望

  • 需要先单独训练一个协调网络(per-scene 方法无需),但训练一次即可场景无关复用、几百帧一次前向。
  • 只处理 ISP 引起的光度不一致,不显式建模镜面高光/反射——双边网格变换天生平滑,无法拟合反射/强高光带来的高频变化。
  • 未处理瞬态物体(行人/遮挡),展望把协调模块嵌入更大的前馈重建框架做真正「in-the-wild」无约束照片集重建。

相关工作与启发

  • 双边网格谱系:Chen 2007 的局部仿射双边网格 → HDRNet(Gharbi 2017)用网络预测算子 → BilaRF 把双边网格搬进 NeRF 建模 ISP;本文进一步扩到时空多视角并用 Transformer 预测,是这条线在「泛化+前馈」方向的延伸。
  • 外观感知 NVS:NeRF-W 开创每图外观嵌入,WildGaussians/GS-W/Luminance-GS/DAVIGS 等都走「联合优化嵌入」路线;本文反其道把外观处理前置解耦,启发是「能前馈解决的就别塞进 per-scene 优化」。
  • 架构借鉴:交替帧内/全局注意力来自 VGGT,自监督渲染信号来自 AnySplat 这类前馈 3D 基础模型——体现「大前馈重建模型可被复用为下游任务的监督来源」这一趋势。

评分

  • 新颖性: ⭐⭐⭐⭐ 把双边网格预测做成多视角前馈 Transformer、并用 patch-顶点同构 + 3D 基础模型自监督,组合新颖且切中外观协调与重建解耦的痛点。
  • 实验充分度: ⭐⭐⭐⭐ 三类数据集(合成 ISP/曝光/真实夜景)× 三种后端(2DGS/3DGS/DashGS)+ 对比 2D 校正与 per-scene 方法,消融覆盖参考帧选择、单/多帧、自监督损失,较为完整;缺少更大规模 in-the-wild 与瞬态物体场景。
  • 写作质量: ⭐⭐⭐⭐ 动机层层递进、方法与架构图清晰,公式与符号交代到位。
  • 价值: ⭐⭐⭐⭐ 即插即用、几乎不增训练时间又能提质,对真实采集下的 3DGS 重建工程实用性强。