CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hgMsOJOm1c
代码: 待确认
领域: 3D 视觉 / 新视角合成
关键词: 外观协调, 双边网格, 多视角一致性, 3D 高斯泼溅, 前馈 Transformer, 自监督

一句话总结¶

CHROMA 用一个多视角感知的 Transformer 一次性为整段图像序列预测逐帧 3D 双边网格仿射变换，把因相机 ISP/曝光差异造成的外观不一致前馈式地校正到同一参考帧，从而在不拖慢 3DGS 训练的前提下显著提升新视角合成质量。

研究背景与动机¶

领域现状：3DGS/NeRF 类重建默认多视角图像满足光度一致性，但真实采集中相机的曝光、白平衡、色彩校正等 on-device ISP 处理会让同一场景的不同视角颜色/亮度对不齐，破坏一致性假设、产生 floater 与色偏。
现有痛点：主流做法是给每张图学一个外观嵌入（NeRF-W、WildGaussians、GS-W、Luminance-GS、BilaRF 等），把外观建模和几何重建绑在一起联合优化。这在每一步优化里都加额外计算，训练时间动辄翻倍甚至到几小时，直接抵消了 3DGS「秒级拟合」的速度优势；而且去掉嵌入后恢复的外观不可控，往往收敛到所有视角的「平均外观」。
核心矛盾：外观协调既要多视角一致（2D 单帧增强方法做不到），又要便宜且可泛化（不想为每个场景重训）；同时真实配对数据几乎无法采集——现实里的外观变化在时空上唯一，拿不到像素对齐的「干净/退化」标签。
本文目标：把外观协调从场景优化里解耦出来，做成一个泛化的、前馈的预处理模块，处理几百帧只需一次前向，可无缝接到 3DGS/2DGS/DashGS 乃至前馈重建模型前面。
核心 idea：【前馈双边网格预测】——不直接回归校正后图像，而是让一个多视角 Transformer 为每帧预测低分辨率 3D 双边网格（逐顶点仿射变换），通过跨帧注意力对齐到参考帧；再配合【参考帧自动挑选】与【3D 基础模型自监督】解决「对齐到谁」和「没有真实标签」两大难题。

方法详解¶

整体框架¶

输入一段多视角帧 \(\{I_i\}\) 与一个定义目标外观的参考帧 \(I_{ref}\)，模型把每帧切成 patch token，经 encoder-decoder Transformer 输出逐帧的双边网格 \(B_i\) 和置信网格 \(C_i\)；网格经 slicing（三线性插值）作用回全分辨率原图得到协调后帧 \(I_i'\)，再喂给任意下游 3DGS 类重建器。训练同时用合成 ISP 配对数据（监督）和真实无配对数据（3D 基础模型渲染自监督）。

flowchart LR
    A["参考帧 I_ref + 源帧 {I_i}"] --> B["Patchify + 位置编码"]
    B --> C["Encoder: 帧内自注意力 ⇄ 全局自注意力 ×3"]
    C --> D["Decoder: 帧内自注意力 ⇄ 与 ref 跨注意力 ×3"]
    D --> E["网格预测头<br/>双边网格 B_i + 置信网格 C_i"]
    E --> F["Slicing 全分辨率仿射<br/>协调帧 I'_i + 置信图 C'_i"]
    F --> G["下游 3DGS/2DGS/DashGS 重建"]
    H["参考帧选择<br/>LAB 光度分 + DINO 语义分"] --> A

关键设计¶

1. 多视角双边网格 Transformer：用 patch token 直接预测逐顶点仿射，让校正天然跨视角一致。 双边网格把图像升维到一个低分辨率的 \((H_s, W_s, D)\) 三维空间，每个顶点存一组 \(3\times4\) 仿射参数（\(3\times3\) 矩阵 \(A\) 加偏置 \(b\)），像素 \(d\) 的颜色按 \(I'_d = A_d I_d + b_d\) 校正，其中 \(\theta_d=\sum_{i,j,k} w_{ijk}(d)\theta_{ijk}\) 由邻近顶点三线性插值得到（即 slicing），guidance 维用像素亮度。作者抓住了「Transformer 的 patch 处理」和「双边网格的顶点局部仿射」之间的结构同构——每个 patch token 正好对应一个网格顶点，于是用一个小 MLP 从 token 直接预测该顶点的 \(D\times12\) 仿射参数即可。架构借鉴 VGGT 的交替注意力：encoder 交替「帧内自注意力（建模单视角空间上下文）」和「全局自注意力（在相同 patch 位置跨视角交换信息）」各 3 层；decoder 把全局注意力换成「源帧 query、参考帧 key/value」的跨注意力，让每个源帧特征显式以参考帧为条件对齐，从而输出外观一致的多视角网格。由于网格分辨率远低于图像（224×224 输入、8×8 patch → 28×28×8 顶点），既省算力又天然只编码低频外观、不破坏高频细节。

2. 不确定性感知的置信网格：用概率损失给难恢复区域降权，稳住训练。 过曝/欠曝区域信息已丢失、真值本身也含光度噪声，硬拟合会带偏。作者额外预测一个低分辨率置信网格 \(C_i\in\mathbb{R}^{H_s\times W_s\times D\times1}\)，slicing 成全分辨率置信图 \(C'_i\)，把 L1 重建损失调制成 aleatoric 概率损失：\(L_{conf}=\sum_i C'_i\odot\|\hat I_i - I'_i\|_1 - \beta\log(C'_i)\)。这样模型可以在细节难以恢复的区域主动调低置信、减少其对损失的拉扯；再叠加一个全变差损失 \(L_{TV}\) 约束网格在空间和 guidance 维上平滑，避免顶点参数突变。

3. 参考帧自动选择：光度可靠 + 语义代表，避免对齐到坏帧。 「把所有帧对齐到参考帧」的前提是参考帧本身得好——随便取第一帧/随机帧可能选到天空、欠曝或离群帧，导致整段漂移。作者用两路打分加权：语义上算各帧 DINOv2 嵌入的余弦相似度 \(S_{DINO}\)（偏好信息丰富的帧），但 DINO 对光照鲁棒、欠曝帧也可能拿高分，于是再用 CIE-LAB 的亮度通道算光度分 \(S_{LAB}=\lambda_{ent}(-\sum_l p(l)\log p(l)) + \lambda_{ov}\frac{1}{|L|}\sum[L_{ij}\ge250] + \lambda_{un}\frac{1}{|L|}\sum[L_{ij}\le5]\)，用亮度直方图熵奖励信息量、对过曝/欠曝像素比例（>250 或 <5）惩罚。最终 \(S_i=\alpha S_{LAB,i}+(1-\alpha)S_{DINO,i}\)（\(\alpha=0.5\)）取最高者为参考帧，兼顾可解释性、自动化与可手动指定。

4. 3D 基础模型自监督 + 合成 ISP 数据：解决真实配对数据缺失。 一路靠合成监督：在 DL3DV（10K 场景、每场景 300+ 帧）上用 unprocessing 反演相机管线得到线性 RGB，再随机加白平衡、曝光、增益、gamma、色彩校正矩阵扰动造配对；曝光用昼/夜双峰高斯混合 \(e\sim\pi\mathcal{N}(\mu_{day},\sigma^2_{day})+(1-\pi)\mathcal{N}(\mu_{night},\sigma^2_{night})\) 模拟明暗。另一路靠自监督消除合成到真实的域差：拿一个预训练前馈 3D 重建模型 \(h_\theta\)（如 AnySplat），把参考帧和校正后帧一起预测相机位姿与高斯，再把非参考帧的高斯重投影到参考视角，对渲染图与原参考帧算 VGG 感知损失 \(L_{ss}=\mathrm{VGG}(I_{ref}-\mathrm{Rasterizer}(p_{ref},\{G_i\}))\)，迫使网络输出停在一致色彩空间里。总损失 \(L=L_{conf}+\lambda_{tv}L_{TV}+\lambda_{ss}L_{ss}\)，其中 \(L_{conf}\) 只用于配对的 DL3DV，\(L_{ss}\) 和 \(L_{TV}\) 在 DL3DV 与真实无配对的 WildRGB-D 上联合优化，并用预测高斯不透明度 mask 掉重建不可靠的区域。

实验关键数据¶

主实验表格（接入不同 3DGS 后端，CC 为逐通道仿射色彩校正后指标）¶

数据集	方法	PSNR↑	PSNR-CC↑	SSIM-CC↑	LPIPS-CC↓	时间↓
DL3DV (ISP变化)	DashGS	23.35	28.17	0.9029	0.1782	3m12s
DL3DV	WildGaussians	18.15	24.08	0.8188	0.2567	2h10m
DL3DV	Luminance-GS	20.00	26.14	0.8466	0.2290	14m29s
DL3DV	DashGS + Ours	26.45	28.92	0.9035	0.1703	3m27s
MipNeRF360-VE	GS-W	15.66	25.81	0.7580	0.2912	48m45s
MipNeRF360-VE	Luminance-GS	18.12	23.12	0.7352	0.2851	22m16s
MipNeRF360-VE	2DGS + Ours	18.99	26.37	0.8125	0.2446	25m50s
BilaRF (真实夜景)	3DGS-4DBAG	-	24.90	0.774	0.256	-
BilaRF	GS-W	-	24.94	0.8056	0.2764	40m34s
BilaRF	DashGS + Ours	-	26.25	0.8356	0.2158	3m50s

要点：接上 CHROMA 后各后端在三个数据集上普遍超过把外观联合优化的 per-scene 方法，且训练时间几乎不变（DashGS+Ours 仅 3 分多钟，而 WildGaussians 要 2 小时）；300+ 帧单次前向，BilaRF 推理仅 2-3 秒。

消融实验表格（MipNeRF360-VE / BilaRF，PSNR-CC）¶

消融项	PSNR-CC	SSIM-CC	LPIPS-CC
单帧独立处理	26.19	0.8131	0.2435
随机参考帧	25.11	0.7559	0.3089
仅 DINO 选参考帧	25.95	0.7871	0.2758
完整模型	26.25	0.8149	0.2428
w/o 自监督损失 (BilaRF)	25.21	0.8245	0.2375
L1 自监督损失	25.28	0.8227	0.2377
VGG 自监督损失	25.60	0.8240	0.2368

关键发现¶

跨视角联合处理优于单帧独立处理，证明 Transformer 跨视角信息确有增益。
参考帧选择影响最大：随机帧从 26.25 掉到 25.11；仅靠 DINO 也不够（25.95），光度分必须加。
自监督 \(L_{ss}\) 让模型能用真实无配对数据训练，桥接合成→真实域差，BilaRF 上 PSNR-CC 从 25.21 提到 25.60；VGG 感知损失比像素 L1 更稳、更抗低层噪声/错位。
对比 2D 曝光校正方法（CoTF/MSEC/UEC 等）：它们单帧效果尚可但缺多视角一致性，CHROMA 在 PSNR-CC、motion smoothness、temporal flickering 上全面更优。

亮点与洞察¶

结构同构的巧思：把「Transformer patch token」直接映射到「双边网格顶点仿射参数」，省去了双边网格学习里常见的笨重 dense 预测头，预测的是紧凑低频参数、slicing 几乎零成本作用回高分辨率原图。
解耦带来速度与可控：外观协调从重建里拆出来后，重建器保持原速，且能显式指定参考帧控制最终外观，而非收敛到「平均外观」。
用前馈 3D 模型当 pretext task：拿 AnySplat 的可微渲染当自监督信号来逼一致性，是绕开真实配对数据缺失的实用路子。

局限与展望¶

需要先单独训练一个协调网络（per-scene 方法无需），但训练一次即可场景无关复用、几百帧一次前向。
只处理 ISP 引起的光度不一致，不显式建模镜面高光/反射——双边网格变换天生平滑，无法拟合反射/强高光带来的高频变化。
未处理瞬态物体（行人/遮挡），展望把协调模块嵌入更大的前馈重建框架做真正「in-the-wild」无约束照片集重建。

评分¶

新颖性: ⭐⭐⭐⭐ 把双边网格预测做成多视角前馈 Transformer、并用 patch-顶点同构 + 3D 基础模型自监督，组合新颖且切中外观协调与重建解耦的痛点。
实验充分度: ⭐⭐⭐⭐ 三类数据集（合成 ISP/曝光/真实夜景）× 三种后端（2DGS/3DGS/DashGS）+ 对比 2D 校正与 per-scene 方法，消融覆盖参考帧选择、单/多帧、自监督损失，较为完整；缺少更大规模 in-the-wild 与瞬态物体场景。
写作质量: ⭐⭐⭐⭐ 动机层层递进、方法与架构图清晰，公式与符号交代到位。
价值: ⭐⭐⭐⭐ 即插即用、几乎不增训练时间又能提质，对真实采集下的 3DGS 重建工程实用性强。