FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待发布（原文称 "code will be released soon"）
领域: 图像生成 / 扩散模型 / 3D视觉 / 自动驾驶
关键词: 3DGS-扩散融合, 期望信息增益(EIG), 驾驶场景重建, 大视角变换, 像素级编辑策略

一句话总结¶

FaithFusion 把"该不该改、改多少"这个像素编辑决策重新表述成像素级期望信息增益（EIG），用同一个 EIG 信号既引导扩散只在高不确定区域生成、又作为像素级 loss 权重把生成内容回灌进 3DGS，从而在变道等大视角偏移下同时拿到几何保真和外观可控，在 Waymo 上 NTA-IoU / NTL-IoU / FID 三项 SOTA（6 米变道仍保持 FID 107.47）。

研究背景与动机¶

领域现状：构建可闭环仿真的可控驾驶世界，需要同时做到重建的几何保真和外观生成的可控。3DGS / NeRF 把新视角合成做到了高质量，扩散模型则擅长图像/视频生成与修复，于是主流路线是把两者融合——以"渲染 → 修复 → 反馈"的在线渐进环把 3DGS 渲出来的退化新视角交给扩散修，再回灌 3DGS。

现有痛点：3DGS 在稀疏观测、遮挡严重、或离训练轨迹很远的视角下会出现几何不一致和伪影；而扩散模型在缺少像素级、几何一致引导时会"过度修复（over-restoration）"并引入几何漂移——它一旦启动，常把本来已经正确的区域也重画一遍。融合类方法（DIFIX3D+、ReconDreamer++ 等）要么依赖额外先验条件（LiDAR、3D 框、HDMap），要么得对 3DGS 架构做结构性改造。

核心矛盾：现有融合方法判断"在哪改、何时改、改多少"用的都是视角级（view-level）的粗粒度启发式，缺一个能精确到像素、决定"哪些区域该生成、哪些该保留"的原则性机制。粗粒度引导直接导致对生成的控制不足，于是过度修复和几何漂移反复出现。

切入角度：作者把"要不要编辑某个像素、编辑多强"重新表述成一个前瞻性的信息论度量——这次编辑能让后验不确定性下降多少。沿用 FisherRF 把 Fisher 信息当不确定性代理的思路，但把它从视角级下推到像素级，并与可微 3DGS 渲染器紧耦合。

核心 idea：用一个像素级 EIG 当"统一空间策略"——同一个 EIG 信号，在生成侧当空间权重让扩散只在高信息（高不确定）区域生成、抑制过度修复；在重建侧当像素级 loss 权重把高价值编辑蒸馏回 3DGS。整套系统即插即用，不需额外先验、不改 3DGS 架构。

方法详解¶

整体框架¶

FaithFusion 是一个由像素级 EIG 驱动的 3DGS–扩散融合框架，核心是一个三步渐进式训练环：先从原始 3DGS 渲染出横向偏移的新视角及其逐像素 EIG 图（Step 1），把渲染图和 EIG 图喂给双分支生成器 EIGent 去修复高 EIG 区域（Step 2，早期用 Video DiT 保时空一致、后期用 DIFIX3D+ 做逐帧细节精修），再用修复后的视角配合 EIG 图当像素权重去微调 3DGS（Step 3）。轨迹每 2000 步外扩 1 米，三步循环往复，把生成内容有序回灌进几何表示。

整套流程的关键是：同一张 EIG 图在三步里贯穿始终——Step 1 产出它、Step 2 用它当生成的空间先验、Step 3 用它当重建的 loss 权重，这正是"统一空间策略"的含义。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始 3DGS<br/>+ 前视相机序列"] --> B["像素级 EIG 估计<br/>渲染偏移新视角 + 逐像素 EIG 图"]
    B --> C["EIGent 双分支可控生成<br/>高 EIG 区修复"]
    C -->|"早期 Video DiT 保时空一致<br/>后期 DIFIX3D+ 逐帧精修"| D["渐进式 EIG 回灌 3DGS<br/>EIG 加权 loss 微调"]
    D -->|"轨迹每 2000 步外扩 1m<br/>循环"| B
    D --> E["更新后 3DGS<br/>大视角新视角合成"]

关键设计¶

1. 像素级期望信息增益（EIG）：把"该不该编辑"变成可计算的信息论度量

针对"现有方法只能用视角级启发式决定在哪改"的痛点，本文把编辑决策量化为：观测一个新视角能让 3DGS 参数后验的不确定性下降多少。3DGS 用一组各向异性高斯（位置 \(\mu_w\)、旋转 \(q_w\)、尺度 \(s\)、球谐系数 \(c\)、不透明度 \(o\)，合记为 \(\omega\)）通过 α-blending 渲染。先求最小化重建误差的点估计 \(\omega^* = \arg\min_\omega \sum \|Y_i^{train} - F(X_i^{train}, \omega)\|_2^2\)，再用 Laplace 近似把后验建模为高斯 \(\Omega \approx \mathcal{N}(\omega^*, H''[\omega^*]^{-1})\)，其中 \(H''\) 是负对数似然的 Hessian，其期望即 Fisher 信息，刻画观测对参数的约束强度。

对新视角 \(X^{NVS}\)，EIG 定义为先验熵与观测后期望后验熵之差：

\[\text{EIG} = H[\Omega] - \mathbb{E}_{p(Y_i|X_i)}\big[H[\Omega \mid Y_i^{NVS}, X_i^{NVS}]\big]\]

借助 Laplace 近似与 Fisher 信息的可加性，并用不等式 \(\log\det(A+I_d)\le \mathrm{tr}(A)\) 得到可计算的 trace 形上界 \(\text{EIG} \le \tfrac{1}{2}\sum_i \mathrm{tr}\big(H''[Y_i^{NVS}|X_i^{NVS},\omega^*]\,H''[\omega^*]^{-1}\big)\)。FisherRF 只能在训练视角算视角级不确定性，本文的关键扩展是沿每条渲染光线累积所交高斯的 Fisher 信息贡献（Algorithm 1：训练阶段累积全局 Fisher，新视角逐像素映射 EIG），从而得到逐像素 EIG。作者在 Waymo 上验证（Fig. 3）：逐步保留高 EIG 区域时 PSNR 单调下降，说明高 EIG 确实对应低质量渲染，EIG 可当新视角合成质量的代理。

2. EIGent 双分支可控生成：EIG 当空间先验，只在该补的地方补

针对"扩散一启动就连正确区域一起重画"的痛点，EIGent 把 EIG 当成可解释的逐像素优先级——高增益区（低质量/缺信息）要重点修复和生成，低增益区（可靠背景）要保留原结构。架构是双分支：一个轻量 EIG 引导的上下文编码器（从预训练 DiT 前四层克隆而来）与冻结的 DiT 主干并行，把"稳定背景保留"和"时序一致前景生成"解耦。给定视频 \(V\)，VAE 编码得 latent \(L=E(V)\)，EIG 图下采样为 \(E\)，通过 EIG 引导的上下文注入融合多尺度信号：

\[\epsilon_\theta(z_t, t, C)_k = \epsilon_\theta(z_t, t, C)_k + M \odot G(L_N, L, E)_k\]

其中 \(G\) 是轻量上下文编码器，\(M\) 是二值掩码、用于过滤极端不确定区域（EIG 超阈值），\(\odot\) 为 Hadamard 积，\(k\) 为特征层索引。为提升逐帧质量，再把外部修复线索（DIFIX latent）经交叉注意力注入上下文分支，并用 \(E\) 的空间权重和掩码 \(M\) 调控融合——粗粒度空间元数据由 \(E\) 注入，而只有"可信、背景相关"的信息才被放进 DiT 主干，避免污染稳定上下文。这种由粗到细的 EIG 引导让 DiT 同时改善感知质量和时空一致性。训练数据用跨相机代理构造（Fig. 4）：前视相机训出 3DGS 后从右前相机位姿渲染，得到退化新视角渲染 + EIG 图，与真实右前观测配成三元组；并通过剔除近静止片段、控制跨视角重叠、对大 floater 施加尺度约束来保证数据有效性。

3. 渐进式 EIG-aware 扩散→3DGS 知识回灌：EIG 当像素级 loss 权重

针对"如何把生成内容有序、可控地灌回几何"的问题，本文用逐像素 EIG 当引导信号做渐进式知识整合（而非视角级启发式）。总损失由原始轨迹项和新轨迹项组成。原始轨迹用常规 L1 + SSIM + 稀疏 LiDAR 深度监督：\(L_{ori} = \lambda_r L1_{ori} + (1-\lambda_r)L^{ori}_{SSIM} + \lambda_d L^{ori}_{depth}\)。关键在新视角损失：把归一化 EIG 图当像素级权重矩阵 \(\lambda_{EIG}\) 去调制图像损失，让 3DGS 把优化集中在信息增益最高（最欠约束）的区域：

\[L^{novel}_{img} = \lambda_{EIG} \odot \big(\lambda_r L^{novel}_1 + (1-\lambda_r)L^{novel}_{SSIM}\big)\]

再用邻帧聚合的点云投影当稀疏深度监督 \(L^{novel}_{depth}\) 保几何一致，合成 \(L_{novel} = L^{novel}_{img} + \lambda_d L^{novel}_{depth}\) 去微调 3DGS。这一步在早期依赖 EIGent 修复的视角优先建立空间结构和跨帧一致性，待外扩到最大范围并稳定后再换 DIFIX3D+ 精修的视角做细节增强——形成"触发编辑 → 调制强度 → 知识反馈"的闭环，且因为权重是逐像素的，低 EIG（已重建好）区域几乎不被改动，从根上抑制过度修复。

实验关键数据¶

主实验¶

在 Waymo 上严格遵循 ReconDreamer 协议：仅用前视相机数据训 3DGS（8 个片段、每段 40 帧），评测跨车道渲染质量，从第 3000 步起每 2000 步外扩 1 米。FaithFusion 集成进 OmniRe 框架，对比生成法 FreeVS 与三个融合法。

方法	额外条件	@3m NTA-IoU↑	@3m NTL-IoU↑	@3m FID↓	@6m NTA-IoU↑	@6m NTL-IoU↑	@6m FID↓
OmniRe	无	0.424	51.73	188.42	0.423	49.08	191.00
FreeVS	LiDAR	0.505	56.84	104.23	0.465	55.37	121.44
ReconDreamer	Box+HDMap	0.539	54.58	93.56	0.467	52.58	149.19
ReconDreamer++*	Box+HDMap	0.572	57.06	72.02	0.489	56.57	111.92
DIFIX3D+	无	0.578	56.94	84.12	0.504	53.77	120.24
FaithFusion	无	0.581	57.67	71.51	0.517	55.78	107.47

ReconDreamer++ 需要显著的架构/几何改造（分解建模 + 新轨迹场）。FaithFusion 在不用任何额外条件、不改 3DGS 架构*的前提下，@3m 拿到最低 FID（71.51）、最高 NTL-IoU；@6m 在多数方法因误差累积严重退化时仍稳住（NTA-IoU 0.517、FID 107.47 全表最优）。

消融实验¶

作者认为全局 FID 测不出不同置信度区域的细粒度差异，于是按 EIG 阈值 \(\tau=0.4\) 把画面切成欠约束区（UCR）和高置信区（HPR），分别报 FID-UCR / FID-HPR。下表为最难的 6 米横移任务上逐步叠加三个模块的结果：

配置	FID(Total)↓	FID-UCR↓	FID-HPR↓	说明
DIFIX3D+（基线）	120.24	147.97	152.66	纯逐帧修复
+ EIG 引导 DIFIX3D+	119.01	143.80	149.82	EIG 把修复聚焦低 EIG 区、抑制无谓幻觉，总 FID 降 ~1.23
++ EIGent 双阶段融合	113.94	137.58	153.69	加入双分支视频生成，总 FID 再降 5.07、UCR 降 6.22
+++ EIG Recon（完整 FaithFusion）	107.47	137.02	147.75	渐进回灌，较基线总 FID 降 12.77，UCR/HPR 各降 10.95/4.91

关键发现¶

三个模块互补、各管一段：EIG 引导 DIFIX 主要修低 EIG 区的语义错配；EIGent 主要补 UCR（欠约束区，FID-UCR 大降 6.22）；渐进回灌则在保住 EIGent 收益的同时防止低 EIG 区被过度修复。
EIGent 会让 FID-HPR 略升（153.69）：作者归因于视频扩散强行保时序一致会"压平"细粒度外观细节——⚠️ 这是一个真实 trade-off，强一致与细节增强在高置信区有冲突；但完整系统靠渐进回灌把 HPR 又拉回 147.75。
EIG 当质量代理是可验证的：Fig. 3 显示保留高 EIG 区时 PSNR 单调下降，为"高 EIG = 低质量渲染"提供了实证支撑，这是整个方法成立的前提。

亮点与洞察¶

一个信号干两件事：同一张像素级 EIG 图，生成侧当空间权重抑制过度修复，重建侧当 loss 权重做选择性蒸馏——把"在哪改/改多强/反馈什么"统一成一个可解释量，比堆叠多个启发式优雅得多。
把 FisherRF 从视角级下推到像素级：沿渲染光线累积高斯的 Fisher 贡献得到逐像素 EIG，这是让"细粒度扩散引导"成立的关键工程，可迁移到任何可微渲染 + 扩散修复的任务。
EIG-partitioned 评测（FID-UCR / FID-HPR）：用 EIG 阈值把画面分区分别评 FID，能暴露全局 FID 掩盖的"一致性 vs 细节"trade-off，这套评测思路本身可复用到其他重建-生成融合工作。
即插即用：不依赖 LiDAR/框/HDMap 等额外条件、不改 3DGS 架构，能直接塞进主流街景 3DGS 系统（OmniRe 等），落地门槛低。

局限与展望¶

作者承认 EIG 只是减缓而非根除 3DGS–扩散融合固有的误差累积，进一步降误差可能需要定制 3DGS 架构本身。
⚠️ 自己看到的：方法重度绑定驾驶场景（前视训练 + 横向变道评测、跨相机代理数据构造），是否能推广到一般物体/室内场景的大视角合成未验证；EIG 的 Laplace 近似与 Fisher 计算在大规模高斯上的开销也没给量化。
高置信区在强时序一致约束下会损失细节（FID-HPR 上升），说明"一致性优先"的视频扩散与"细节优先"的逐帧修复仍需更细的调度，而非简单的早期 Video DiT / 后期 DIFIX 切换。
展望：EIG 本就广泛用于主动探索与建图，作者指出把它接入主动建图策略是自然延伸，有望提升整体效率。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把像素级 EIG 当统一空间策略贯穿生成与重建两侧，是对"重建-生成融合该如何决策编辑"的原则性回答。
实验充分度: ⭐⭐⭐⭐ Waymo 上多 baseline、多变道距离对比 + EIG 分区消融扎实，但只在驾驶场景验证、缺跨域泛化与计算开销分析。
写作质量: ⭐⭐⭐⭐ 动机—公式—消融逻辑清晰，EIG 的信息论推导与三步 pipeline 讲得明白。
价值: ⭐⭐⭐⭐⭐ 即插即用、不需额外先验、不改架构，对闭环驾驶仿真的大视角新视角合成有直接落地价值。