Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation¶

会议: NeurIPS 2025
arXiv: 2509.10759
代码: 项目主页
领域: 3D视觉
关键词: 4D Gaussian Splatting, Ray Tracing, Camera Effects, Dynamic Scene Reconstruction, Data Generation

一句话总结¶

提出 4D Gaussian Ray Tracing (4D-GRT)，将 4D Gaussian Splatting 与物理光线追踪结合，从多视角视频重建动态场景后，以可控参数生成鱼眼畸变、景深模糊、卷帘快门等物理精确的相机效果视频数据。

研究背景与动机¶

真实相机效果无处不在：现实世界中鱼眼畸变 (fisheye)、景深 (depth of field)、卷帘快门 (rolling shutter) 等相机效果普遍存在，但主流视觉系统仅假设理想针孔相机模型，遇到这些效果时性能显著下降。

训练数据严重匮乏：缺乏带有精确相机效果参数标注的高质量动态场景数据，导致模型无法学习和应对各类相机效果。

传统合成方法成本高且存在域差距：使用 Blender 等渲染引擎合成数据虽然参数可控，但场景建模人力成本高，且合成-真实域差距 (sim-to-real gap) 限制了模型泛化。

视频生成模型无法理解相机参数：当前主流视频生成模型（世界模型）对相机效果参数缺乏物理理解，给出数值参数后生成的视频严重违背物理规律，产生伪影或错误效果。

动态高斯泼溅缺乏光传输建模能力：Dynamic Gaussian Splatting 方法擅长动态场景重建，但其基于光栅化的渲染管线无法模拟需要光线追踪的相机效果。

动态 NeRF 速度太慢：Dynamic NeRF 方法支持光线追踪但渲染速度极慢，且重建质量不如 Gaussian Splatting，难以用于大规模数据生成。

方法详解¶

整体框架¶

4D-GRT 采用两阶段流水线：第一阶段从同步多视角视频通过可微光线追踪优化 4D Gaussian Splatting (4D-GS) 表示，重建动态场景；第二阶段在重建的场景上，基于物理相机模型参数进行光线追踪，渲染出带有可控相机效果的视频。

关键设计 1：4D 高斯变形场动态场景表示¶

功能：将动态场景表示为一组规范 3D 高斯 \(G\) 加上一个变形场网络，通过时空编码器和多头解码器预测每帧的高斯属性残差 \((\Delta x, \Delta r, \Delta s)\)。
核心思路：采用 4D 体素平面 \(R_l\) 提取时空特征，经轻量 MLP \(\varphi\) 融合后，分别用 \(\varphi_x, \varphi_r, \varphi_s\) 预测位置、旋转、缩放的残差，叠加到规范高斯上得到变形后的 \(G_t\)。
设计动机：相比直接存储每帧高斯，变形场参数化更紧凑高效，且时空体素平面编码能捕获多分辨率运动信息，平衡表达能力与存储开销。

关键设计 2：可微光线追踪渲染¶

功能：在训练阶段用可微光线追踪替代传统 3D-GS 光栅化，直接对 3D 高斯基元进行光线追踪。
核心思路：采用 3DGRT 的 \(k\)-buffer hit-based marching 方案，借助 NVIDIA OptiX 硬件加速接口，光线直接穿过 3D 高斯基元计算交点和颜色，支持端到端可微优化。
设计动机：光栅化渲染仅支持 pinhole 投影，无法模拟复杂透镜畸变和光传输相关的光学效果。光线追踪天然支持任意相机模型的射线生成方式，为后续相机效果模拟提供统一接口。

关键设计 3：物理相机效果渲染模块¶

功能：在重建场景上模拟三种代表性相机效果——鱼眼畸变、景深模糊、卷帘快门。
核心思路：
- 鱼眼：采用 4 阶多项式径向畸变模型 \(\theta = k_0 + k_1 r + k_2 r^2 + k_3 r^3 + k_4 r^4\)，将像素坐标转换为物理传感器坐标后计算极角和方位角，定义球面射线方向。
- 景深：给定对焦距离 \(f_z\) 和光圈半径 \(r_a\)，在圆形光圈上均匀采样扰动射线起点，多次采样取平均实现物理准确的散焦模糊。
- 卷帘快门：每行像素按其感光时间 \(t_r\) 对变形高斯 \(G_{t_r}\) 追踪射线，并采用行分块近似策略（chunk size \(N_c\)）加速。
设计动机：直接在光线追踪框架中嵌入相机光学模型，无需对 Gaussian Splatting 做复杂的 Jacobian 计算或额外模块改造，保持参数可控和物理精确。

关键设计 4：卷帘快门行分块加速策略¶

功能：将图像行划分为大小为 \(N_c\) 的块，块内所有行共享同一平均感光时间，从而实现并行光线追踪。
核心思路：假设场景运动适中且快门时间较短，块内行的感光时间差异可忽略；块越大速度越快但可能引入块状伪影，块越小质量越高但速度越低。
设计动机：精确的逐行变形方案无法并行化（每行需独立的变形高斯），分块近似在速度和质量之间取得实用平衡。

损失函数与训练¶

训练损失由两部分组成：渲染图像与真值图像的 L1 损失 \(\mathcal{L}_1(C_{v,t}, \hat{C}_{v,t})\)，以及 4D 体素平面上的全变分正则化 \(\mathcal{L}_{TV}\)。每次迭代随机采样视角 \(v\) 和时刻 \(t\)，获取变形高斯后通过光线追踪渲染并优化。训练在 RTX 4090 上约需 3 小时。

实验¶

数据集与设置¶

作者使用 Blender 4.5 构建了 8 个动态室内场景（篮球场、仓库、客厅、浴室），每个场景 50 个相机视角、50 帧、512×512 分辨率，分别渲染 pinhole/fisheye/rolling shutter/DoF 四种相机效果的配对数据作为 benchmark。

表 1：Pinhole 渲染质量对比¶

方法	PSNR (dB) ↑	SSIM ↑	LPIPS ↓	FPS ↑
HexPlane	23.11	0.7956	0.2942	0.20
MSTH	29.43	0.9023	0.1139	9.38
4D-GRT (Ours)	32.80	0.8898	0.1018	36.56

表 2：景深效果渲染对比¶

方法	PSNR (dB) ↑	SSIM ↑	LPIPS ↓	FPS ↑
HexPlane	18.37	0.7343	0.5056	0.01
MSTH	28.47	0.9009	0.1540	0.57
4D-GRT (Ours)	31.25	0.9124	0.1210	3.44

表 3：卷帘快门效果渲染（不同 chunk size）¶

方法	Chunk	PSNR (dB) ↑	FPS ↑
HexPlane	N/A	21.35	0.21
MSTH	N/A	28.70	9.35
4D-GRT	1 row	31.61	0.76
4D-GRT	4 rows	31.61	4.99
4D-GRT	16 rows	31.61	13.54

结果分析¶

4D-GRT 在 pinhole/DoF/rolling shutter 渲染的 PSNR 上均大幅超越两个基线，fisheye 在 masked 评估下 PSNR 也最高（28.89 vs 26.79）。
Pinhole 渲染速度达 36.56 FPS，是 MSTH 的 ~4 倍，HexPlane 的 ~180 倍。
卷帘快门的分块策略有效：chunk=16 时 FPS 从 0.76 提升到 13.54，PSNR 几乎无损。
真实世界数据集 Neural 3D Video 上的定性结果也展示了良好的泛化能力。

亮点¶

首个在动态场景高斯表示上执行光线追踪的工作，打通了 4D-GS 重建与物理相机效果模拟之间的桥梁。
两阶段设计优雅简洁——重建与效果渲染解耦，同一重建结果可渲染任意相机效果组合。
揭示了当前视频生成模型（世界模型）无法理解相机效果参数的问题，有实际工程价值。
提供了首个包含 4 种相机效果的多视角动态场景配对 benchmark，填补数据空白。
卷帘快门行分块加速策略简单有效，在速度与精度之间灵活权衡。

局限性¶

依赖多视角视频输入：需要充足、同步的多视角视频才能实现高质量重建，无法处理稀疏视角或单目输入场景。
仅在合成数据上定量评估：缺乏真实世界场景的定量数据，真实场景仅有定性展示。
训练时间较长：3 小时训练时间虽远快于 HexPlane (12h)，但比 MSTH (8min) 慢得多，如需大规模数据生成可能成为瓶颈。
当前仅支持静态相机的卷帘快门：尚未实现运动相机下的卷帘快门模拟，限制了应用范围。
鱼眼渲染未观测区域质量不可控：超出训练视场的区域重建质量无保障，需掩码评估。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将光线追踪引入 4D 高斯表示用于动态场景相机效果生成
实验充分度: ⭐⭐⭐⭐ — 四种效果全面对比，有合成 benchmark 和真实数据定性验证，但缺少下游任务验证
写作质量: ⭐⭐⭐⭐ — 动机清晰、方法完整、实验详尽
价值: ⭐⭐⭐⭐ — 为视觉模型的相机效果鲁棒性提供了实用的数据生成方案