ParkGaussian: Surround-view 3D Gaussian Splatting for Autonomous Parking¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/wm-research/ParkGaussian
领域: 自动驾驶
关键词: 自动泊车, 3D高斯泼溅, 环视鱼眼, 车位检测, 可微 IPM

一句话总结¶

针对地下车库这种「拥挤、无 GPS、弱光」的泊车场景，本文先做出首个面向泊车三维重建的基准 ParkRecon3D（四路环视鱼眼 + 6 万车位标注），再提出 ParkGaussian——把 3DGS 适配到鱼眼相机（UT 投影）、用可微 IPM 把渲染结果转成鸟瞰图、并用冻结的车位检测器作师生引导做「车位感知重建」，让重建不只画面好看，还能在下游车位检测上保持感知一致。

研究背景与动机¶

领域现状：自动泊车是自动驾驶系统的关键一环，但它和结构化、有 GPS 的道路驾驶很不一样——常发生在狭窄地下、拥挤车位、弱光环境。现有泊车研究主要停在二维：用逆透视映射（IPM）把多路鱼眼图转成鸟瞰图（BEV）做车位检测，或在此基础上做 SLAM，或在 CARLA 仿真里端到端学感知-规划-控制。驾驶场景的真实仿真这几年靠 NeRF / 3DGS 做 4D 重建已经做得很好（OmniRe、各类街景高斯），但几乎都聚焦道路。

现有痛点：（1）泊车场景的三维重建几乎是空白，没有专门基准；（2）现有驾驶重建方法重度依赖密集 LiDAR、标定好的 GPS/IMU，而地下车库恰恰光照差、纹理重复、无 GPS，外参标定都困难，这些方法直接搬过来不适用；（3）更根本的是，以往重建只追求视觉保真度（PSNR/SSIM 好看），却忽略了仿真的真正目的——生成「感知对齐」的合成数据来忠实评估下游模型。对自动泊车而言，系统入口是车位检测模块，所以单纯把场景画得清楚并不直接有用，必须让车位相关区域的视觉保真和下游感知模型对齐。

核心矛盾：重建模型的优化目标（光度保真）和感知模型的优化目标（车位结构）不一致——二者特征分布差很多，导致「画得清楚」的重建几何未必是检测器需要的几何。同时，鱼眼相机的强畸变让 vanilla 3DGS 的一阶雅可比近似失效。

本文目标：（1）造一个真实地下车库的泊车重建基准；（2）让 3DGS 能直接在环视鱼眼上稳定训练；（3）把下游车位检测的监督信号引回重建优化，使重建在车位关键区域结构忠实。

切入角度：既然泊车的入口是 BEV 上的车位检测，那就让重建管线「渲染鱼眼 → 可微 IPM 转 BEV → 过检测器」整条可导，再用检测器在「真值 BEV」和「渲染 BEV」上的结构特征差作为师生引导，把梯度一路回传到高斯。

核心 idea：用可微 IPM 打通「3DGS 重建」与「车位检测器」，让冻结的检测器充当老师，把车位结构先验注入高斯优化——重建既好看又「对检测器友好」。

方法详解¶

整体框架¶

ParkGaussian 的输入是四路环视鱼眼图（前/后/左/右），输出是地下车库的 3DGS 表示。整条管线分四段：① 高斯用 UT 投影稳定泼溅出四路鱼眼渲染图（绕开鱼眼畸变下失效的雅可比近似）；② 渲染图过可微 IPM 模块融合成统一 BEV 图；③ 同一套 IPM 也把真值鱼眼转成真值 BEV，二者分别送进一个冻结的车位检测器（DMPR-PS 或 GCN-Parking），得到师生结构特征；④ 由师生特征构造车位感知权重，在 IPM 空间和反投影回的相机空间同时加权监督重建。训练分两阶段：先用 vanilla 3DGS 光度损失训 20000 步，再加对齐损失与车位感知损失训 10000 步。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["四路环视鱼眼图<br/>(COLMAP 点云初始化高斯)"] --> B["UT 投影泼溅<br/>用 sigma 点近似, 免逐相机雅可比"]
    B --> C["渲染鱼眼图 Î_sur"]
    C --> D["可微 IPM 模块<br/>鱼眼→地平面→统一 BEV 图 Î_ipm"]
    GT["真值鱼眼 → 真值 BEV I_ipm^gt"] --> E
    D --> E["冻结车位检测器<br/>DMPR-PS / GCN-Parking 提师生特征 H^t,H^s"]
    E --> F["车位感知权重<br/>角点引导 W_mix + 边引导 W_edge, 师生混合+stop-grad"]
    F --> G["车位感知损失<br/>L_align(KL)+L_ipm+L_cam(回投相机空间)"]
    G -->|联合光度损失反传| B

关键设计¶

1. ParkRecon3D 基准：首个面向泊车三维重建的环视鱼眼数据集

针对「泊车重建无基准」的空白，作者在 AVM-SLAM 开源数据基础上重组扩展，造了 ParkRecon3D。数据采自约 220 m × 110 m、430+ 车位的地下车库，自车装四路鱼眼（前后左右），10 Hz、1280×960，并合成 1354×1632 的 IPM 图；含 4 个代表性场景、4 万+ 同步多鱼眼帧、6 万+ 人工核验车位标注。关键工程点：地下 IMU/轮速里程计噪声大，作者改用 COLMAP 标定四路鱼眼外参作为几何参考，车位标注遵循 DMPR-PS 协议在 BEV 域标角点。这个基准的意义在于它把「重建」和「车位感知」两类标注绑在同一套真实地下数据上，让「感知对齐的重建」第一次可训练、可评测。

2. UT 投影适配鱼眼：用无迹变换替掉失效的一阶雅可比

vanilla 3DGS 的 EWA 泼溅用一阶雅可比线性化相机投影 \(v=g(x)\)，但鱼眼强畸变下这个近似不准，且每种鱼眼模型都要单独推雅可比，对多相机环视系统很不友好。作者把 3DGUT 的无迹变换（UT）投影作为即插即用替换：不线性化非线性投影，而是用一小组 sigma 点 \(x_i=\mu\) 或 \(\mu\pm\sqrt{(n+\lambda)\Sigma}_{[i]}\) 精确地过 \(g(\cdot)\)，再由 \(\mu_v=\sum_i w_i^\mu g(x_i)\)、\(\Sigma_v=\sum_i w_i^\Sigma(g(x_i)-\mu_v)(g(x_i)-\mu_v)^\top\) 算出二维高斯足迹。这样既免去逐鱼眼模型的雅可比推导，又在强畸变下给出更稳定的足迹，让 3DGS 能直接在环视鱼眼上训练，显著提升地下场景的几何稳定性。

3. 可微环视 IPM：打通「鱼眼渲染」与「BEV 车位检测器」的可导桥梁

车位检测器大多在 BEV 上工作，直接拿 3DGS 渲染的鱼眼图喂不进去。作者把鱼眼→BEV 的逆透视映射写成全闭式、全可微的模块：每个鱼眼像素 \(u\) 先用逆鱼眼模型 \(\pi_c^{-1}\) 反投成相机系射线，再与车体系地平面 \(z=0\) 相交得地面点 \([x_v,y_v]^\top\)；四路相机的地面点用 IPM 内参 \(K_{ipm}\) 重投到统一 BEV 像素，得 \(\hat{I}_{ipm}=\Phi_{IPM}(\hat{I}_{sur})\)。由于全程闭式且可导，下游检测器的梯度能一路回传到三维高斯——这正是「让重建朝车位感知目标优化」能成立的前提，没有这座可微桥，师生引导就无从回传。

4. 车位感知重建：用冻结检测器作师生引导，把车位结构先验注入高斯

这是把「感知对齐」落地的核心。冻结一个在 ParkRecon3D 上微调过的检测器，对真值 BEV 与渲染 BEV 分别提特征 \(H^t\)（老师）、\(H^s\)（学生），每个含角点置信度、方向场、偏移。以 DMPR-PS 为例：取角点置信通道经塑形函数 \(W=\sigma((H_{conf}-\tau)/T)^\gamma\)（\(T=0.5,\tau=0.25,\gamma=1\)）得软掩码 \(W^t,W^s\)，再混成 \(W_{mix}=\alpha W^t+(1-\alpha)\,\mathrm{sg}(W^s)\)（\(\alpha=0.8\)，stop-grad 防止学生权重被直接更新而退化成均匀低置信）。GCN-Parking 进一步预测车位边：取 top-\(K_e\) 条边（\(K_e=8\)），沿角点连线 \(\ell_{ij}(t)\) 用高斯管（\(\sigma=1.5\)）光栅化成边图，混成 \(W_{edge}\)，最终 \(W'_{mix}=W_{mix}+\lambda_{edge}W_{edge}\)，同时强调角点与车位边界。损失上：对齐损失 \(\mathcal{L}_{align}=\mathrm{KL}(\pi^s\|\pi^t)\) 在老师 top-K 区域对齐师生分布；\(\mathcal{L}_{ipm}\)、\(\mathcal{L}_{cam}\) 用 \(W_{mix}\) 在 IPM 空间和回投的相机空间加权 L1，总损失 \(\mathcal{L}=\mathcal{L}_{rgb}+\lambda_{align}\mathcal{L}_{align}+\lambda_{ipm}\mathcal{L}_{ipm}+\lambda_{cam}\mathcal{L}_{cam}\)（\(\lambda_{align}=0.001,\lambda_{ipm}=\lambda_{cam}=0.1\)）。师生混合既要老师的稳定、又要学生对当前渲染的自适应，是消融里效果最好的配置。

损失函数 / 训练策略¶

两阶段：前 20000 步只用光度损失 \(\mathcal{L}_{rgb}=(1-\lambda)\|\hat{I}_{sur}-I_{sur}\|_1+\lambda\mathcal{L}_{D\text{-}SSIM}\)（\(\lambda=0.2\)）；后 10000 步加对齐与车位感知损失。高斯由 ParkRecon3D 的 COLMAP 稀疏点云初始化，用 GSplat 里的 MCMC 优化策略提升收敛稳定，单张 RTX 4090、Adam、共 30000 步。

实验关键数据¶

数据为 ParkRecon3D 四场景（每场景采 100 帧四路环视，每 10 帧评一次）。重建基线选明确在鱼眼/泊车场景验证过的 Self-Cali-GS、3DGUT、OmniRe；车位检测用 DMPR-PS 与 GCN-Parking（都在本基准微调）。⚠️ 论文 Precision/Recall 阈值（距离 distance、角度 angle）可调，具体数值以原文为准。

主实验：新视角合成质量（节选 Scene1 / Scene3）¶

场景	方法	PSNR↑	SSIM↑	LPIPS↓
Scene1	Self-Cali-GS	23.78	0.82	0.31
Scene1	3DGUT	28.70	0.92	0.21
Scene1	OmniRe	25.12	0.84	0.37
Scene1	Ours (w/ GCN-Parking)	30.09	0.93	0.20
Scene3	3DGUT	27.80	0.92	0.20
Scene3	OmniRe	21.58	0.78	0.50
Scene3	Ours (w/ GCN-Parking)	30.27	0.93	0.20

解读：在两场景上均取得最优重建质量。OmniRe 这类街景方法在地下车库严重模糊、结构丢失（依赖密集 LiDAR/GPS 的假设在地库不成立）；3DGUT/Self-Cali-GS 能搭出整体拓扑但细节鲁棒性差。本文靠车位感知策略在关键车位区涨质量。

下游车位检测一致性（Precision / Recall）¶

检测器	配置	Scene1 Prec↑	Scene1 Rec↑	Scene3 Prec↑	Scene3 Rec↑
DMPR-PS	GT 真图	0.86	0.22	0.49	0.21
DMPR-PS	Ours w/o 感知	0.71	0.08	0.48	0.18
DMPR-PS	Ours w/ 感知	0.74	0.10	0.47	0.19
GCN	GT 真图	0.99	0.49	0.98	0.50
GCN	Ours w/o 感知	0.95	0.40	0.94	0.48
GCN	Ours w/ 感知	0.97	0.43	0.95	0.48

解读：在重建渲染图上跑检测器，加入车位感知重建后 Precision/Recall 一致提升，且 GCN 上接近真图水平（如 Scene1 GCN 0.95/0.40→0.97/0.43，逼近真图 0.99/0.49），说明重建确实更贴合下游感知所需结构。

消融：车位感知策略各组件（Scene1，PSNR / Prec / Rec）¶

变体	PSNR↑	Prec↑	Rec↑	说明
直接 IPM L1 监督	24.94	0.62	0.06	无车位线索，多视投影在视界边界冲突、给 IPM 注噪
仅特征级监督	27.43	0.64	0.05	画面提升但车位几何不可靠，感知/重建目标未对齐
仅老师权重	29.56	0.90	0.41	稳定但不自适应
仅学生权重	28.62	0.81	0.40	自适应渲染预测但易受噪声
完整车位感知(本文)	30.09	0.97	0.43	师生混合 + 分布对齐，画面与下游 Prec/Rec 均最佳

关键发现¶

朴素 IPM L1 监督几乎不可用：Rec 仅 0.06，因多视投影在视界边界冲突、往 BEV 注入额外噪声；仅特征级监督也救不回车位几何，印证「感知与重建目标不对齐」这一核心矛盾。
师生互补：仅老师稳定但不自适应，仅学生自适应但怕噪声；二者混合 + 分布对齐才同时拿到最高画质与最高下游 Prec/Rec，说明「结构先验 + 预测一致性」缺一不可。

亮点与洞察¶

把仿真目标从「画得像」纠到「对感知有用」：核心洞察是泊车系统入口是车位检测，于是重建必须对齐检测器，而非盲目堆 PSNR——这个问题重定义本身比方法更值钱。
可微 IPM 是关键桥：用全闭式可导 IPM 把「鱼眼渲染→BEV→检测器」串成一条可回传的链，下游感知梯度才能进高斯，是「任务驱动重建」能成立的工程支点。
冻结检测器作师生 + stop-grad 防退化：用 \(\mathrm{sg}(W^s)\) 阻断学生权重直接更新，避免「全图低置信」的平凡解，是个可复用的小技巧。
UT 投影即插即用上鱼眼：免逐相机雅可比、强畸变下更稳，给多相机环视 3DGS 提供了一个干净的工程方案。

局限与展望¶

地下场景固有难点未解：作者承认镜面反射、高度重复纹理、弱光长曝光的运动模糊都难以准确建模，留待未来。
绝对检测精度仍偏低：DMPR-PS 上 Recall 普遍很低（真图也只有 0.08~0.22），加感知后提升有限，说明在重建图上的车位检测离实用还有距离。
依赖检测器与 IPM 假设：师生引导绑定特定检测器（DMPR-PS/GCN），IPM 假设地平面 \(z=0\)，对非平整地面/坡道可能失真——这是自己看到的适用范围限制。
改进方向（自己看）：把镜面/弱光显式建模（如反射分解、曝光建模）并入高斯属性，或用更强的多检测器集成作老师，可能进一步抬高下游 Recall。

评分¶

新颖性: ⭐⭐⭐⭐ 首个泊车三维重建基准 + 首个把车位检测器师生引导注入 3DGS 的框架，问题重定义（感知对齐重建）很有价值；单组件多为已有技术拼装。
实验充分度: ⭐⭐⭐ 自建基准上有 NVS、下游检测、组件消融三类实验且结论清晰；但只有 4 个场景、检测绝对精度低、未与更多重建/感知方法横向比。
写作质量: ⭐⭐⭐⭐ 动机链（仿真目标→车位入口→感知对齐）讲得清楚，公式与流程图到位；部分超参选择只说「依实现经验」缺敏感性分析。
价值: ⭐⭐⭐⭐ 填补泊车三维重建空白、提供感知对齐的仿真评估范式，对自动泊车系统开发与评测有实用意义。