GaussianGrow: Geometry-aware Gaussian Growing from 3D Point Clouds with Text Guidance¶

会议: CVPR 2026
arXiv: 2604.05721
代码: https://weiqi-zhang.github.io/GaussianGrow
领域: 3D视觉 / 3D生成
关键词: 3D高斯溅射, 点云, 文本引导, 多视图扩散, 外观生成

一句话总结¶

提出 GaussianGrow，通过从易获取的 3D 点云"生长"3D 高斯来替代从零预测几何+外观的传统方案，利用多视图扩散模型生成一致的外观监督，并通过重叠区域检测+迭代补全机制解决视图融合伪影和不可见区域问题，在合成和真实扫描点云上大幅超越 SOTA。

研究背景与动机¶

领域现状：3D 高斯溅射（3DGS）已成为高保真 3D 建模的主流表示，但高质量 3D 高斯的生成仍面临挑战。现有生成方法（GVGEN、DiffSplat 等）需要同时学习几何结构和外观，当几何预测不准确时，整体生成质量严重下降。
现有痛点：一些方法尝试通过预测 point maps 作为几何参考来推断高斯原语，但估算的几何不可靠，导致生成质量差。另一系列方法通过给 3D 网格贴纹理来生成外观，但网格需要大量人工建模，且依赖 UV 展开会引入纹理重叠和畸变。
核心矛盾：几何和外观的联合学习使模型对几何预测误差非常敏感，而获取可靠几何先验的代价很高（网格建模要求大量人工）。
本文目标 如何利用容易获取的几何先验（3D 点云）来显著提升 3D 高斯生成质量？
切入角度：随着 LiDAR 和深度相机的普及，获取干净的点云数据已经非常便捷。点云可以作为可靠的几何先验，将生成任务从"几何+外观联合学习"简化为"在给定几何上生长外观"。
核心 idea：将高斯原语的中心固定在点云位置上，利用多视图扩散模型生成外观监督来"生长"高斯的颜色和不透明度属性。

方法详解¶

整体框架¶

两阶段流程。Stage 1：利用 depth-aware ControlNet 生成主视图参考图像，然后用几何感知的多视图扩散模型（Hunyuan3D-Paint）生成 6 个标准视图 + 4 个针对重叠区域优化的附加视图共 10 个视图作为外观监督，优化高斯属性。Stage 2：迭代地检测未见区域，优化相机位姿观察最大未见区域，用 2D 扩散模型补绘渲染视图，作为监督继续生长高斯，直到所有区域覆盖完毕。输入：3D 点云 + 文本提示。输出：完整的 3D 高斯集合。

关键设计¶

初始化与几何信息提取
- 功能：从点云建立可靠的几何基础
- 核心思路：每个高斯中心初始化在对应点云位置。通过 CAP-UDF 从点云优化一个无符号距离场（UDF），从中计算法线 \(n_i = \nabla f_u(p_i) / \|\nabla f_u(p_i)\|\)。采用 2D 高斯溅射表示（定向圆盘而非椭球体），旋转矩阵根据法线自动设置。从 UDF 提取深度图（光线行进）、法线图（梯度推断）、位置图（像素→XYZ坐标）三类几何信息图，为后续视图生成提供条件。
- 设计动机：选择 UDF 而非 SDF 是因为 UDF 可以表示开放拓扑和复杂结构，不要求水密表面。点云直接初始化天然保证了几何精度。
重叠区域检测与位姿优化
- 功能：解决相邻标准视图在重叠区域的外观不一致问题
- 核心思路：通过光线追踪检测每个视点的可见高斯集合，再计算相邻视点的交集得到重叠区域 \(R_{i,j}\)。为每个重叠区域优化一个新的相机位姿，使相机射线方向与重叠区域内高斯的法线最大对齐：\(\mathcal{L}_{\text{align}} = \sum_{g \in R_{i,j}} (1 - |\frac{\mathbf{d}_{i,j} \cdot \mathbf{n}_g}{\|\mathbf{d}_{i,j}\| \|\mathbf{n}_g\|}|)\)。这保证了附加视图以最正面的角度观察重叠区域，减少投影失真，从而生成更一致的外观。优化时约束相机位置在单位球面上。作者还实现了 CUDA 并行加速的检测算法，将计算时间从分钟级降到秒级。
- 设计动机：标准的 6 个预设视图在相邻视图间必然存在大面积重叠，而多视图扩散模型在这些区域的生成常常不一致。从最佳角度为重叠区域单独生成外观是解决这个问题的关键。
迭代高斯补绘（Iterative Gaussian Inpainting）
- 功能：覆盖多视图生成后仍未见的点云区域
- 核心思路：基于可见性分析自动预测观察最大未见区域的最优相机位姿。核心优化目标是最小化被已优化高斯遮挡的未优化高斯数量：\(\mathcal{L}_{\text{occ}} = \sum_{i,j} \sigma((\tau(\rho_i+\rho_j)^2 - \|q_i-q_j\|^2)) \sigma(\tau(z_i-z_j))\)，其中 \(q\) 是 2D 投影，\(\rho\) 是投影半径，\(z\) 是深度。找到最优视角后，渲染当前视图（含遮挡空洞），用 depth-aware inpainting 扩散模型补绘空洞区域，用补绘结果作为监督优化对应高斯。迭代执行直到所有高斯都被覆盖（通常 6 次迭代即可）。最后还有空间补绘（Spatial Inpainting）作为后处理——将已优化高斯的属性传播到邻近的未优化高斯。
- 设计动机：不同物体的几何结构差异很大，用固定的密集视点集不可能覆盖所有区域。自适应地发现并补绘未见区域比预定义视点模式更高效、更完整。

损失函数 / 训练策略¶

高斯优化采用视图特定的优化方案——只优化当前视角可见的正面朝向高斯，避免背面高斯被干扰。先优化 6 个标准视图，再优化 4 个重叠区域的附加视图。多视图扩散模型使用 Hunyuan3D-Paint，主视图生成使用 Stable Diffusion + Depth-aware ControlNet。

实验关键数据¶

主实验（Objaverse 数据集，文本引导的外观生成）¶

方法	FID ↓	KID ↓	CLIP ↑	User Study (Overall) ↑
TexTure	42.63	7.84	26.84	1.49
Text2Tex	41.62	6.45	26.73	2.37
SyncMVD	40.85	5.77	27.24	4.13
GAP	40.39	5.28	27.26	3.37
GaussianGrow	36.07	3.04	27.30	4.67

消融实验¶

配置	FID ↓	KID ↓	CLIP ↑
Full Model	36.07	3.04	27.30
W/o Overlap Processing	40.48	4.81	26.73
W/o Inpaint	40.46	4.68	26.71

视图数 K	FID ↓	KID ↓	CLIP ↑
K=6 (仅标准视图)	40.48	4.81	26.73
K=10	36.07	3.04	27.30
K=12	36.57	2.88	26.48

关键发现¶

重叠区域处理和补绘都很重要：去掉任一模块，FID 都从 36 升到 40 以上。两者的贡献几乎相当。
K=10 是最优视图数：4 个附加视图聚焦于最关键的重叠区域已经足够，增加到 K=12 时 KID 略降但 CLIP 和 FID 反而略升。
点云比重建网格更好用：baseline 方法在重建网格（BPA/CAP-UDF）上的性能显著下降（FID 上升 15-25 点），说明点云→网格→UV 展开的流程会引入大量几何失真。GaussianGrow 跳过了这些中间步骤。
在 T3Bench 文本到 3D 基准上，GaussianGrow+Uni3D 检索方案在所有指标上超越 DiffSplat、GVGEN、LGM 等方法。
在真实扫描点云（DeepFashion3D）上也能正常工作，证明方法对噪声和密度变化有鲁棒性。
相同点云配合不同文本提示可以生成多种风格的外观，展现了灵活性。

亮点与洞察¶

"从点云生长高斯"的视角转换：将 3D 生成从"同时学几何和外观"简化为"在已有几何上学外观"，这个 insight 简单但非常有效。点云作为几何先验比 point map 预测更可靠，且获取成本（LiDAR扫描或跨模态检索）越来越低。
重叠区域的精细处理：通过法线-射线对齐优化相机位姿来观察重叠区域，这个设计非常工程化但有效。CUDA 并行实现也体现了对实际效率的重视。
自适应补绘策略：不用预定义视点，而是让模型自己发现最需要补绘的区域——这种"按需生成"的思路比暴力密集视图更优雅。

局限与展望¶

依赖外部多视图扩散模型（Hunyuan3D-Paint）的质量——如果扩散模型在某些类别上生成质量差，GaussianGrow 也无法挽救。
迭代补绘需要多次渲染和扩散模型推理，计算开销比端到端方法大。
主视图生成（ControlNet + Stable Diffusion）是单次采样，如果这个参考图不好，后续所有视图的一致性都会受到影响。
当前评估主要在物体级别，未验证对场景级别点云的适用性。

评分¶

新颖性: ⭐⭐⭐⭐ "从点云生长高斯"的切入点有新意，重叠区域处理和迭代补绘的工程设计扎实
实验充分度: ⭐⭐⭐⭐⭐ Objaverse合成+DeepFashion真实扫描+T3Bench文本到3D+多方法对比+全面消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式和图表配合好
价值: ⭐⭐⭐⭐ 提供了3D生成的新范式，但依赖外部多视图扩散模型限制了独立性