跳转至

High-fidelity 3D Object Generation from Single Image with RGBN-Volume Gaussian Reconstruction Model

会议: CVPR 2025
arXiv: 2504.01512
代码: 无
领域: 3D 视觉 / 单图 3D 生成
关键词: 单图 3D 重建, 2D 高斯溅射, 体素-高斯混合, 法线融合, 跨体积注意力, 前馈 3D 生成

一句话总结

GS-RGBN 提出混合 Voxel-Gaussian 表示为无结构高斯提供 3D 空间约束,并设计跨体积融合(CVF)模块在特征层面融合 RGB 语义信息和法线几何信息,从单张图像在数秒内生成高保真 3D 对象,在 GSO 数据集上 PSNR 超出次优方法 5.59dB。

研究背景与动机

领域现状:单图 3D 生成是 VR/AR/游戏领域的核心需求。当前主流方法分为三类:(1) 优化类(DreamGaussian):用 SDS 损失优化,但多视角扩散图像不一致导致扭曲;(2) 微调类(Zero-1-to-3):微调多视角扩散模型提升一致性,但仍不够;(3) 前馈类(LGM、TriplaneGaussian):用神经网络直接从多视角图像预测 3DGS,但 3DGS 缺少空间结构导致几何扭曲和纹理模糊。

现有痛点:(1) 几何歧义:2D 图像到 3D 存在固有歧义,仅 RGB 信息不足以恢复精确几何;(2) 3DGS 无结构:高斯原语在 3D 空间中自由分布、无约束,从不一致的 2D 图像学习时容易坍塌到退化解;(3) 前馈方法缺乏空间结构:LGM 等方法用 2D 卷积编码图像特征再映射到高斯属性,无法有效捕捉 3D 邻域相关性。

核心矛盾:多视角扩散模型生成的图像存在视角不一致 → 直接学习无结构 3DGS 容易产生扭曲 → 需要空间结构化的 3D 表示 + 显式几何信息。

本文切入角度:(1) 用 3D 体素网格约束高斯→结构化 3D 表示;(2) 利用法线图提供显式几何信息→融合 RGB 和法线特征消除几何歧义。

方法详解

整体框架

GS-RGBN 管线:输入单张图像 → Wonder3D 生成多视角 RGB 和法线图像 → VIT DINO 提取特征 + Plücker 射线嵌入注入相机信息 → 反投影构建 RGB 和法线 3D 特征体积 → CVF 模块融合为 RGBN 体积 → MLP 解码每个体素的 2D 高斯属性 → 渲染。

关键设计

  1. 混合体素-高斯模型 (Hybrid Voxel-Gaussian):

    • 功能:为无结构的高斯原语提供结构化的 3D 空间约束
    • 核心思路:用 VIT DINO 提取多视角 RGB/法线图像的特征图,用自适应层归一化(AdaLN)注入 Plücker 射线嵌入编码相机位姿,然后将融合特征沿射线反投影到 \(W \times W \times W\) 的 3D 体素网格中,同一位置多视角特征取平均。每个体素用 MLP 解码一个 2D 高斯的属性(偏移量 \(\Delta x_i \in [-1,1]^3\)、缩放、旋转、透明度、SH 系数)
    • 设计动机:体素网格建立了 3D 位置与 2D 投影特征的显式对应关系,使得 3D 卷积可以有效捕捉邻域高斯之间的相关性。消融实验显示去掉体素(Image-Gaussian 模式)PSNR 下降 4.2dB
  2. 跨体积融合模块 (Cross-Volume Fusion, CVF):

    • 功能:在特征层面融合 RGB 语义信息和法线几何信息
    • 核心思路:4 个体素残差块(VRB,通道 512→256→128→32)下采样两个体积特征;然后两个交叉注意力块——RGB 引导 \(CA_s\)(RGB→Query, 法线→KV)和法线引导 \(CA_g\)(法线→Query, RGB→KV)分别生成融合体积;最后拼接后经自注意力 SA 平衡语义和几何权重,输出最终 RGBN 体积。为降内存,将 32³ 体积展开为 16 组分别做注意力
    • 设计动机:RGB 捕捉语义/纹理、法线捕捉几何细节,双向交叉注意力比简单拼接能更好地动态权衡两种信息
  3. 2D 高斯溅射 (2D Gaussian Splatting):

    • 功能:保证几何一致的表面建模和精确的深度计算
    • 核心思路:采用 2DGS 替代 3DGS,每个高斯是平面椭圆盘而非 3D 椭球。关键优势在于深度计算——3DGS 的深度是中心 z 值的 alpha 混合,在射线穿过椭球时深度变化大导致不精确;2DGS 通过射线-盘交点精确计算每个像素的深度
    • 设计动机:2DGS 的内禀表面建模使深度/法线损失有意义,从本质上保证几何一致性

损失函数 / 训练策略

  • 总损失:\(\mathcal{L}_{total} = \mathcal{L}_c + \lambda_d \mathcal{L}_d + \lambda_{reg} \mathcal{L}_{reg}\)
  • 颜色损失 \(\mathcal{L}_c = L1(RGB) + L1(\alpha) + 0.5 \times LPIPS(RGB)\)
  • 深度损失 \(\mathcal{L}_d = L1(D, \hat{D})\)
  • 正则化损失 \(\mathcal{L}_{reg}\):自监督畸变损失 + 法线一致性损失
  • AdamW 优化器,初始 lr=1e-5 + cosine 退火
  • 4 × A100 (40G) 训练约 6.5 天,batch 4/GPU,bfloat16
  • 训练数据:Objaverse-LVIS(约 40K 对象),评估:GSO 约 200 对象

实验关键数据

主实验

GSO 数据集新视角合成:

方法 PSNR↑ SSIM↑ LPIPS↓ CD↓ (×10⁻³) Time(r)
DreamGaussian 17.43 0.810 0.265 205.23 28.32s
LGM 17.13 0.808 0.199 104.71 0.33s
TriplaneGaussian 16.73 0.793 0.259 58.74 0.11s
GS-RGBN 23.02 0.873 0.135 27.49 0.20s

消融实验

配置 PSNR↑ SSIM↑ LPIPS↓
Image-Gaussian (去掉体素) 18.82 0.831 0.209
去掉法线输入 20.15 0.848 0.172
去掉 CVF 19.27 0.843 0.198
去掉 \(CA_g\) (法线引导注意力) 21.32 0.853 0.163
去掉 \(CA_s\) (RGB 引导注意力) 21.08 0.852 0.166
Full model 23.02 0.873 0.135

视角数消融:4 views → 20.06 PSNR,6 views → 22.70,8 views → 23.02

关键发现

  • PSNR 比次优方法(DreamGaussian 17.43)提升 5.59dB,Chamfer Distance 从 58.74 降至 27.49,几何质量大幅提升
  • 去掉混合体素-高斯(变为 Image-Gaussian)PSNR 下降 4.2dB,是所有消融中影响最大的组件
  • 去掉法线输入 PSNR 下降 2.87dB,去掉 CVF 下降 3.75dB,证明法线信息和融合策略都不可或缺
  • 法线引导注意力 \(CA_g\) 比 RGB 引导注意力 \(CA_s\) 贡献略大(去掉后 PSNR 分别降 1.70 vs 1.94),说明几何信息略更重要
  • 仅 4 个视角时仍优于所有基线方法,展示了强鲁棒性

亮点与洞察

  1. 结构化是关键:从 Image-Gaussian 到 Voxel-Gaussian 的 4.2dB 提升证明了"给无结构 3DGS 引入空间约束"是从不一致多视角图像学习的关键
  2. 法线信息的价值:RGB 和法线是互补的——RGB 提供语义/纹理、法线提供几何。消融显示法线引导的交叉注意力比 RGB 引导更重要,说明在 3D 重建中几何先验更稀缺
  3. 2DGS 替代 3DGS 的理由:深度计算的精确性是关键区别——2DGS 的射线-盘交点深度使 depth loss 和法线一致性损失有意义

局限与展望

  • 强依赖 Wonder3D 多视角扩散模型的生成质量,当生成的多视角图像不一致性更大时性能退化
  • 体素分辨率(32³)限制了几何细节的表达,更大场景需要八叉树等稀疏数据结构
  • 目前仅支持对象级 3D 生成,大规模场景生成因体素内存开销而不可行
  • 渲染速度(0.20s)虽然快于优化类方法,但不如 TriplaneGaussian(0.11s)

相关工作与启发

  • 与 LRM 系列(LGM、InstantMesh)的对比:GS-RGBN 的核心区别是引入 3D-native 结构(体素)而非纯 2D 处理
  • 法线融合思想可推广到其他需要几何线索的任务,如纹理生成、relighting
  • 体素-高斯混合表示为 3DGS 在结构化学习中的应用开辟了新方向

评分

⭐⭐⭐⭐ (4/5)

  • 创新性 ⭐⭐⭐⭐:体素-高斯混合和 RGBN 跨体积融合都是合理且有效的设计
  • 实验充分性 ⭐⭐⭐⭐⭐:主实验 + 丰富消融(表示/损失/融合策略/视角数),定性对比清晰
  • 清晰度 ⭐⭐⭐⭐⭐:方法描述清晰,流程图直观
  • 实用价值 ⭐⭐⭐⭐:数秒级生成高质量 3D 对象,工业可用