ICCV 2025 其他 3D生成法线图桥接噪声注入回归双流架构潜在扩散正则化高保真几何

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging¶

会议: ICCV 2025
arXiv: 2503.22236
领域: 其他
关键词: 3D生成, 法线图桥接, 噪声注入回归, 双流架构, 潜在扩散正则化, 高保真几何

一句话总结¶

提出 Hi3DGen 框架，以法线图作为中间表示桥接 2D 图像到 3D 几何的映射，通过噪声注入回归式法线估计器（NiRNE）和法线正则化潜在扩散（NoRLD）两大核心组件，显著提升生成 3D 模型的几何细节保真度。

研究背景与动机¶

从 2D 图像生成高保真 3D 模型是计算机视觉的核心任务，但现有方法在细粒度几何细节还原方面仍面临三大难题：

高质量 3D 训练数据匮乏：Objaverse 等数据集中高质量、富含复杂几何细节的 3D 资产严重不足，导致网络生成的模型过于简化

域差距：训练数据通常来自合成渲染，与真实世界图像存在显著风格差异，推理时性能明显下降

RGB 图像的固有歧义：光照、着色和复杂纹理使得从 RGB 图像中提取精确几何信息非常困难

现有的直接从 RGB 到 3D 的方法（如 CRM、InstantMesh、CraftsMan 等）无法充分保留输入图像中的细粒度几何特征。法线图作为 2.5D 表示，编码了表面朝向信息，天然具有更清晰的几何线索，且可以借助强大的 2D 先验来缓解域差距。

核心洞察：将 image-to-3D 分解为 image-to-normal 和 normal-to-geometry 两步，利用法线图作为桥接（normal bridging），可以同时缓解域差距和几何歧义问题。

方法详解¶

整体框架¶

Hi3DGen 包含三个核心组件： - NiRNE（Noise-injected Regressive Normal Estimation）：从图像估计高质量法线图 - NoRLD（Normal-Regularized Latent Diffusion）：利用法线正则化来增强 3D 潜在扩散学习 - DetailVerse 数据集：合成的高质量 3D 数据集，提供丰富的几何细节训练数据

关键设计 1：噪声注入回归式法线估计（NiRNE）¶

问题分析：扩散式方法估计的法线更锐利但不稳定且有伪细节；回归式方法稳定但缺乏锐度。作者从频域角度分析了扩散方法产生锐利结果的根本原因。

频域分析：在扩散过程 \(x_t = x_0 + \int_0^t g(s) dw_t\) 中，由于自然图像具有低通特性 \(|\hat{x}_0(\omega)|^2 \propto |\omega|^{-\alpha}\)，高频分量的 SNR 衰减更快。这意味着扩散模型在高频区域获得更强的监督信号，促使其更关注锐利细节。

噪声注入：受此启发，将噪声注入技术集成到回归框架中，使其对高频信息更敏感，兼顾锐利性和稳定性。

双流架构： - Clean Stream：处理原始无噪声图像，稳健地捕获低频细节（整体结构信息） - Noisy Stream：处理噪声注入后的图像，专注学习高频细节（边缘和细腻纹理） - 两个流的特征以 ControlNet 风格拼接后送入解码器进行回归预测

域特定训练策略： - 第一阶段：使用真实域数据训练完整网络，学习低频信息以获得强泛化能力 - 第二阶段：冻结 Clean Stream，仅用合成域数据微调 Noisy Stream，学习高频细节作为残差

这一设计巧妙地利用了真实数据（泛化好但高频标签噪声大）和合成数据（高频标签精确但有域差距）各自的优势。

关键设计 2：法线正则化潜在扩散（NoRLD）¶

现有 3D 潜在扩散方法（如 Trellis、CRM）仅在高度压缩的潜在空间进行监督，几何细节容易丢失。

核心思想：在扩散训练过程中，在线地对预测的潜在码进行法线图正则化，提供显式的 3D 几何监督：

\[\mathcal{L}_{\text{NoRLD}} = \mathcal{L}_{\text{LDM}} + \lambda \cdot \mathcal{R}_{\text{Normal}}(\hat{x}_0)\]

其中法线正则化项为：

\[\mathcal{R}_{\text{Normal}}(\hat{x}_0) = \mathbb{E}_v \left[ \| R_v(D(\hat{x}_0)) - N_v \|^2 \right]\]

即将预测的潜在码 \(\hat{x}_0\) 解码为 3D 几何，从视点 \(v\) 渲染法线图，与真值法线图对比。这一正则化在扩散训练中在线进行（非后处理），主动引导扩散网络学习包含丰富细节的分布。

损失函数¶

NiRNE：标准回归损失（L2），域特定两阶段训练
NoRLD：Flow matching 损失 + 法线渲染正则化损失
\(\mathcal{L}_{\text{LDM}}\)：标准速度场匹配损失
\(\lambda \cdot \mathcal{R}_{\text{Normal}}\)：在线法线正则化

DetailVerse 数据集¶

通过 3D 数据合成 pipeline 构建的高质量数据集，弥补了 Objaverse 中高质量资产的不足： - 具有高语义多样性、几何结构多样性和表面细节丰富性 - 为 NiRNE 提供干净的法线标签，为 NoRLD 提供高保真 3D 训练数据

实验关键数据¶

主实验¶

论文展示了与多种 SOTA 方法的对比结果（缓存中实验部分截断，基于论文描述总结）：

Hi3DGen 在生成几何细节保真度方面超越了所有 SOTA 方法
对比方法包括：CRM、InstantMesh、CraftsMan、Trellis 等
在真实世界输入图像上表现尤为突出，得益于域差距的缓解

法线估计对比¶

NiRNE 同时实现了扩散式方法的锐利性和回归式方法的稳定性： - 相比 StableNormal：稳定性更好，不会产生伪细节 - 相比 Marigold：锐利程度相当，但推理速度更快（单步回归 vs 多步扩散） - 相比传统回归方法（如 DSINE）：细节更丰富锐利

关键发现¶

法线桥接策略有效缓解了域差距，使模型对各种风格的输入图像都能产生高保真几何
在线法线正则化显著提升了潜在扩散学习的几何细节保持能力
DetailVerse 数据集的引入对高频细节的学习至关重要

亮点与洞察¶

频域分析很有启发性：从 SNR 衰减角度解释了扩散模型为何更擅长高频的原因，并据此将噪声注入引入回归框架，是一个非常优雅的理论-实践结合
双流解耦设计精巧：将低频泛化能力和高频细节能力解耦到两个独立流中，配合域特定训练策略，充分利用了不同数据源的优势
在线法线正则化是关键创新：不同于 CraftsMan 的后处理正则化或 Trellis 仅在 VAE 训练中使用法线损失，NoRLD 在扩散训练中在线引入法线监督，更直接有效
问题分解的思路值得借鉴：将困难的 image-to-3D 分解为两个相对容易的子问题，利用中间表示（法线图）降低整体学习难度
数据补充策略实用：合成 DetailVerse 数据集来弥补现有数据集的不足，是解决高质量 3D 数据匮乏的可行方案

局限性¶

缓存截断，无法看到完整的定量实验和消融研究结果
双流架构 + VAE 解码器使得法线正则化的计算开销较大
依赖 DetailVerse 数据集的质量和多样性，可能在数据覆盖不到的类别上效果受限
法线图作为中间表示虽然缓解了歧义，但仍然无法完全消除深度歧义（法线编码方向而非距离）
两阶段 pipeline（先估法线再生成 3D）的误差可能累积

评分¶

新颖性: ★★★★☆ — 法线桥接思路虽非首创，但噪声注入回归和在线法线正则化是显著创新
技术深度: ★★★★★ — 频域分析严谨，双流设计和域特定训练策略理论依据充分
实验质量: ★★★☆☆ — 缓存截断无法完整评估，但从方法描述看实验设计合理
实用性: ★★★★☆ — 生成的高保真 3D 模型在游戏、影视、3D 打印等领域有直接应用价值
表达清晰度: ★★★★★ — 论文结构清晰，频域分析和方法动机解释透彻