CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model¶

会议: ECCV 2024
arXiv: 2403.05034
代码: 有 (https://github.com/thu-ml/CRM)
领域: 3D视觉
关键词: 单图3D生成, 卷积重建, Triplane, FlexiCubes, 多视角扩散

一句话总结¶

提出卷积重建模型 CRM，利用 triplane 与六个正交视图之间的空间对齐先验，用 U-Net 替代 Transformer 直接从六视图映射到 triplane，结合 FlexiCubes 端到端训练，10 秒内从单张图像生成高保真纹理网格，训练成本仅为 LRM 的 1/8。

研究背景与动机¶

Feed-forward 3D 生成模型（如 LRM）展示了极快的生成速度，但存在以下问题：

Transformer 架构未利用几何先验：LRM 系列方法用 Transformer 生成 triplane patches，但没有利用 triplane 与输入图像之间的空间对齐关系

3D 数据稀缺：最大 3D 数据集 Objaverse 仅百万级，远小于 LAION 的 50 亿图像，因此在架构中融入先验知识尤为重要

非端到端训练：使用 NeRF 或 Gaussian Splatting 作为表示的方法需要额外后处理步骤来获取纹理网格

训练成本高：LRM 需要 batch size 1024 和大量 GPU 资源

核心观察：triplane 的可视化与六个正交视图（前后左右上下）存在天然的空间对齐关系 — 轮廓和纹理自然对齐。这启发了用卷积 U-Net（具有强像素对齐能力）替代 Transformer。

方法详解¶

整体框架¶

CRM 的推理流程（约 10 秒）：

输入单张图像 → 多视角扩散模型生成六个正交视图（~5s）
另一个扩散模型生成正则坐标图（CCM）（~1s）
六视图 + CCM → 卷积 U-Net → rolled-out triplane → MLP 解码 → FlexiCubes → 纹理网格（~4s）

关键设计¶

1. 六正交视图的空间对齐¶

关键 insight：triplane 的三个平面（xy, xz, yz）分别与对应方向的正交视图空间对齐。因此：

选择六个正交视图（前/后/左/右/上/下）作为重建输入，天然对应 triplane 结构
六张图按位置排列为两组，每组三张拼成 256×768 图像，共 4 组拼接为 12 通道输入
U-Net 直接将此输入映射到 rolled-out triplane（展开的 triplane）

2. 卷积 U-Net 替代 Transformer¶

使用像素级对齐的 U-Net 架构而非 Transformer：

通道数配置：[64, 128, 128, 256, 256, 512, 512]
在分辨率 [32, 16, 8] 处加入 attention blocks
约 300M 参数

优势： - 带宽更大：U-shape 结构在保留输入信息方面优于 Transformer，产生更精细的 triplane 特征 - 训练收敛极快：仅 280 次迭代（20 分钟）就出现合理重建结果 - 训练效率高：batch size 仅需 32（LRM 需要 1024），8 卡 A800 训 6 天 - 总训练成本仅为 LRM 的 1/8

3. 正则坐标图（CCM）¶

CCM 包含每个像素在标准空间中的 3D 坐标（3 通道，值域 [0,1]），提供重要的几何信息。

由第二个扩散模型生成（以六视图为条件）
与 RGB 图像拼接后送入 U-Net
消融实验证明：没有 CCM 输入时几何质量显著下降，特别是复杂几何

4. FlexiCubes 端到端训练¶

使用 FlexiCubes（网格大小 80）替代 NeRF/Gaussian Splatting
通过 dual marching cubes 在训练中直接提取网格
MLP 解码 triplane 特征为 SDF、形变、权重和颜色
实现了以纹理网格为最终输出的端到端训练

5. 多视角扩散模型的训练增强¶

基于 ImageDream 微调，扩展为 6 视图
Zero-SNR：解决采样初始噪声与最噪训练样本的差异
随机缩放：防止模型总是生成占满整个图像的物体
轮廓增强：随机改变轮廓颜色，防止背面颜色过度依赖输入轮廓

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{MSE}(x, x^{GT}) + \lambda_{LPIPS}\mathcal{L}_{LPIPS}(x, x^{GT}) + \lambda_{depth}\mathcal{L}_{MSE}(x_{depth}, x_{depth}^{GT}) + \lambda_{mask}\mathcal{L}_{MSE}(x_{mask}, x_{mask}^{GT}) + \lambda_{reg}\mathcal{L}_{reg}\]

\(\lambda_{LPIPS}{=}0.1\), \(\lambda_{depth}{=}0.5\), \(\lambda_{mask}{=}0.5\), \(\lambda_{reg}{=}0.005\)
每个 shape 随机采样 8 个视角（共 16 个）进行监督
小高斯噪声加到输入上增强对多视图不一致的鲁棒性
重建模型训 110K 步，扩散模型训 10K 步（梯度累积 12 步，有效 batch=1536）

实验关键数据¶

几何质量（GSO 数据集）¶

方法	Chamfer Dist.↓	Vol. IoU↑	F-Score (%)↑
One-2-3-45	0.0172	0.4463	72.19
SyncDreamer	0.0140	0.3900	75.74
Wonder3D	0.0186	0.4398	76.75
LGM	0.0117	0.4685	68.69
CRM (Ours)	0.0094	0.6131	79.38

纹理质量（GSO 数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓	CLIP-Sim↑
OpenLRM	14.30	0.8294	0.2276	84.20
Magic123	12.69	0.7984	0.2442	85.16
LGM	13.28	0.7946	0.2560	85.20
CRM (Ours)	16.22	0.8381	0.2143	87.55

多视角扩散质量¶

方法	PSNR↑	SSIM↑	LPIPS↓
SyncDreamer	20.30	0.7804	0.2932
Wonder3D	23.76	0.8127	0.2210
CRM (Ours)	29.36	0.8721	0.1354

消融实验¶

CCM 影响：没有 CCM 输入时几何明显退化，尤其复杂几何（如动物）。

多视角扩散训练技巧：

方法	PSNR↑	SSIM↑	LPIPS↓
ImageDream (6 view)	28.99	0.8565	0.1497
+ Zero-SNR	29.13	0.8598	0.1498
+ Random Resizing	29.36	0.8721	0.1354

关键发现¶

CRM 在所有几何和纹理指标上全面超越所有基线
训练成本仅为 LRM 的 1/8（8 卡 6 天 vs LRM）
仅 280 迭代（20 分钟）就出现合理重建，说明空间对齐先验极大加速收敛
多视角扩散的 PSNR 比 Wonder3D 高 5.6 分

亮点与洞察¶

Triplane 空间对齐先验：最大的 insight — 把正确的先验融入架构比堆算力更有效
U-Net > Transformer（对此任务）：卷积本身的归纳偏置比通用 Transformer 在像素对齐任务上更合适
端到端网格输出：FlexiCubes 避免了 NeRF→mesh 的后处理失真
轮廓增强技巧：虽然不改善定量指标，但大幅提升 in-the-wild 输入的鲁棒性
极快收敛：20 分钟训练即可得到合理结果，说明先验发挥了巨大作用

局限与展望¶

多视角扩散模型无法保证完全一致，不一致图像会降低 3D 质量
FlexiCubes 网格分辨率仅 80，限制了超精细几何细节
对大仰角或非标准 FoV 输入效果有限（继承自 ImageDream）
六视图固定为正交视角，可能不是所有物体的最优视角选择

评分¶

维度	分数 (1-10)
创新性	8
技术深度	7
实验充分性	8
写作质量	8
实用价值	9
总分	8.0