CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model¶
会议: ECCV 2024
arXiv: 2403.05034
代码: 有 (https://github.com/thu-ml/CRM)
领域: 3D视觉
关键词: 单图3D生成, 卷积重建, Triplane, FlexiCubes, 多视角扩散
一句话总结¶
提出卷积重建模型 CRM,利用 triplane 与六个正交视图之间的空间对齐先验,用 U-Net 替代 Transformer 直接从六视图映射到 triplane,结合 FlexiCubes 端到端训练,10 秒内从单张图像生成高保真纹理网格,训练成本仅为 LRM 的 1/8。
研究背景与动机¶
Feed-forward 3D 生成模型(如 LRM)展示了极快的生成速度,但存在以下问题:
Transformer 架构未利用几何先验:LRM 系列方法用 Transformer 生成 triplane patches,但没有利用 triplane 与输入图像之间的空间对齐关系
3D 数据稀缺:最大 3D 数据集 Objaverse 仅百万级,远小于 LAION 的 50 亿图像,因此在架构中融入先验知识尤为重要
非端到端训练:使用 NeRF 或 Gaussian Splatting 作为表示的方法需要额外后处理步骤来获取纹理网格
训练成本高:LRM 需要 batch size 1024 和大量 GPU 资源
核心观察:triplane 的可视化与六个正交视图(前后左右上下)存在天然的空间对齐关系 — 轮廓和纹理自然对齐。这启发了用卷积 U-Net(具有强像素对齐能力)替代 Transformer。
方法详解¶
整体框架¶
CRM 的推理流程(约 10 秒):
- 输入单张图像 → 多视角扩散模型生成六个正交视图(~5s)
- 另一个扩散模型生成正则坐标图(CCM)(~1s)
- 六视图 + CCM → 卷积 U-Net → rolled-out triplane → MLP 解码 → FlexiCubes → 纹理网格(~4s)
关键设计¶
1. 六正交视图的空间对齐¶
关键 insight:triplane 的三个平面(xy, xz, yz)分别与对应方向的正交视图空间对齐。因此:
- 选择六个正交视图(前/后/左/右/上/下)作为重建输入,天然对应 triplane 结构
- 六张图按位置排列为两组,每组三张拼成 256×768 图像,共 4 组拼接为 12 通道输入
- U-Net 直接将此输入映射到 rolled-out triplane(展开的 triplane)
2. 卷积 U-Net 替代 Transformer¶
使用像素级对齐的 U-Net 架构而非 Transformer:
- 通道数配置:[64, 128, 128, 256, 256, 512, 512]
- 在分辨率 [32, 16, 8] 处加入 attention blocks
- 约 300M 参数
优势: - 带宽更大:U-shape 结构在保留输入信息方面优于 Transformer,产生更精细的 triplane 特征 - 训练收敛极快:仅 280 次迭代(20 分钟)就出现合理重建结果 - 训练效率高:batch size 仅需 32(LRM 需要 1024),8 卡 A800 训 6 天 - 总训练成本仅为 LRM 的 1/8
3. 正则坐标图(CCM)¶
CCM 包含每个像素在标准空间中的 3D 坐标(3 通道,值域 [0,1]),提供重要的几何信息。
- 由第二个扩散模型生成(以六视图为条件)
- 与 RGB 图像拼接后送入 U-Net
- 消融实验证明:没有 CCM 输入时几何质量显著下降,特别是复杂几何
4. FlexiCubes 端到端训练¶
- 使用 FlexiCubes(网格大小 80)替代 NeRF/Gaussian Splatting
- 通过 dual marching cubes 在训练中直接提取网格
- MLP 解码 triplane 特征为 SDF、形变、权重和颜色
- 实现了以纹理网格为最终输出的端到端训练
5. 多视角扩散模型的训练增强¶
- 基于 ImageDream 微调,扩展为 6 视图
- Zero-SNR:解决采样初始噪声与最噪训练样本的差异
- 随机缩放:防止模型总是生成占满整个图像的物体
- 轮廓增强:随机改变轮廓颜色,防止背面颜色过度依赖输入轮廓
损失函数 / 训练策略¶
- \(\lambda_{LPIPS}{=}0.1\), \(\lambda_{depth}{=}0.5\), \(\lambda_{mask}{=}0.5\), \(\lambda_{reg}{=}0.005\)
- 每个 shape 随机采样 8 个视角(共 16 个)进行监督
- 小高斯噪声加到输入上增强对多视图不一致的鲁棒性
- 重建模型训 110K 步,扩散模型训 10K 步(梯度累积 12 步,有效 batch=1536)
实验关键数据¶
几何质量(GSO 数据集)¶
| 方法 | Chamfer Dist.↓ | Vol. IoU↑ | F-Score (%)↑ |
|---|---|---|---|
| One-2-3-45 | 0.0172 | 0.4463 | 72.19 |
| SyncDreamer | 0.0140 | 0.3900 | 75.74 |
| Wonder3D | 0.0186 | 0.4398 | 76.75 |
| LGM | 0.0117 | 0.4685 | 68.69 |
| CRM (Ours) | 0.0094 | 0.6131 | 79.38 |
纹理质量(GSO 数据集)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | CLIP-Sim↑ |
|---|---|---|---|---|
| OpenLRM | 14.30 | 0.8294 | 0.2276 | 84.20 |
| Magic123 | 12.69 | 0.7984 | 0.2442 | 85.16 |
| LGM | 13.28 | 0.7946 | 0.2560 | 85.20 |
| CRM (Ours) | 16.22 | 0.8381 | 0.2143 | 87.55 |
多视角扩散质量¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| SyncDreamer | 20.30 | 0.7804 | 0.2932 |
| Wonder3D | 23.76 | 0.8127 | 0.2210 |
| CRM (Ours) | 29.36 | 0.8721 | 0.1354 |
消融实验¶
CCM 影响:没有 CCM 输入时几何明显退化,尤其复杂几何(如动物)。
多视角扩散训练技巧:
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| ImageDream (6 view) | 28.99 | 0.8565 | 0.1497 |
| + Zero-SNR | 29.13 | 0.8598 | 0.1498 |
| + Random Resizing | 29.36 | 0.8721 | 0.1354 |
关键发现¶
- CRM 在所有几何和纹理指标上全面超越所有基线
- 训练成本仅为 LRM 的 1/8(8 卡 6 天 vs LRM)
- 仅 280 迭代(20 分钟)就出现合理重建,说明空间对齐先验极大加速收敛
- 多视角扩散的 PSNR 比 Wonder3D 高 5.6 分
亮点与洞察¶
- Triplane 空间对齐先验:最大的 insight — 把正确的先验融入架构比堆算力更有效
- U-Net > Transformer(对此任务):卷积本身的归纳偏置比通用 Transformer 在像素对齐任务上更合适
- 端到端网格输出:FlexiCubes 避免了 NeRF→mesh 的后处理失真
- 轮廓增强技巧:虽然不改善定量指标,但大幅提升 in-the-wild 输入的鲁棒性
- 极快收敛:20 分钟训练即可得到合理结果,说明先验发挥了巨大作用
局限与展望¶
- 多视角扩散模型无法保证完全一致,不一致图像会降低 3D 质量
- FlexiCubes 网格分辨率仅 80,限制了超精细几何细节
- 对大仰角或非标准 FoV 输入效果有限(继承自 ImageDream)
- 六视图固定为正交视角,可能不是所有物体的最优视角选择
相关工作与启发¶
- LRM:Transformer 架构的 triplane 生成开创者,但未利用空间对齐先验
- LGM:用 Gaussian Splatting 表示,但需额外步骤转换为网格
- SyncDreamer/Wonder3D:多视图一致性生成,但需测试时优化重建
- 启发:在数据稀缺时,将领域先验编入架构 比数据增强或模型增大更有效
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 8 |
| 技术深度 | 7 |
| 实验充分性 | 8 |
| 写作质量 | 8 |
| 实用价值 | 9 |
| 总分 | 8.0 |