MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes¶
会议: CVPR 2025
arXiv: 2412.11457
代码: 项目页
领域: 3D视觉
关键词: novel view synthesis, multi-object, structure-aware diffusion, timestep scheduling, cross-view consistency
一句话总结¶
针对多物体室内场景的新视角合成(NVS),通过注入结构感知特征(深度+物体掩码)、引入辅助掩码预测任务、设计结构引导的时间步采样调度器三项设计,显著提升跨视角的物体放置和几何一致性。
研究背景与动机¶
领域现状: 基于预训练扩散模型的单物体 NVS(如 Zero-1-to-3)已取得令人瞩目的成果,但几乎所有方法都在 Objaverse 等单物体数据集上训练,无法直接扩展到多物体组合场景。
现有痛点: 将单物体 NVS 方法直接应用于多物体场景会导致严重问题:物体位置错误、形状扭曲、外观不一致,甚至物体消失。根本原因是缺乏结构感知能力。
核心矛盾: 多物体场景的结构信息是层次化的——高层的物体放置(位置/朝向)和底层的逐物体几何外观。单物体方法的一对一映射范式无法处理这种组合复杂性。
本文目标: 如何增强视角条件扩散模型对多物体组合结构的感知能力,实现跨视角一致的多物体 NVS。
切入角度: 从模型输入、辅助任务和训练策略三个维度全方位注入结构感知信号。
核心 idea: 通过深度/掩码输入 + 目标视角掩码预测 + 时间步重采样调度,让扩散模型先学全局布局再学局部细节。
方法详解¶
整体框架¶
基于预训练 Stable Diffusion,输入视角图像-目标视角图像对进行微调。在去噪 U-Net 的输入端拼接结构感知特征,通过交叉注意力注入语义信息,同时预测目标视角的物体掩码。
关键设计¶
1. 结构感知特征融合(Structure-Aware Feature Amalgamation)¶
将输入视角的深度图和物体掩码作为额外输入: - 物体掩码:将 instance ID 渲染图归一化为连续图像,提供物体放置和形状的粗糙感知 - 深度图:编码可见物体的相对位置和形状 - 两者分别复制为 3 通道模拟 RGB,通过 VAE 编码后与噪声目标视角图像拼接 - 推理时可通过 SAM + Marigold 等现成检测器获取
修改后的学习目标:\(\mathbb{E}[\|\epsilon_\theta(\alpha_t x_0 + \sigma_t \epsilon, t, C_{SA}(\hat{x}_0, R, T, \hat{D}, \hat{M})) - \epsilon\|^2]\)
2. 辅助目标视角掩码预测¶
类比 classifier guidance 的思路,引入目标视角物体掩码预测作为辅助训练任务: - 掩码预测器从去噪 U-Net 最后一层特征提取,条件为噪声图像 \(x_t\)、时间步 \(t\) 和结构感知特征 - 联合训练 loss: 扩散重建 + \(\gamma \| M_{tgt} - M_t \|^2\)(\(\gamma = 0.1\)) - 迫使模型显式学习"在目标视角下物体应该放在哪里"
3. 结构引导的时间步采样调度器¶
关键观察:去噪早期(大 \(t\))恢复全局物体放置,晚期(小 \(t\))恢复精细几何。
将均匀采样 \(t \sim \mathcal{U}(1, 1000)\) 改为高斯采样 \(t \sim \mathcal{N}(\mu(s), \sigma)\),其中 \(\mu(s)\) 从 \(\mu_{global}=1000\) 线性衰减到 \(\mu_{local}=500\)(\(\sigma=200\)): - 前 4000 步 warmup: \(\mu = 1000\),强调全局布局学习 - 4000-6000 步线性衰减 - 6000 步后: \(\mu = 500\),转向精细细节学习
损失函数¶
\(\mathcal{L} = \|\epsilon_\theta - \epsilon\|^2 + \gamma \|M_{tgt} - M_t\|^2\),\(\gamma = 0.1\),扩散重建损失 + 掩码预测 MSE 损失。
实验关键数据¶
主实验:C3DFS 测试集¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | IoU↑ | Hit Rate↑ | Dist↓ |
|---|---|---|---|---|---|---|
| ZeroNVS | 10.7 | 0.533 | 0.481 | 21.6 | 1.4 | 135.2 |
| Zero-1-to-3 | 14.3 | 0.771 | 0.302 | 33.7 | 4.4 | 86.7 |
| Free3D | 14.4 | 0.774 | 0.297 | 34.2 | 4.8 | 83.6 |
| MOVIS | 17.4 | 0.825 | 0.171 | 58.1 | 19.3 | 44.9 |
MOVIS 在 IoU(物体放置准确性)上提升 72%(vs Zero-1-to-3),Hit Rate(跨视角匹配)提升 339%。
泛化性:Objaverse + Room-Texture¶
- Objaverse: PSNR 17.7 / IoU 51.3 / Hit Rate 17.0(均大幅领先)
- Room-Texture: PSNR 10.0 / IoU 24.2 / Hit Rate 4.4(跨域仍保持优势)
消融实验¶
| 变体 | PSNR↑ | LPIPS↓ | IoU↑ |
|---|---|---|---|
| w/o depth | 17.1 | 0.178 | 57.2 |
| w/o mask(辅助任务) | 16.9 | 0.187 | 54.7 |
| w/o scheduler | 16.2 | 0.212 | 49.1 |
| Full MOVIS | 17.4 | 0.171 | 58.1 |
关键发现¶
- 时间步调度器是最关键组件:去掉后 IoU 下降 9 个百分点,说明 "先全局后局部" 的学习顺序对多物体场景至关重要
- 辅助掩码预测任务贡献次之(IoU -3.4),直接监督帮助模型区分物体实例
- 跨视角一致性指标(Hit Rate/Dist)与传统 NVS 指标互补,揭示了传统指标无法反映的结构问题
亮点与洞察¶
- 新评估维度: 提出跨视角一致性指标(基于 MASt3R 图像匹配的 Hit Rate 和 Dist),填补了 NVS 评估的盲区
- 去噪过程的层次化分析: 通过可视化不同时间步的中间预测,发现全局布局恢复在早期、精细掩码预测在晚期的规律
- 时间步调度器的设计哲学: 将课程学习(先易后难)的思想应用于扩散模型训练,多物体场景的 "由粗到精" 与去噪过程天然契合
- 结构感知的输入设计: 深度和掩码看似简单直觉,但配合现成单目预测器(SAM + Marigold)即可在推理时使用,实用性强
局限性¶
- 仅关注前景物体,未建模背景(留待未来工作)
- 训练数据为合成数据集 C3DFS,在真实世界室内场景(SUNRGB-D)上的泛化性有限
- 仍需输入视角深度和掩码作为额外条件,增加了推理成本
- 大视角变化下性能会退化,因为遮挡区域需要更强的生成能力
相关工作与启发¶
- Zero-1-to-3: 开创性地将扩散模型作为 NVS 合成器,但限于单物体;MOVIS 证明多物体扩展需要显式结构感知
- 组合 3D 重建系列(ComboVerse 等): 分割→补全→单物体 3D→组合的 pipeline 范式,级联误差多;MOVIS 的端到端方案更简洁
- 启发: 时间步重采样调度器思想可推广到其他需要 "层次化生成" 的扩散任务(如布局→纹理的场景生成)
评分¶
⭐⭐⭐⭐ — 问题定义清晰,三个设计点互相正交且从消融中验证了各自贡献;时间步调度器的洞察尤为有趣。泛化性在真实数据上还需进一步验证。