MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes¶

会议: CVPR 2025
arXiv: 2412.11457
代码: 项目页
领域: 3D视觉
关键词: novel view synthesis, multi-object, structure-aware diffusion, timestep scheduling, cross-view consistency

一句话总结¶

针对多物体室内场景的新视角合成（NVS），通过注入结构感知特征（深度+物体掩码）、引入辅助掩码预测任务、设计结构引导的时间步采样调度器三项设计，显著提升跨视角的物体放置和几何一致性。

研究背景与动机¶

领域现状: 基于预训练扩散模型的单物体 NVS（如 Zero-1-to-3）已取得令人瞩目的成果，但几乎所有方法都在 Objaverse 等单物体数据集上训练，无法直接扩展到多物体组合场景。

现有痛点: 将单物体 NVS 方法直接应用于多物体场景会导致严重问题：物体位置错误、形状扭曲、外观不一致，甚至物体消失。根本原因是缺乏结构感知能力。

核心矛盾: 多物体场景的结构信息是层次化的——高层的物体放置（位置/朝向）和底层的逐物体几何外观。单物体方法的一对一映射范式无法处理这种组合复杂性。

本文目标: 如何增强视角条件扩散模型对多物体组合结构的感知能力，实现跨视角一致的多物体 NVS。

切入角度: 从模型输入、辅助任务和训练策略三个维度全方位注入结构感知信号。

核心 idea: 通过深度/掩码输入 + 目标视角掩码预测 + 时间步重采样调度，让扩散模型先学全局布局再学局部细节。

方法详解¶

整体框架¶

基于预训练 Stable Diffusion，输入视角图像-目标视角图像对进行微调。在去噪 U-Net 的输入端拼接结构感知特征，通过交叉注意力注入语义信息，同时预测目标视角的物体掩码。

关键设计¶

1. 结构感知特征融合（Structure-Aware Feature Amalgamation）¶

将输入视角的深度图和物体掩码作为额外输入： - 物体掩码：将 instance ID 渲染图归一化为连续图像，提供物体放置和形状的粗糙感知 - 深度图：编码可见物体的相对位置和形状 - 两者分别复制为 3 通道模拟 RGB，通过 VAE 编码后与噪声目标视角图像拼接 - 推理时可通过 SAM + Marigold 等现成检测器获取

修改后的学习目标：\(\mathbb{E}[\|\epsilon_\theta(\alpha_t x_0 + \sigma_t \epsilon, t, C_{SA}(\hat{x}_0, R, T, \hat{D}, \hat{M})) - \epsilon\|^2]\)

2. 辅助目标视角掩码预测¶

类比 classifier guidance 的思路，引入目标视角物体掩码预测作为辅助训练任务： - 掩码预测器从去噪 U-Net 最后一层特征提取，条件为噪声图像 \(x_t\)、时间步 \(t\) 和结构感知特征 - 联合训练 loss: 扩散重建 + \(\gamma \| M_{tgt} - M_t \|^2\)（\(\gamma = 0.1\)） - 迫使模型显式学习"在目标视角下物体应该放在哪里"

3. 结构引导的时间步采样调度器¶

关键观察：去噪早期（大 \(t\)）恢复全局物体放置，晚期（小 \(t\)）恢复精细几何。

将均匀采样 \(t \sim \mathcal{U}(1, 1000)\) 改为高斯采样 \(t \sim \mathcal{N}(\mu(s), \sigma)\)，其中 \(\mu(s)\) 从 \(\mu_{global}=1000\) 线性衰减到 \(\mu_{local}=500\)（\(\sigma=200\)）： - 前 4000 步 warmup: \(\mu = 1000\)，强调全局布局学习 - 4000-6000 步线性衰减 - 6000 步后: \(\mu = 500\)，转向精细细节学习

损失函数¶

\(\mathcal{L} = \|\epsilon_\theta - \epsilon\|^2 + \gamma \|M_{tgt} - M_t\|^2\)，\(\gamma = 0.1\)，扩散重建损失 + 掩码预测 MSE 损失。

实验关键数据¶

主实验：C3DFS 测试集¶

方法	PSNR↑	SSIM↑	LPIPS↓	IoU↑	Hit Rate↑	Dist↓
ZeroNVS	10.7	0.533	0.481	21.6	1.4	135.2
Zero-1-to-3	14.3	0.771	0.302	33.7	4.4	86.7
Free3D	14.4	0.774	0.297	34.2	4.8	83.6
MOVIS	17.4	0.825	0.171	58.1	19.3	44.9

MOVIS 在 IoU（物体放置准确性）上提升 72%（vs Zero-1-to-3），Hit Rate（跨视角匹配）提升 339%。

泛化性：Objaverse + Room-Texture¶

Objaverse: PSNR 17.7 / IoU 51.3 / Hit Rate 17.0（均大幅领先）
Room-Texture: PSNR 10.0 / IoU 24.2 / Hit Rate 4.4（跨域仍保持优势）

消融实验¶

变体	PSNR↑	LPIPS↓	IoU↑
w/o depth	17.1	0.178	57.2
w/o mask（辅助任务）	16.9	0.187	54.7
w/o scheduler	16.2	0.212	49.1
Full MOVIS	17.4	0.171	58.1

关键发现¶

时间步调度器是最关键组件：去掉后 IoU 下降 9 个百分点，说明 "先全局后局部" 的学习顺序对多物体场景至关重要
辅助掩码预测任务贡献次之（IoU -3.4），直接监督帮助模型区分物体实例
跨视角一致性指标（Hit Rate/Dist）与传统 NVS 指标互补，揭示了传统指标无法反映的结构问题

亮点与洞察¶

新评估维度: 提出跨视角一致性指标（基于 MASt3R 图像匹配的 Hit Rate 和 Dist），填补了 NVS 评估的盲区
去噪过程的层次化分析: 通过可视化不同时间步的中间预测，发现全局布局恢复在早期、精细掩码预测在晚期的规律
时间步调度器的设计哲学: 将课程学习（先易后难）的思想应用于扩散模型训练，多物体场景的 "由粗到精" 与去噪过程天然契合
结构感知的输入设计: 深度和掩码看似简单直觉，但配合现成单目预测器（SAM + Marigold）即可在推理时使用，实用性强

局限性¶

仅关注前景物体，未建模背景（留待未来工作）
训练数据为合成数据集 C3DFS，在真实世界室内场景（SUNRGB-D）上的泛化性有限
仍需输入视角深度和掩码作为额外条件，增加了推理成本
大视角变化下性能会退化，因为遮挡区域需要更强的生成能力

评分¶

⭐⭐⭐⭐ — 问题定义清晰，三个设计点互相正交且从消融中验证了各自贡献；时间步调度器的洞察尤为有趣。泛化性在真实数据上还需进一步验证。