ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Discrete Diffusion Models¶
会议: ICML 2026
arXiv: 2512.14099
代码: 待确认
领域: 图像生成 / 扩散模型
关键词: 离散扩散, 多视图生成, 视觉 token 化, 掩码预测
一句话总结¶
通过离散扩散模型和视觉 token 化,将多视图生成建模为离散序列预测任务——利用简单的随机掩码策略结合自注意力自然地实现跨视图一致性,显著超越连续扩散方法。
研究背景与动机¶
领域现状:多视图生成任务长期由连续扩散方法主导——基于 3D 表示(NeRF、3D Gaussian)的几何感知方法、相机条件扩散模型、图像编辑风格的多视图生成器。这些方法依赖显式 3D 先验或复杂跨视图同步机制。
现有痛点:连续扩散方法需明确相机参数或精细几何约束保证视图一致性,且逐视图独立生成易在细节和纹理上不一致。文本到多视图需先用 T2I 模型生成参考图再多视图扩展,流程冗长。
核心矛盾:几何一致性与生成灵活性存在权衡——强化 3D 约束提高一致性但限制多样性;纯粹 2D 方法灵活但难以自然编码跨视图关系。
本文目标:探索离散扩散模型在多视图生成中的潜力,建立统一的图文视觉框架。
切入角度:离散扩散(掩码 token 预测)在多模态理解与生成中已被证明有效(如 LLaDA)。优势——推理更快(平行解码)、天然融合文本与视觉 token、与 LLM 对齐。
核心 idea:将多视图生成重新表述为离散序列建模问题,每个视点表示为 MAGVIT-v2 生成的视觉 token 序列,通过掩码扩散迭代 token 预测,利用简单随机掩码 + 双向自注意力自然诱导跨视图一致性。
方法详解¶
整体框架¶
三阶段训练范式——(1)预训练多模态对齐(图文 caption 对齐);(2)图像到多视图(I2MV,条件于参考视图);(3)文本到多视图(T2MV,条件于文本描述)。推理时从完全掩码的目标视图开始,通过迭代预测与重掩码逐步还原完整 token 序列。
关键设计¶
-
视觉 token 化与序列融合:
- 功能:将多视点图像统一编码为离散 token 序列。
- 核心思路:MAGVIT-v2 将每图像 \(I_i \in \mathbb{R}^{H \times W \times 3}\) 编码为长度 \(L\) 的 token 序列,词表大小 \(|\mathcal{V}| = 2^{18}\)。跨视图序列采用特殊 token([SOI]、[EOI])分隔多视点,I2MV 中编码参考视图+3 个生成视点。
- 设计动机:统一序列格式最小化 I2MV 与 T2MV 之间的结构差异;相比逐视点生成,序列化天然支持双向 cross-attention 进行跨视图信息流。
-
随机掩码与迭代去噪:
- 功能:通过掩码 token 预测实现可控且并行的多视图生成。
- 核心思路:训练时从均匀分布 \(r \sim \text{Uniform}(0,1)\) 采样掩码比例,随机替换目标 token 为 [MASK]。使用 cross-entropy 损失 \(\mathcal{L}_{CE} = -\sum_{i=1}^{3}\sum_{j \in \mathcal{M}_i}\log P(v_j^{(i)}|s_{\setminus\mathcal{M}})\)。迭代去噪采用 confidence-based 重掩码策略——cosine/linear/quadratic 调度函数确定下一步重掩码 token 数(低置信度重掩码,高置信度保留)。
- 设计动机:简单随机掩码结合双向自注意力能自然诱导跨视图一致性(模型必须利用未掩码视点的 token 预测当前视点的缺失 token),无需显式 geometric priors。
-
三阶段训练策略:
- 功能:从弱监督(图文对齐)逐步深化到强监督(多视图一致性)。
- 核心思路:Stage1 在 1.2M 图文对预训练;Stage2 在 180K 3D object(Objaverse + HSSD)微调 I2MV(每 object 渲染 8 帧轨道序列,仰角 30°);Stage3 在增强 Cap3D 描述的 Objaverse 上训练 T2MV 生成 4 视点。
- 设计动机:预训练保证基础 token 理解;I2MV 显式学习几何约束;T2MV 引入文本条件扩展应用范围。
实验关键数据¶
主实验¶
| 方法 | 架构 | GSO-PSNR↑ | GSO-SSIM↑ | 3D-FUTURE-PSNR↑ | 3D-FUTURE-SSIM↑ | 平均排名 |
|---|---|---|---|---|---|---|
| Zero-1-to-3 | 2D 连续扩散 | 18.82 | 0.8294 | 17.05 | 0.8163 | 5.2 |
| Zero-1-to-3 XL | 2D 连续扩散 | 19.68 | 0.8381 | 18.47 | 0.8337 | 3.0 |
| ViVid-1-to-3 | 2D 连续扩散 | 19.80 | 0.8566 | 18.32 | 0.8437 | 3.3 |
| ViewMask-1-to-3 | 2D 离散扩散 | 20.61 | 0.8561 | 19.99 | 0.8650 | 1.3 |
3D 重建一致性¶
| 方法 | GSO-CD↓ | GSO-IoU↑ | 3D-FUTURE-CD↓ | 3D-FUTURE-IoU↑ |
|---|---|---|---|---|
| Zero-1-to-3 | 0.0163 | 0.5665 | 0.0113 | 0.5005 |
| ViVid-1-to-3 | 0.0163 | 0.5841 | 0.0105 | 0.5246 |
| ViewMask-1-to-3 | 0.0149 | 0.5847 | 0.0106 | 0.5315 |
关键发现¶
- 掩码调度策略:cosine(PSNR 18.10)优于 linear/quadratic,linear/quadratic 易产生幻觉。
- 高视点数泛化——超出训练 token 预算(8 视点)仍能泛化,验证离散序列建模鲁棒性。
- 3D-FUTURE 的 IoU 相比最强连续 baseline 提升 10.6%。
亮点与洞察¶
- 范式转换的优雅性:将多视图生成理解为离散序列预测问题,无需显式 3D 几何约束。简单随机掩码 + 双向注意力就能诱导一致性。
- 统一多模态框架:共享 token embedding 空间天然融合文本、参考图像、多目标视点,I2MV 与 T2MV 无缝统一。
- 超越连续扩散的关键突破:平均排名 1.3 远优于 Zero-1-to-3 XL 的 3.0。
- 推理效率与生成质量的平衡:掩码扩散支持并行预测,20 步迭代足以达到 SOTA。
局限与展望¶
- 固定仰角训练数据可能限制极端视角的泛化。
- 分辨率瓶颈——当前仅在 256×256 验证。
- T2MV 任务文本条件丰富度有限——仅来自 Cap3D。
- 改进:多分辨率 token 化;增强数据多样性;探索更精细的信心度评估;结合 3D 先验。
相关工作与启发¶
- vs Zero-1-to-3 / Zero-1-to-3 XL:2D 连续扩散 + 相机参数编码,逐视点独立生成;ViewMask 离散 token 序列化自然编码多视点关系。
- vs TRELLIS / 3D-aware methods:显式 3D representation 计算复杂;ViewMask 无 3D 显式建模通过 simple masking + attention 达到更优几何一致性。
- vs 离散扩散基线(LLaDA-V):首次将其系统化应用于多视图生成。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统探索离散扩散在多视图生成的应用。
- 实验充分度: ⭐⭐⭐⭐⭐ 双数据集 + 多维度指标 + 完整消融 + 可扩展性验证。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,三阶段训练策略循序渐进。
- 价值: ⭐⭐⭐⭐⭐ 不仅刷新多视图生成 SOTA 更为视觉生成任务提供离散建模新思路。