WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions¶
会议: ICCV 2025
arXiv: 2505.18151
代码: https://kyleleey.github.io/WonderPlay/ (即将公开)
领域: 3D视觉
关键词: 动态3D场景生成, 物理仿真, 视频生成, 混合生成模拟器, 单图交互
一句话总结¶
WonderPlay 提出混合生成模拟器(Hybrid Generative Simulator),将物理求解器的粗糙3D动态仿真与视频扩散模型的高质量生成相结合,实现从单张图像加用户动作输入生成逼真多材质动态3D场景,支持刚体、布料、液体、烟雾、颗粒等多种材质。
研究背景与动机¶
领域现状:动态3D场景生成是AR/VR和具身AI的核心需求。目前主流方法分为两类:纯物理仿真方法和条件视频生成方法。
现有痛点: - 物理仿真方法(如PhysGaussian、PhysDreamer)需要精确的物理求解器和完整的3D物理状态重建,但从单张图像重建雪、沙、布料、流体的完整物理状态几乎不可行,因此这些方法只能处理刚体和简单弹性体。 - 视频生成方法(如CogVideoX、Sora)虽然能生成逼真的物理现象视频,但无法接受精确的3D动作作为输入,缺乏可控性。
核心矛盾:物理仿真有精确的动作响应但视觉质量差且材质受限;视频生成有高质量视觉但缺乏动作可控性。
本文目标 如何从单张图像出发,在接受3D物理动作(重力、风力场、点力)输入的同时,生成涵盖多种材质的逼真动态3D场景?
切入角度:将物理仿真器和视频生成器的角色重新定义——物理仿真器提供粗糙但可控的运动引导,视频生成器负责精细化运动和视觉质量。
核心 idea:用物理仿真器产生粗糙3D动态作为条件信号,驱动视频扩散模型生成逼真视频,再用生成的视频反向更新3D场景,形成闭环。
方法详解¶
整体框架¶
输入:一张图像 \(\mathbf{I}\) + 3D动作(重力 \(\mathbf{f}_g\)、风力场 \(\mathbf{f}_w(x,y,z,t)\)、点力 \(\mathbf{f}_p(t)\))。输出:动态3D场景序列 \(\{\mathcal{S}_t\}_{t=0}^T\)。
Pipeline 分三步: 1. 3D场景重建:从单图重建初始3D场景 \(\mathcal{S}_0\) 2. 混合生成模拟:物理求解器产生粗糙动态 → 条件视频生成 → 视频反向更新3D场景 3. 输出动态3D场景:可从任意视角渲染
关键设计¶
-
3D场景表示与重建
- 功能:从单图重建包含背景和物体的3D场景
- 核心思路:背景用 FLAGS(Fast Layered Gaussian Surfels)表示;物体用"拓扑高斯 Surfels"表示,即在高斯 Surfel 基础上增加连接性边矩阵 \(\mathbf{E} \in \{0,1\}^{N_O \times N_O}\) 和速度 \(\mathbf{v}_t\)。物体网格由 InstantMesh 从图像分割生成,再绑定高斯 Surfel 到每个网格顶点。
- 设计动机:拓扑连接性使得物体可被物理求解器直接仿真;分离背景和物体便于施加不同的控制策略。
-
混合生成模拟器(Hybrid Generative Simulator)
- 功能:核心创新模块,融合物理仿真器和视频生成器来预测动态
- 核心思路:
- 首先用物理求解器(Genesis框架,支持多种材质求解器耦合)计算粗糙动态场景 \(\{\tilde{\mathcal{S}}_t\}\):\(\mathbf{v}_{t+1}, \mathbf{p}_{t+1}^O, \mathbf{q}_{t+1}^O = \text{solver}(\tilde{\mathcal{S}}_t, \mathbf{f}_g, \mathbf{f}_w(t), \mathbf{f}_p(t))\)
- 然后将粗糙动态的运动和外观信号送入视频生成器:\(\mathbf{V} = g(\mathbf{F}, \tilde{\mathbf{V}}, \mathbf{I})\)
- 最后用生成的视频通过可微渲染更新粗糙3D场景
- 设计动机:物理求解器的重建和仿真不精确,但提供了正确的动作响应方向;视频生成器从大规模视频中学到了丰富的物理先验,可以补充精细运动和外观。
-
双模态控制方案(Bimodal Control)
- 功能:用运动信号和外观信号同时控制视频生成器
- 核心思路:
- 运动控制:使用 Go-with-the-Flow 的噪声扭曲策略,将物理仿真的光流 \(\mathbf{F}\) 转为结构化噪声 \(\mathbf{N}(\mathbf{F})\),通过迭代 warp 构建:\(\mathbf{N}_{t+1} = \text{warp}(\mathbf{N}_t, \mathbf{F}_{t+1})\)
- 外观控制:使用 SDEdit 策略,从扩散步骤 \(s_1 < S\) 开始去噪:\(\mathbf{V}_{s_1} = \alpha_{s_1}\tilde{\mathbf{V}} + \sqrt{1-\alpha_{s_1}^2}\mathbf{N}(\mathbf{F})\)
- 设计动机:仅用运动信号会导致幻觉(如背景纹理改变);仅用外观信号会丢失精细动态。两者结合既保持运动一致性又保持外观一致性。
-
空间变化责任分配(Spatially Varying Responsibility)
- 功能:对背景和前景动态物体分配不同的生成器"责任"
- 核心思路:引入二值掩码 \(\mathbf{M}\),在额外去噪步骤 \(s_2 < s_1\) 处混合:\(\hat{\mathbf{V}}_{s_2} = \mathbf{M} \odot \mathbf{V}_{s_2} + (1-\mathbf{M}) \odot (\alpha_{s_2}\tilde{\mathbf{V}} + \sqrt{1-\alpha_{s_2}^2}\mathbf{N}(\mathbf{F}))\)
- 设计动机:背景通常是静态的,应更信任物理仿真的输出而非视频生成器,以避免生成器在背景区域幻觉出不存在的物体。
损失函数 / 训练策略¶
场景动态更新阶段使用光度 L1 损失:\(\min_{\{\mathbf{c}_t^B, \mathcal{O}_t\}} \|\mathbf{V} - \tilde{\mathbf{V}}\|_1\),优化前景物体的运动轨迹和外观,同时更新背景颜色以获得光照效果。
实验关键数据¶
主实验¶
在 15 个场景上与物理仿真方法和条件视频生成方法进行对比。
| 方法 | Imaging↑ | Aesthetic↑ | Motion↑ | Consistency↑ | PhysReal↑ |
|---|---|---|---|---|---|
| PhysGen | 0.692 | 0.593 | 0.992 | 0.212 | 0.545 |
| PhysGaussian | 0.492 | 0.564 | 0.994 | 0.206 | 0.350 |
| CogVideoX | 0.686 | 0.574 | 0.993 | 0.219 | 0.670 |
| Tora | 0.644 | 0.620 | 0.992 | 0.210 | 0.530 |
| WonderPlay (Ours) | 0.695 | 0.610 | 0.995 | 0.217 | 0.700 |
用户研究(2AFC,200名参与者)¶
| 对比对象 | 物理合理性偏好↑ | 运动保真度偏好↑ | 视觉质量偏好↑ |
|---|---|---|---|
| vs PhysGen | 78.0% | 78.0% | 80.1% |
| vs PhysGaussian | 80.2% | 81.2% | 85.2% |
| vs Tora | 77.0% | 72.0% | 71.0% |
| vs CogVideoX | 80.2% | 73.0% | 74.6% |
关键发现¶
- 视频生成方法虽然视觉质量好,但很难遵循物理动作指令(CogVideoX 甚至无法生成鸭子掉入水中的合理动态)
- 物理仿真方法受限于刚体/弹性体,无法处理水面反射等复杂效果
- WonderPlay 在所有三个维度上均获 70-80% 以上的用户偏好
- 消融实验证明:去掉运动信号会导致细节动态丢失;去掉外观信号会导致幻觉;空间变化控制有效减少背景幻觉
亮点与洞察¶
- 闭环设计:物理仿真→视频生成→3D更新的闭环非常巧妙,物理仿真不需要精确,只需要提供正确的"方向",视频生成模型负责补充细节。这种"粗→细"的思路可以迁移到很多需要结合物理先验和数据驱动方法的场景。
- 双模态控制+空间变化:将控制信号分为运动和外观两个模态,并根据空间区域分配不同的"信任度",这是一个非常实用的设计范式。
- 材质通用性:单个框架覆盖刚体、布料、液体、气体、颗粒等多种材质,这在之前的工作中非常罕见。
局限与展望¶
- 需要用户手动指定物体材质类型(6分类),无法自动推断
- 物理仿真精度受限于初始3D重建质量,单图重建不可避免地不精确
- 仅支持三种动作类型(重力、风力、点力),难以表达更复杂的交互
- 生成速度可能较慢(960步物理仿真 + 视频扩散)
相关工作与启发¶
- vs PhysMotion:PhysMotion 也结合物理求解器和视频生成器,但让物理求解器负责所有动态,视频生成器仅改善外观。WonderPlay 让两者共同负责动态,因此支持更多材质类型。
- vs PhysGen:PhysGen 仅支持2D刚体仿真,WonderPlay 支持3D多材质仿真。
- vs CogVideoX/Tora:这些条件视频生成方法缺乏物理动作可控性,WonderPlay 通过物理仿真提供精确动作响应。
评分¶
- 新颖性: ⭐⭐⭐⭐ 混合生成模拟器的idea很有创意,但各个组件(物理仿真、视频扩散、SDEdit)都是现有的
- 实验充分度: ⭐⭐⭐⭐ 定量+用户研究+消融都比较完整,但15个场景样本量较小
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,图示优美,方法讲解层次分明
- 价值: ⭐⭐⭐⭐ 在交互式3D世界模型方向有重要参考价值