WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions¶

会议: ICCV 2025
arXiv: 2505.18151
代码: https://kyleleey.github.io/WonderPlay/ (即将公开)
领域: 3D视觉
关键词: 动态3D场景生成, 物理仿真, 视频生成, 混合生成模拟器, 单图交互

一句话总结¶

WonderPlay 提出混合生成模拟器（Hybrid Generative Simulator），将物理求解器的粗糙3D动态仿真与视频扩散模型的高质量生成相结合，实现从单张图像加用户动作输入生成逼真多材质动态3D场景，支持刚体、布料、液体、烟雾、颗粒等多种材质。

研究背景与动机¶

领域现状：动态3D场景生成是AR/VR和具身AI的核心需求。目前主流方法分为两类：纯物理仿真方法和条件视频生成方法。

现有痛点： - 物理仿真方法（如PhysGaussian、PhysDreamer）需要精确的物理求解器和完整的3D物理状态重建，但从单张图像重建雪、沙、布料、流体的完整物理状态几乎不可行，因此这些方法只能处理刚体和简单弹性体。 - 视频生成方法（如CogVideoX、Sora）虽然能生成逼真的物理现象视频，但无法接受精确的3D动作作为输入，缺乏可控性。

核心矛盾：物理仿真有精确的动作响应但视觉质量差且材质受限；视频生成有高质量视觉但缺乏动作可控性。

本文目标 如何从单张图像出发，在接受3D物理动作（重力、风力场、点力）输入的同时，生成涵盖多种材质的逼真动态3D场景？

切入角度：将物理仿真器和视频生成器的角色重新定义——物理仿真器提供粗糙但可控的运动引导，视频生成器负责精细化运动和视觉质量。

核心 idea：用物理仿真器产生粗糙3D动态作为条件信号，驱动视频扩散模型生成逼真视频，再用生成的视频反向更新3D场景，形成闭环。

方法详解¶

整体框架¶

输入：一张图像 \(\mathbf{I}\) + 3D动作（重力 \(\mathbf{f}_g\)、风力场 \(\mathbf{f}_w(x,y,z,t)\)、点力 \(\mathbf{f}_p(t)\)）。输出：动态3D场景序列 \(\{\mathcal{S}_t\}_{t=0}^T\)。

Pipeline 分三步： 1. 3D场景重建：从单图重建初始3D场景 \(\mathcal{S}_0\) 2. 混合生成模拟：物理求解器产生粗糙动态 → 条件视频生成 → 视频反向更新3D场景 3. 输出动态3D场景：可从任意视角渲染

关键设计¶

3D场景表示与重建
- 功能：从单图重建包含背景和物体的3D场景
- 核心思路：背景用 FLAGS（Fast Layered Gaussian Surfels）表示；物体用"拓扑高斯 Surfels"表示，即在高斯 Surfel 基础上增加连接性边矩阵 \(\mathbf{E} \in \{0,1\}^{N_O \times N_O}\) 和速度 \(\mathbf{v}_t\)。物体网格由 InstantMesh 从图像分割生成，再绑定高斯 Surfel 到每个网格顶点。
- 设计动机：拓扑连接性使得物体可被物理求解器直接仿真；分离背景和物体便于施加不同的控制策略。
混合生成模拟器（Hybrid Generative Simulator）
- 功能：核心创新模块，融合物理仿真器和视频生成器来预测动态
- 核心思路：
  - 首先用物理求解器（Genesis框架，支持多种材质求解器耦合）计算粗糙动态场景 \(\{\tilde{\mathcal{S}}_t\}\)：\(\mathbf{v}_{t+1}, \mathbf{p}_{t+1}^O, \mathbf{q}_{t+1}^O = \text{solver}(\tilde{\mathcal{S}}_t, \mathbf{f}_g, \mathbf{f}_w(t), \mathbf{f}_p(t))\)
  - 然后将粗糙动态的运动和外观信号送入视频生成器：\(\mathbf{V} = g(\mathbf{F}, \tilde{\mathbf{V}}, \mathbf{I})\)
  - 最后用生成的视频通过可微渲染更新粗糙3D场景
- 设计动机：物理求解器的重建和仿真不精确，但提供了正确的动作响应方向；视频生成器从大规模视频中学到了丰富的物理先验，可以补充精细运动和外观。
双模态控制方案（Bimodal Control）
- 功能：用运动信号和外观信号同时控制视频生成器
- 核心思路：
  - 运动控制：使用 Go-with-the-Flow 的噪声扭曲策略，将物理仿真的光流 \(\mathbf{F}\) 转为结构化噪声 \(\mathbf{N}(\mathbf{F})\)，通过迭代 warp 构建：\(\mathbf{N}_{t+1} = \text{warp}(\mathbf{N}_t, \mathbf{F}_{t+1})\)
  - 外观控制：使用 SDEdit 策略，从扩散步骤 \(s_1 < S\) 开始去噪：\(\mathbf{V}_{s_1} = \alpha_{s_1}\tilde{\mathbf{V}} + \sqrt{1-\alpha_{s_1}^2}\mathbf{N}(\mathbf{F})\)
- 设计动机：仅用运动信号会导致幻觉（如背景纹理改变）；仅用外观信号会丢失精细动态。两者结合既保持运动一致性又保持外观一致性。
空间变化责任分配（Spatially Varying Responsibility）
- 功能：对背景和前景动态物体分配不同的生成器"责任"
- 核心思路：引入二值掩码 \(\mathbf{M}\)，在额外去噪步骤 \(s_2 < s_1\) 处混合：\(\hat{\mathbf{V}}_{s_2} = \mathbf{M} \odot \mathbf{V}_{s_2} + (1-\mathbf{M}) \odot (\alpha_{s_2}\tilde{\mathbf{V}} + \sqrt{1-\alpha_{s_2}^2}\mathbf{N}(\mathbf{F}))\)
- 设计动机：背景通常是静态的，应更信任物理仿真的输出而非视频生成器，以避免生成器在背景区域幻觉出不存在的物体。

损失函数 / 训练策略¶

场景动态更新阶段使用光度 L1 损失：\(\min_{\{\mathbf{c}_t^B, \mathcal{O}_t\}} \|\mathbf{V} - \tilde{\mathbf{V}}\|_1\)，优化前景物体的运动轨迹和外观，同时更新背景颜色以获得光照效果。

实验关键数据¶

主实验¶

在 15 个场景上与物理仿真方法和条件视频生成方法进行对比。

方法	Imaging↑	Aesthetic↑	Motion↑	Consistency↑	PhysReal↑
PhysGen	0.692	0.593	0.992	0.212	0.545
PhysGaussian	0.492	0.564	0.994	0.206	0.350
CogVideoX	0.686	0.574	0.993	0.219	0.670
Tora	0.644	0.620	0.992	0.210	0.530
WonderPlay (Ours)	0.695	0.610	0.995	0.217	0.700

用户研究（2AFC，200名参与者）¶

对比对象	物理合理性偏好↑	运动保真度偏好↑	视觉质量偏好↑
vs PhysGen	78.0%	78.0%	80.1%
vs PhysGaussian	80.2%	81.2%	85.2%
vs Tora	77.0%	72.0%	71.0%
vs CogVideoX	80.2%	73.0%	74.6%

关键发现¶

视频生成方法虽然视觉质量好，但很难遵循物理动作指令（CogVideoX 甚至无法生成鸭子掉入水中的合理动态）
物理仿真方法受限于刚体/弹性体，无法处理水面反射等复杂效果
WonderPlay 在所有三个维度上均获 70-80% 以上的用户偏好
消融实验证明：去掉运动信号会导致细节动态丢失；去掉外观信号会导致幻觉；空间变化控制有效减少背景幻觉

亮点与洞察¶

闭环设计：物理仿真→视频生成→3D更新的闭环非常巧妙，物理仿真不需要精确，只需要提供正确的"方向"，视频生成模型负责补充细节。这种"粗→细"的思路可以迁移到很多需要结合物理先验和数据驱动方法的场景。
双模态控制+空间变化：将控制信号分为运动和外观两个模态，并根据空间区域分配不同的"信任度"，这是一个非常实用的设计范式。
材质通用性：单个框架覆盖刚体、布料、液体、气体、颗粒等多种材质，这在之前的工作中非常罕见。

局限与展望¶

需要用户手动指定物体材质类型（6分类），无法自动推断
物理仿真精度受限于初始3D重建质量，单图重建不可避免地不精确
仅支持三种动作类型（重力、风力、点力），难以表达更复杂的交互
生成速度可能较慢（960步物理仿真 + 视频扩散）

评分¶

新颖性: ⭐⭐⭐⭐ 混合生成模拟器的idea很有创意，但各个组件（物理仿真、视频扩散、SDEdit）都是现有的
实验充分度: ⭐⭐⭐⭐ 定量+用户研究+消融都比较完整，但15个场景样本量较小
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，图示优美，方法讲解层次分明
价值: ⭐⭐⭐⭐ 在交互式3D世界模型方向有重要参考价值