PerpetualWonder: Long-horizon Action-conditioned 4D Scene Generation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无(项目页 https://johnzhan2023.github.io/PerpetualWonder/ )
领域: 4D生成 / 视频生成 / 世界模型
关键词: 4D场景生成、动作条件、混合生成式仿真、闭环系统、多视角优化
一句话总结¶
PerpetualWonder 从单张图片出发,用一个「物理仿真前向 + 视频模型反向优化」的闭环混合生成式仿真器,配合把物理粒子和高斯基元绑死在一起的统一表示(VPP),让 4D 场景能够连续响应多步动作(推、戳、风、重力),在长时序交互下保持物理合理和视觉一致,相比前作 WonderPlay 在可控性和 3D 一致性上大幅领先。
研究背景与动机¶
领域现状:从单图生成可交互的 4D 场景(随时间演化的 3D 场景)是世界模型的核心能力,对 VR/AR、游戏、具身智能都有用。早期靠传统物理仿真,控制精确但「真实感鸿沟」大——简化物理 + 解析渲染拍不出真实世界的材质形变、光影、溅射这类复杂视觉现象。近来兴起的混合生成式仿真器(hybrid generative simulator)思路是:先用物理仿真出粗糙的、动作驱动的动力学,再用视频生成模型当「神经精修器」补上高保真视觉。
现有痛点:最相关的前作 WonderPlay 实现了这个混合思路,但它只能做单时间窗内的短时交互。根本问题在于信息流是单向、不完整的:物理状态能驱动视频模型,但视频模型精修的结果只回流到外观表示,回流不到底层物理状态。
核心矛盾:物理表示(粒子的位置/速度)和视觉表示(高斯基元)是解耦的。于是每开始新一轮动作时,物理仿真器对上一轮的生成式修正完全「失明」,高斯基元被重置回原始位置而非精修后的位置,误差不断累积——castle 被铲子戳完会碎裂、形变失真,时序断裂。
本文目标:让系统能在「用户动作 → 物理仿真 → 生成式精修」之间永续循环,支持长时序、顺序的多步动作。这要解决两个具体子问题:(1) 当前物理状态无法被视频模型的精修更新——需要一个统一物理与视觉的新表示;(2) 要更新这个统一表示,视频精修必须是多视角的以消除优化歧义,但视频模型天然不会生成多视角完全一致的视频——需要一个鲁棒的更新机制。
核心 idea:用一个把物理粒子和视觉基元双向绑定的统一表示(VPP)打通信息回流,再用多视角渐进优化消歧,组装成第一个真正闭环的混合生成式仿真器。
方法详解¶
整体框架¶
PerpetualWonder 的目标是:给定单图 \(I\) 和一串动作 \(\{A_t\}_{t=0}^{T-1}\)(含全局力如重力/风场 \(f(x,y,z,t)\)、局部力如推戳 \(f(t)\)),输出动态 4D 场景序列 \(\{S_t\}_{t=0}^{T}\)。任意时刻场景 \(S_t=(B_t, F_t)\) 拆成静态背景 \(B_t\) 和可交互的动态前景 \(F_t\)。
整个系统是一个在前向物理仿真 \(\Phi_p\) 和反向神经优化 \(\Psi_n\) 之间永续迭代的闭环。先从单图重建出一个能任意视角渲染的完整 3D 场景,并用 VPP 把每个物理粒子绑上一小簇高斯。然后对一个 \(T\) 步的时间窗:前向用物理仿真器算出粗糙动力学;反向用视频模型从多个视角精修,把外观和动力学都修正过来;最后「闭环」——把本窗末态 \(S_T\) 的视觉精修结果回灌去更新物理粒子,作为下一窗的初态 \(S_0\),从而把多个时间窗串成长时序交互。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:单图 I + 动作序列"] --> B["3D 场景初始化<br/>稠密视角生成→点云→分前景背景"]
B --> C["视觉-物理对齐粒子 VPP<br/>物理粒子↔高斯双向绑定"]
C --> D["前向物理仿真 Φp<br/>算 T 步粗糙动力学"]
D --> E["多视角优化机制<br/>渐进多视角精修 + 一致性损失"]
E --> F["闭环更新<br/>末态 S_T 回灌更新物理粒子"]
F -->|"作为下一窗初态 S_0"| D
F --> G["输出:长时序 4D 场景"]
关键设计¶
1. VPP 视觉-物理对齐粒子:把物理粒子和高斯绑死,打通信息双向回流
这是闭环能成立的地基,直接针对「物理状态被精修不到」的痛点。以前的混合仿真器用解耦的视觉基元(高斯)管外观、物理粒子管动力学,绑定是单向的(粒子驱动高斯),所以视频模型修了高斯也回不到粒子。VPP(Visual-Physical aligned Particle)反过来把每个物理粒子 \(p_j\) 当作锚点,挂上一小簇 \(K\) 个高斯 \(\{g_{j,k}\}_{k=1}^{K}\),让所有动力学和外观都由可优化的高斯属性来表达。每个高斯的位置由相对锚点粒子的可学习偏移决定:
其中 \(\delta\) 是仿真器采样时的物理粒子尺寸,\(\tanh\) 把偏移限制在粒子邻域内。每个高斯还带空间不透明度 \(o_s\) 和受 [42] 启发的时间不透明度 \(o_t(t)=\exp\!\big(-\tfrac{1}{2}(\tfrac{t-\mu_t}{s_d})^2\big)\)(中心时刻 \(\mu_t\)、持续时长 \(s_d\)),最终不透明度 \(o(t)=o_s\times o_t(t)\),让基元能随时间出现/消失以捕捉溅射等瞬态效果。这样一来就形成双向桥:前向时仿真更新 \(p_j\) 带动所有锚定的高斯(驱动动力学);反向时优化 \(\{g_{j,k}\}\) 的属性来精修 4D 场景,且被约束不能脱离锚点粒子——于是视觉精修能反过来校正物理。
2. 多视角渐进优化:用多视角监督 + 一致性约束消除单视角歧义
VPP 解决了「能不能更新」,这一设计解决「怎么一致地更新」,针对 WonderPlay 单视角优化在新视角下严重失真的痛点。它分两部分。其一是单图稠密 3D 初始化:用相机可控视频模型 GEN3C 从单图合成稠密环视视频,经 COLMAP 拿到点云初始化 3DGS;再借 Gaussian Grouping 给每个基元加可学习特征、用 SAM2 在环视图上拿物体 mask 监督,把场景拆成背景集 \(B_0\) 和各前景物体,前景高斯经 TSDFusion 转成闭合网格、采样出 VPP 的初始物理粒子 \(P_0\)。这套「背景和所有物体在统一坐标系里一起建」的做法,才支持从任意稠密视角渲染(WonderPlay 靠单视深度反投影+物体摆放,做不到)。
其二是渐进多视角优化:粗糙 4D 场景被渲成 RGB+光流,喂给视频模型双模态精修出 \(V_t\)。但不同视角精修出的视频天然不一致,直接一起优化会冲突。于是 (a) 设计一个带强一致性先验的损失:
其中 \(M\) 是前景 VPP 的二值 mask,\(\mathcal{L}_p\) 是光度损失(L1+SSIM),而仿真一致性损失 \(\mathcal{L}_{\text{sim}}=\frac{1}{T\cdot J}\sum_t\sum_j\big\|p_{j,t}-\frac{1}{K}\sum_k\mu_{j,k,t}\big\|_2^2\) 惩罚高斯偏离其物理锚点,充当强正则、防止视觉基元和物理粒子散架。(b) 渐进策略:先只用输入视角的视频优化,再用更小的控制权重渲染并精修其他视角,最后用所有视角的精修视频再优化一次,逐步消歧得到一致的 4D 场景。
3. 仿真闭环与长时序动作:把视觉精修结果回灌物理粒子,跨窗续接
这是把前两个组件串成「永续」的关键,针对误差累积。一个 \(T\) 步时间窗分三阶段:前向用物理算子逐步算粗糙序列 \(\hat{S}_{t+1}=\Phi_p(\hat{S}_t,A_t)\)(支持布、沙、雪、液体、烟、弹性、刚体等多种材料求解器);反向用渐进多视角优化把粗糙序列 \(\{\hat{S}_t\}\) 精修成最终 \(\{S_t\}\);闭环则把当前窗末态 \(S_T\) 变成下一窗初态 \(S_0\)——具体地,取时刻 \(T\) 优化后高斯 \(\{g_{j,k}\}\) 的位置平均去更新对应物理粒子 \(p_j\) 的位置,速度直接继承原时刻 \(T\) 的速度(因为 \(\mathcal{L}_{\text{sim}}\) 把粒子位置更新限制在小范围内,所以这样近似可行)。这个被校正的物理状态 \(\{P_T,V_T\}\) 成为下一前向的输入,从而把单窗短交互拼成长时序顺序交互。WonderPlay 缺的正是这一步回灌,所以新窗高斯被重置、产生碎裂。
损失函数 / 训练策略¶
核心损失即上面的 \(\mathcal{L}\):背景区与前景区分别做光度对齐,加仿真一致性正则 \(\lambda_{\text{sim}}\mathcal{L}_{\text{sim}}\)。背景高斯也带可学习空间/时间不透明度(位置除外)以捕捉阴影等次级视觉效果。实现上:从 GEN3C 生成的 242 个视角重建初始场景 \(S_0\),物理仿真用 Genesis;典型实验跨 3 个时间窗、每窗 392 个物理仿真步、各接不同动作;精修视频在 H=704/W=1280 分辨率下条件于 RGB+光流,输出 49 帧(每 8 个仿真步采 1 帧);渐进多视角优化用正面、左侧、右侧 3 个关键视角监督。
实验关键数据¶
主实验¶
在 10 个涵盖布料、刚体、弹性体、液体、气体、颗粒物的场景上,用 WorldScore 指标评估。PerpetualWonder 在相机可控性和 3D 一致性上大幅领先,同时保持高成像质量:
| 方法 | 相机可控性 | 3D 一致性 | 成像质量 |
|---|---|---|---|
| Wan2.2 | 59.73 | 65.35 | 67.03 |
| GEN3C | 80.29 | 61.69 | 66.25 |
| WonderPlay | 75.95 | 63.93 | 36.80 |
| Tora | 51.80 | 60.77 | 54.37 |
| Wan2.6 | 64.75 | 70.49 | 66.09 |
| DaS | 78.96 | 62.18 | 60.23 |
| Veo3.1 | 60.61 | 73.93 | 67.82 |
| PerpetualWonder | 93.26 | 80.41 | 66.98 |
人类偏好的 2AFC 研究中,约 70%~90% 受试者在物理合理性和运动保真度上更偏好本文:
| 对比对象 | 物理合理性 favor | 运动保真度 favor |
|---|---|---|
| over Wan2.2 | 74.1% | 71.8% |
| over GEN3C | 93.5% | 83.5% |
| over WonderPlay | 80.8% | 86.3% |
| over Veo3.1 | 62.0% | 70.8% |
| over Wan2.6 | 68.5% | 77.3% |
| over Tora | 83.5% | 85.3% |
| over DaS | 80.9% | 81.9% |
消融实验¶
| 配置 | 现象 | 说明 |
|---|---|---|
| Full (VPP + 渐进多视角) | 动力学合理、多视角一致 | 完整模型 |
| w/o VPP(改用标准 3DGS) | 动力学混乱、视觉失真 | 无约束高斯只顾压光度损失,脱离物理 → 退化 |
| w/o 渐进优化(直接多视角优化) | 纹理模糊、外观闪烁 | 多视角视频不一致信号直接混合 → 表示被污染 |
关键发现¶
- VPP 的绑定是动力学合理性的根本:去掉 VPP、换回标准高斯后,基元只为最小化光度损失而动,结果动力学混乱、出现严重视觉伪影;VPP 的锚点约束确保高斯跟着物理求解器的动力学走。
- 渐进优化解决多视角冲突:直接把各视角(可能各自幻觉出不同颜色/形状)的精修视频一次性拿来优化,会让苹果等物体随时间出现纹理模糊和外观闪烁;渐进式(先输入视角、再低权重其他视角、最后合并)能消歧。
- 长时序是与 WonderPlay 的分水岭:WonderPlay 在多轮交互(如铲城堡)后因物理粒子每轮被重置而累积误差、形状碎裂;本文靠 \(S_T\to S_0\) 的回灌保持跨窗连续,可稳定支持弹性体/气体/刚体的多轮顺序交互。
亮点与洞察¶
- 「闭环」是这篇最核心的 aha:以往混合仿真器卡在信息单向流,本文用一个表示层面的小改动(粒子当锚点反挂高斯 + 一致性损失)就把回路闭上,让视觉精修能改物理——这是从「短时一次性」到「长时序永续」的关键跃迁。
- 统一表示替代两套解耦表示,思路可迁移:凡是「仿真给粗结果、神经网络精修」的混合系统(流体、软体、机器人 sim2real),都能借「锚点 + 偏移 + 一致性正则」把可微优化的修正回灌到底层状态。
- 时间不透明度 \(o_t(t)\) 让静态高斯具备「按时间出现/消失」的能力,是捕捉溅射、烟雾等瞬态效果的轻量手段。
- WonderPlay++ 这个更强 baseline 的设置很诚实:给前作换上本文的多视角重建初始化、但保留其解耦表示和单视优化,从而把「初始化优势」和「表示/闭环优势」剥离开比较。
局限与展望¶
- 依赖一长串外部模型(GEN3C 稠密视角、COLMAP、SAM2、TSDFusion、Genesis 物理、视频精修模型),任一环节失败都会传导到最终结果;流水线重、初始化(242 视角重建)成本高。⚠️ 论文未给出端到端运行时间/显存,效率代价待确认。
- 速度继承的近似只在 \(\mathcal{L}_{\text{sim}}\) 把粒子位移限制得很小时成立;若某轮动作引起大位移,直接继承原速度可能不准。
- 物理求解仍是传统仿真器,材料参数/接触建模的准确性受 Genesis 等求解器能力上限约束,复杂接触或新材料可能超出可处理范围。
- 评测规模为 10 个场景、3 个时间窗,更长 horizon(十几轮以上)下误差是否仍可控、是否会缓慢漂移,论文未充分展开。
相关工作与启发¶
- vs WonderPlay:同属混合生成式仿真器,且都先物理仿真再视频精修。区别在 WonderPlay 用解耦表示 + 单视角优化、精修只回流外观,所以只能短时交互;本文用 VPP 统一表示 + 多视角渐进优化 + 末态回灌物理,做成闭环、支持长时序。本文优势是长时序一致性,代价是流水线更重。
- vs 条件视频生成(Wan2.2 / Veo3.1 / GEN3C / Tora / DaS):这些模型只在 2D 视频空间工作,缺乏显式 3D 表示——Wan2.2 能生成合理运动但无视相机指令、GEN3C 遵循相机轨迹但物体对动作无响应。本文在完整 3D 表示上操作,能同时保证物理精确的动作条件和任意视角的 3D 一致渲染。
- vs 早期纯传统物理仿真([6,14,48,58]):那类方法控制精确可解释但有显著真实感鸿沟(简化物理 + 固定外观渲染);本文用视频模型先验补真实感。
- vs 被动 4D 生成(蒸馏视频先验做文/图到 4D 动画):那类生成的是预定动画、对用户动作无机制响应;本文核心正是动作条件的可交互响应。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个真正闭环的混合生成式仿真器,VPP 统一表示打通物理↔视觉回流,解决长时序动作条件 4D 生成。
- 实验充分度: ⭐⭐⭐⭐ 多种材料场景 + WorldScore + 人类偏好 + 两项关键消融齐全,但场景数(10)和 horizon 长度有限、缺效率报告。
- 写作质量: ⭐⭐⭐⭐⭐ 痛点(信息流单向)→ 两个挑战 → 两个组件 → 闭环组装的逻辑链非常清晰。
- 价值: ⭐⭐⭐⭐⭐ 为世界模型/具身仿真提供了可长时序交互的 4D 生成范式,闭环回灌思路可迁移到广义混合仿真系统。