NewtonGen: Physics-consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics¶

会议: ICLR 2026
代码: https://github.com/pandayuanyu/NewtonGen
领域: 视频生成 / 物理一致性
关键词: 文本生成视频, 物理一致性, Neural ODE, 牛顿动力学, 运动可控生成

一句话总结¶

NewtonGen 把一个可学习的「神经牛顿动力学（NND）」模块塞进文本生成视频的管线里——先用 Neural ODE 从极少量物理干净数据学会各类牛顿运动的潜在动力学，再把预测出的未来物理状态转成结构化光流去引导视频生成器，从而做到物理一致且参数可控的视频生成。

研究背景与动机¶

领域现状：以扩散模型和 DiT 为基础的文本生成视频模型（Sora、Veo3、CogVideoX、Wan 等）已经能合成视觉上极其逼真的画面，业界普遍把它们当作「世界模拟器」的雏形，期望靠 scaling law 自然涌现出对物理的理解。

现有痛点：这些模型只从大规模视频里学到了外观层面的运动分布，却没学到运动背后的动力学规律。结果就是画面好看但物理频频翻车——物体往上掉、速度方向突变、加速度不连贯，尤其在分布外（OOD）场景下崩得厉害。同时它们缺乏精确参数控制：你没法指定初始位置、初速度、角速度，让它在不同初始条件下生成一致的动力学。

核心矛盾：纯数据驱动模型偏差低、生成能力强，但物理不可信、不可控；纯物理仿真（先仿真后生成、先生成后仿真）虽然显式可控，却要人工预设每个场景的物理参数与规则，泛化性差、人力成本高。两条路各执一端，难以兼得。本文把现有的物理感知生成归纳为三类（生成后仿真 $\hat V = P(G_\psi(I))$、仿真后生成 $\hat V = G_\psi(P(I))$、带学习物理先验的生成 $\hat V = G_\psi(P_\phi(I))$），并指出第三类方法的隐患在于「假设大模型本身会物理推理」，而实际上它们的所谓物理理解也只是数据拟合。

本文目标：在数据驱动生成的强表达力之上，注入一个轻量、可学习、白盒可控的物理先验，使生成既物理一致又能精确响应用户给定的初始条件。

核心 idea（混合范式 + 可学动力学）：把「物理动力学推理」和「视频内容生成」解耦——用一个 Neural ODE 显式建模牛顿运动并预测未来物理状态，再让运动可控的视频生成器据此渲染外观。物理先验同时由显式物理模型（线性 ODE）和物理干净数据驱动，因此比纯隐式先验更可控、OOD 泛化更好。

方法详解¶

整体框架¶

NewtonGen 分两阶段。阶段一（训练 NND）：在一小批物理干净视频上训练 Neural Newtonian Dynamics，学到各类运动的潜在动力学与参数。阶段二（可控推理）：用户用文本同时给定场景描述与初始物理条件，系统解析出初始物理状态 $Z_0$ 与未来时间戳，喂给训练好的 NND 预测全序列物理状态，再把这些状态转成像素级光流、下采样成结构化光流，连同场景 prompt 一起送进运动可控的 T2V 生成器产出最终视频。

flowchart LR
    A[物理干净视频] --> B[Video Physical Encoder<br/>SAM2 分割+形态学]
    B --> C[物理状态 Z_t]
    C --> D[阶段一: 训练 NND<br/>Neural ODE+残差MLP]
    E[用户文本<br/>场景+初始条件] --> F[解析 Z0 + 时间戳]
    F --> G[学好的 NND]
    D -.学到的动力学.-> G
    G --> H[预测未来物理状态]
    H --> I[渲染结构化光流]
    I --> J[运动可控 T2V<br/>Go-with-the-Flow]
    E --> J
    J --> K[物理一致可控视频]

关键设计¶

1. 9 维潜在物理状态：用一个统一向量装下平移/旋转/形变。 NND 不在像素空间工作，而是把每帧压成一个 9 维潜在物理状态 $Z = [x, y, v_x, v_y, \theta, \omega, s, l, a]$，其中 $x,y$ 是质心位置、$v_x,v_y$ 是速度、$\theta,\omega$ 编码旋转角与角速度、$s,l$ 是物体最短和最长维度、$a$ 是投影面积。这种设计的巧妙之处在于：单个向量就能同时刻画平移、旋转、形变等复杂行为，连 3D 运动效果都能用「位置 + 尺寸」的组合等价实现（远近变化体现为面积/尺寸的缩放）。把高维视频降到低维物理状态，使得后续动力学建模既轻量又物理可解释。

2. 线性物理 ODE + 残差 MLP：一个框架吃下多种动力学。 不同运动遵循不同规律——自由落体能用简单线性 ODE 描述，而阻尼摆等非线性运动不行。NND 的做法是把二阶线性 ODE 和一个残差 MLP 拼起来：线性项捕捉主导的线性动力学，残差 MLP 补上非线性与未知成分。对 $Z$ 中每个分量 $z$，动力学写成 $$a_z \ddot z + b_z \dot z + c_z z + d_z + \mathrm{MLP}(Z) = 0$$ 其中 $a_z, b_z, c_z, d_z$ 是可学习的线性 ODE 参数。把所有分量的 ODE 合成自治形式后，给定初始状态 $Z_0$ 和时间 $t$，用 ODE solver odeint 积分即可预测未来状态： $$Z_t = Z_0 + \int_{t_0}^{t} \mathrm{Func}\big(Z(\tau)\big)\, d\tau$$ 之所以约束在二阶，是因为日常大多数运动（如飞行的球）在较短时间窗内都能用二阶动力学加足够密的锚点充分刻画。消融实验证实，正是这个残差 MLP 让圆周、抛物+旋转、阻尼振荡等非线性运动的预测误差从 0.5～0.7 量级骤降到 0.006～0.04。

3. 仅编码器训练 + 物理干净数据：两小时学会一种运动。 训练时采用 encoder-only 架构，不必解码回图像，只在潜在物理空间里优化，大幅省算力。具体地，Video Physical Encoder 先用分割基础模型 SAM2 拿到每帧动态区域的 mask，再通过形态学分析抽出质心、面积、长短轴、朝向，并用帧间差分算速度，量化成物理状态 $Z$。训练损失是预测状态与编码器抽出状态的 MSE： $$\mathcal{L} = \frac{1}{T}\sum_{t=1}^{T} \big\| E_{\text{phys}}(I_t) - \mathrm{NND}_\kappa(E_{\text{phys}}(I_0), t) \big\|_2^2$$ 由于缺乏高质量物理动力学数据集，作者自建了一个基于 Python 的物理仿真器，能在不同世界设定、初始条件、运动类型下渲染带精确时间戳的「物理干净」视频（运动显著、单调、无运动模糊、无背景干扰）。每种运动只需 100 段视频，单张 A100 训练约 2 小时即可。

4. 物理状态转结构化光流：把动力学知识灌进生成器。 阶段二的关键是怎样把 NND 的物理预测「翻译」给视频生成器。作者选用 Go-with-the-Flow 作为底座——它通过对每帧独立初始化的高斯噪声按输入光流做 warp，让相邻帧初始噪声间产生时间相关性，从而实现运动控制（相比 ControlNet/额外编码器注入轨迹或包围框的做法，它更擅长处理形变、旋转等复杂运动）。流程是：解析用户物理 prompt 得到 $Z_0$ 与时间戳 → NND 预测全帧物理状态 → 结合世界设定（场景尺寸、物体大小、最接近的简单几何形状）算出每帧近似像素级光流 → 时空下采样匹配生成器潜空间分辨率 → 连同场景 prompt 采样出最终视频。

实验关键数据¶

主实验表格¶

在 12 类运动、每类 24 个 prompt 上与 5 个 SOTA 基线对比，指标为物理不变量分数 PIS（$\mathrm{PIS} = (1 + C_\sigma/(|C_\mu|+\epsilon))^{-1}$，越接近 1 越物理一致）、背景一致性 BC、运动平滑度 MS（取自 VBench）。下表摘录代表性运动的 PIS（↑）：

运动类型 / 指标	Reference	Sora	Veo3	CogVideoX-5B	Wan2.2	PhyT2V	Ours
匀速 PIS-v	0.9972	0.6548	0.9784	0.5392	0.6395	0.5349	0.9830
抛物 PIS-vx	0.9988	0.9095	0.9042	0.7392	0.7747	0.6370	0.9803
抛物 PIS-ay	0.9487	0.5723	0.7662	0.4230	0.5571	0.3567	0.8189
3D 运动 PIS-Δl	0.7388	0.5013	0.5932	0.3026	0.4583	0.2911	0.6472
圆周 PIS-ω	0.9933	0.8393	0.8932	0.7726	0.4677	0.6391	0.9788
形变 PIS-Δl	0.9247	0.3626	0.3466	0.3550	0.3515	0.3601	0.5492

NewtonGen 在几乎所有 12 类运动上 PIS 都取得最优或次优，且 BC、MS 同样领先，运动轨迹平滑、无方向/速度突变。

消融实验表格¶

消融关注残差 MLP 与训练数据规模的影响，指标为预测物理状态与真值的归一化绝对误差（↓）：

配置 / 运动	圆周 Circ	抛物+旋转 ParaRota	阻尼振荡 Osci	形变 Def
W/o MLP	0.5388	0.7451	0.2275	0.0854
Our-data10	0.1246	0.1045	0.2327	0.0555
Our-data100	0.0255	0.0064	0.0425	0.0357
Our-data500	0.0196	0.0063	0.0694	0.0290

关键发现¶

残差 MLP 对非线性运动是决定性的：去掉后圆周、抛物+旋转等误差暴涨一个数量级以上，证明纯线性 ODE 不够。
100 段干净数据就够：从 data10 到 data100 提升显著，但 data100 到 data500 几乎不再变好（个别还略升），说明 NND 能从少量物理干净样本里准确推断系统动力学。
可迁移到真实视频：在 PISABench 真实下落视频上训练 NND，即便有运动模糊也能学到下落动力学并泛化生成新场景，PIS-vx/PIS-ay 为 0.8485/0.6008——虽低于仿真数据（0.9803/0.8189），但验证了真实数据训练的可行性，同时也凸显仿真干净数据更省事、质量更高。

亮点与洞察¶

解耦「物理推理」与「外观生成」是全文最核心的设计哲学：让 Neural ODE 专管动力学、让大生成模型专管视觉，各取所长，避免逼着生成模型同时学外观和物理。
白盒可控：用户能直接指定初始位置、速度、角速度、形状、尺寸等显式物理参数，生成结果忠实反映这些设定，这是纯黑盒 T2V 做不到的。
轻量到离谱：每种运动仅需 100 段视频、2 小时单卡训练，物理先验以「插件」形式注入而非重训生成器，工程上极具吸引力。
9 维状态 + 线性 ODE+残差 MLP 的组合在表达力与可解释性之间取得了漂亮平衡，3D 效果用尺寸/面积等价实现的取巧很聪明。

局限与展望¶

只建模连续动力学：基于连续 ODE，对多物体交互（碰撞、合并等离散事件）效果较差，作者也坦言需要未来用事件驱动或离散神经架构来补。
依赖前景物体可被 SAM2 干净分割：物理状态抽取建立在分割 + 形态学之上，背景复杂、遮挡严重或多物体场景下会变难。
运动范围受限：实验集中在 0–15 m/s、1–2 秒的短时运动，长时程、强外力时变的场景未验证。
物理干净数据的真实性 gap：仿真数据虽干净，但与真实世界纹理/光照分布存在差距，真实视频上的 PIS 明显下滑。

评分¶

新颖性: ⭐⭐⭐⭐ 将可训练 Neural ODE 形式的牛顿动力学解耦注入 T2V 管线，9 维物理状态 + 线性 ODE+残差 MLP 的统一框架设计巧妙，思路清新。
实验充分度: ⭐⭐⭐⭐ 覆盖 12 类运动、5 个强基线、PIS/BC/MS 多指标，含 MLP/数据规模/真实视频三组消融，较为扎实；不足是缺主流 VBench 物理类基准的大规模评测与用户研究。
写作质量: ⭐⭐⭐⭐ 动机清晰、把物理感知生成的三类范式梳理得很到位，公式与框架图配合好读。
价值: ⭐⭐⭐⭐ 为「物理可信 + 参数可控」的视频生成提供了轻量可复现的实用方案，对世界模型方向有启发，代码与数据开源。