Chain of Event-Centric Causal Thought for Physically Plausible Video Generation¶
会议: CVPR 2026
arXiv: 2603.09094
代码: 即将开源
领域: 视频生成
关键词: 物理合理性视频生成、因果推理、事件链、跨模态提示、思维链
一句话总结¶
将物理合理性视频生成(PPVG)建模为因果连接的事件序列,通过物理公式驱动的事件链推理将复杂物理现象分解为有序事件,再通过过渡感知的跨模态提示生成语义-视觉双重条件,引导视频扩散模型生成遵循因果演进的物理现象视频。
研究背景与动机¶
物理合理性视频生成(PPVG)旨在使生成的视频遵循真实世界的物理规律,在电影制作、自动驾驶、具身智能等领域有广泛应用。当前的挑战在于:
- 视频扩散模型缺乏常识推理能力:Kling、Sora 等模型可生成逼真场景,但简短的提示语无法传达详细的物理法则,模型也无法隐式推断物理常识
- 现有 PPVG 方法的局限:PhyT2V、DiffPhy 等方法利用 LLM 将物理概念嵌入提示语,但通常将物理现象简化为单一时刻的静态描述,缺乏对因果演进过程的建模
- 两个核心挑战:
- 因果歧义:真实世界的物理现象展开为因果有序的事件单元,简单的语义标签无法捕捉其动态本质,需要结构化的因果确定性分解
- 物理一致性约束不足:语言本身无法传达事件间的因果连续性,视觉线索(如参考视频)可提供过渡的观测证据,但与特定物理现象紧密对齐的视觉先验难以获取
作者的关键视角转换:将物理现象视为因果连接且动态演化的事件序列,而非单一场景的静态描述。
方法详解¶
整体框架¶
框架 \(\Gamma: w \rightarrow \mathbf{V}\) 包含两个协同模块: 1. PECR(物理驱动事件链推理):将用户描述中的复杂物理现象解释为有序的物理事件集合 2. TCP(过渡感知跨模态提示):将 PECR 推断的事件链桥接到视频生成过程,动态合成随物理过程演化的语义-视觉双条件
生成过程:\(\mathbf{Z}_{\tau_z-1} = \epsilon_\theta(\mathbf{Z}_{\tau_z}; \mathbf{W})\),其中 \(\mathbf{Z}_{\tau_z}\) 为视觉先验,\(\mathbf{W}\) 为语义嵌入。
关键设计¶
-
物理公式接地 (Physics Formula Grounding):先通过问答确定物理法则 \(\mathcal{L}\)(如牛顿力学、热力学),再推断公式名称 \(\mathcal{N}_\mathcal{L}\) 并从知识库检索物理公式 \(\mathcal{F}^*\)。通过 \(\mathcal{F}^* = \text{TopK}_{f \in \mathcal{F}_\mathcal{L}} P(f | \mathcal{N}_\mathcal{L}, \mathcal{L})\) 进行公式检索。当直接匹配失败时,使用知识库中的公式重新生成名称。这将物理常识从模糊的语义推理提升为基于标准公式的定量分析。
-
物理现象分解 (Physical Phenomena Decomposition):将物理现象分解为有序事件序列 \(\{\mathcal{E}_t\}_{t=1}^T = \{\{\mathcal{C}_t\}, \{\mathcal{G}_t\}\}\),其中 \(\mathcal{C}_t\) 为物理条件,\(\mathcal{G}_t\) 为动态场景图。物理参数的显著变化确定事件边界:\(\mathcal{C}_t = \{(\mathbf{P}_t, \mathcal{F}^*(\mathbf{P}_t)) | \|\mathbf{P}_t - \mathbf{P}_{t-1}\| > \tau_p\}\)。场景图通过 \(\mathcal{G}_t = \Phi(\mathcal{G}_{t-1}, \mathcal{C}_t)\) 更新,涵盖节点的外观/语义标签变化和边的交互关系变化。相邻事件的参数通过物理连续性检验进行验证。
-
过渡感知跨模态提示 (TCP):包含两个子模块:
- 渐进叙事修订 (PNR):基于前序上下文对事件描述进行最小渐进修订 \(w_t = \text{LLM}(w_{t-1} + \Delta(w_{t-1}, \mathcal{C}_t, \mathcal{G}_t))\),通过语义凝缩和因果连接词将多个事件描述合并为正向语义提示,同时构建负向描述。物理条件约束物理允许的过渡(如温度升高允许"融化"排除"冰冻"),场景图保持对象身份一致
- 交互式关键帧合成 (IKS):为每个事件通过交互式图像编辑合成关键帧 \(v_t = \text{Edit}(v_{t-1}; \mathcal{O}_t)\),编辑算子 \(\mathcal{O}_t\) 由连续物理条件变化确定(约束拖拽幅度和视觉变化区域)。使用 VAE 编码关键帧,通过线性插值生成中间帧:\(\mathbf{z}_{0,t} = \text{INTERP}(\psi_{\text{img}}(v_{t-1}), \psi_{\text{img}}(v_t); d_t)\),并添加噪声作为去噪先验
损失函数 / 训练策略¶
本框架是免训练的推理时方法: - 基础模型:CogVideoX 5B,161 帧,1360×768 分辨率 - 语言推理:GPT-OSS-20B - 关键帧生成:Qwen-Image 系列(Edit 模型) - 事件数量通过实验确定为 4 个(平衡时序监督和关键帧稳定性)
实验关键数据¶
主实验 - PhyGenBench¶
| 方法 | 力学 | 光学 | 热学 | 材料 | 平均↑ |
|---|---|---|---|---|---|
| CogVideoX-5B | 0.39 | 0.55 | 0.40 | 0.42 | 0.45 |
| + PhyT2V | 0.45 | 0.55 | 0.43 | 0.53 | 0.50 |
| + PhysHPO (前SOTA) | 0.55 | 0.68 | 0.50 | 0.65 | 0.61 |
| + Ours | 0.67 | 0.72 | 0.65 | 0.60 | 0.66 |
PhyGenBench 上整体性能 0.66,超越前 SOTA PhysHPO 8.19%。
现象检测 (PD) / 物理顺序 (PO) 细分:
| 方法 | 力学PD/PO | 光学PD/PO | 热学PD/PO | 材料PD/PO |
|---|---|---|---|---|
| DiffPhy | 0.73/0.53 | 0.83/0.66 | 0.70/0.58 | 0.73/0.43 |
| Ours | 0.79/0.79 | 0.84/0.85 | 0.78/0.69 | 0.75/0.58 |
物理顺序 (PO) 提升尤为显著,证明因果事件链建模的有效性。
消融实验¶
| 变体 | 力学 | 光学 | 热学 | 材料 | 平均 |
|---|---|---|---|---|---|
| 完整方法 | 0.67 | 0.72 | 0.65 | 0.60 | 0.66 |
| w/o PFG(物理公式接地) | 0.63 | 0.69 | 0.61 | 0.53 | 0.62 |
| w/o PPD(物理现象分解) | 0.58 | 0.67 | 0.61 | 0.52 | 0.59 |
| w/o PNR(渐进叙事修订) | 0.65 | 0.70 | 0.64 | 0.56 | 0.64 |
| w/o IKS(交互关键帧合成) | 0.50 | 0.64 | 0.58 | 0.48 | 0.55 |
关键发现¶
- IKS 贡献最大(-17%):显式生成专属关键帧对锚定跨帧动态和保持物理基础的视觉演进至关重要
- PPD 贡献显著(-11%):将复杂过程分解为逻辑有序的事件链对生成真实的物理现象演进不可或缺
- PFG 同样重要(-6%):标准物理公式提供定量理解物理法则的基础
- 最优事件数量为 4:过少(1-3)提供弱时序监督,过多(5-6)在关键帧编辑传播中累积误差
- VideoPhy 上同样领先:整体 SA=1, PC=1 得分 49.3%,超越前 SOTA 约 3.4%
亮点与洞察¶
- 范式创新:将物理现象从"单一时刻静态描述"提升为"因果连接的事件序列",这是对 PPVG 问题建模的根本性改变
- 物理公式接地的设计在 CoT 推理中嵌入确定性物理约束,解决了纯语言推理的因果歧义问题
- 双模态协同提示(语义+视觉)比单纯的语言提示能更好地约束物理过渡的连续性
- 框架与视频生成模型解耦,可即插即用到不同的视频扩散模型
局限与展望¶
- 组合物理法则失败:当场景受多个物理法则共同支配时,基础模型的组合物理推理能力不足导致生成失败
- 依赖外部 LLM(GPT-OSS-20B)和图像编辑模型(Qwen-Image-Edit),pipeline 复杂度较高
- 关键帧通过编辑传播会累积误差,限制了可支持的事件数量
- 物理参数变化的阈值 \(\tau_p\) 和事件数量需要手动设定
- 评估指标(PCA)本身依赖 LLM,可能存在评估偏差
相关工作与启发¶
- DiffPhy/PhyT2V:通过物理感知提示增强生成,但缺乏因果建模,将现象简化为单一场景
- PhysHPO:层次化细粒度偏好优化,前 SOTA 但仍缺乏事件序列建模
- Z-Sampling/Visual-CoG:将 CoT 推理嵌入视觉生成,但主要关注语义和空间推理,忽略物理因果
- 启发:事件链 + 物理公式接地的思路可推广到其他需要因果推理的视频生成任务(如长视频叙事、模拟仿真等)
评分¶
- 新颖性: 8/10 — 事件链建模 + 物理公式接地的组合新颖,问题定义清晰
- 实验充分度: 8/10 — 两个 benchmark 全面验证,消融完整,但缺乏用户研究
- 写作质量: 8/10 — 结构清晰,模块化设计描述详尽
- 价值: 7/10 — 推理 pipeline 较重,实用部署可能受限,但为 PPVG 提供了重要的研究方向