VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HA8KSQW7SO
代码: https://videophy2.github.io/
领域: 视频生成 / 评测基准
关键词: 物理常识、视频生成评测、动作中心、自动评估器、人类标注

一句话总结¶

VideoPhy-2 用 197 个真实世界动作派生出 3940 条多事件 prompt，让现代文生视频模型生成视频后由人类沿「语义遵从 / 物理常识 / 物理规则」三轴打分，揭示即便最强的 Wan2.2-27B-A14B 在 hard 子集上 joint 分也只有 47.7%，并训练了一个 7B 的 VideoPhy-2-AutoEval 自动评估器把人评成本压下来。

研究背景与动机¶

领域现状：大规模视频生成模型被寄望成为「通用物理世界模拟器」，能服务于具身策略学习、自动驾驶、游戏等下游任务。但这要求生成的视频真正遵守物理常识——网球被击打后应沿抛物线飞出、铁锤不该在挥动后变形。如何系统地衡量这种「物理可信度」是个开放问题。

现有痛点：已有评测各有硬伤。基于真值物理仿真对比（如 Physics-IQ）依赖给定真实视频的前几帧做续写比对，既不清楚是否与人类判断一致，也难以扩展到多事件复杂场景；PhyGenBench 只有 160 条手工 prompt，规模小且不可扩展。更关键的是，这类工作往往人为把一条 prompt 严格绑定到单一物理定律（如「石头放在水面」对应浮力），可现实里视频模型语义遵从本就不完美——模型可能没拍出「放在水面」却拍成了「石头从高处落入水中」，此时重力才是关键定律，一对一绑定就失效了。

核心矛盾：语义遵从（视频是否贴合文本）和物理常识（视频是否符合物理规律）是两个互相纠缠却又必须解耦的维度。把它们混在一起评（如原版 VideoPhy 让标注者同时看 prompt 评物理），标注者会因为看到 prompt 而引入偏置；而把物理定律硬绑死到 prompt 上，又会因模型语义不达标而错判。

本文目标：构建一个规模大、动作多样、带细粒度物理规则标注、且区分难度的评测集，既能精确暴露视频模型的物理短板，又能自动化评估以降低成本。

切入角度：作者主张以「真实世界动作」（如打网球、后空翻、把物体掰断）为中心组织数据，因为这些动作天然蕴含丰富物理交互，且人类无需正规物理训练、仅凭日常经验就能判断其物理可信度。同时把物理规则建立在「生成视频本身的字幕」上，而非凭空从 prompt 推导，从而保证规则与视频内容对齐。

核心 idea：以动作为种子，用 LLM 批量扩写多事件 prompt、用 VLM 在回路里抽取候选物理规则，配合解耦的三轴人评协议，得到一个 challenging 的物理常识基准，并蒸馏出多任务自动评估器。

方法详解¶

整体框架¶

VideoPhy-2 不是一个生成方法，而是一套「数据集构建 + 评估协议 + 自动评估器」的评测体系。它的输入是一批真实世界动作，输出是对任意文生视频模型的物理常识量化评分。整条管线分三大块：① 四阶段数据集构建——从 600+ 动作筛到 197 个，每个动作让 LLM 扩写 20 条多事件 prompt（共 3940 条），生成视频后由 VLM 字幕抽出候选物理规则，再用参考模型筛出 1200 条 hard prompt；② 三轴解耦人评——让人类沿语义遵从（SA）、物理常识（PC）、物理规则（PR）三个维度独立打分，合成 joint 指标；③ 把约 5 万条人标蒸馏进一个 7B 视频语言模型 VideoPhy-2-AutoEval，实现快速自动评分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["600+ 真实动作<br/>(Kinetics/UCF/SSv2)"] --> B["1. 动作中心四阶段构建<br/>筛动作→LLM扩写→视频抽规则→hard子集"]
    B --> C["3940 条 prompt<br/>+ 候选物理规则 + 1200 hard"]
    C --> D["待评视频模型<br/>生成视频"]
    D --> E["2. 三轴解耦人评协议<br/>SA / PC / PR → joint 分"]
    E -->|约 5 万条人标蒸馏| F["3. VideoPhy-2-AutoEval<br/>7B 多任务自动评分器"]
    E --> G["模型物理常识排行 + 细粒度定律违反分析"]
    F --> G

关键设计¶

1. 动作中心的四阶段数据集构建：让基准既多样又可扩展，还能定位物理规则

针对「现有基准规模小、不可扩展、且把 prompt 硬绑单一物理定律」的痛点，本文设计了四个串行阶段。Stage 1 种子动作：从 Kinetics、UCF-101、SSv2 等汇集 600+ 动作，由两组 STEM 背景的学生独立标注「是否适合物理常识评估」，过滤掉打字、抹面霜这类几乎不含显著运动的动作，只保留两组都认可的，再用 Gemini-2.0-Flash-Exp 去语义重复，最终得到 197 个动作（143 个物体交互 + 54 个体育/身体活动）。Stage 2 LLM 扩写 prompt：对每个动作让 LLM 独立生成 20 条 prompt，刻意鼓励「多事件」描述以加大难度（如「弓箭手拉满弓→放箭→箭直飞→命中靶心」而非「弓箭手放箭」），共 3940 条；再用 Mistral-NeMo-12B 的 prompt upsampler 生成稠密字幕（平均从 16 token 扩到 138 token）补充视觉细节而不改语义。Stage 3 候选物理规则：作者不直接从 prompt 推规则（因为模型语义遵从不完美），而是先用模型按 prompt 生成视频、再用 Gemini-2.0-Flash-Exp 给视频写字幕，最后据字幕生成 3 条应被遵守的物理规则——这样规则才扎根于视频内容本身；人类标注时还可补写额外被违反的规则。Stage 4 hard 子集：用强开源模型 CogVideoX-5B 在全集上生成视频，挑出它 joint 分为 0 的 60 个动作（共 1200 条 prompt）作为困难子集，这些动作集中在动量传递、状态变化、平衡、复杂运动等物理密集场景。最终 VideoPhy-2 含 3940 条字幕（是 VideoPhy 的 5.72 倍）和约 11 万条人类标注。

2. 三轴解耦的人评协议与 joint 指标：把语义和物理拆开评，避免偏置和刷分

针对「语义遵从和物理常识纠缠、混评引入偏置」的矛盾，本文把评估拆成三个独立维度。语义遵从（SA） 用 1–5 的 Likert 量表评视频是否忠实呈现 prompt 里的实体、动作、关系；物理常识（PC） 同样 1–5 量表，但关键在于标注者只看视频、不看 prompt——因为物理常识本就与生成它的文本无关，遮蔽 prompt 可避免标注者被文本诱导（这正是原版 VideoPhy 单任务混评的缺陷）；物理规则（PR） 则逐条判定候选规则在视频中是「违反(0)/遵守(1)/无法判定(CBD,2)」，CBD 类别用于兜住那些 LLM 生成、但实际并未在视频里落地的规则。主指标是 joint performance：同时满足 \(SA \geq 4\) 且 \(PC \geq 4\) 的视频占比。作者特意不用后验分 \(P(PC \geq 4 \mid SA \geq 4)\)，因为一个差模型若只对 1/1000 的 prompt 语义达标、而那条恰好物理也合理，后验分就会虚高到 100%，严重误导。每条视频由 3 名标注者评分取均值四舍五入，规则判定取多数票，inter-annotator agreement 达 80%。

3. VideoPhy-2-AutoEval：把人评蒸馏进 7B 模型，让评测快速可复现

人评是金标准但昂贵难扩展，而现成视频语言模型（Gemini、VideoScore 等）和人类一致性很差——根源是它们对物理常识和规则理解有限、又难消化复杂 prompt。为此作者以 VideoCon-Physics 为骨干微调出 7B 的 VideoPhy-2-AutoEval，用约 5 万条人类标注（花费 3515 美元采集）做多任务蒸馏：同一骨干同时学语义遵从打分(1–5)、物理常识打分(1–5)、物理规则分类(0–2)，让三任务间知识互相迁移。训练 prompt 为 3350 条（197 动作 × 17 字幕），测试 590 条（197 × 3），训练视频从 HunyuanVideo-13B、Cosmos-Diff-7B、CogVideoX-5B 三个模型采样，其余模型留作泛化测试。评估时用预测分与真值分的 Pearson 相关来衡量自动评估器质量。

实验关键数据¶

主实验¶

人评 joint performance（SA≥4 且 PC≥4 的视频占比，%）：

模型	类型	All	Hard	物理活动(PA)	物体交互(OI)
Wan2.2-27B-A14B	开源	55.4	47.7	54.5	58.6
Wan2.1-14B	开源	32.6	21.9	31.5	36.2
CogVideoX-5B	开源	25.0	0.0	24.6	26.1
Cosmos-Diff-7B	开源	24.1	10.9	22.6	27.4
Hunyuan-13B	开源	17.2	6.2	17.6	15.9
VideoCrafter-2	开源	10.5	2.9	10.1	13.1
SVD-I2V	开源	6.0	3.3	5.2	8.7
Sora	闭源	23.3	5.3	22.2	26.7
Ray2	闭源	20.3	8.3	21.0	18.5

即便最强的 Wan2.2-27B-A14B（MoE，27B 总参 / 14B 激活），全集也只有 55.4%，hard 子集掉到 47.7%；Wan2.1-14B 从 32.6% 掉到 21.9%（相对降 33%），凸显 hard 子集的区分度。值得注意的是闭源模型（Sora、Ray2）并不优于开源的 Wan2.2、CogVideoX，说明闭源未必更懂物理常识。

自动评估器 vs 现成模型（与真值分的 Pearson 相关 ×100，未见过的 prompt）：

评估器	Avg	SA	PC
VideoCon-Physics	28.5	32.0	25.0
VideoLLaVA	16.0	30.0	2.0
VideoScore	13.5	17.0	10.0
Gemini-2.0-Flash-Exp	18.5	26.0	11.0
Gemini-2.5-Flash-Exp	20.5	31.0	10.0
VideoPhy-2-AutoEval	42.0	47.0	37.0

VideoPhy-2-AutoEval 相对 Gemini-2.0 在 SA、PC 上分别相对提升约 81%、236%，在未见视频模型上也保持 41.0 的平均相关，证明蒸馏的多任务评估器显著优于通用大模型。

消融 / 分析¶

分析维度	关键发现	说明
物理定律违反分布	质量守恒、动量守恒违反率最高（约 40%）	模型最不擅长守恒律
反射 / 浮力	违反率 <20%	相对掌握较好
PA vs OI	物理活动(体育)普遍低于物体交互	体育类动作更难，需补高质量体育视频数据
SA/PC 与美学/运动相关性	相关系数极低（PC vs 美学 0.09、vs 运动 0.002）	物理常识无法靠优化画质/运动量刷出来

关键发现¶

守恒律是最大短板：质量与动量守恒违反率约 40%，远高于反射、浮力，说明视频模型对「碰撞后动量传递、物体质量不凭空出现/消失」这类约束最弱——定性例子里出现铁锤挥动后变形、标枪落地前喷出沙子、木板凭空断裂。
hard 子集真的更 hard：CogVideoX-5B 在 hard 子集上 joint 分直接归零，所有模型都大幅掉点，证明基于参考模型筛 hard instance 的策略有效。
物理常识与画质解耦：PC 和美学、运动量几乎零相关，意味着不能靠把视频拍得更漂亮、运动更剧烈来蒙混过关，必须专门把物理常识注入生成过程。

亮点与洞察¶

把物理规则扎根在「视频字幕」而非「prompt」上：先生成视频再写字幕再抽规则的两步法，巧妙绕开了「模型语义遵从不完美导致 prompt-定律绑定失效」的难题，规则与实际画面对齐，可迁移到任何需要细粒度可验证标注的生成评测。
遮蔽 prompt 评物理常识：让标注者评 PC 时看不到 prompt，是个简单但关键的去偏设计——把「视频像不像描述」和「视频物理上可不可能」彻底解耦，值得所有多维生成评测借鉴。
拒绝后验分、坚持 joint 分：作者明确指出后验分 \(P(PC\geq4\mid SA\geq4)\) 会被差模型刷爆，这种对指标可被 game 的警觉性，是设计生成基准时常被忽略的陷阱。
用参考模型自动挖 hard subset：借 CogVideoX-5B joint=0 自动框出困难动作，和 Humanity's Last Exam、ZeroBench 的思路一致，是构建有区分度基准的可复用范式。

局限与展望¶

视频限定在 6 秒以内短视频：作者为便于评估选择短视频，长时序、多阶段物理过程（如完整体操套路）的物理一致性未被覆盖。
闭源模型评估不完整：Sora 仅手动评了 60 条、Ray2 因 API 预算只评 394 条，且 Veo2、Kling 因无 API 直接缺席，闭源横向比较的样本不对等。
自动评估器相关性仍有限：VideoPhy-2-AutoEval 在 PC 上 Pearson 也只有 37，离金标准人评尚远，物理常识自动判定依然是开放难题。
物理规则由 LLM 生成：候选规则质量依赖 Gemini，虽有 CBD 类别和人工补写兜底，但规则覆盖的完备性难以保证。

评分¶

新颖性: ⭐⭐⭐⭐ 动作中心 + 视频字幕抽规则 + 三轴解耦评估的组合在物理常识评测里是清晰的增量创新。
实验充分度: ⭐⭐⭐⭐⭐ 9 个开/闭源模型 × 全集/hard/PA/OI、细粒度定律分析、自动评估器多基线对比，覆盖很全。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、指标设计动机讲得透，pipeline 各阶段交代完整。
价值: ⭐⭐⭐⭐⭐ 暴露了视频生成模型在守恒律上的系统性缺陷，是物理可信视频生成的重要标尺。