PAI-Bench: A Comprehensive Benchmark for Physical AI¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/SHI-Labs/physical-ai-bench
领域: 多模态VLM
关键词: Physical AI、视频生成评测、视频理解、世界模型、可控生成

一句话总结¶

PAI-Bench 把「物理 AI 所需的预测与感知能力」拆成视频生成、条件视频生成、视频理解三条赛道，用 2808 个真实世界样本和任务对齐的指标系统评测 15 个视频生成模型与 16 个多模态大模型，结论是：当前视频生成模型画面逼真但守不住物理规律，MLLM 的物理理解远落后于人类。

研究背景与动机¶

领域现状：「物理 AI」（Physical AI）希望模型能感知真实世界、预测真实世界的动态演化，进而支撑机器人、自动驾驶等具身应用。这套能力可拆成两半：感知（理解视频里正在发生什么物理事件）主要靠多模态大模型（MLLM），预测（forecast 下一帧/下一步会怎样）主要靠视频生成模型（VGM）——后者被隐式训练去「预测未来帧」，因此被寄望为学习物理规律的世界模型。

现有痛点：两侧的评测都没踩到「物理 AI」这个点上。MLLM 的主流 benchmark 评的是 OCR、数学题、日常感知这类偏抽象/通用的能力，它们在专门的物理场景里到底行不行无人系统衡量过；VGM 的主流 benchmark（VBench、EvalCrafter 等）评的是美学质量和时序一致性，几乎不查「生成的视频符不符合物理常识」。更糟的是这些 benchmark 高度割裂——要么只测预测、要么只测感知，且没有任何 benchmark 系统评测「条件可控生成」对控制信号的忠实度。

核心矛盾：物理 AI 需要预测+感知一体化地落到真实物理场景上，而现有评测既不统一、又不物理、还不真实（很多用合成/玩具场景）。视觉保真度高 ≠ 物理可信度高，这两件事被现有指标混为一谈。

本文目标：建一个统一、真实、物理对齐的 benchmark，一次覆盖视频生成、条件视频生成、视频理解，并为每条赛道配上能反映「物理合理性」而非单纯画质的指标。

切入角度：所有评测都锚定在「真实采集的视频 + 物理上有意义的任务」上（如行车记录仪、机器人操作、第一视角），覆盖自动驾驶、机器人、工业、人类活动、物理常识等子域；并把「画质」与「物理合理性」拆成两个独立分数分别打。

核心 idea：用三轨（生成 / 条件生成 / 理解）+ 双分数（Quality Score 管画质、Domain Score 管物理合理性）的设计，把物理 AI 的预测与感知能力放在同一把尺子下系统体检。

方法详解¶

PAI-Bench 不是一个模型，而是一套评测协议 + 数据集。它把物理 AI 的能力检验拆成三条互补赛道，统一遵循「真实视频 + 物理任务」的构建原则，总计 2808 个高质量样本。下面分别讲清每条赛道测什么、数据怎么造、用什么指标打分。

整体框架¶

三条赛道各对应物理 AI 的一个能力维度：

PAI-Bench-G（视频生成）：测「预测」。给文本/首帧让 VGM 生成视频，既看画质（Quality Score）又看物理合理性（Domain Score）。
PAI-Bench-C（条件视频生成）：进一步测「预测」中的可控性。给定模糊/边缘/深度/分割等控制信号，看条件 VGM 生成的视频是否忠实于控制信号、画质如何、在相同条件下能否产出多样结果。
PAI-Bench-U（视频理解）：测「感知」。给真实视频 + 选择题，看 MLLM 能否做物理常识推理与具身推理。

三轨的样本全部来自真实世界采集（公开数据集 + 网络），并横跨自动驾驶、机器人、工业、人类、物理常识、第一视角等子域。整套评测的价值落点是一张「现状地图」：把 15 个 VGM、4 个条件 VGM（5 种控制配置）、16 个 MLLM 放进来体检，量出当前系统离真正的物理 AI 还差多远。

这是一篇 benchmark 论文，没有可训练的 pipeline——核心在「赛道怎么设计、数据怎么造、指标怎么定」，因此不画框架图，下面用关键设计逐条讲清。

关键设计¶

1. 三轨统一设计：把预测与感知一次性收进同一把尺子

物理 AI 真正需要的是「看懂当下 + 预测未来」一体化的能力，但旧 benchmark 要么只评 VGM 的画质、要么只评 MLLM 的问答，互不通气。PAI-Bench 用 G/C/U 三轨把它们焊在一起：G 与 C 都落在「预测」（VGM 作为世界模型 forecast 未来帧），U 落在「感知」（MLLM 理解视频里的物理事件）。三轨共享同一套构建原则——视频必须是真实采集（如行车记录仪），任务必须物理上有意义，子域必须覆盖具身/自驾/工业/第一视角等实际应用。如表 1 所示，相比 EvalCrafter、VBench、EgoSchema、VideoMME 等只覆盖单一能力或单一子域的 benchmark，PAI-Bench 是首个在「视频生成 + 条件生成 + 视频理解 + 全部物理子域」八个维度上全部打勾的工作，2808 个样本也兼顾了规模与质量。

2. Quality Score 与 Domain Score 双分数：把「画得像」和「合物理」拆开打

VGM 评测最大的陷阱是「画面逼真」被当成「物理正确」。PAI-Bench-G 把这两件事拆成两个独立分数。Quality Score 沿用 VBench/VBench++ 的 8 个指标（主体一致性 SC、背景一致性 BC、运动平滑 MS、美学质量 AQ、成像质量 IQ、整体一致性 OC、I2V 主体 IS、I2V 背景 IB），衡量画质与文本对齐。Domain Score 才是物理合理性的核心：先对真实视频用 Qwen2.5-VL-72B 做高保真字幕 + 人工校正，再基于物理本体论生成 QA 对（5636 条、覆盖 6 个子域），然后让 Qwen3-VL-235B-A22B 作为 judge，拿这些 QA 去「考」生成出来的视频，Domain Score 就是 judge 在这套 QA 上的回答准确率——它量的是「生成视频有没有遵守这些被 QA 编码进去的物理与语义约束」。这种 MLLM-as-judge + 任务对齐 QA 的设计，让物理合理性变成可量化、可对比的标量，而不是靠人主观感受。论文还用 arena 人类两两对比 + ELO 验证了指标与人类偏好的一致性，整体 Pearson 相关系数 \(r=0.918\)。

3. 条件赛道 PAI-Bench-C：首个系统评测「控制信号忠实度」的设置

随着 VGM 越来越多地用深度图、边缘、分割等多模态信号做引导生成，「生成结果到底听不听控制信号的话」成了实用关键，却没有任何 benchmark 系统测过。PAI-Bench-C 定义了理想可控生成的三条标准并各配指标：忠实度用一套投影-比对的保真指标——把生成视频投回对应模态空间（用 Blur Kernel / Canny / Video-Depth-Anything / GroundingDINO+SAM2 提取），再和 ground-truth 控制信号比相似度，得到 Blur SSIM↑、Edge F1↑、Depth si-RMSE↓、Mask mIoU↑；画质用 DOVER；多样性用 LPIPS。数据上从 AgiBot（机器人）、OpenDV（自驾）、Ego-Exo-4D（第一视角）各采 200 段共 600 视频，并为每段视频生成 1 条原始 caption + 5 条「换掉主导物体、场景连贯但内容新颖」的 caption，专门支撑多样性评测。

4. PAI-Bench-U 双能力本体 + 去偏设计：让「看视频答题」真考物理理解

视频理解 benchmark 的老毛病是「不看视频也能答」——模型靠语言先验或单帧静态偏置就能猜对。PAI-Bench-U 从两头治这个病。能力本体上，它把物理理解拆成两类：① 物理常识推理（Space 管空间关系/交互、Time 管时序与因果、Physical World 管物体状态与违反物理的情形），共 604 QA / 426 视频；② 具身推理（Predicting Action Effects——任务完成判定 + 下一步动作预测；Adherence to Physical Constraints——动作可行性 affordance），共 610 QA / 601 视频，源自 RoboVQA、RoboFail、BridgeData、AgiBot、HoloAssist 及自有 AV 数据。去偏上，论文用「改变输入帧数」做诊断（图 7）：0 帧（纯文本）时模型掉到随机猜水平，证明题目无法靠语言先验答对；1 帧 vs 32 帧之间有显著差距，证明题目必须依赖时序上下文、单帧静态信息不够。这两条共同保证 U 赛道的分数确实来自视觉+时序理解。

数据集构建¶

三轨数据均采「MLLM 初标 + 人工精修」两阶段：G 轨用 Qwen2.5-VL-72B 生成字幕与候选 QA、再人工校正，得 1044 个视频-prompt 对 + 5636 QA（6 子域）；C 轨从三个真实数据集各采 200 段、用 modality-specific 模型抽控制信号、并改写出新颖 caption；U 轨先收 1000+ 视频标 5737 题、严格复审后精炼到 604 高质量 QA，具身部分再标 610 QA。总计 2808 个评测样本。

实验关键数据¶

主实验¶

PAI-Bench-G（15 个 VGM，越高越好；Quality 满分参照真实源视频 78.0，Domain 源视频 89.8）：

模型	Overall	Domain Score	Quality Score
Source Videos（真实）	83.9	89.8	78.0
Veo3（闭源）	82.2	86.8	77.6
Wan2.2-I2V-A14B（开源最佳）	82.3	87.1	77.5
Cosmos-Predict2.5-2B	81.4	84.9	78.0
DynamiCrafter（弱基线）	68.3	63.0	73.7

关键反差：多数领先 VGM 的 Quality Score 已逼近甚至追平真实源视频（~78），但 Domain Score 全部低于真实视频的 89.8——画面够逼真，物理合理性却普遍掉队。

PAI-Bench-U（16 个 MLLM，越高越好）：

模型	Overall	Common Sense Avg.	Embodied Avg.
Human	93.2	93.6	95.5
Qwen3-VL-235B-A22B（最佳）	64.7	64.9	64.4
GPT-5	61.8	63.9	59.7
Qwen2.5-VL-72B	60.8	58.6	63.0
Random Guess	37.0	38.9	35.2

所有模型（最高 64.7）距人类 93.2 都有近 30 个点的鸿沟；且闭源不必然领先——开源的 Qwen3-VL-235B 反超 GPT-5。

消融/分析实验¶

PAI-Bench-C：控制信号配置对比（Cosmos-Transfer2.5-2B 为例）

控制信号	Edge F1 ↑	Mask mIoU ↑	Quality ↑	Diversity ↑
Blur 单信号	0.26	0.75	8.77	0.18
Edge 单信号	0.39	0.74	8.05	0.36
Seg 单信号	0.13	0.71	7.87	0.44
All（多信号融合）	0.45	0.77	9.24	0.13

U 轨去偏诊断（不同输入帧数，准确率 %）

配置	Qwen3-VL-8B	GPT-5	说明
#frames=0（纯文本）	39.3	37.3	掉到随机猜水平 → 无语言先验泄漏
#frames=1	43.3	52.1	单帧不够
#frames=32	47.9	68.2	必须依赖时序上下文

关键发现¶

画质 ≠ 物理：VGM 的 Quality Score 已追平真实视频，但 Domain Score 全员落后于真实视频 89.8，说明「守物理规律」才是世界模型当前的硬瓶颈。
多信号优于单信号：C 轨里 All 条件画质最高（Quality 9.24），实用启示是与其喂一段模糊/带噪的视频，不如先抽出互补控制信号再融合重建出高质量视频。
分割信号反而最不忠实：用 Seg 当控制信号时 Mask mIoU 最低，作者归因于 SAM2 等分割模型产出的 mask 时序一致性差（偶发漏掉物体），监督信号本身最噪。
指标与人对齐：Quality/Domain 分数与人类 ELO 偏好的整体 Pearson 相关达 0.918，佐证双分数设计有效。
MLLM 物理理解远未及格：最强模型仅 64.7 vs 人类 93.2，且物理 AI 显然还没成为主流 MLLM 的数据/优化重点（闭源不占优）。

亮点与洞察¶

「双分数」是这篇最值得借鉴的设计：把容易被刷高的画质指标与真正难的物理合理性指标解耦，避免「画得越漂亮分越高」的虚假繁荣——任何生成式评测都可以借这个思路把「表观质量」与「任务正确性」分开打。
Domain Score = 任务对齐 QA + MLLM-as-judge：把「物理合理性」这种难以直接量化的东西，转译成「judge 在一组预先编码了物理约束的 QA 上的准确率」，既可量化又可解释，复用性强。
用帧数消融做去偏诊断很巧：0 帧→随机、1 帧 vs 32 帧拉开差距，两条曲线同时证明「答案来自视觉 + 时序」，这是验证视频 benchmark 是否「真考视频」的好范式，可直接迁移到其他视频理解 benchmark 的质检。
投影-比对式忠实度指标：把生成视频投回控制信号所在模态空间再比相似度，给「可控生成听不听话」提供了一套可操作的量化协议。

局限与展望¶

作者把全文定位为「现状体检」，并未提出改进生成/理解模型的方法——benchmark 揭示了差距但不负责弥合。
Domain Score 依赖 MLLM judge（Qwen3-VL-235B），judge 自身的物理理解上限会传导为评测上限；当被评 MLLM 与 judge 同源时还可能存在偏好耦合 ⚠️（论文用人类 ELO 对齐做了部分缓解）。
C 轨的忠实度指标依赖深度/分割/边缘提取器（Video-Depth-Anything、SAM2、Canny 等），这些提取器本身的误差会混入分数——「分割信号最不忠实」的结论一定程度上也受 SAM2 时序抖动影响，是评测工具而非纯模型能力的反映。
U 轨为去偏统一用选择题，便于自动判分但限制了开放式生成/解释能力的评测；2808 样本相对真实物理世界的长尾仍偏小，部分子域（如工业）样本量明显少于自驾/机器人。
可改进方向：把双分数推广到「物理一致性的时序定位」（哪一帧开始违反物理）、引入与被评模型异源的 judge、补充开放式因果解释题。

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一覆盖视频生成/条件生成/理解的物理 AI benchmark，双分数与条件忠实度评测是实打实的新设置。
实验充分度: ⭐⭐⭐⭐⭐ 评了 15 VGM + 4 条件 VGM×5 配置 + 16 MLLM，并有人类 ELO 对齐、帧数去偏诊断等多角度分析。
写作质量: ⭐⭐⭐⭐ 三轨结构清晰、指标定义明确，图表充分；个别指标计算细节放到补充材料略影响自洽。
价值: ⭐⭐⭐⭐⭐ 给物理 AI 的预测与感知能力提供了统一可比的尺子，明确指出「画质达标但物理不达标、MLLM 远逊人类」两大缺口，对世界模型与具身方向有直接指导价值。