PhysInOne: Visual Physics Learning and Reasoning in One Suite¶

会议: CVPR 2026
arXiv: 2604.09415
代码: https://vlar-group.github.io/PhysInOne.html
领域: 多模态VLM/物理推理
关键词: 物理学习, 合成数据集, 世界模型, 视频生成, 物理推理

一句话总结¶

PhysInOne是一个包含153,810个动态3D场景和200万个标注视频的大规模合成数据集，覆盖力学、光学、流体动力学和磁学的71种基本物理现象，为物理感知的世界模型建立了新基准。

研究背景与动机¶

领域现状：当前AI模型在物理世界理解上严重不足——AI生成的视频频繁违反基本物理定律（物体向上坠落、突然变速等）。已有物理数据集规模极小（几百到几千样本），限制了物理学习的进展。

现有痛点：缺乏大规模、高质量的训练数据来覆盖各种物理对象、场景和物理现象。现有数据集要么仅涉及单一物理现象（如碰撞），要么使用简单几何体，无法反映真实世界的复杂性。

核心矛盾：物理感知AI需要在多样化场景中学习多种物理现象的联合效果，但数据集规模不足以支撑。

本文目标：创建一个比现有数据集大数个数量级的合成物理数据集，覆盖日常生活中的绝大多数物理现象。

切入角度：基于大学物理教材系统性地识别71种关键物理现象，使用物理引擎生成严格遵循物理定律的动态3D场景。

核心idea：规模化合成物理数据+多对象复杂交互+完整的真值标注，为物理感知世界模型提供数据基础设施。

方法详解¶

整体框架¶

PhysInOne 的构建是一条六阶段的合成数据流水线：(1) 以大学物理教材为提纲，系统梳理力学、光学、流体动力学、磁学四大领域的 71 种基本物理现象及其支配定律；(2) 收集 2,231 个常见 3D 物体（按刚体、可交互、可破坏、可形变、颗粒、液体 6 类组织）、623 种材质、528 个背景，搭成构建场景的素材库；(3) 把基本现象按单/双/三物理组合成 3,284 种"物理活动"，再为每种活动放入多个物体、设置背景、变换材质，实例化出 153,810 个多对象 3D 场景；(4) 用 Chaos Physics (UE5)、MPM (Taichi)、SPH 三套引擎分别仿真刚体、形变/颗粒、液体的动力学，保证每一帧严格满足物理定律；(5) 每个场景架 12 个固定相机 + 1 个运动相机渲染，得到 200 万段视频；(6) 人工撰写文本描述并自动导出几何、语义、运动、物理属性等多维真值标注，按 8:1:1 划分且保证资产不跨集泄漏。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    B["系统性物理现象覆盖<br/>教材梳理力学/光学/流体/磁学 71 种现象"]
    D["3D 资产库<br/>2,231 物体(6 类)+623 材质+528 背景"]
    B --> C["多物理·多对象场景构建<br/>单/双/三物理组合 3,284 活动 → 153,810 场景"]
    D --> C
    subgraph SIM["多引擎仿真与多相机渲染"]
        direction TB
        F["多引擎物理仿真<br/>Chaos(UE5)/MPM(Taichi)/SPH 逐帧合法"] --> G["多相机渲染<br/>12 固定 + 1 运动相机 → 200 万视频"]
    end
    C --> SIM
    SIM --> H["全方位标注与划分<br/>几何/语义/运动/物理/文本 · 8:1:1 无泄漏"]
    H --> I(["下游应用：视频生成 / 帧预测 / 物理属性估计 / 运动迁移"])

关键设计¶

1. 系统性物理现象覆盖：用教材当"现象清单"，把数据集的覆盖面从个位数顶到 71 种

前人数据集最大的短板是只盯着 1-9 种现象（CLEVRER 只有碰撞），训出来的模型一换场景就失效。PhysInOne 的做法是不靠拍脑袋挑现象，而是直接以《Fundamentals of Physics》教材和相关研究为提纲，系统性地梳理力学、光学、流体动力学、磁学四大领域，逐条对照教材把重力、反射、浮力、磁引力等 71 种基本现象全部纳入。热力学和声学被显式排除——前者无法用视觉直接观测、后者需要额外的传感数据，留在视频数据集里只会引入无法验证的噪声。这样一来覆盖面不是某个作者的主观选择，而是有外部教材体系背书，接近"日常视觉物理"的完整集合。

2. 多物理·多对象场景构建：用素材库把抽象现象组合、再实例化成 15 万个耦合场景

只识别出 71 种现象还只是概念清单，要变成可训练的数据得"长出"具体场景。PhysInOne 先备好素材：2,231 个常见物体（按刚体、可交互如可转风扇、可破坏如玻璃、可形变、颗粒、液体 6 类组织）、623 种材质、528 个室内外背景，且都允许商用。再做两件事把素材"组装"成场景。其一是多物理组合——真实世界里物理现象很少单独出现（球滚下斜坡同时还在反光、还可能掉进水里激起涟漪），所以把基本现象按单/双/三物理组合：71 种单物理 + 人工筛掉无意义组合后保留的 943 种双物理 + 2270 种三物理 = 3,284 种"物理活动"。其二是场景实例化——为每种活动放入多个物体、设置背景、变换材质，平均每种活动衍生 46.84 个场景，最终得到 153,810 个多对象 3D 场景，且复杂度随组合上升（单/双/三物理场景平均含 3.9/6.3/7.8 个物体）。这样让多种现象在同一场景耦合发生、用复杂物体替代简单基元，既逼模型学联合规律，又让视觉分布更接近真实数据。

3. 多引擎仿真与多相机渲染：分材质类型选引擎保物理合法，多视角把场景放大成 200 万视频

场景搭好后只是静态摆设，要让它"动起来且动得对"，关键在仿真求解器的选择。PhysInOne 按物体物理类型分派最合适的引擎：绝大多数日常现象交给 UE5 内置的 Chaos Physics，可形变物体和颗粒（如沙子）用 Taichi 实现的 MPM，液体（水、奶油等）用 Doriflow 的 SPH——这样牛顿定律、质量守恒、（角）动量守恒、胡克定律等约束才能逐帧成立，生成的每一帧都物理合法（也是关键设计 1、2 里"严格遵循物理定律"承诺的落地处）。仿真完成后再为每个场景架 12 个固定相机（上半球 30°~60° 仰角均匀分布）+ 1 个沿轨迹环绕的运动单目相机，统一 1120×1120@30FPS 渲染（含激光的 8780 个场景用 60FPS），平均时长 5.2 秒。正是这"一个场景 13 段视频"的多视角放大，把 153,810 个场景撑成 200 万段视频，构成数据规模数量级跃升的直接来源。

4. 全方位标注与划分：把数据集同时做成训练资源和评估基准

只有像素和文本描述的数据集，下游能用的任务很有限。PhysInOne 给每个场景配齐了 3D 网格、运动轨迹、2D 掩码、材质属性、深度图、相机姿态、文本描述等多层标注，覆盖几何、语义、运动、物理属性、文本五个维度；其中文本由人工撰写、并用 Qwen3 校对语法（平均每场景约 64 个英文词），其余真值在渲染时自动导出。数据按 8:1:1 划分训练/验证/留出测试集，并保证同一 3D 资产只出现在一个划分里以杜绝数据泄漏。200 万段视频的标注规模比已有任何物理数据集大数个数量级，这意味着它不只是"喂数据"的训练集——有了真值轨迹和物理属性，就能直接量化评估一个模型到底有没有学懂物理，从而同时承担训练数据和能力基准两个角色。

损失函数 / 训练策略¶

PhysInOne本身是数据集而非模型。论文展示了在四个应用上的微调效果，使用各任务对应的标准训练策略。

实验关键数据¶

主实验¶

应用	模型	PhysInOne微调后	效果
物理感知视频生成	SVD/CogVideoX/WAN	物理合理性显著提升	运动更符合物理定律
未来帧预测	TiNeuVox/DefGS等	预测质量提升	时空一致性增强
物理属性估计	多种模型	暴露关键差距	内在属性估计仍困难
运动迁移	多种模型	效果提升	物理合理的运动转移

消融实验¶

配置	关键指标	说明
无PhysInOne微调	物理违反频繁	基础模型缺乏物理知识
少量子集微调	部分提升	数据量与物理理解正相关
完整微调	最优	大规模数据显著增益

关键发现¶

在PhysInOne上微调显著提升了视频生成的物理合理性，证明了规模化合成物理数据的价值
基础模型在内在物理属性（质量、摩擦力等）的估计上仍然存在根本性差距
复杂多物理现象场景是当前模型最困难的场景，单一现象训练不足以泛化

亮点与洞察¶

数量级的规模优势：153K场景/200万视频，比最大的前人数据集大几个数量级
系统性的物理覆盖：71种现象覆盖日常物理的绝大部分，可作为物理AI的标准化训练数据
暴露关键差距：实验同时展示了基础模型在物理推理上的进步和根本局限，为未来研究指明方向

局限与展望¶

合成数据与真实物理仍存在域差距
排除了热力学和声学，非视觉物理现象未覆盖
文本描述为人工标注，可能成为扩展瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 规模和覆盖范围的突破性提升
实验充分度: ⭐⭐⭐⭐ 四种应用任务的全面验证
写作质量: ⭐⭐⭐⭐ 组织清晰，动机充分
价值: ⭐⭐⭐⭐⭐ 作为物理AI的基础设施级贡献