Representation Learning for Spatiotemporal Physical Systems¶

会议: CVPR 2026
arXiv: 2603.13227
代码: GitHub
领域: 自监督/表示学习
关键词: JEPA, 物理系统, 表示学习, 参数估计, VICReg

一句话总结¶

在三个 PDE 物理系统（活性物质、剪切流、Rayleigh-Bénard 对流）上系统比较四种自监督/物理建模方法，发现隐空间预测（JEPA）在物理参数估计任务上全面优于像素级预测（VideoMAE）——MSE 相对改善 28%~51%，且 10% 微调数据即可超越 VideoMAE 的 100% 数据表现。同时，专为物理建模设计的方法并非总是最优选择。

研究背景与动机¶

领域现状：机器学习在时空物理系统上的主流方法是"下一帧预测"式的代理建模（surrogate modeling），目标是学习一个精确的系统演化模拟器。代表工作包括 MPP、Poseidon 等物理基础模型，以及 DISCO 等算子学习方法。

现有痛点：自回归代理模型训练昂贵且存在累积误差。更重要的是，科学研究的实际需求往往不是逐帧预测，而是估计系统的物理参数（如 Reynolds 数、Prandtl 数等）——这些参数决定了系统的定性行为（层流 vs 湍流）。哪种学习范式最能保留物理意义信息，目前缺乏系统研究。

核心矛盾：像素级预测（MAE / 自回归模型）追求视觉细节的精确重建，但这些低级细节可能与高级物理语义无关。用于物理建模的方法虽然引入了物理归纳偏置，但在下游科学任务上是否真的优于通用方法尚无定论。

本文目标 比较通用自监督方法（JEPA vs VideoMAE）和物理建模方法（MPP vs DISCO）在学习物理相关表示方面的有效性，以物理参数估计作为定量评估手段。

切入角度：物理参数决定系统时间演化行为，因此参数估计误差直接量化了表示中包含多少物理信息。这比下一帧预测误差更能反映"模型是否理解了物理"。

核心 idea：JEPA 的隐空间预测目标天然过滤低级视觉细节、保留高级动力学结构，因此比像素级预测方法能学到更好的物理表示。

方法详解¶

整体框架¶

四种方法在三个物理系统上预训练，然后冻结 encoder + 训练 attentive probe 进行物理参数估计。三个评估系统来自 The Well 数据集：活性物质（参数 \(\alpha\), \(\zeta\)）、剪切流（Reynolds 数, Schmidt 数）、Rayleigh-Bénard 对流（Rayleigh 数, Prandtl 数）。

关键设计¶

JEPA 动力学版本（隐空间时序预测）:
- 功能：给定 \(k\) 帧上下文 \(x_{t:t+k}\)，学习预测下 \(k\) 帧 \(x_{t+k:t+2k}\) 在隐空间中的表示
- 核心思路：encoder \(f: \mathcal{X} \to \mathcal{Z}\)（ConvNeXt 架构）和 predictor \(g: \mathcal{Z} \to \mathcal{Z}\)（逆瓶颈 CNN），最小化 VICReg 损失 \(\ell_{VICReg}(g(f(x_i)), f(x_{i+1})) = \lambda s + \mu[v(z_i)+v(z_{i+1})] + \nu[c(z_i)+c(z_{i+1})]\)。不变性项 \(s\) 对齐预测和目标、方差项 \(v\) 保持各维度方差（防止坍塌）、协方差项 \(c\) 去除维度间冗余相关。超参数 \(\lambda=2, \mu=40, \nu=2\)
- 设计动机：不重建像素，而是在表示空间中预测未来。这迫使 encoder 只保留对动力学预测有用的高级信息，自然过滤掉与物理无关的低级视觉纹理
VideoMAE 对比（像素级 masked 重建）:
- 功能：随机 mask 时空块，从未 mask 的部分重建被 mask 的像素
- 核心思路：ViT-small/16 架构，时间 tube masking（所有帧共享同一空间 mask），优化像素级 MSE 重建损失
- 设计动机：作为像素级自监督学习的代表，测试像素重建是否也能捕获物理信息
物理建模基线（DISCO 和 MPP）:
- 功能：DISCO 是基于算子学习的上下文推理方法，从短上下文窗口推断轨迹特定的演化算子；MPP 是自回归物理基础模型，逐帧预测像素值
- 核心思路：DISCO 结合 Transformer 的上下文学习能力和神经算子的物理归纳偏置，推断出的算子用于积分求解；MPP 训练在大量物理数据上学习通用的空间-时间-物理场预测
- 设计动机：代表"专为物理设计"的两条技术路线——算子学习（隐空间）和自回归基础模型（像素级）

损失函数 / 训练策略¶

JEPA 和 VideoMAE 各系统单独预训练 6 epochs。MPP 用已发布预训练权重 + 端到端微调（因预训练不含这三个数据集）。DISCO 用 The Well 数据预训练。所有模型微调 100 epochs，AdamW + cosine schedule。

实验关键数据¶

主实验¶

方法	活性物质 MSE↓	剪切流 MSE↓	RB 对流 MSE↓
JEPA	0.079	0.38	0.13
VideoMAE	0.160	0.67	0.18
DISCO	0.057	0.13	0.01
MPP (端到端微调)	0.230	0.59	0.08

数据效率实验（剪切流）¶

微调数据量	JEPA	VideoMAE
10% (~3.2k)	0.57	0.98
50% (~16k)	0.40	0.75
100% (~32k)	0.38	0.67

关键发现¶

JEPA 全面优于 VideoMAE：三个系统上相对改善 51%（活性物质）、43%（剪切流）、28%（RB 对流），证明隐空间预测比像素重建更能保留物理信息
JEPA 数据效率极高：仅用 10% 微调数据（~3.2k 样本），JEPA 的 MSE（0.57）已优于 VideoMAE 用 100% 数据（0.67），说明 JEPA 表示的物理信息密度更高
隐空间方法一致优于像素级方法：DISCO（隐空间算子学习）和 JEPA（隐空间预测）分别是各自类别的最强模型；MPP（像素级自回归）和 VideoMAE（像素级重建）是较弱的。这与 NLP 领域 BERT（encoder-only）优于 GPT（自回归）在非生成任务上的类比一致
专用物理方法不总是最优：MPP 虽然专为物理建模设计且经过端到端微调，在两个系统上不如仅冻结 encoder+probe 的 JEPA，说明自回归像素预测目标可能与下游物理理解任务不对齐
方法间存在系统特异性：DISCO 在 RB 对流上表现极强（0.01），但 JEPA 在该系统上的优势相对 VideoMAE 最小（0.13 vs 0.18）——说明不同物理系统可能需要不同的归纳偏置

亮点与洞察¶

评估范式的转变：从"预测未来帧"转向"估计物理参数"来评估表示学习的质量，这个视角转换对科学机器学习有深远意义。产生以下洞察——预测像素精确 ≠ 理解物理
隐空间预测作为物理表示学习的优越范式：JEPA 不追求像素精度，反而能学到更好的物理表示。这可以解释为：像素级目标迫使模型分配容量来编码视觉纹理细节，稀释了对高级动力学结构（如对流模式、涡旋形成）的表达。隐空间预测通过跳过像素细节，让模型聚焦于"什么是预测未来所必需的"——而这恰好与物理参数高度相关
VICReg 防坍塌三要素的设计：方差约束（防止维度坍塌）+ 协方差约束（防止维度冗余）+ 不变性约束（对齐预测和目标）的组合为 JEPA 提供了稳定的训练信号

局限与展望¶

评估系统有限：仅三个 2D PDE 系统，未涉及 3D 湍流、多物理场耦合等更复杂场景
JEPA 未与 DISCO 直接对比条件：DISCO 使用了物理归纳偏置（算子学习框架），JEPA 是完全通用的。如果给 JEPA 也加入物理归纳偏置（如物理约束损失），可能进一步缩小与 DISCO 的差距
未探索联合预训练：所有 JEPA 和 VideoMAE 模型都在单个系统上独立预训练，跨系统联合预训练（类似基础模型思路）的效果未知
下游任务单一：仅评估了参数估计，定性预测（如层流→湍流转变检测）、异常检测等其他科学任务未涉及
encoder 架构受限：JEPA 用 ConvNeXt，VideoMAE 用 ViT-small——架构差异可能混淆结论，需要同一架构下的对比

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统比较自监督范式在物理参数估计上的表现
实验充分度: ⭐⭐⭐ 三个系统、四种方法，但评估任务单一
写作质量: ⭐⭐⭐⭐ 论证清晰，结论有洞察力
价值: ⭐⭐⭐⭐ 对科学机器学习的表示学习范式选择有重要指导意义