跳转至

Representation Learning for Spatiotemporal Physical Systems

会议: CVPR 2026
arXiv: 2603.13227
代码: GitHub
领域: 自监督/表示学习
关键词: JEPA, 物理系统, 表示学习, 参数估计, VICReg

一句话总结

在三个 PDE 物理系统(活性物质、剪切流、Rayleigh-Bénard 对流)上系统比较四种自监督/物理建模方法,发现隐空间预测(JEPA)在物理参数估计任务上全面优于像素级预测(VideoMAE)——MSE 相对改善 28%~51%,且 10% 微调数据即可超越 VideoMAE 的 100% 数据表现。同时,专为物理建模设计的方法并非总是最优选择。

研究背景与动机

领域现状:机器学习在时空物理系统上的主流方法是"下一帧预测"式的代理建模(surrogate modeling),目标是学习一个精确的系统演化模拟器。代表工作包括 MPP、Poseidon 等物理基础模型,以及 DISCO 等算子学习方法。

现有痛点:自回归代理模型训练昂贵且存在累积误差。更重要的是,科学研究的实际需求往往不是逐帧预测,而是估计系统的物理参数(如 Reynolds 数、Prandtl 数等)——这些参数决定了系统的定性行为(层流 vs 湍流)。哪种学习范式最能保留物理意义信息,目前缺乏系统研究。

核心矛盾:像素级预测(MAE / 自回归模型)追求视觉细节的精确重建,但这些低级细节可能与高级物理语义无关。用于物理建模的方法虽然引入了物理归纳偏置,但在下游科学任务上是否真的优于通用方法尚无定论。

本文目标 比较通用自监督方法(JEPA vs VideoMAE)和物理建模方法(MPP vs DISCO)在学习物理相关表示方面的有效性,以物理参数估计作为定量评估手段。

切入角度:物理参数决定系统时间演化行为,因此参数估计误差直接量化了表示中包含多少物理信息。这比下一帧预测误差更能反映"模型是否理解了物理"。

核心 idea:JEPA 的隐空间预测目标天然过滤低级视觉细节、保留高级动力学结构,因此比像素级预测方法能学到更好的物理表示。

方法详解

整体框架

四种方法在三个物理系统上预训练,然后冻结 encoder + 训练 attentive probe 进行物理参数估计。三个评估系统来自 The Well 数据集:活性物质(参数 \(\alpha\), \(\zeta\))、剪切流(Reynolds 数, Schmidt 数)、Rayleigh-Bénard 对流(Rayleigh 数, Prandtl 数)。

关键设计

  1. JEPA 动力学版本(隐空间时序预测):

    • 功能:给定 \(k\) 帧上下文 \(x_{t:t+k}\),学习预测下 \(k\)\(x_{t+k:t+2k}\) 在隐空间中的表示
    • 核心思路:encoder \(f: \mathcal{X} \to \mathcal{Z}\)(ConvNeXt 架构)和 predictor \(g: \mathcal{Z} \to \mathcal{Z}\)(逆瓶颈 CNN),最小化 VICReg 损失 \(\ell_{VICReg}(g(f(x_i)), f(x_{i+1})) = \lambda s + \mu[v(z_i)+v(z_{i+1})] + \nu[c(z_i)+c(z_{i+1})]\)。不变性项 \(s\) 对齐预测和目标、方差项 \(v\) 保持各维度方差(防止坍塌)、协方差项 \(c\) 去除维度间冗余相关。超参数 \(\lambda=2, \mu=40, \nu=2\)
    • 设计动机:不重建像素,而是在表示空间中预测未来。这迫使 encoder 只保留对动力学预测有用的高级信息,自然过滤掉与物理无关的低级视觉纹理
  2. VideoMAE 对比(像素级 masked 重建):

    • 功能:随机 mask 时空块,从未 mask 的部分重建被 mask 的像素
    • 核心思路:ViT-small/16 架构,时间 tube masking(所有帧共享同一空间 mask),优化像素级 MSE 重建损失
    • 设计动机:作为像素级自监督学习的代表,测试像素重建是否也能捕获物理信息
  3. 物理建模基线(DISCO 和 MPP):

    • 功能:DISCO 是基于算子学习的上下文推理方法,从短上下文窗口推断轨迹特定的演化算子;MPP 是自回归物理基础模型,逐帧预测像素值
    • 核心思路:DISCO 结合 Transformer 的上下文学习能力和神经算子的物理归纳偏置,推断出的算子用于积分求解;MPP 训练在大量物理数据上学习通用的空间-时间-物理场预测
    • 设计动机:代表"专为物理设计"的两条技术路线——算子学习(隐空间)和自回归基础模型(像素级)

损失函数 / 训练策略

JEPA 和 VideoMAE 各系统单独预训练 6 epochs。MPP 用已发布预训练权重 + 端到端微调(因预训练不含这三个数据集)。DISCO 用 The Well 数据预训练。所有模型微调 100 epochs,AdamW + cosine schedule。

实验关键数据

主实验

方法 活性物质 MSE↓ 剪切流 MSE↓ RB 对流 MSE↓
JEPA 0.079 0.38 0.13
VideoMAE 0.160 0.67 0.18
DISCO 0.057 0.13 0.01
MPP (端到端微调) 0.230 0.59 0.08

数据效率实验(剪切流)

微调数据量 JEPA VideoMAE
10% (~3.2k) 0.57 0.98
50% (~16k) 0.40 0.75
100% (~32k) 0.38 0.67

关键发现

  • JEPA 全面优于 VideoMAE:三个系统上相对改善 51%(活性物质)、43%(剪切流)、28%(RB 对流),证明隐空间预测比像素重建更能保留物理信息
  • JEPA 数据效率极高:仅用 10% 微调数据(~3.2k 样本),JEPA 的 MSE(0.57)已优于 VideoMAE 用 100% 数据(0.67),说明 JEPA 表示的物理信息密度更高
  • 隐空间方法一致优于像素级方法:DISCO(隐空间算子学习)和 JEPA(隐空间预测)分别是各自类别的最强模型;MPP(像素级自回归)和 VideoMAE(像素级重建)是较弱的。这与 NLP 领域 BERT(encoder-only)优于 GPT(自回归)在非生成任务上的类比一致
  • 专用物理方法不总是最优:MPP 虽然专为物理建模设计且经过端到端微调,在两个系统上不如仅冻结 encoder+probe 的 JEPA,说明自回归像素预测目标可能与下游物理理解任务不对齐
  • 方法间存在系统特异性:DISCO 在 RB 对流上表现极强(0.01),但 JEPA 在该系统上的优势相对 VideoMAE 最小(0.13 vs 0.18)——说明不同物理系统可能需要不同的归纳偏置

亮点与洞察

  • 评估范式的转变:从"预测未来帧"转向"估计物理参数"来评估表示学习的质量,这个视角转换对科学机器学习有深远意义。产生以下洞察——预测像素精确 ≠ 理解物理
  • 隐空间预测作为物理表示学习的优越范式:JEPA 不追求像素精度,反而能学到更好的物理表示。这可以解释为:像素级目标迫使模型分配容量来编码视觉纹理细节,稀释了对高级动力学结构(如对流模式、涡旋形成)的表达。隐空间预测通过跳过像素细节,让模型聚焦于"什么是预测未来所必需的"——而这恰好与物理参数高度相关
  • VICReg 防坍塌三要素的设计:方差约束(防止维度坍塌)+ 协方差约束(防止维度冗余)+ 不变性约束(对齐预测和目标)的组合为 JEPA 提供了稳定的训练信号

局限与展望

  • 评估系统有限:仅三个 2D PDE 系统,未涉及 3D 湍流、多物理场耦合等更复杂场景
  • JEPA 未与 DISCO 直接对比条件:DISCO 使用了物理归纳偏置(算子学习框架),JEPA 是完全通用的。如果给 JEPA 也加入物理归纳偏置(如物理约束损失),可能进一步缩小与 DISCO 的差距
  • 未探索联合预训练:所有 JEPA 和 VideoMAE 模型都在单个系统上独立预训练,跨系统联合预训练(类似基础模型思路)的效果未知
  • 下游任务单一:仅评估了参数估计,定性预测(如层流→湍流转变检测)、异常检测等其他科学任务未涉及
  • encoder 架构受限:JEPA 用 ConvNeXt,VideoMAE 用 ViT-small——架构差异可能混淆结论,需要同一架构下的对比

相关工作与启发

  • vs VideoMAE: VideoMAE 在像素空间重建,保留了大量低级视觉信息但稀释了物理语义。JEPA 在隐空间预测,过滤掉像素细节后保留更纯粹的物理结构信息
  • vs MPP (自回归物理基础模型): MPP 虽然在大量物理数据上预训练,但自回归目标泛化到参数估计任务时不如 JEPA。这呼应了 NLP 中 BERT vs GPT 在理解任务上的对比
  • vs DISCO (算子学习): DISCO 效果最强但需要物理归纳偏置。JEPA 作为完全通用的方法接近 DISCO 水平,提示隐空间预测范式本身可能已捕获部分算子结构

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统比较自监督范式在物理参数估计上的表现
  • 实验充分度: ⭐⭐⭐ 三个系统、四种方法,但评估任务单一
  • 写作质量: ⭐⭐⭐⭐ 论证清晰,结论有洞察力
  • 价值: ⭐⭐⭐⭐ 对科学机器学习的表示学习范式选择有重要指导意义