OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/allenai/olmoearth_pretrain
领域: 遥感 / 地球观测基础模型 / 自监督表示学习
关键词: 地球观测、基础模型、潜空间掩码建模、多模态、稳定训练

一句话总结¶

OlmoEarth 用一套专为地球观测设计的自监督配方（冻结随机投影做目标编码器的 Latent MIM Lite + 模态感知掩码 + 模态内对比损失），在潜空间里稳定地训练时空多模态基础模型，在 24 个嵌入任务里 15 个、29 个微调任务里 19 个超过其他 12 个基础模型，并落地成服务公益组织的端到端平台。

研究背景与动机¶

领域现状：地球观测（Earth Observation, EO）数据很特殊——它像图像一样有空间结构、像视频/文本一样有时序、又天然多模态（多颗卫星 + 多种衍生图层）。近两年 EO 基础模型（Galileo、TerraMind、CROMA、Prithvi 等）在研究 benchmark 上表现亮眼，主流做法已从「像素空间重建」转向「潜空间掩码建模」。

现有痛点：作者在复现已有工作时反复遇到三件事——训练不稳定、表示坍缩（representation collapse）、模型实际表现远低于其宣称潜力。潜空间方法（I-JEPA、Latent MIM）特征质量好但容易崩；像素空间 MAE 稳定但特征质量受限。两头都不理想。同时这些大模型「又大又难训又贵」，公益/非营利组织根本用不起。

核心矛盾：稳定性与特征质量之间存在 trade-off。Latent MIM 这类方法靠一个在线更新的目标编码器（target encoder）产生预测目标，但这个动态目标正是坍缩与不稳定的根源；换成像素重建虽稳，却丢掉了潜空间建模的表达力。

本文目标：① 找到一个既稳定又保留潜空间表达力的训练配方；② 把 EO 的多模态特性（多卫星、多波段组、观测 vs 地图）显式编进自监督目标；③ 把模型做成开放、端到端、能让 NGO 真正用起来的平台。

切入角度：作者发现「随机投影」本身就能从原始输入里抽出非平凡且对预测有用的特征——既然如此，目标编码器根本不必是一个会变化、会坍缩的可学习网络，用一个冻结的随机线性投影当目标就够了。

核心 idea：用「冻结的随机初始化线性投影」代替「在线/动量更新的目标编码器」，在潜空间做掩码建模（Latent MIM Lite），从根上消除坍缩，再叠加针对 EO 的模态感知掩码与模态内对比损失。

方法详解¶

整体框架¶

OlmoEarth 是一个基于 ViT 的编码器-解码器架构，输入是一段「对齐好的多模态卫星图像时序 + 衍生地图」。整体一句话：把多源数据切成 token，用模态感知的方式决定谁当输入、谁当重建目标，编码器在潜空间预测被掩码的目标 token，并辅以一个实例级对比损失把全局表示拉到同一空间。

具体流程：FlexiViT 风格的投影层把像素转成 token（patch 大小可变，每个 patch×timestep×波段组产一个 token），加上 2D sincos 空间编码、正弦时间编码、可学习的模态编码。然后按模态感知掩码把 token 分成输入/目标两路：输入路过可学习编码器→解码器预测；目标路过冻结随机投影得到目标 token；两者算模态内 patch 判别损失。整个掩码+编解码跑两遍（两次不同随机掩码），把两遍 pooling 后的全局表示拿来做实例对比损失。推理时只用观测数据（不用地图）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模输入<br/>卫星观测 + 衍生地图时序"] --> B["FlexiViT 投影 + 时空/模态编码"]
    B --> C["模态感知掩码<br/>选编码波段组 / 选解码波段组"]
    C -->|输入路| D["可学习编码器 → 解码器<br/>潜空间预测被掩码 token"]
    C -->|目标路| E["Latent MIM Lite<br/>冻结随机投影构造目标"]
    D --> F["模态内 Patch 判别损失<br/>只与同模态目标对比"]
    E --> F
    F -->|同一数据跑两次掩码| G["实例对比损失<br/>pool 后两视图互为正样本"]
    G --> H["时空多模态嵌入"]

关键设计¶

1. Latent MIM Lite：用冻结随机投影当目标编码器，从根上消除坍缩

潜空间掩码建模（Latent MIM、I-JEPA）效果好但训练易崩，根因是目标编码器在线/动量更新——预测目标本身在动，模型可以靠把所有表示压成常数来「作弊」，导致坍缩。OlmoEarth 的做法是：目标编码器就是在线编码器嵌入层的一个随机初始化并冻结的副本，用它把被掩码的原始 patch 投到 token 空间当目标。随机投影在理论与实践上都能从原始输入抽出非平凡、对预测有意义的特征；而因为目标固定不动，自然规避了坍缩。这个设计还有个额外红利：监督数据（地图）与自监督数据（观测）能统一在同一架构下——每种模态都过同一个冻结随机投影得到目标，损失算法完全一致，不需要给监督数据单独加预测头或改训练策略。消融里这是从坍缩（PASTIS mIoU 7.9）跳到可用（35.2）的关键一步。

2. 模态感知掩码：把任务从「补全被遮像素」改写成「从部分波段组重建缺失波段组」

EO 数据按波段原始分辨率分成「波段组」（bandset，Landsat 2 组、Sentinel-2 3 组）。掩码策略对每个样本给每个波段组打四种标签之一：不选用 / 只编码 / 只解码 / 既编码又解码。这等于把问题从「重建同一波段组里被遮的 token」改写成「从其他波段组的部分视图重建缺失波段组」。为什么要这样改：如果所有波段组都既编码又解码，同一波段组里相邻时空的 token 高度相关、任务太简单，必须用 90% 这种极高掩码率才学得到东西；整组掩掉则把任务难度提上来，掩码率可以更均衡。另一个关键约定是地图只能「只解码」或「不选用」、永不进编码器——因为推理时只有观测数据可用，地图会随时间变化（下游任务往往就是在检测这种变化），所以地图只当训练目标。消融显示让地图进编码器（Encode Maps）反而掉点（m-eurosat 92.9→91.8、PASTIS 50.7→45.9），印证 decode-only 设计。

3. 模态内 Patch 判别损失：剔除跨模态「易负样本」

潜空间预测用的是对比式的 Patch Discrimination（而非 Smooth L1 重建），把 token 重建框成分类：让某 patch 的预测 token 与其目标 token 余弦相似、与其他 patch 的目标 token 不相似，用交叉熵对比正负匹配。问题在于 OlmoEarth 的目标 token 可能来自不同模态/不同时间步，而不同模态的 token 分布差异巨大、极易区分——这些「易负样本」数量又多，会让大量损失白白花在没难度的对比上。作者的修正很简单也很有效：只与同一模态的目标 token 对比，剔除跨模态易负样本，显著提升性能（消融里 m-so2sat 53.6→55.3）。

4. 实例对比损失：让多模态 token 平均池化后仍是个合理的全局表示

Patch 判别只作用在局部 token，但分类等任务需要全局理解。OlmoEarth 不用单个 <CLASS> token，而是对所有模态/时间/位置的输出 token 做平均池化得到全局表示。但不同模态 token 长得很不一样，直接平均未必合理，于是用一个 SimCLR 式的对比损失把它们拉进共同空间——不同的是，生成两个视图不靠数据增强，而靠两次不同的随机掩码：同一输入跑两遍掩码、各自编码池化，两个池化表示互为正样本、batch 内其余为负样本（受 micro-batch=32 限制，对比只在这 32 个样本内做）。最终该损失以 0.1 的标量权重叠加到 patch 判别损失上。消融里它带来 m-so2sat 55.3→56.8 的稳定提升。

损失函数 / 训练策略¶

总损失 = 模态内 Patch 判别损失 + 0.1 × 实例对比损失。训练用 AdamW，base lr \(1\times10^{-4}\)、weight decay 0.02、batch size 512（micro-batch 32）、8000 步线性 warm-up、cosine 退火到 0.1、共 667,200 步；训练中随机有效 patch 取 \(\{1\dots8\}\)、随机方形 crop 边长 \(\{1\dots12\}\) token、时间步 3–12，单次训练约处理 1000 亿 token。四个尺寸 Nano/Tiny/Base/Large（1.4M–300M 参数，解码器深度固定 4，让编码器承担主要建模）。

实验关键数据¶

预训练数据 285,288 个样本，每个覆盖 2.56km×2.56km、跨一年（最多 12 个月度时间步），3 种卫星观测（Sentinel-1/2、Landsat-8）+ 6 种衍生地图，统一重采样到 10m/像素；采样点按 OpenStreetMap 的 120 类地物枚举、每类至多 1 万 tile。评估对比 12 个基础模型、18 个研究 benchmark + 7 家合作组织的 19 个数据集，统一用 kNN/线性探针（冻结编码器）和全量微调两种协议。

主实验（嵌入任务平均分，OlmoEarth Base 最高）¶

模型	架构	嵌入任务平均分 ⚠️
Anysat	ViT-Base	55.8
CROMA	ViT-Base	68.2
Galileo	ViT-Base	67.3
Panopticon	ViT-Base	65.2
OlmoEarth	ViT-Base	74.7
OlmoEarth	ViT-Large	73.6

⚠️ 上表「平均分」取自 Table 2 最右列，缓存为 OCR 文本、跨任务列对齐不可靠，数值以原文为准；但「OlmoEarth Base 平均最高」的结论与正文一致。总体战绩：kNN/LP 嵌入任务 15/24 最佳，全量微调 29 个任务里 19 个最佳。

消融实验（Table 4，Base 模型，验证集 kNN/LP，140k 步）¶

配置	m-so2sat	m-eurosat	PASTIS	说明
Full Latent MIM*	32.2	68.4	7.9	训练中坍缩
Latent MIM Lite	42.2	87.2	35.2	换冻结随机投影，立刻可用
+ 模态掩码	53.6	90.2	46.6	加模态感知掩码
+ 模态 Patch 判别	55.3	91.5	48.1	只对比同模态
+ 对比损失	56.8	92.3	49.0	加实例对比
+ 地图	62.4	92.9	50.7	引入监督地图（完整模型）
Encode Maps	54.7	91.8	45.9	地图进编码器→掉点

关键发现¶

Latent MIM Lite 是命门：标准 Latent MIM 直接坍缩（PASTIS 7.9），换成冻结随机投影后三个任务全面跃升，是整条改进链里最大的一跳。
地图只能当目标、不能当输入：Encode Maps 在三个任务上一致掉点，验证 decode-only 设计。
Base→Large 反常缩放：OlmoEarth Large 总体是文献里最强的大模型，但在部分逐像素时序嵌入任务上不如 Base；作者指出这不是个例（CROMA、TerraMind、DINOv3 都有 Base>Large 的现象），暗示 EO 模型扩展到 Large 存在根本性挑战。
落地战绩：与 Global Mangrove Watch 合作，把红树林制图从随机森林的 95.3% F1 微调到 98.1% F1，且能按月度而非年度出图。

亮点与洞察¶

「随机投影即目标」是个四两拨千斤的稳定性技巧：不引入动量编码器、不加 stop-grad 之外的复杂机制，仅靠冻结随机线性层就同时拿到稳定性与潜空间表达力，这个思路可迁移到任何受坍缩困扰的潜空间自监督场景。
把领域结构编进掩码而非堆数据：波段组级的四态掩码 + 地图 decode-only，把 EO 的多传感器/观测-地图非对称性显式建模，比单纯加掩码率更优雅。
「易负样本」视角值得复用：在多模态对比里，跨模态负样本太好分会稀释梯度，只对比同模态这一改动几乎零成本却稳定涨点。
统一监督与自监督：所有模态走同一冻结投影、同一损失，无需为监督数据加预测头，工程上极简。

局限与展望¶

大模型缩放难：Large 不稳定地优于 Base，逐像素时序任务上甚至更差，作者承认 EO 模型的尺度扩展尚未解决。
随机投影目标可能太简单：作者自己指出在自然图像等更多样的域里，冻结随机投影可能过于简化；其优势目前只在 EO 数据上有实证。
传感器覆盖有限：聚焦 Sentinel-1/2、Landsat 这几种高频传感器，未追求 DOFA/Panopticon 那种任意光学传感器兼容性。
展望：作者计划加入气候/天气与预报数据（需处理米级到千米级、天到年的更宽分辨率范围），以及地面自然图像以支持作物类型等细粒度识别。

评分¶

新颖性: ⭐⭐⭐⭐ 冻结随机投影当目标的「Latent MIM Lite」简洁有力，但单个组件多是已有思路的巧妙组合与领域适配。
实验充分度: ⭐⭐⭐⭐⭐ 对比 12 个模型、37+ 个任务、双协议评估，外加真实合作组织数据与环境影响核算，非常扎实。
写作质量: ⭐⭐⭐⭐ 动机与消融讲得清楚，但大量结果表在 PDF 里密度极高、可读性一般。
价值: ⭐⭐⭐⭐⭐ 开源代码/权重/数据 + 端到端平台，已被多家公益组织用于红树林/生态/粮食安全，实际影响大。