RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/nicolashoudre/RAMEN （有）
领域: 遥感 / 地球观测多模态基础模型
关键词: 地球观测、分辨率可调、多模态编码器、传感器无关、掩码自监督

一句话总结¶

RAMEN 是一个"传感器无关、分辨率可调"的统一 Transformer 编码器：它把模态、空间分辨率（GSD）、时间分辨率都当作输入特征显式编码进共享潜空间，并把空间分辨率做成推理时可控的输出参数，让用户在精度与算力之间自由权衡；用一次掩码重建预训练在异质地球观测语料上，冻结编码器后在 PANGAEA 基准 8 个下游任务上以更轻的 ViT-Base 超越体量更大的 TerraMind-L 等 SOTA。

研究背景与动机¶

领域现状：地球观测（EO）数据天生异质——从 0.2m 航拍 RGB 到 10–30m 多光谱卫星、SAR、高程图，在通道含义、地面采样距离（GSD，即相邻像素中心在地面上的实际距离）、时间采样上差异巨大。已有多模态 EO 基础模型大多用传感器专属编码器整合多模态。

现有痛点：(1) 传感器专属编码器换到新模态就得改架构、重训部分网络，泛化受限；(2) 近期改进要么只管光谱（DOFA、SMARTIES）、要么只管空间（Scale-MAE、FlexiMo）、要么只管时间（AnySat、Galileo），没有一个同时处理模态/空间/时间三个异质轴；(3) 几乎所有模型输出固定分辨率特征，无法按任务调节空间细节或算力。

核心矛盾：EO 的异质性既是价值来源（支撑多样应用）又是建模障碍——不同 GSD、不同通道、不同时间采样的输入无法直接对齐或拼接；而下游任务对空间细节的需求又各不相同（火灾大面积均质 vs 海洋污染物细小目标），固定分辨率必然在某些任务上吃亏。

本文目标：训练一个单一统一编码器，能处理任意传感器与配置而无需重训，并让用户在推理时显式选择目标空间分辨率。

切入角度：把"模态、空间分辨率、时间分辨率"都视为可被显式编码的关键输入特征，并保留其物理含义（波长、极化、GSD、采集日期）；尤其把空间分辨率从"固定属性"翻转成"可控输出参数"。

核心 idea：用三个分辨率感知模块（通道条件投影 + 可调空间重采样 + 时间注意力）把异质输入投到统一的"分辨率感知"潜空间，再用共享 Transformer + MAE 自监督学到模态无关、分辨率一致的表示。

方法详解¶

整体框架¶

RAMEN 把一组地理对齐的多模态影像 \((x_1,\dots,x_M)\)（每个 \(x_m\in\mathbb{R}^{T_m\times C_m\times H_m\times W_m}\)，分别是时间步/通道/高/宽）逐模态送过三个分辨率感知模块，统一到共享潜空间，再拼成一条多模态 token 序列由共享 Transformer 联合处理；预训练用掩码自编码（MAE）重建各模态在原生光谱/空间/时间分辨率下的被遮挡像素。关键在于每次迭代会随机采样一个数据集、一个模态子集和一个目标 GSD（\(\text{GSD}_{target}\)），逼模型学会跨尺度泛化；推理时该 GSD 由用户按任务选定。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：多模态 EO<br/>光学/多光谱 · SAR · 高程图"] --> B["通道条件投影器<br/>按波长/极化嵌入 → 共享潜空间 D 维"]
    B --> C["可调空间重采样器<br/>重采样到用户指定 GSD_target<br/>σ-条件卷积专家混合"]
    C --> D["时间注意力 LTAE<br/>采集日期位置编码 + 时序自注意力"]
    D --> E["共享 Transformer 编码器<br/>跨模态 token 联合交互"]
    E --> F["MAE 自监督<br/>逆模块重建各模态原生分辨率"]
    F --> G["输出：分辨率可控的统一表示<br/>冻结 → 下游分割"]

关键设计¶

1. 通道条件投影器：让模型理解每个波段的物理含义而非当作通用通道

EO 传感器不只通道数不同，物理解释也不同（红/近红外/SWIR/SAR 极化/高程）。RAMEN 用携带物理含义的逐通道嵌入来统一异质通道：对光学/多光谱模态，沿用 DOFA 思路把每个通道的中心波长 \(\lambda^i_m\)（纳米）用正弦位置编码嵌入，\(\text{PE}(\lambda^i_m,2k)=\sin(\lambda^i_m/10000^{2k/D})\)、奇数维取 \(\cos\)；对非光学模态（SAR 的 VV/VH/HH/HV 升降轨、高程的 DSM/DTM/坡度）用专门的可学习嵌入。这些编码拼接后过一个轻量 MLP 得到通道投影矩阵 \(M_m\in\mathbb{R}^{C_m\times D}\)，把原始输入映射到潜空间：\(x^S_m(t,d,h,w)=\sum_{c=1}^{C_m}x_m(t,c,h,w)M_m(c,d)\)。这样任意通道配置都能投到同一 \(D\) 维空间，是"传感器无关"的第一步。

2. 可调空间重采样器：把空间分辨率做成推理时可控的输出参数

这是论文的核心方法贡献，直击"固定分辨率"痛点。它把投影后特征 \(x^S_m\)（原生 \(\text{GSD}_m\)）映射到用户定义的 \(\text{GSD}_{target}\)。由于传感器分辨率可能差几个数量级，作者引入一个卷积专家混合机制按尺度自适应：定义对数缩放插值比 \(\sigma_m=\log(\text{GSD}_m/\text{GSD}_{target})\)，它对称地刻画上/下采样幅度与方向；每个专家是一个 \(1\times1\) 卷积，最终对齐表示为 \(x^R_m=I_{\sigma_m}(x^S_m)+\sum_{n=1}^{N_{conv}}w_n\,\text{Conv}_n(I_{\sigma_m}(x^S_m))\)，其中 \(I_{\sigma_m}\) 是以 \(\sigma_m\) 参数化的双线性插值，\(H_{target}=\exp(\sigma_m)H_m\)。\(\sigma_m\) 经正弦编码 + MLP + softmax 产生归一化专家权重 \(\sum w_n=1\)。这套设计在不改变空间结构的前提下、按缩放幅度与方向轻量地校正插值后的特征统计——既支持跨分辨率连续插值，又让用户在微调/推理时直接选 GSD 来换取精度或省算力。

3. 时间注意力：用采集日期编码把多时相观测聚合成单一表示

很多 EO 应用（作物监测、灾害响应）依赖多日期观测。RAMEN 用轻量时间注意力编码器（LTAE）处理时序：为保持时间连续性，给每个时间戳加一个基于采集日期的正弦-余弦位置编码，再沿时间轴对已做光谱/空间投影的特征 \(x^R_m\) 做自注意力，得到时间聚合表示 \(x^T_m=\text{LTAE}(x^R_m)\in\mathbb{R}^{D\times H_{target}\times W_{target}}\)。这让单时相与多时相模态都能进同一框架。

4. 共享 Transformer + 分辨率可调 MAE 自监督：一套参数吃下所有模态

时间聚合后，每个模态得到一张特征图，每个空间位置当作一个 token（一个 \(\text{GSD}_{target}\) 像素对应一个 \(D\) 维嵌入），并仿照 Scale-MAE 加 GSD 位置编码以携带目标分辨率信息。所有模态 token 沿序列维拼成 \(Z\in\mathbb{R}^{N\times D}\)（\(N=M\cdot H_{target}\cdot W_{target}\)），由共享 Transformer 联合处理，实现跨模态交互而不需任何模态专属分支——除三个输入类型感知嵌入（光谱影像/雷达/高程）外所有参数共享。预训练用 MAE：对 \(Z\) 按 75% 比例随机掩码，ViT 编码可见 token + [CLS]，解码端用"逆模块"把表示投回各模态原生分辨率三步重建（时间扩展回 \(T_m\) → 空间重采样回 \(\text{GSD}_m\) → 通道投影矩阵转置恢复通道），MSE 监督被遮挡像素：\(L=\frac{1}{M}\sum_{m=1}^{M}\frac{(\hat{x}^{masked}_m-x^{masked}_m)^2}{H_mW_m}\)。每次迭代随机采样数据集/模态子集/目标 GSD 的策略，一方面逼模型学模态无关、分辨率一致的表示，一方面让最耗内存的高分辨率序列只偶尔出现，大幅省算力。

损失函数 / 训练策略¶

ViT-Base 主干，专家数 \(N_{conv}=4\)，掩码率 75%，AdamW，基础学习率 \(1.5\times10^{-4}\)，warmup 20 epoch + 余弦衰减，共 100 epoch，16×H100。预训练语料拼三个互补数据集：FLAIR-HUB（法国高分 RGB-NIR + S2 时序 + S1 + 高程，GSD 3–20m 采样）、WorldStrat（全球 RGB-NIR + 低分 S2 时序，5–20m）、MMEarth64（120 万地点 S2/S1/高程，20–100m，按生物群落分层采 60%）；输入按通道做标准化以缓解跨传感器/跨数据集分布漂移。

实验关键数据¶

主实验¶

在 PANGAEA 基准 8 个下游语义分割任务上评测（涵盖航拍/多光谱/SAR、0.2–30m、单时相/时序）；按标准协议冻结预训练编码器，只微调 UPerNet 解码器。

模型	规模	Avg. mIoU	Avg. Rank
U-Net（从头训）	—	57.22	4.25
CROMA	Large	55.72	6.50
DOFA	Base	54.89	7.50
TerraMind v1-B	Base	58.18	4.25
TerraMind v1-L	Large	59.10	3.75
RAMEN (ours)	Base	60.03	2.63

RAMEN 用更轻的 ViT-Base 拿到最高平均 mIoU 60.03 与最佳平均排名 2.63，并在 8 个任务里有 6 个进前 2，体现跨传感器泛化与一致性。尤其在细节关键的 AI4SmallFarms 上达 38.78 mIoU，而所有固定分辨率基础模型都卡在 ~30 mIoU 以下。

消融与分析¶

分析	任务	设置	mIoU
GSD 可调（粗更好）	HLS BurnScars 火灾	GSD 30→360 / 240	87.07 / 88.30
GSD 可调（细更好）	MADOS 海洋污染物	GSD 80→10	57.09→78.07
多模态融合	Sen1Floods11	S2 → S2+S1	89.96→91.20
多模态融合	Pastis	S2 → S2+S1	40.99→44.25
算力-性能权衡	Pastis	359 GFLOPs（粗 GSD）	33.26（≈峰值 80%，~7.4× 提速）

⚠️ 缓存中波长编码消融（Table 4a，把编码波长从粗近似逐步逼近真实 Sentinel-2 波长在 Sen1Floods11 上涨 mIoU）表头被截断，具体逐档数值以原文为准。SMARTIES-B 一行缓存也有缺列。

关键发现¶

最优分辨率随任务而变，且不一定越细越好：火灾这类大面积均质区域用更粗 GSD 反而更准（240m 时 88.30）；海洋污染物这类细小目标用更细 GSD 大幅提升（10m 时 78.07）——这正是"分辨率可控"的价值所在，单模型即可覆盖从快速灾害响应到精细监测。
可调分辨率突破固定分辨率上限：访问更细分辨率让 RAMEN 在 AI4SmallFarms 上超过所有固定分辨率模型的天花板。
多模态即插即融：共享潜空间天然支持 S2+S1 融合，三个任务一致涨点，无需模态专属架构改动。
算力可主动调：Transformer 随 token 数二次增长，但选粗 GSD 能在 Pastis 上以 ~7.4× 提速拿到约 80% 峰值性能；BurnScars 上 817 GFLOPs 达 85.02 mIoU，优于 TerraMind-L 980 GFLOPs 的 82.93。

亮点与洞察¶

把分辨率从"属性"翻成"旋钮"：最核心的范式转变——空间分辨率成为推理时可控输出参数，用户能按任务/算力自由权衡，这是以往固定分辨率 EO 模型做不到的。
σ-条件卷积专家混合：用一个对数缩放比 \(\sigma_m\) 同时编码缩放幅度与方向去条件化专家权重，轻量（\(1\times1\) 卷积）却能对称处理上/下采样、校正插值统计，思路可迁移到任何需要跨尺度对齐的场景。
物理含义进编码：波长/极化/采集日期都被显式编码，模型不是把通道当匿名维度，而是理解其物理意义，这是跨传感器零重训泛化的关键。
一套参数吃所有模态：除三个类型嵌入外全部参数共享，配合随机模态/GSD 采样，既省算力又逼出模态无关表示。

局限与展望¶

二次复杂度：基于 Transformer，GFLOPs 随 token 数（∝ 分辨率）二次上升，细分辨率下开销增长快——可调性缓解了但没消除这个根本瓶颈。
下游只验证了分割：PANGAEA 8 任务全是语义分割，对检测、回归（如生物量）、检索等任务的迁移性未充分验证（且作者按 TerraMind 排除了 BioMassters 等不可复现任务）。
预训练语料偏向：三数据集对欧洲/全球有覆盖，但 GSD 范围与生物群落采样比例（MMEarth 仅 60%）可能引入偏差。
波长消融数据不全：缓存中相关表头截断，物理编码的逐档收益需查原文确认。
改进方向：引入线性注意力/稀疏 token 缓解二次复杂度；扩展到非分割下游；把 GSD 选择自动化（按任务自适应而非人工指定）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "分辨率作为可控输出参数 + σ-条件专家重采样"在 EO 基础模型里是首个同时统一模态/空间/时间三轴的设计。
实验充分度: ⭐⭐⭐⭐ PANGAEA 8 任务 + GSD/融合/算力多角度消融较扎实，但下游仅分割、波长消融数据有缺。
写作质量: ⭐⭐⭐⭐ 模块清晰、公式完整、动机具体；部分表格在公开版里信息略密。
价值: ⭐⭐⭐⭐⭐ 传感器无关 + 推理时调分辨率 + 轻量超 SOTA + 已开源，对实际 EO 落地价值高。