CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2603.12008
代码: GitHub
领域: 遥感 / SAR 基础模型 / 域泛化语义分割
关键词: SAR, 基础模型, 物理引导MoE, 域泛化, 语义分割

一句话总结¶

提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR，在 DINOv2 ViT backbone 上将 FFN 替换为物理引导的稀疏 MoE（用方向熵、等效视数、局部粗糙度三个 SAR 物理描述符引导路由选择），配套 200K 级跨域预训练数据集及覆盖 8 种域差异的 22 个基准，在 20/22 个跨域语义分割评测上达到 SOTA。

研究背景与动机¶

核心矛盾: SAR 成像具备全天候全天时能力，对地球观测不可替代，但其域特异性极端——不同传感器平台（Sentinel-1、ALOS-2、Capella）、波段（C/L/X）、极化模式（HH/HV/VV/VH）和入射角产生碎片化域，导致跨域泛化极难。
SAR 三重挑战: (1) 相干成像产生乘性散斑噪声，破坏纹理特征；(2) 侧视几何引起叠掩（layover）、透视缩短（foreshortening）和阴影，扭曲空间拓扑；(3) 后向散射由表面粗糙度和介电常数决定，导致同类异貌（同一地物因含水量不同差异巨大）和异类同貌（不同地物呈现相同暗背景）。
现有方法瓶颈: 现有 SAR 基础模型（SARATR-X 90M、SatMAE 300M）要么聚焦目标检测，要么非为跨域泛化设计；光学基础模型（DINOv2、DINOv3）直接迁移到 SAR 域表现有限。缺乏一个同时具备大容量与域泛化能力的 SAR 语义分割基础模型。
关键洞察: 解锁 SAR 大规模泛化需要：(1) 十亿级参数容量以吸收极端域多样性；(2) 稀疏激活以控制推理成本；(3) 物理先验引导以稳定跨域路由。

方法详解¶

整体框架¶

以 DINOv2 ViT 为 backbone，将每个 Transformer block 中的标准 FFN 替换为物理引导的稀疏 MoE 层，每层包含路由器 \(R_\psi\) 和 \(n\) 个专家 \(\{E_k\}_{k=1}^n\)（从 DINOv2 FFN 权重初始化）。输入 SAR 图像复制为 3 通道 \(X \in \mathbb{R}^{3 \times H \times W}\) 送入 backbone，同时计算 3 个物理描述符 \(s \in \mathbb{R}^3\) 辅助路由。最终 token 嵌入送入 Mask2Former 解码器生成分割预测。提供 S（20M 激活）/B（80M 激活）/L（300M 激活，总参数 1.3B）三个版本。

关键设计¶

1. SAR 物理描述符 — 为路由提供稳定的物理锚点

功能: 解决标准 MoE 路由器仅依赖 token 嵌入、在异构 SAR 数据下路由不稳定（"Routing Instability"）的问题，提供稳定的域级先验信号。
核心思路: 对输入图像先做 log 变换 \(X' = \log(1 + |X|)\) 保证数值稳定，然后计算三个互补的物理量：
- (a) 方向熵 \(H_{DE}\)：对 Sobel 梯度方向做直方图后计算熵 \(H_{DE} = -\sum_i p_i \ln p_i\)，刻画成像几何特征（低值=强线性结构，高值=不规则纹理）
- (b) 等效视数 ENL = \((\mu / \sigma)^2\)：反映散斑强度/雷达系统特性（高值=弱散斑，低值=强噪声）
- (c) 局部粗糙度 \(R_{LR} = \text{Var}(\mu_j)_{j=1}^M\)：空间块均值的方差，刻画目标散射的纹理变异性（高值=复杂纹理，低值=平滑区域）
设计动机: 三个描述符分别对应 SAR 的三重物理挑战——成像几何、雷达系统噪声、目标散射特性，拼接为 \(s = [H_{DE}, \text{ENL}, R_{LR}] \in \mathbb{R}^3\)，为跨域路由提供物理锚点。

2. 物理引导稀疏 MoE — 大容量低推理成本的域适应架构

功能: 以稀疏激活方式将模型扩展到 1.3B 参数，同时保持与标准 FFN 可比的推理开销。
核心思路: 将物理描述符 \(s\) 沿 token 维度 tile 为 \(S \in \mathbb{R}^{B \times N \times 3}\)，与 token 嵌入 \(Z \in \mathbb{R}^{B \times N \times C}\) 拼接后送入路由器：\(\pi = \text{softmax}(W_r[Z \| S] + b_r)\)，计算每个 token 对 \(n\) 个专家的得分，选择 top-\(k\) 专家激活并做归一化加权聚合 \(\tilde{z} = \sum_{k \in \mathcal{I}} g_k \cdot E_k(z)\)。
设计动机: 不同专家可以专化于不同 SAR 成像条件（极化、波段等），而物理描述符的引入使路由选择与底层物理机制对齐，避免了仅靠学习嵌入在域间剧烈波动的问题。

3. 负载均衡约束 — 防止专家坍缩

功能: 确保所有专家被均匀利用，避免路由器退化为总是选择少数专家。
损失函数: \(\mathcal{L}_{BC} = \lambda_{BC} \cdot n \cdot \sum_{k=1}^n f_k p_k\)，其中 \(f_k\) 为分配给专家 \(k\) 的 token 比例，\(p_k\) 为平均路由概率，\(\lambda_{BC} = 0.005\)。总训练目标为 \(\mathcal{L} = \mathcal{L}_{seg} + \mathcal{L}_{BC}\)。

4. CrossEarth-SAR-200K 大规模数据集 — 支撑全球尺度持续预训练

功能: 构建首个 20 万级 SAR 语义分割数据集，覆盖 109 个地区、6 大洲。
核心思路: 整合 40K 有真实标注的公开 SAR 数据 + 163K 伪标注数据（用 CrossEarth 光学模型在配对光学图像上生成标签后迁移给 SAR），7 个语义类别（建筑/道路/水体/裸地/森林/农田/背景），所有图像裁剪/缩放至 512×512。伪标注质量经 4 个模型验证，Mean Agreement 达 75.88%（超过 OpenEarthMap-SAR 的 63.20%）。

训练策略¶

持续预训练（CPT）: 在 CrossEarth-SAR-200K 上训练 18 epochs，batch size 4，AdamW lr=3e-5，16×A100 (80GB)
下游微调: 冻结 backbone，仅训练 Mask2Former 解码器，40k iterations，batch size 2，lr=1e-4，单卡 4090
Earth-Adapter (PEFT): 在冻结 backbone 上加轻量适配器进一步提升，标记为 CrossEarth-SAR-L*

实验关键数据¶

主实验：单域差异（12 个基准）¶

方法	Backbone	参数	区域(N2S)	区域(S2N)	极化(VV2F)	极化(HH2F)	复数(C(r)2R)	复数(C(i)2R)	Avg.
DINOv2	ViT-L	300M	32.3	43.8	65.7	56.8	71.3	71.7	55.5
DINOv3	ViT-L	300M	33.7	42.8	48.3	50.6	69.9	69.2	53.0
SARATR-X	HiViT-B	90M	34.6	43.2	71.3	68.5	74.5	74.2	59.7
CrossEarth-SAR-L	ViT-L	1.3B(300M)	38.0	46.7	73.9	72.3	76.9	76.7	62.7
CrossEarth-SAR-L*	ViT-L	1.3B(300M)	38.0	46.7	73.9	71.8	76.9	76.7	62.7

CrossEarth-SAR-L 相比 DINOv2 基线平均提升 +7.2 mIoU，极化域（HH2F）最高提升 +15.5 mIoU。

主实验：多域差异（10 个基准）¶

方法	区域+极化(A2F)	区域+平台(O2D)	区域+波段(S2A)	区域+极化+波段(D2F)	区域+平台+波段(W2D)	Avg.
DINOv2	15.5	17.8	55.9	26.0	16.7	24.3
SARATR-X	21.3	19.0	53.1	22.6	16.1	24.8
CrossEarth-SAR-L	25.0	23.7	59.1	25.1	22.2	27.7
CrossEarth-SAR-L*	27.0	23.1	57.9	26.5	25.6	28.5

多域差异场景下 CrossEarth-SAR-L* 平均 28.5 mIoU，比基线 +4.2。

消融实验¶

消融项	配置	mIoU	增益
仅 40K 真标注	DINOv2 + 40K real	45.1	—
200K 含伪标注	DINOv2 + 200K	59.4	+14.3
纯 MoE（无约束）	MoE only	61.1	+1.7
+ 负载均衡 \(\mathcal{L}_{BC}\)	+BC	62.2	+2.8
+ 物理描述符 \(S\)	+S	61.6	+2.2
+ 两者结合	+BC+S	62.4	+3.0
专家数 n=3	top-1	60.9	+1.5
专家数 n=6	top-1	62.4	+3.0
激活 top-2	n=6	61.7	+2.3
激活 top-3	n=6	61.3	+0.9

关键发现¶

伪标注规模效用显著: 200K 数据比仅 40K 真标注高 14.3% mIoU；40K 伪标注甚至略优于 40K 真标注（全球覆盖更广），两者结合进一步 +3.6%
6 专家 top-1 最优: 增大 top-k 反而下降，说明在 200K 数据规模下单专家专化比多专家混合更有效
物理描述符敏感性各异: \(H_{DE}\) 对极化（73.47）和微波波段（59.18）敏感，ENL 对复数值（75.97）敏感，\(R_{LR}\) 对区域（37.49）和平台（19.83）敏感
层级专化涌现: 可视化显示 Expert 3/4 主导浅层（散斑统计），Expert 1/2/5/6 活跃中层（几何纹理），Expert 1/5 集中深层（高级语义）

亮点与洞察¶

将 SAR 的三重物理先验（散斑/几何/散射）编码为可微分物理描述符引导 MoE 路由，实现了"物理先验 + 数据驱动"的优雅结合，比纯学习路由稳定且可解释
22 个子基准覆盖 8 种域差异组合（区域/极化/复数值/平台/波段的单独及组合），为 SAR 社区建立了首个统一 DG 评测标准
仅 20M 激活参数的 CrossEarth-SAR-S 已超越 300M 的 DINOv2 和 DINOv3，证明物理引导 MoE 的参数效率优势

局限性¶

1.3B 参数量虽然激活仅 300M，但存储和部署到资源受限的遥感平台（星载/无人机）仍是挑战
伪标注依赖 CrossEarth 光学模型质量，Mean Agreement 仅 75.88%，部分类别（如道路 vs 裸地）混淆严重
仅评测语义分割任务，未验证在目标检测、变化检测等其他 SAR 下游任务的泛化性
训练需 16×A100 (80GB)，资源门槛较高

评分¶

新颖性: ⭐⭐⭐⭐ — 物理描述符引导 MoE 路由的设计创新且有物理依据，首个十亿级 SAR VFM
实验充分度: ⭐⭐⭐⭐⭐ — 22 个基准、16 种对比方法、5 组消融、层级专化和损失曲线可视化
写作质量: ⭐⭐⭐⭐ — 结构清晰，物理先验与工程设计的动机链完整
价值: ⭐⭐⭐⭐ — 对遥感/SAR 社区贡献突出，数据集和基准具有长期价值；对通用视觉社区中等