SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data¶
会议: CVPR 2026
arXiv: 2603.02505
代码: 无
领域: 图像分割
关键词: 不完整多模态, 语义引导融合, 模态感知采样, 遥感分割, 脆弱模态
一句话总结¶
提出SGMA——语义引导模态感知分割框架,通过语义引导融合(SGF)降低类内变异并协调跨模态冲突,模态感知采样(MAS)平衡脆弱模态训练频率,在ISPRS上Average mIoU +9.20%且弱模态Last-1 mIoU +18.26%(vs SOTA IMLT)。
研究背景与动机¶
领域现状:遥感多模态分割集成RGB/DSM/NIR/SAR等互补信息,但实际系统中传感器故障或覆盖不完整常导致模态缺失,产生"不完整多模态语义分割(IMSS)"问题。现有方法包括模态dropout(M3L)、MAE预训练(IMLT)、对比对齐(MAGIC)。
现有痛点:IMSS面临三大挑战同时存在且相互交织——(1) 模态不平衡: RGB等强模态压制DSM/NIR/SAR等脆弱模态;(2) 类内变异: 同类建筑在遥感中尺度/朝向/形状差异极大,小建筑特征稀疏;(3) 跨模态异质性: RGB中屋顶和地面颜色相似但DSM高程不同,DSM中草地和地面高程相似但RGB颜色不同——语义线索跨模态冲突。
核心矛盾:对比对齐(IMLT/MAGIC)强制所有模态对齐会丢失模态特有判别信息;dropout策略增加了缺失模态暴露但未针对性强化脆弱模态学习;无方法同时解决上述三个挑战。
本文目标 在任意模态缺失场景下,同时确保平衡的多模态学习、降低类内变异、协调跨模态不一致。
切入角度:用全局语义原型作为跨模态的"中间锚点"——将dense像素压缩到类级语义表示来降低类内变异,同时利用原型-特征对齐度量模态可靠性实现自适应融合,通过可靠性反转采样优先训练脆弱模态。
核心 idea:语义原型同时解决类内变异(提供类级一致表示)和跨模态异质性(自适应加权),其副产物——模态可靠性分数——驱动采样策略解决模态不平衡。
方法详解¶
整体框架¶
共享权重编码器提取各模态4尺度特征 → SGF模块:模态特定投影器(MP)→类感知语义滤波器(CSF)→全局原型构建→空间感知器(SP, MHA)→鲁棒性感知器(RP, MHA) → MAS模块:反转鲁棒性分数→采样概率→随机选择脆弱模态独立训练。训练时SGF+MAS双分支输出共同优化;推理仅保留SGF。
关键设计¶
-
语义引导融合(SGF):
- 功能: 构建全局类语义原型,通过注意力机制融合多模态特征并评估模态可靠性
- 核心思路: 1×1 Conv将特征从\(C_i\)降维到\(K\)类得compact表示\(c_m^i\),与语义特征矩阵乘得全局原型\(p_{se}^{i,k} \in \mathbb{R}^C\)。空间感知器(SP)用原型作query、多模态特征作key/value做MHA得语义激活\(a_{se}^{i,k}\)。鲁棒性感知器(RP)再用融合特征作query做第二次MHA,输出融合特征\(f_{SGF}^i\)和模态鲁棒性图\(r_m^i\)
- 设计动机: 全局原型提供类级一致表示降低类内变异(大小建筑共享同一原型);RP的注意力权重自然反映每个模态对每个类的贡献(DSM对建筑高、NIR对植被高),实现类别依赖的自适应融合
-
模态感知采样(MAS):
- 功能: 利用SGF的副产物(鲁棒性分数)动态调整训练中模态被选择的概率
- 核心思路: 反转鲁棒性分数\(\hat{r}_m^i = \frac{1/r_m^i}{\sum_{m'} 1/r_{m'}^i}\),空间平均得采样概率\(s_m^i\),每次训练迭代按概率选择一个模态独立通过SGF得到\(f_{MAS}^i\)进行单独监督
- 设计动机: 低鲁棒性的脆弱模态被更频繁选择——相当于SoftMin操作但直接在归一化后的注意力权重上计算,避免SoftMin对SoftMax输出的平滑效应。无需额外超参,训练开销仅增加一条前向路径
损失函数 / 训练策略¶
- 均为标准交叉熵损失
- AdamW, lr=6e-5, polynomial decay (power 0.9), 200 epochs, warmup 10 epochs at 10% lr
- 4×A100,即插即用仅增加4.79M参数 + 0.79G FLOPs
实验关键数据¶
主实验¶
| 数据集 | 指标 | SGMA | IMLT | MAGIC | 提升(vs SOTA) |
|---|---|---|---|---|---|
| ISPRS(PVT) | Avg mIoU | 79.55% | 70.35% | 67.43% | +9.20% |
| ISPRS(PVT) | Top-1 mIoU | 86.84% | 85.12% | 84.75% | +0.34% |
| ISPRS(PVT) | Last-1 mIoU | 57.05% | 38.78% | 34.34% | +18.26% |
| ISPRS(ResNet) | Avg mIoU | 76.42% | 62.75% | 66.21% | +10.21% |
| DFC2023 | Avg mIoU | 81.91% | 74.25% | - | +7.66% |
| DELIVER | Avg mIoU | 55.49% | 47.17% | - | +8.31% |
消融实验¶
| SGF | MAS | Avg mIoU | Last-1 mIoU |
|---|---|---|---|
| ✗ | ✗ | 46.51% | 2.61% |
| ✓ | ✗ | 49.13% | 7.01% |
| ✗ | ✓ | 62.07% | 29.86% |
| ✓ | ✓ | 79.55% | 57.05% |
| 分析维度 | 无SGF | 有SGF | 改善 |
|---|---|---|---|
| 建筑类内方差 | 0.84 | 0.74 | -12% |
| DSM轮廓分数 | 0.03 | 0.30 | 10× |
| NIR轮廓分数 | 0.05 | 0.31 | 6.2× |
关键发现¶
- 脆弱模态Last-1提升惊人(+18.26% / +50.04%绝对值),MAS是平衡脆弱模态的关键驱动力
- SGF和MAS高度互补:SGF降类内变异(方差0.84→0.74),MAS强化脆弱模态(轮廓分数0.03→0.30)
- 跨backbone泛化:PVT-v2-b2和ResNet-50上一致优于所有基线
- 跨域泛化:在遥感(ISPRS/DFC2023)和自动驾驶(DELIVER)上均有效
亮点与洞察¶
- 即插即用仅4.79M参数+0.79G FLOPs开销,实用性强
- 语义原型同时服务于降低类内变异、评估模态可靠性、指导融合权重——一个设计解决三个问题
- 鲁棒性反转做采样概率的设计自然优雅——不需要额外超参或模态特定架构修改
- 脆弱+脆弱模态组合(如DSM+SAR)甚至超过单鲁棒模态,说明即使弱模态间也有可挖掘的互补性
局限与展望¶
- 假设训练时所有模态可用——实际可能训练时也有模态缺失
- 缺乏模态特定学习动态的可解释性机制
- 未验证时序多模态序列(如视频遥感)
- MAS的模态选择是随机采样——可否改为确定性curriculum策略?
相关工作与启发¶
- MAGIC (ECCV 2024): 模态无关分割,67.43% → 本文79.55%。MAGIC用对比对齐但过度对齐丢失模态特有信息
- IMLT (IEEE TGRS 2024): 首个遥感IMSS方法,用对比+MAE预训练,70.35% → 本文79.55%。MAE关注低级像素重建而非高级语义
- 启发: 利用任务副产物(鲁棒性分数)反过来指导训练策略的"自举"式设计思路值得借鉴
评分¶
- ⭐⭐⭐⭐ 新颖性: 语义原型引导融合+反转鲁棒性做采样,一个框架解决三个交织问题
- ⭐⭐⭐⭐⭐ 实验充分度: 3个遥感+1个自动驾驶数据集,2个backbone,详细消融+可视化分析
- ⭐⭐⭐⭐ 写作质量: 问题分解清晰(模态不平衡/类内变异/跨模态冲突),方法与问题一一对应
- ⭐⭐⭐⭐⭐ 价值: 对不完整多模态遥感分割有显著实用贡献,即插即用设计降低使用门槛