SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data¶

会议: CVPR 2026
arXiv: 2603.02505
代码: 无
领域: 图像分割
关键词: 不完整多模态, 语义引导融合, 模态感知采样, 遥感分割, 脆弱模态

一句话总结¶

提出SGMA——语义引导模态感知分割框架，通过语义引导融合(SGF)降低类内变异并协调跨模态冲突，模态感知采样(MAS)平衡脆弱模态训练频率，在ISPRS上Average mIoU +9.20%且弱模态Last-1 mIoU +18.26%(vs SOTA IMLT)。

研究背景与动机¶

领域现状：遥感多模态分割集成RGB/DSM/NIR/SAR等互补信息，但实际系统中传感器故障或覆盖不完整常导致模态缺失，产生"不完整多模态语义分割(IMSS)"问题。现有方法包括模态dropout(M3L)、MAE预训练(IMLT)、对比对齐(MAGIC)。

现有痛点：IMSS面临三大挑战同时存在且相互交织——(1) 模态不平衡: RGB等强模态压制DSM/NIR/SAR等脆弱模态；(2) 类内变异: 同类建筑在遥感中尺度/朝向/形状差异极大，小建筑特征稀疏；(3) 跨模态异质性: RGB中屋顶和地面颜色相似但DSM高程不同，DSM中草地和地面高程相似但RGB颜色不同——语义线索跨模态冲突。

核心矛盾：对比对齐(IMLT/MAGIC)强制所有模态对齐会丢失模态特有判别信息；dropout策略增加了缺失模态暴露但未针对性强化脆弱模态学习；无方法同时解决上述三个挑战。

本文目标 在任意模态缺失场景下，同时确保平衡的多模态学习、降低类内变异、协调跨模态不一致。

切入角度：用全局语义原型作为跨模态的"中间锚点"——将dense像素压缩到类级语义表示来降低类内变异，同时利用原型-特征对齐度量模态可靠性实现自适应融合，通过可靠性反转采样优先训练脆弱模态。

核心 idea：语义原型同时解决类内变异（提供类级一致表示）和跨模态异质性（自适应加权），其副产物——模态可靠性分数——驱动采样策略解决模态不平衡。

方法详解¶

整体框架¶

共享权重编码器提取各模态4尺度特征 → SGF模块：模态特定投影器(MP)→类感知语义滤波器(CSF)→全局原型构建→空间感知器(SP, MHA)→鲁棒性感知器(RP, MHA) → MAS模块：反转鲁棒性分数→采样概率→随机选择脆弱模态独立训练。训练时SGF+MAS双分支输出共同优化；推理仅保留SGF。

关键设计¶

语义引导融合(SGF):
- 功能: 构建全局类语义原型，通过注意力机制融合多模态特征并评估模态可靠性
- 核心思路: 1×1 Conv将特征从\(C_i\)降维到\(K\)类得compact表示\(c_m^i\)，与语义特征矩阵乘得全局原型\(p_{se}^{i,k} \in \mathbb{R}^C\)。空间感知器(SP)用原型作query、多模态特征作key/value做MHA得语义激活\(a_{se}^{i,k}\)。鲁棒性感知器(RP)再用融合特征作query做第二次MHA，输出融合特征\(f_{SGF}^i\)和模态鲁棒性图\(r_m^i\)
- 设计动机: 全局原型提供类级一致表示降低类内变异（大小建筑共享同一原型）；RP的注意力权重自然反映每个模态对每个类的贡献（DSM对建筑高、NIR对植被高），实现类别依赖的自适应融合
模态感知采样(MAS):
- 功能: 利用SGF的副产物（鲁棒性分数）动态调整训练中模态被选择的概率
- 核心思路: 反转鲁棒性分数\(\hat{r}_m^i = \frac{1/r_m^i}{\sum_{m'} 1/r_{m'}^i}\)，空间平均得采样概率\(s_m^i\)，每次训练迭代按概率选择一个模态独立通过SGF得到\(f_{MAS}^i\)进行单独监督
- 设计动机: 低鲁棒性的脆弱模态被更频繁选择——相当于SoftMin操作但直接在归一化后的注意力权重上计算，避免SoftMin对SoftMax输出的平滑效应。无需额外超参，训练开销仅增加一条前向路径

损失函数 / 训练策略¶

\[\mathcal{L}_{IMSS} = 2 \cdot \mathcal{L}_{SGF} + 1 \cdot \mathcal{L}_{MAS}\]

均为标准交叉熵损失
AdamW, lr=6e-5, polynomial decay (power 0.9), 200 epochs, warmup 10 epochs at 10% lr
4×A100，即插即用仅增加4.79M参数 + 0.79G FLOPs

实验关键数据¶

主实验¶

数据集	指标	SGMA	IMLT	MAGIC	提升(vs SOTA)
ISPRS(PVT)	Avg mIoU	79.55%	70.35%	67.43%	+9.20%
ISPRS(PVT)	Top-1 mIoU	86.84%	85.12%	84.75%	+0.34%
ISPRS(PVT)	Last-1 mIoU	57.05%	38.78%	34.34%	+18.26%
ISPRS(ResNet)	Avg mIoU	76.42%	62.75%	66.21%	+10.21%
DFC2023	Avg mIoU	81.91%	74.25%	-	+7.66%
DELIVER	Avg mIoU	55.49%	47.17%	-	+8.31%

消融实验¶

SGF	MAS	Avg mIoU	Last-1 mIoU
✗	✗	46.51%	2.61%
✓	✗	49.13%	7.01%
✗	✓	62.07%	29.86%
✓	✓	79.55%	57.05%

分析维度	无SGF	有SGF	改善
建筑类内方差	0.84	0.74	-12%
DSM轮廓分数	0.03	0.30	10×
NIR轮廓分数	0.05	0.31	6.2×

关键发现¶

脆弱模态Last-1提升惊人（+18.26% / +50.04%绝对值），MAS是平衡脆弱模态的关键驱动力
SGF和MAS高度互补：SGF降类内变异（方差0.84→0.74），MAS强化脆弱模态（轮廓分数0.03→0.30）
跨backbone泛化：PVT-v2-b2和ResNet-50上一致优于所有基线
跨域泛化：在遥感(ISPRS/DFC2023)和自动驾驶(DELIVER)上均有效

亮点与洞察¶

即插即用仅4.79M参数+0.79G FLOPs开销，实用性强
语义原型同时服务于降低类内变异、评估模态可靠性、指导融合权重——一个设计解决三个问题
鲁棒性反转做采样概率的设计自然优雅——不需要额外超参或模态特定架构修改
脆弱+脆弱模态组合（如DSM+SAR）甚至超过单鲁棒模态，说明即使弱模态间也有可挖掘的互补性

局限与展望¶

假设训练时所有模态可用——实际可能训练时也有模态缺失
缺乏模态特定学习动态的可解释性机制
未验证时序多模态序列（如视频遥感）
MAS的模态选择是随机采样——可否改为确定性curriculum策略？

评分¶

⭐⭐⭐⭐ 新颖性: 语义原型引导融合+反转鲁棒性做采样，一个框架解决三个交织问题
⭐⭐⭐⭐⭐ 实验充分度: 3个遥感+1个自动驾驶数据集，2个backbone，详细消融+可视化分析
⭐⭐⭐⭐ 写作质量: 问题分解清晰（模态不平衡/类内变异/跨模态冲突），方法与问题一一对应
⭐⭐⭐⭐⭐ 价值: 对不完整多模态遥感分割有显著实用贡献，即插即用设计降低使用门槛