Towards Robust Multi-Modal Semantic Segmentation with Teacher-Student Framework and Hybrid Prototype Distillation¶

会议: CVPR 2026
论文: CVF Open Access
关键词: 多模态语义分割, 缺失模态鲁棒性, 自蒸馏, 原型蒸馏, 教师-学生反馈

一句话总结¶

提出 RobustSeg——一个带反馈回环的教师-学生自蒸馏框架，用「跨模态原型蒸馏 + 主模态 IFV 蒸馏」混合策略（HPD）让模型在传感器缺失/退化时保持鲁棒，同时几乎不损失全模态精度（DeLiVER 上缺失模态 +2.40% mIoU，全模态仅 -0.1%）。

研究背景与动机¶

领域现状：多模态语义分割（MMSS）把 RGB、深度、LiDAR 点云、事件流等互补传感器融合起来，弥补单模态在几何线索缺失、光照/天气敏感上的短板。主流融合范式分三类：以 RGB 为主导融合辅助模态、各模态平等拼接、按上下文自适应选主导模态。

现有痛点：这些方法几乎都默认训练和推理时所有模态都在线。一旦现实中某个传感器退化或失效，性能就断崖式下跌——例如 CMNeXt 从理想的 RDEL 设置（66.30% mIoU）切到退化的 REL 设置时，直接掉到 22.92%。

核心矛盾：性能退化有两个根因。其一是完整模态假设让模型过拟合到理想输入；其二是模态不平衡，由于各模态信息量不同，模型会过度依赖容易学习的主导模态（如 RGB），形成单模态偏置，导致融合次优、鲁棒性弱。已有的自蒸馏 / 模态掩码方法虽然用「冻结教师 + 掩码学生」提升缺失鲁棒性，却带来两个新问题：一是全模态精度明显下降（鲁棒性和精度此消彼长）；二是这些 pipeline 大多是单模态蒸馏，在传递细粒度细节的同时，也把教师的模态偏置原封不动地复制给学生，反而放大了模态间的不平衡。

本文目标：在缺失模态下提升鲁棒性，同时保住全模态精度，且不增加参数、不引入外部数据。

切入角度：作者观察到「细节传递」和「跨模态对齐」是一对矛盾——直接用细粒度的 IFV（类内特征变化）图做跨模态蒸馏，会引入模态特异的噪声造成信息混淆（实验里全模态掉 8.55%）。而高层语义原型擅长跨模态对齐却丢细节。于是干脆把两者拆开各司其职：原型管跨模态语义、IFV 管模态内细节。

核心 idea：用「跨模态原型蒸馏减偏置 + 主模态 IFV 蒸馏补细节」的混合蒸馏，再加一条「学生把弱模态信息反馈给教师」的闭环，让教师自己也变得更均衡。

方法详解¶

整体框架¶

RobustSeg 是一个教师-学生自蒸馏框架。教师吃全模态输入，学生通过 Anymodal Dropout 吃随机缺失模态的输入，学生在教师和真值的双重监督下学会逼近全模态性能。给定 \(M\) 个模态输入 \(x_m\)，每个模态各自的编码器提取四个阶段的特征 \(f^1_m,\dots,f^4_m\)；教师把全模态特征送进分割头出稠密预测，学生则在缺模态下逼近教师。

知识从教师传到学生分三路：① 标准的 logits 蒸馏 \(L_{KL}\) + 监督分割 \(L_{CE}\)；② 核心的 Hybrid Prototype Distillation（HPD），内部并联「跨模态原型蒸馏 CPD」和「主模态 IFV 图蒸馏」；③ 反馈回环——学生把非主导模态的 IFV 反馈给教师，教师以低学习率微调非主导模态编码器，从而逐渐产出更均衡的表征。整个过程形成闭环：学生在缺模态下向教师学，教师又根据学生的弱模态线索精修自己。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模态输入<br/>RGB / Depth / LiDAR / Event"] --> T["教师模型<br/>全模态"]
    A -->|Anymodal Dropout 制造缺失| S["学生模型<br/>缺模态"]
    T --> CPD["跨模态原型蒸馏 CPD<br/>类原型随机配对对齐"]
    S --> CPD
    T --> IFV["主模态 IFV 蒸馏<br/>ASM 选主导模态传细节"]
    S --> IFV
    CPD --> L["混合原型损失<br/>训练学生"]
    IFV --> L
    IFV -->|学生→教师| FB["学生→教师反馈<br/>冻结主导, 低 LR 调弱模态"]
    FB -.精修.-> T
    L --> O["鲁棒多模态分割"]

关键设计¶

1. 跨模态原型蒸馏 CPD：用高层语义原型对齐而非细节图，避免把模态偏置传下去

直接拿 IFV 图（细粒度类内特征分布）做跨模态蒸馏会出问题——t-SNE 显示 LiDAR 特征变得更可分，但 RGB 特征因 LiDAR 干扰而坍缩，全模态掉 8.55%，因为 IFV 携带了模态特异噪声。CPD 改用类级语义原型作为跨模态传递的代理：先把真值标签最近邻插值到特征图尺寸 \(l'\)，再对每个模态每阶段做带标签掩码的平均池化得到原型 \(p=[p_0,\dots,p_C]\)，其中

\[p_c = \frac{\sum_j f^{i,j}_m \,\mathbf{1}[l'_j = c]}{\sum_j \mathbf{1}[l'_j = c]}\]

每个 \(p_c\in\mathbb{R}^d\) 是类 \(c\) 的紧凑语义中心。关键招数是模态随机置换匹配：计算原型前先在样本级把不同模态的顺序随机打乱，让学生原型 \(p_{\pi(m)}\) 去匹配教师在另一模态上的原型 \(g_m\)，损失为

\[L_{cp} = \frac{1}{N}\sum_{n=1}^{N}\sum_{i=1}^{4}\sum_{m=1}^{M} \mathrm{KL}\big(p^{n,i}_{\pi(m)},\, g^{n,i}_m\big)\]

其中 \(\pi(m)\) 是模态顺序的随机排列。这样每个模态都被迫去对齐别的模态的语义强项，从全局语义层面拉近模态差异、显式减小模态偏置，而又因为只传高层原型、不传逐像素细节，避免了信息混淆。消融里它单用就能把 EMM 从 39.36% 拉到 49.06%（+9.70），全模态只掉 1.81%。

2. 主模态 IFV 蒸馏：补回原型丢掉的细粒度结构，但只信「主导模态」

原型擅长跨模态对齐却丢了分割最需要的细节，所以并联一条单模态 IFV 通道把细节补回来。先用类原型构造中心特征图（Center Feature Map），把每个像素替换成它所属类的原型：

\[\mathrm{CFM} = \sum_{c=0}^{C-1} p_c \otimes \mathbf{1}[l'=c]\]

\(\otimes\) 表示在类 \(c\) 的所有像素上广播。再计算 CFM 与原始特征 \(f\) 的余弦相似度，得到 IFV 图 \(M\)，它刻画了类内特征的精细变化。这里的关键是只蒸馏主导模态的 IFV：作者沿用 ASM（Arbitrary-Modal Selection Module）算每个单模态特征与融合特征的余弦相似度，挑出主导模态（数量取总模态数的一半向上取整），因为主导模态含更多分割相关细节，弱模态的细节往往不可靠。损失为

\[L_{ifv} = \frac{1}{N}\sum_{n=1}^{N}\sum_{i=1}^{4}\sum_{m=1}^{M'} \mathrm{KL}\big(M^{n,i,m}_s,\, M^{n,i,m}_t\big)\]

合并后的混合原型损失为 \(L_{hp}=L_{origin}+\alpha L_{cp}+\beta L_{ifv}\)。消融证实了「选主导」的必要：直接把 IFV+原型硬合（不选模态）反而把鲁棒性从 49.06% 拉回 48.63%，因为弱模态在细节传递时引入了不可靠信息；加上主导特征选择后才升到 49.10% 且全模态恢复到 61.26%（仅 -0.66）。

3. 学生→教师反馈：让教师反过来跟学生学弱模态，打破「教师永远更强」的假设

传统 KD 默认教师恒优，但这里的多模态教师本身就有模态偏置，它在指导弱模态学生时不仅指导不力，还会把偏置传下去。反馈机制让教师反向从学生的弱模态线索里学。具体地，同样用 ASM 按跨模态余弦相似度找出非主导模态；为了稳住教师对主导模态的感知，冻结主导模态的 ViT 编码器和融合块，只训练非主导模态的 ViT 编码器，且用 0.1× 的低学习率（\(6\times10^{-6}\)）。反馈微调损失为

\[L_{feedback} = L_{CE} + L_{ifv}\]

这里 \(L_{ifv}\) 中的 \(M'\) 改为非主导模态数量（总数一半向下取整），用 CE 保正确性、用 IFV 专门精修弱模态。这样教师逐渐产出更均衡鲁棒的表征，整个蒸馏闭环受益。消融显示用「模态特征反馈」比用「学生输出 logits 反馈」好（学生在鲁棒训练下很难产出比教师更优的 logits），且冻结部分参数 + 只调弱模态最优：最终教师在 Event+Lidar 组合上从 1.57% 飙到 27.28%，学生 EMM 升到 49.91%（+0.81），全模态还反升到 61.85%。

损失函数 / 训练策略¶

基础自蒸馏损失 \(L_{origin}=L_{CE}+\lambda L_{KL}\)；学生训练用混合原型损失 \(L_{hp}=L_{origin}+\alpha L_{cp}+\beta L_{ifv}\)；教师反馈微调用 \(L_{feedback}=L_{CE}+L_{ifv}\)。超参经渐进搜索定为 \(\lambda=50,\ \alpha=100,\ \beta=12\)。训练上，教师和学生同初始化、同时训 120 epoch；为防早期反馈干扰教师表征，学生用原学习率、教师用 0.1× 学习率。AdamW，分辨率 \(1024\times1024\)。

实验关键数据¶

主实验¶

DeLiVER 全模态任意组合评测（MiT-B0 主干），跨 15 种模态组合的均值：

方法	全模态 RDEL	弱组合 EL	任意组合均值
CMNeXt	60.59	4.97	34.09
MAGIC	63.40	0.26	40.49
M-SegFormer	61.92	1.57	39.36
AnySeg (前 SOTA)	59.41	27.57	47.51
RobustSeg (本文)	61.85	33.01	49.91 (+2.40)

亮点是把极弱的 EL 组合从 M-SegFormer 的 1.57% 救到 33.01%，而全模态只掉 0.07%。

三数据集鲁棒性评测（MiT-B2 主干，EMM=整体缺失/RMM=随机缺失/NM=噪声模态的均值）：

数据集	前最优	前最优均值	本文均值
DeLiVER	AnySeg	41.46	45.16
MUSES	MAGIC++	27.00	32.58
MCubeS	MAGIC++	25.25	29.19

在最难的「噪声模态 NM」上提升最猛（DeLiVER NM：AnySeg 20.18 → 本文 27.31）。

消融实验¶

HPD 各组件消融（MiT-B0，Baseline 即全模态预训练）：

配置	EMM	全模态	说明
Baseline	39.36	61.92	无蒸馏
Basic-distillation	46.42	61.34	仅 \(L_{origin}\)
单模态特征 IFV	47.51	59.71	细节好但全模态掉 2.21
跨模态特征 IFV	43.42	53.38	跨模态用 IFV 灾难性掉 8.54
跨模态原型 (CPD)	49.06	60.11	跨模态对齐强
IFV + 原型（不选模态）	48.63	61.11	弱模态噪声拖累鲁棒
主导 IFV + 原型 (完整 HPD)	49.10	61.26	全模态仅 -0.66

反馈策略消融（学生 EMM / 教师 Event+Lidar）：CE+KL 反馈使教师 EL 从 1.57→20.03；改用 CE + 非主导 IFV 特征 + 冻结主导参数后，教师 EL 升到 27.28、全模态反升 +0.02，学生 EMM 也升到 49.91（+0.81），是唯一师生双赢的配置。

不同主干泛化（HPD vs HPD+Feedback，EMM 提升）：M-SegFormer 39.36→49.91（+10.55），CMNeXt 32.84→47.04（+14.20），均不增参数。

关键发现¶

「跨模态用什么代理」是全文胜负手：跨模态 IFV 全模态崩 8.54%，跨模态原型只掉 1.81%——证明高层语义原型才适合跨模态对齐，细节图会传偏置。这是 HPD 拆分两条通道的实验依据。
细节通道必须「选主导模态」：不选模态时弱模态噪声把鲁棒性从 49.06 拖到 48.63，ASM 选主导后恢复，说明弱模态的细节不可信。
反馈要传特征不传 logits：学生在鲁棒训练下 logits 弱于教师，用 logits 反馈无效；用弱模态 IFV 特征反馈 + 冻结主导参数才能在不伤主导感知的前提下补弱模态。
超参敏感性：\(\lambda\) 在 50、\(\alpha\) 在 100 时 EMM 最高；\(\beta\) 在 12（EMM 最优）与 15（全模态最优）接近，选更鲁棒的 12。

亮点与洞察¶

把「跨模态对齐」与「模态内细节」解耦到两条蒸馏通道：这是最巧的设计——先用反例证明 IFV 不能跨模态、原型不擅长细节，再让两者各管一摊，避免了单一目标既要又要的内耗。这个「不同知识用不同代理传」的思路可迁移到任何异构模态蒸馏（音视频、文本视觉）。
教师可学的闭环：打破 KD「教师恒优」假设，用「冻结主导 + 低 LR 调弱模态」的精细反馈，让有偏置的教师自我纠偏，且师生双赢。可复用到任何「监督者自身有偏」的蒸馏场景。
带标签掩码的原型平均池化 + 随机模态配对，是把逐像素稠密知识压成类级语义、再强制跨模态交换的轻量做法，零额外参数。

局限与展望¶

强依赖真值标签构造原型：原型平均池化和 CFM 都需要把 GT 下采样到特征图来选像素，半监督/无监督场景下不可直接用。
主导/非主导的判定靠 ASM 余弦相似度，数量按「总数一半向上/向下取整」硬性切分，模态数很多或信息量接近时这种二分可能不够精细，作者未讨论模态数 >4 时的行为。
效率与训练稳定性细节被放进补充材料，正文未给出训练开销，闭环反馈是否拖慢收敛、对学习率敏感程度如何，从正文难以判断。
作者展望把框架推广到极端天气和多模态医学图像分割等更多缺失/退化场景。

评分¶

新颖性: ⭐⭐⭐⭐ 「原型管跨模态、IFV 管模态内」的解耦 + 「教师可被学生反馈」的闭环组合新颖，且有清晰反例驱动设计。
实验充分度: ⭐⭐⭐⭐ 三数据集、两主干、HPD/反馈/超参逐项消融充分，唯效率与训练稳定性放进补充材料。
写作质量: ⭐⭐⭐⭐ 动机—反例—设计逻辑链清晰，图 1/2/3 把「为何不用 IFV 跨模态」讲得直观。
价值: ⭐⭐⭐⭐ 不增参数、不用外部数据即可显著提升缺失模态鲁棒性，且可迁移到不同主干与异构模态蒸馏，实用性强。