OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation¶

会议: NeurIPS 2025
arXiv: 2509.15096
代码: https://github.com/VCIP-RGBD/DFormer
领域: 图像分割
关键词: 多模态预训练, ImageNeXt, 语义分割, 模态对齐, 预训练-微调

一句话总结¶

OmniSegmentor 构建了含 5 种视觉模态的大规模 ImageNeXt 数据集（1.2M 样本），提出随机选择补充模态与 RGB 对齐的高效预训练策略，首次实现灵活的多模态预训练-微调流水线，在 6 个多模态语义分割基准上刷新 SOTA。

研究背景与动机¶

领域现状：多模态语义分割（RGB + 深度/热成像/LiDAR/事件相机）已成为实现鲁棒场景理解的重要方向。现有方法如 CMX、CMNeXt 通过跨模态交互融合多模态信息。

现有痛点：大多数方法使用 RGB 预训练或随机初始化权重来处理补充模态，导致预训练阶段与微调阶段的模态编码不匹配（mismatch）。DFormer 虽然尝试了 RGB-D 预训练来解决这个问题，但它是模态特定的，只适用于 RGB-D，无法扩展到更多模态。

核心矛盾：缺乏一个大规模的多模态数据集来支撑多模态预训练，且同时在所有模态上预训练（simultaneous pretraining）计算开销大且优化困难——实验表明联合预训练的训练曲线难以收敛，ImageNet Top-1 准确率从 81.4% 降到 79.9%。

本文目标 (a) 如何构建包含多种视觉模态的大规模预训练数据集？(b) 如何高效地进行多模态预训练？(c) 如何将预训练权重灵活部署到不同的下游多模态任务？

切入角度：作者观察到同时输入所有模态会带来优化困难，但 RGB 是最关键的模态。因此提出：预训练时每次只随机选择一种补充模态与 RGB 配对，而非同时处理所有模态。

核心 idea：通过在 ImageNeXt（5 模态合成数据集）上随机配对 RGB+1 补充模态进行预训练，再在微调时用模态特定 MLP 灵活扩展到任意模态组合。

方法详解¶

整体框架¶

OmniSegmentor 包含两大创新：(1) ImageNeXt 数据集——基于 ImageNet-1K 为每张图补充深度、热成像、LiDAR、事件相机四种模态，总计 1.2M 训练样本 × 5 模态；(2) 高效的预训练-微调流水线——预训练时 RGB + 随机选一种补充模态，微调时加载预训练权重并扩展为多模态编码器 + 轻量解码头。

关键设计¶

ImageNeXt 数据集构建:
- 功能：为 ImageNet 的每张 RGB 图像合成 4 种补充模态数据
- 核心思路：深度图用 Omnidata 估计模型生成；事件数据来自 N-ImageNet（事件相机拍摄显示器上的 ImageNet 图像）；LiDAR 基于合成深度图用伪 LiDAR 方法生成并转为 range-view 格式；热成像训练了一个基于 AdaBins 的热成像估计模型在 RGB-T 数据集上训练后为 ImageNet 生成
- 设计动机：解决多模态表征学习缺乏大规模多模态数据集的根本瓶颈，现有数据集如 SUNRGBD（1 万样本）和 KITTI-360（6 万样本）规模有限且模态单一
高效多模态预训练策略（ImageNeXt Pretraining）:
- 功能：在预训练阶段，每个 iteration 只输入 RGB + 随机选择的一种补充模态，进行特征对齐
- 核心思路：基于 DFormer 的 building block 设计，融合模块聚合 RGB 特征和所选模态特征，同时用独立 MLP 编码不同模态。RGB 和补充模态共享 fusion 模块的权重，但分别有自己的 stem 层和 MLP
- 设计动机：同时预训练所有模态参数量从 39.0M 增到 48.7M，FLOPs 从 14.7G 增到 21.8G，训练时间从 78.9h 涨到 180.5h，且 Top-1 掉到 79.9%。随机选择策略让每种补充模态都参与预训练且避免模态间的负向优化干扰，Top-1 达 83.0%
灵活多模态微调:
- 功能：将预训练权重部署到任意模态组合的下游分割任务
- 核心思路：微调时为每种补充模态分配独立的 stem 层和 MLP（从预训练的补充模态权重初始化），各模态特征先聚合（简单加法 + LayerNorm）再与 RGB 特征融合，最后接 Ham 解码头生成分割预测
- 设计动机：模态特定编码（separate MLPs）比共享 MLP 在 EventScape RGB-D-E 上高 0.9% mIoU（67.6 vs 66.7），参数只增加 2.9M 而 FLOPs 不变。实验还表明简单融合在 ImageNeXt 预训练后效果等同复杂融合（SQ-Hub），因为预训练已对齐了特征分布

损失函数 / 训练策略¶

预训练：交叉熵分类损失，AdamW 优化器，初始学习率 6e-5，poly 策略
微调：交叉熵分割损失，数据增强包括随机 resize（0.5-1.75）、随机水平翻转、随机裁剪
部分数据集（NYU Depth V2、SUNRGBD）采用多尺度推理

实验关键数据¶

主实验¶

数据集	模态	Backbone	mIoU (%)	对比 SOTA
NYU Depth V2	RGB-D	DFormer-L	57.6	DFormer 57.2 (+0.4)
SUNRGBD	RGB-D	DFormer-L	52.8	DFormer 52.5 (+0.3)
MFNet	RGB-T	DFormer-L	60.6	CMNeXt 59.9 (+0.7)
KITTI-360	RGB-L	DFormer-L	69.2	DFormer 66.3 (+2.9)
EventScape	RGB-D-E	DFormer-L	67.6	CMNeXt 63.9 (+3.7)
DeLiVER	RGB-D-E-L	DFormer-L	68.0	CMNeXt 66.3 (+1.7)

消融实验¶

预训练方式	参数量	FLOPs	Top-1 (%)	训练时间 (h)
RGB-only	39.0M	14.7G	81.4	69.5
同时所有模态	48.7M	21.8G	79.9	180.5
Ours (随机选择)	39.0M	14.7G	83.0	78.9

预训练缺失模态	NYU V2 (RGB-D)	MFNet (RGB-T)	KITTI (RGB-L)	EventScape (RGB-E)
全部5模态	54.3	57.6	64.6	61.8
缺少 Depth	52.2	57.5	64.6	61.6
缺少 Event	54.2	57.6	64.5	60.5
缺少 LiDAR	54.3	57.7	61.2	61.9
仅 RGB	50.9	55.6	60.1	58.7

关键发现¶

缺少哪种模态的预训练，对应下游任务掉点最明显（如缺 Event 时 RGB-E 从 61.8→60.5），证明 ImageNeXt 预训练的增益直接来源于对应模态数据
多模态组合越多，OmniSegmentor 相对优势越大：EventScape 从 RGB-E (+0.7) 到 RGB-D-E (+2.6)
KITTI-360 提升最显著（+2.9 mIoU），说明 LiDAR 模态从预训练中获益最大
使用同一 MiT-B2 backbone，OmniSegmentor 甚至超过其他方法用更大 MiT-B4 backbone 的结果

亮点与洞察¶

ImageNeXt 数据集的合成策略很实用：用现有估计模型（Omnidata、N-ImageNet）为 ImageNet 生成多模态数据，避免了昂贵的真实多模态数据采集。这个"合成补充模态"的思路可以迁移到其他多模态学习场景
随机选择比同时输入效果更好：反直觉的发现说明多模态预训练中模态间存在优化冲突，"少即是多"——每次只对齐两种模态比同时对齐五种更稳定
简单融合 ≈ 复杂融合（在对齐后）：预训练对齐了特征分布后，微调阶段不需要复杂的注意力融合机制，简单加法就够了，说明好的预训练可以简化下游架构设计

局限与展望¶

补充模态数据全部是合成的（估计/模拟），与真实传感器数据存在 domain gap，论文未评估这种 gap 的影响
热成像估计模型仅在 4 个小规模 RGB-T 数据集上训练，合成质量可能不够
仅验证了分类预训练 → 分割微调的范式，未探索自监督/无监督预训练方式
现有评测基准模态组合有限，缺乏同时包含全部 5 种模态的真实场景数据集

评分¶

新颖性: ⭐⭐⭐⭐ 首次实现5模态统一预训练框架，但核心架构复用 DFormer 设计
实验充分度: ⭐⭐⭐⭐⭐ 6个基准全面评测，丰富的消融实验
写作质量: ⭐⭐⭐⭐ 结构清晰，动机推导合理，图表丰富
价值: ⭐⭐⭐⭐ 为多模态分割提供了可复用的预训练范式和大规模数据集