Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶
会议: CVPR 2026
arXiv: 2603.07570
代码: 无
领域: RGB-D场景理解 / 多任务学习 / 全景分割
关键词: multi-task learning, RGB-D fusion, panoptic segmentation, adaptive loss, cross-dimensional guidance
一句话总结¶
提出高效RGB-D多任务场景理解网络,通过部分通道卷积融合编码器将FLOPs降至常规卷积的1/16、归一化焦点通道层(NFCL)和上下文特征交互层(CFIL)实现跨维度特征引导、batch级多任务自适应损失动态平衡五个任务,在NYUv2上以20.33 FPS(比EMSAFormer快24%)达到49.82 mIoU。
研究背景与动机¶
领域现状:机器人场景理解需要同时执行语义分割、实例分割、方向估计、全景分割和场景分类等多个任务。RGB-D数据融合已成为主流方案,但如何高效融合两种模态并同时优化多个任务仍是开放问题。
现有痛点:(1) 双编码器结构(EMSANet等)计算量大、模态间互补信息利用不足;(2) Transformer编码器(EMSAFormer用Swin v2)矩阵运算密集,内存访问频繁,推理速度只有16 FPS;(3) MLP decoder结构简单高效但浅层特征噪声会误导解码;(4) 固定多任务损失权重无法适应训练过程中的任务学习动态变化。
核心矛盾:多任务性能与推理速度之间的权衡——如何在不牺牲任务精度的情况下大幅提升推理效率。
本文目标 设计高效的RGB-D多任务网络,同时解决模态融合的效率问题、MLP decoder的浅层特征误导问题、以及多任务权重的动态平衡问题。
切入角度:利用通道特征的冗余性——仅对1/4通道做卷积运算即可达到全通道效果,大幅减少FLOPs和内存访问。
核心 idea:部分通道卷积高效融合RGB-D + 跨维度特征引导增强浅层信息 + batch级自适应损失动态平衡多任务。
方法详解¶
整体框架¶
网络接受RGBD 4通道输入,通过单个融合编码器(基于FasterNet-M,4阶段含3/4/18/3个融合块)提取特征。编码器输出分三支:(1) 场景分类头(全连接层);(2) 语义分割decoder(MLP + NFCL + CFIL,生成像素级语义标签);(3) 实例分割decoder(三层non-bottleneck 1D模块,输出实例中心、偏移和方向)。语义分割提供前景mask给实例分割,二者组合形成全景分割。训练时使用多任务自适应损失动态调整各任务学习权重。
关键设计¶
-
部分通道融合编码器:
- 功能:高效融合RGB和深度特征
- 核心思路:基于不同通道特征的高度相似性,每个融合块仅取1/4通道做Conv2D特征提取,其余3/4直接拼接:\(F = \text{Cat}(\text{Conv2d}(I_1), I_2)\)。由于 \(C'=C/4\),部分卷积FLOPs降至全卷积的1/16。再通过两个pointwise conv提取通道关系并加残差连接。深度权重初始化为 \(D=(R+G+B)/2\) 复用ImageNet预训练
- 设计动机:频繁内存访问是传统depthwise separable conv的瓶颈;部分通道卷积减少内存访问的同时利用了通道冗余性
-
归一化焦点通道层(NFCL) + 上下文特征交互层(CFIL):
- 功能:NFCL过滤浅层噪声信息,CFIL弥补MLP decoder的局部-全局融合不足
- 核心思路:NFCL复用BN的可学习缩放因子γ作为通道重要性度量,通道权重 \(W_i = |\gamma_i| / \sum_j |\gamma_j|\),经sigmoid门控过滤浅层噪声。CFIL做1×1和5×5两尺度自适应平均池化,通道压缩至C/2,上采样后与原始特征拼接再恢复通道数
- 设计动机:MLP decoder依赖编码器特征质量——NFCL消除浅层误导,CFIL补充多尺度上下文,两者互补
-
多任务自适应损失:
- 功能:batch级实时动态调整各任务学习权重
- 核心思路:每batch计算各任务相对损失 \(RL_k = L_k / \sum_t L_t\),维护历史均值 \(\text{Avg}RL_k\),更新权重 \(W_k = \max(\bar{W}_k \times (\text{Avg}RL_k)^\alpha, W_{min})\),α=0.01控制敏感度,\(W_{min}\)=0.1防止任务被忽略
- 设计动机:比epoch级方法响应更快,能适应batch间数据分布变化;比随机权重(Lin等)更稳定
损失函数 / 训练策略¶
五个任务各有专用损失:语义分割(CE)、实例中心(MSE)、实例偏移(MAE)、方向估计(von Mises: \(L_{or}=1-e^{\kappa(f \cdot t - 1)}\))、场景分类(CE)。通过自适应权重加权求和。优化器SGD (lr=0.03, weight decay=1e-4, momentum=0.9),RTX 3090 Ti训练。
实验关键数据¶
主实验¶
| 数据集 | 方法 | 语义mIoU | PQ(全景) | FPS | 参数量 |
|---|---|---|---|---|---|
| NYUv2 | EMSAFormer (Swin v2) | 49.76 | 43.08 | 16.32 | 72.08M |
| NYUv2 | 本文 | 49.82 | 43.21 | 20.33 | 71.82M |
| NYUv2 | MPViT | - | - | 9.94 | - |
| SUN RGB-D | CI-Net | 44.30 | - | - | - |
| SUN RGB-D | 本文 | 45.56 | - | - | - |
| Cityscapes | PSPNet | 63.10 | - | - | - |
| Cityscapes | 本文 | 65.11 | - | - | - |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 融合编码器 vs Swin v2 | 实例PQ 58.59 vs 58.49, 更快 | 参数更少速度更快精度可比 |
| +CFIL (语义decoder) | 全景mIoU 50.16% | 多尺度上下文融合有效 |
| +NFCL (层1/2/3) | mIoU 49.82% | 第4层编码器特征已充分 |
| Non-bottleneck 1D vs Bottleneck | PQ 59.25 vs 57.97 | 分解卷积增强非线性 |
| 自适应损失 vs 固定权重 | mIoU 47.72 vs 46.83 | 训练方差也更小 |
| α=0.01 vs 0.1/0.001 | 0.01最优 | 平衡敏感度和稳定性 |
关键发现¶
- 部分通道卷积在密集预测任务中同样有效——FLOPs降16倍而精度基本不损失
- NFCL复用BN的γ参数是零额外开销的通道重要性度量
- batch级自适应损失比epoch级更稳定,训练方差更小
- NB1D参数减少30%但PQ却提升1.28,分解卷积的非线性激活有助于实例分割
亮点与洞察¶
- 从头到尾贯彻"高效"理念:编码器用部分通道(1/16 FLOPs),NFCL零开销复用BN,NB1D减30%参数
- NFCL的设计极简——直接用现成的BN γ参数做通道加权,不引入任何额外可学习参数
- 在速度和精度间取得出色平衡:比Swin v2快24%而精度更高
- 多任务自适应损失是batch级实时调整,响应速度优于epoch级方法
局限与展望¶
- 部分通道比例1/4固定,可考虑根据数据集自适应选择
- 仅在RGB-D验证,未扩展到热成像、点云等模态
- 逐帧处理,未利用视频时序一致性
- α和W_min为手动设置的超参数,可考虑自动化
- 高分辨率场景下的可扩展性未验证
相关工作与启发¶
- vs EMSAFormer: 同做RGB-D多任务,本文用CNN替代Swin Transformer实现更快速度(20.33 vs 16.32 FPS)和可比精度
- vs EMSANet: 双编码器融合计算量大,本文单编码器直接处理RGBD 4通道
- vs SegFormer: MLP decoder的局限通过NFCL+CFIL有效弥补
- 部分通道卷积思想来自FasterNet,本文证明其在密集预测多任务中同样有效
评分¶
- 新颖性: ⭐⭐⭐ 各组件有一定新意但多为已有技术的整合优化
- 实验充分度: ⭐⭐⭐⭐ 三个数据集、详尽消融、热力图可视化
- 写作质量: ⭐⭐⭐ 结构完整但部分描述略冗余
- 价值: ⭐⭐⭐⭐ 对机器人场景理解有实用价值,速度精度平衡出色