Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶

会议: CVPR 2026
arXiv: 2603.07570
代码: 无
领域: RGB-D场景理解 / 多任务学习 / 全景分割
关键词: multi-task learning, RGB-D fusion, panoptic segmentation, adaptive loss, cross-dimensional guidance

一句话总结¶

提出高效RGB-D多任务场景理解网络，通过部分通道卷积融合编码器将FLOPs降至常规卷积的1/16、归一化焦点通道层(NFCL)和上下文特征交互层(CFIL)实现跨维度特征引导、batch级多任务自适应损失动态平衡五个任务，在NYUv2上以20.33 FPS（比EMSAFormer快24%）达到49.82 mIoU。

研究背景与动机¶

领域现状：机器人场景理解需要同时执行语义分割、实例分割、方向估计、全景分割和场景分类等多个任务。RGB-D数据融合已成为主流方案，但如何高效融合两种模态并同时优化多个任务仍是开放问题。

现有痛点：(1) 双编码器结构（EMSANet等）计算量大、模态间互补信息利用不足；(2) Transformer编码器（EMSAFormer用Swin v2）矩阵运算密集，内存访问频繁，推理速度只有16 FPS；(3) MLP decoder结构简单高效但浅层特征噪声会误导解码；(4) 固定多任务损失权重无法适应训练过程中的任务学习动态变化。

核心矛盾：多任务性能与推理速度之间的权衡——如何在不牺牲任务精度的情况下大幅提升推理效率。

本文目标 设计高效的RGB-D多任务网络，同时解决模态融合的效率问题、MLP decoder的浅层特征误导问题、以及多任务权重的动态平衡问题。

切入角度：利用通道特征的冗余性——仅对1/4通道做卷积运算即可达到全通道效果，大幅减少FLOPs和内存访问。

核心 idea：部分通道卷积高效融合RGB-D + 跨维度特征引导增强浅层信息 + batch级自适应损失动态平衡多任务。

方法详解¶

整体框架¶

网络接受RGBD 4通道输入，通过单个融合编码器（基于FasterNet-M，4阶段含3/4/18/3个融合块）提取特征。编码器输出分三支：(1) 场景分类头（全连接层）；(2) 语义分割decoder（MLP + NFCL + CFIL，生成像素级语义标签）；(3) 实例分割decoder（三层non-bottleneck 1D模块，输出实例中心、偏移和方向）。语义分割提供前景mask给实例分割，二者组合形成全景分割。训练时使用多任务自适应损失动态调整各任务学习权重。

关键设计¶

部分通道融合编码器:
- 功能：高效融合RGB和深度特征
- 核心思路：基于不同通道特征的高度相似性，每个融合块仅取1/4通道做Conv2D特征提取，其余3/4直接拼接：\(F = \text{Cat}(\text{Conv2d}(I_1), I_2)\)。由于 \(C'=C/4\)，部分卷积FLOPs降至全卷积的1/16。再通过两个pointwise conv提取通道关系并加残差连接。深度权重初始化为 \(D=(R+G+B)/2\) 复用ImageNet预训练
- 设计动机：频繁内存访问是传统depthwise separable conv的瓶颈；部分通道卷积减少内存访问的同时利用了通道冗余性
归一化焦点通道层(NFCL) + 上下文特征交互层(CFIL):
- 功能：NFCL过滤浅层噪声信息，CFIL弥补MLP decoder的局部-全局融合不足
- 核心思路：NFCL复用BN的可学习缩放因子γ作为通道重要性度量，通道权重 \(W_i = |\gamma_i| / \sum_j |\gamma_j|\)，经sigmoid门控过滤浅层噪声。CFIL做1×1和5×5两尺度自适应平均池化，通道压缩至C/2，上采样后与原始特征拼接再恢复通道数
- 设计动机：MLP decoder依赖编码器特征质量——NFCL消除浅层误导，CFIL补充多尺度上下文，两者互补
多任务自适应损失:
- 功能：batch级实时动态调整各任务学习权重
- 核心思路：每batch计算各任务相对损失 \(RL_k = L_k / \sum_t L_t\)，维护历史均值 \(\text{Avg}RL_k\)，更新权重 \(W_k = \max(\bar{W}_k \times (\text{Avg}RL_k)^\alpha, W_{min})\)，α=0.01控制敏感度，\(W_{min}\)=0.1防止任务被忽略
- 设计动机：比epoch级方法响应更快，能适应batch间数据分布变化；比随机权重（Lin等）更稳定

损失函数 / 训练策略¶

五个任务各有专用损失：语义分割(CE)、实例中心(MSE)、实例偏移(MAE)、方向估计(von Mises: \(L_{or}=1-e^{\kappa(f \cdot t - 1)}\))、场景分类(CE)。通过自适应权重加权求和。优化器SGD (lr=0.03, weight decay=1e-4, momentum=0.9)，RTX 3090 Ti训练。

实验关键数据¶

主实验¶

数据集	方法	语义mIoU	PQ(全景)	FPS	参数量
NYUv2	EMSAFormer (Swin v2)	49.76	43.08	16.32	72.08M
NYUv2	本文	49.82	43.21	20.33	71.82M
NYUv2	MPViT	-	-	9.94	-
SUN RGB-D	CI-Net	44.30	-	-	-
SUN RGB-D	本文	45.56	-	-	-
Cityscapes	PSPNet	63.10	-	-	-
Cityscapes	本文	65.11	-	-	-

消融实验¶

配置	关键指标	说明
融合编码器 vs Swin v2	实例PQ 58.59 vs 58.49, 更快	参数更少速度更快精度可比
+CFIL (语义decoder)	全景mIoU 50.16%	多尺度上下文融合有效
+NFCL (层1/2/3)	mIoU 49.82%	第4层编码器特征已充分
Non-bottleneck 1D vs Bottleneck	PQ 59.25 vs 57.97	分解卷积增强非线性
自适应损失 vs 固定权重	mIoU 47.72 vs 46.83	训练方差也更小
α=0.01 vs 0.1/0.001	0.01最优	平衡敏感度和稳定性

关键发现¶

部分通道卷积在密集预测任务中同样有效——FLOPs降16倍而精度基本不损失
NFCL复用BN的γ参数是零额外开销的通道重要性度量
batch级自适应损失比epoch级更稳定，训练方差更小
NB1D参数减少30%但PQ却提升1.28，分解卷积的非线性激活有助于实例分割

亮点与洞察¶

从头到尾贯彻"高效"理念：编码器用部分通道(1/16 FLOPs)，NFCL零开销复用BN，NB1D减30%参数
NFCL的设计极简——直接用现成的BN γ参数做通道加权，不引入任何额外可学习参数
在速度和精度间取得出色平衡：比Swin v2快24%而精度更高
多任务自适应损失是batch级实时调整，响应速度优于epoch级方法

局限与展望¶

部分通道比例1/4固定，可考虑根据数据集自适应选择
仅在RGB-D验证，未扩展到热成像、点云等模态
逐帧处理，未利用视频时序一致性
α和W_min为手动设置的超参数，可考虑自动化
高分辨率场景下的可扩展性未验证

评分¶

新颖性: ⭐⭐⭐ 各组件有一定新意但多为已有技术的整合优化
实验充分度: ⭐⭐⭐⭐ 三个数据集、详尽消融、热力图可视化
写作质量: ⭐⭐⭐ 结构完整但部分描述略冗余
价值: ⭐⭐⭐⭐ 对机器人场景理解有实用价值，速度精度平衡出色