AdaSFormer: Adaptive Serialized Transformers for Monocular Semantic Scene Completion from Indoor Environments¶
会议: CVPR 2026
arXiv: 2603.25494
代码: https://github.com/alanWXZ/AdaSFormer
领域: 其他
关键词: 语义场景补全, 序列化Transformer, 自适应注意力, 室内场景, 单目RGB
一句话总结¶
提出AdaSFormer,一种针对室内单目语义场景补全(MSSC)的序列化Transformer框架,通过自适应序列化注意力(可学习偏移量)、中心相对位置编码和卷积调制层归一化三个核心设计,在NYUv2和Occ-ScanNet上达到SOTA。
研究背景与动机¶
领域现状:单目语义场景补全从单张RGB图像预测完整3D场景的体素占据和语义标签。室外(自动驾驶)场景已有大量研究,但室内MSSC因空间布局复杂和严重遮挡而更具挑战。
现有痛点:现有室内方法主要依赖CNN架构——局部感受野无法建模长程依赖,3D卷积核增大计算开销立方增长。Transformer虽能建模全局上下文,但直接应用于密集3D体素计算和内存开销巨大。
核心矛盾:室内场景需要强全局上下文推理(推断遮挡区域的几何和语义),但高分辨率3D体素使Transformer的 \(O(N^2)\) 复杂度不可行。
切入角度:序列化Transformer将不规则3D数据转为有序序列,通过局部分组将复杂度降至 \(O(N \cdot G)\),但现有方法的分组方案固定,感受野受限。
核心idea:引入可学习偏移量自适应调整序列化起点→不同层获得不同感受野→更灵活的空间表示。
方法详解¶
整体框架¶
单目RGB图像→2D编码器(EfficientNet)+深度估计→3D投影→3D编码器(多个AdaSFormer块交替Transformer和卷积)→轻量解码器→SSC输出。
关键设计¶
-
自适应序列化注意力(ASA):
- 功能:通过可学习偏移自适应调整序列化起点,获得更灵活的感受野
- 核心思路:假设patch大小 \(P\),引入 \(K\) 个可学习参数表示偏移值(均匀间隔 \(P/K\))。用Straight-Through Gumbel-Softmax实现可微离散选择:\(\mathbf{y}_{soft} = \text{softmax}((\mathbf{l} + \mathbf{g})/\tau)\),前向用硬选择 \(\mathbf{y}_{hard}\),反向通过 \(\mathbf{y}_{soft}\) 传梯度。温度退火策略 \(\tau_t = \max(\tau_{min}, \tau_{init} \cdot \exp(-\alpha t))\) 逐步增强离散性
- 设计动机:不同起点显著改变感受野覆盖——可能完全覆盖单个物体或同时包含多个物体的空间关系。Swin Transformer的窗口偏移固定且不可学习,序列化注意力沿1D序列操作,偏移空间更广更灵活
-
中心相对位置编码(CRPE):
- 功能:编码每个体素与场景中心的空间关系,捕捉信息丰富度
- 核心思路:计算场景中心 \(\mathbf{c}\)(所有占据体素坐标均值),计算每个体素相对场景中心的偏航角差 \(\Delta\theta\) 和俯仰角差 \(\Delta\phi\),拼接后过MLP作为注意力偏置
- 设计动机:CNN组件已编码局部位置信息,额外的位置编码应侧重空间信息分布——距离场景中心不同位置的结构和语义信息丰富度不同
-
卷积调制层归一化(CMLN):
- 功能:桥接CNN和Transformer的异构特征表示
- 核心思路:\(\text{CMLN}(h_i | X_{voxel}) = \gamma(X_{voxel}) \odot \frac{h_i - \mu_i}{\sigma_i} + \beta(X_{voxel})\),归一化参数 \(\gamma, \beta\) 由体素特征通过小MLP生成
- 设计动机:Transformer和CNN提取根本不同的特征类型,直接交替使用导致学习困难,需要自适应特征统计调制
损失函数 / 训练策略¶
标准SSC损失(交叉熵+场景补全IoU相关损失)。
实验关键数据¶
主实验(NYUv2 数据集)¶
| 方法 | 会议 | SC IoU% | SSC mIoU% |
|---|---|---|---|
| MonoScene | CVPR'22 | 42.51 | 26.94 |
| NDC-Scene | ICCV'23 | 44.17 | 29.03 |
| ISO | ECCV'24 | 47.11 | 31.25 |
| MonoMRN | ICCV'25 | 53.16 | 26.80* |
| AdaSFormer (Ours) | CVPR'26 | SOTA | SOTA |
*注:MonoMRN在SC IoU上强但SSC mIoU较低,AdaSFormer在两个指标上均达到SOTA。
消融实验(NYUv2)¶
| 配置 | SC IoU | SSC mIoU |
|---|---|---|
| 基线 (标准序列化Transformer) | 基准 | 基准 |
| + ASA (可学习偏移) | +提升 | +提升 |
| + CRPE (中心相对编码) | +提升 | +提升 |
| + CMLN (调制归一化) | +提升 | +提升 |
| 全部组合 | 最优 | 最优 |
关键发现¶
- 自适应序列化注意力是最关键组件——可学习偏移比固定偏移提升显著
- 中心相对位置编码在室内场景中特别有效——室内场景的结构更以中心为导向
- CMLN解决了直接CNN-Transformer交替的特征不匹配问题
- 在NYUv2和Occ-ScanNet两个数据集上均达到SOTA
- 相比全3D Transformer内存和计算开销大幅减小
亮点与洞察¶
- 可学习序列化偏移:用Gumbel-Softmax让离散的序列化起点选择变可微,这是对序列化Transformer的通用改进,可迁移到点云分割和3D检测
- 空间信息丰富度编码:不同于标准位置编码记录绝对/相对位置,CRPE编码的是空间信息密度——距离场景中心更远的区域通常信息更稀疏
- CNN-Transformer异构特征桥接:CMLN为混合架构设计中的特征统计不匹配问题提供了优雅的解决方案
局限与展望¶
- 仅在室内场景上验证(NYUv2较小),更大规模室内数据集的效果待验证
- 深度估计质量对整体性能影响大,端到端训练需确保深度网络和补全网络的协同
- 场景中心用占据体素均值计算可能不鲁棒——如果占据分布偏斜怎么办?
- 可学习偏移的K个候选值是预定义的等间距,自适应间距可能更优
相关工作与启发¶
- vs MonoScene/NDC-Scene/ISO: 全CNN架构缺乏全局推理能力,本文引入Transformer弥补
- vs OctFormer/PTv3: 通用序列化Transformer设计,本文增加了可学习偏移以适应SSC
- vs Swin Transformer: Swin的窗口偏移固定且限于2D,本文的序列化偏移沿1D序列操作更灵活
评分¶
- 新颖性: ⭐⭐⭐⭐ 可学习序列化偏移有创意,CRPE和CMLN设计合理
- 实验充分度: ⭐⭐⭐⭐ NYUv2和Occ-ScanNet验证全面,但室内数据集规模较小
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
- 价值: ⭐⭐⭐ 室内SSC方向改进,但应用场景相对狭窄