AdaSFormer: Adaptive Serialized Transformers for Monocular Semantic Scene Completion from Indoor Environments¶

会议: CVPR 2026
arXiv: 2603.25494
代码: https://github.com/alanWXZ/AdaSFormer
领域: 其他
关键词: 语义场景补全, 序列化Transformer, 自适应注意力, 室内场景, 单目RGB

一句话总结¶

提出AdaSFormer，一种针对室内单目语义场景补全(MSSC)的序列化Transformer框架，通过自适应序列化注意力(可学习偏移量)、中心相对位置编码和卷积调制层归一化三个核心设计，在NYUv2和Occ-ScanNet上达到SOTA。

研究背景与动机¶

领域现状：单目语义场景补全从单张RGB图像预测完整3D场景的体素占据和语义标签。室外(自动驾驶)场景已有大量研究，但室内MSSC因空间布局复杂和严重遮挡而更具挑战。

现有痛点：现有室内方法主要依赖CNN架构——局部感受野无法建模长程依赖，3D卷积核增大计算开销立方增长。Transformer虽能建模全局上下文，但直接应用于密集3D体素计算和内存开销巨大。

核心矛盾：室内场景需要强全局上下文推理（推断遮挡区域的几何和语义），但高分辨率3D体素使Transformer的 \(O(N^2)\) 复杂度不可行。

切入角度：序列化Transformer将不规则3D数据转为有序序列，通过局部分组将复杂度降至 \(O(N \cdot G)\)，但现有方法的分组方案固定，感受野受限。

核心idea：引入可学习偏移量自适应调整序列化起点→不同层获得不同感受野→更灵活的空间表示。

方法详解¶

整体框架¶

单目RGB图像→2D编码器(EfficientNet)+深度估计→3D投影→3D编码器(多个AdaSFormer块交替Transformer和卷积)→轻量解码器→SSC输出。

关键设计¶

自适应序列化注意力(ASA):
- 功能：通过可学习偏移自适应调整序列化起点，获得更灵活的感受野
- 核心思路：假设patch大小 \(P\)，引入 \(K\) 个可学习参数表示偏移值（均匀间隔 \(P/K\)）。用Straight-Through Gumbel-Softmax实现可微离散选择：\(\mathbf{y}_{soft} = \text{softmax}((\mathbf{l} + \mathbf{g})/\tau)\)，前向用硬选择 \(\mathbf{y}_{hard}\)，反向通过 \(\mathbf{y}_{soft}\) 传梯度。温度退火策略 \(\tau_t = \max(\tau_{min}, \tau_{init} \cdot \exp(-\alpha t))\) 逐步增强离散性
- 设计动机：不同起点显著改变感受野覆盖——可能完全覆盖单个物体或同时包含多个物体的空间关系。Swin Transformer的窗口偏移固定且不可学习，序列化注意力沿1D序列操作，偏移空间更广更灵活
中心相对位置编码(CRPE):
- 功能：编码每个体素与场景中心的空间关系，捕捉信息丰富度
- 核心思路：计算场景中心 \(\mathbf{c}\)（所有占据体素坐标均值），计算每个体素相对场景中心的偏航角差 \(\Delta\theta\) 和俯仰角差 \(\Delta\phi\)，拼接后过MLP作为注意力偏置
- 设计动机：CNN组件已编码局部位置信息，额外的位置编码应侧重空间信息分布——距离场景中心不同位置的结构和语义信息丰富度不同
卷积调制层归一化(CMLN):
- 功能：桥接CNN和Transformer的异构特征表示
- 核心思路：\(\text{CMLN}(h_i | X_{voxel}) = \gamma(X_{voxel}) \odot \frac{h_i - \mu_i}{\sigma_i} + \beta(X_{voxel})\)，归一化参数 \(\gamma, \beta\) 由体素特征通过小MLP生成
- 设计动机：Transformer和CNN提取根本不同的特征类型，直接交替使用导致学习困难，需要自适应特征统计调制

损失函数 / 训练策略¶

标准SSC损失（交叉熵+场景补全IoU相关损失）。

实验关键数据¶

主实验（NYUv2 数据集）¶

方法	会议	SC IoU%	SSC mIoU%
MonoScene	CVPR'22	42.51	26.94
NDC-Scene	ICCV'23	44.17	29.03
ISO	ECCV'24	47.11	31.25
MonoMRN	ICCV'25	53.16	26.80*
AdaSFormer (Ours)	CVPR'26	SOTA	SOTA

*注：MonoMRN在SC IoU上强但SSC mIoU较低，AdaSFormer在两个指标上均达到SOTA。

消融实验（NYUv2）¶

配置	SC IoU	SSC mIoU
基线 (标准序列化Transformer)	基准	基准
+ ASA (可学习偏移)	+提升	+提升
+ CRPE (中心相对编码)	+提升	+提升
+ CMLN (调制归一化)	+提升	+提升
全部组合	最优	最优

关键发现¶

自适应序列化注意力是最关键组件——可学习偏移比固定偏移提升显著
中心相对位置编码在室内场景中特别有效——室内场景的结构更以中心为导向
CMLN解决了直接CNN-Transformer交替的特征不匹配问题
在NYUv2和Occ-ScanNet两个数据集上均达到SOTA
相比全3D Transformer内存和计算开销大幅减小

亮点与洞察¶

可学习序列化偏移：用Gumbel-Softmax让离散的序列化起点选择变可微，这是对序列化Transformer的通用改进，可迁移到点云分割和3D检测
空间信息丰富度编码：不同于标准位置编码记录绝对/相对位置，CRPE编码的是空间信息密度——距离场景中心更远的区域通常信息更稀疏
CNN-Transformer异构特征桥接：CMLN为混合架构设计中的特征统计不匹配问题提供了优雅的解决方案

局限与展望¶

仅在室内场景上验证（NYUv2较小），更大规模室内数据集的效果待验证
深度估计质量对整体性能影响大，端到端训练需确保深度网络和补全网络的协同
场景中心用占据体素均值计算可能不鲁棒——如果占据分布偏斜怎么办？
可学习偏移的K个候选值是预定义的等间距，自适应间距可能更优

评分¶

新颖性: ⭐⭐⭐⭐ 可学习序列化偏移有创意，CRPE和CMLN设计合理
实验充分度: ⭐⭐⭐⭐ NYUv2和Occ-ScanNet验证全面，但室内数据集规模较小
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐ 室内SSC方向改进，但应用场景相对狭窄