SphereUFormer: A U-Shaped Transformer for Spherical 360 Perception¶

会议: CVPR 2025
arXiv: 2412.06968
代码: 无
领域: 3D视觉 / 全景感知
关键词: 360度感知, 球面表征, Transformer, 深度估计, 语义分割

一句话总结¶

SphereUFormer 提出直接在球面域（icosphere 网格）上运行的 U 形 Transformer 架构，通过球面局部自注意力机制和球面特化的上下采样操作，避免了等距柱状投影带来的畸变，在 360° 深度估计和语义分割任务上全面超越现有方法。

研究背景与动机¶

领域现状：全景 360° 感知（深度估计、语义分割等）是理解球面环境的基础任务。主流方法将 360° 图像投影到 2D 平面进行处理，常见投影包括等距柱状投影（ERP）、立方体映射和 patch 裁剪。在 2D 平面上可以直接使用 CNN 或 ViT。

现有痛点：（1）ERP 投影引入严重畸变，尤其在极点区域采样密度过高；（2）立方体映射存在面间不连续性，需要复杂的 padding 和后处理融合；（3）patch 裁剪限制了感受野，可能切断重要信息且需要高重叠度。之前少数直接在球面上工作的方法（如球面图卷积、HealSWIN）由于复杂的卷积核设计未能与 2D 投影方法竞争。

核心矛盾：保持无畸变的球面表征与构建高效架构之间的矛盾。2D 投影方便计算但引入畸变，球面表征保真但缺乏配套的高效计算架构。

本文目标：设计一种直接在球面域上工作的 Transformer 架构，既不引入投影畸变，又能与（甚至超越）基于 2D 投影的 SOTA 方法竞争。

切入角度：利用 icosphere 的优良几何性质——高度对称、均匀采样、天然的层级细分结构——设计球面特化的注意力机制和上下采样操作。

核心 idea：将 UFormer 架构适配到 icosphere 球面表征上，用球面局部自注意力替代 2D 窗口注意力，用 icosphere 层级细分实现上下采样，首次在纯球面架构上超越所有基于投影的方法。

方法详解¶

整体框架¶

输入为高分辨率 icosphere 上的 360° 图像 RGB 值，经线性投影编码为潜向量后进入 U 形编码器-解码器结构。编码器包含多个 SAM（Spherical Attention Module）模块和球面下采样层，逐级降低球面分辨率；底部是瓶颈 SAM；解码器包含 SAM + 上采样层和跳跃连接，逐级恢复分辨率。最终通过线性输出投影映射到目标通道数（深度值或语义类别）。

关键设计¶

球面局部自注意力（Spherical Local Self-Attention）:
- 功能：在球面上实现局部注意力计算，替代 2D 中的窗口注意力
- 核心思路：对 icosphere 上每个节点 \(x_i\)，根据球面图结构收集其 K 近邻（由 window coefficient \(C_{win}\) 控制阶数），计算 query-key-value 注意力。由于 icosphere 图是固定的，邻居映射只需预计算一次。为增强表达力，引入 head dimension coefficient \(C_{head}\) 对注意力头维度做 reverse bottleneck 放大（\(D_H = (D/H) \cdot C_{head}\)），在几乎不增加总参数量的情况下增加每个头的容量
- 设计动机：球面上不存在规则网格窗口，必须基于图结构定义局部性。自注意力是模型中唯一的空间操作（没有卷积层），因此需要通过 \(C_{head}\) 保证每个头有足够的表达力
球面相对位置编码:
- 功能：在注意力中编码节点间的相对空间关系
- 核心思路：对每对 query-key 节点测量角度差 \((\Delta\phi, \Delta\theta)\) 并归一化到 \([-1,1]\)，运行时从一个 \(7\times7\) 可学习网格中通过双线性插值采样位置偏置，加到注意力权重上。对于全局位置，仅对垂直方向 \(\phi\) 施加绝对正弦编码，水平方向 \(\theta\) 不加绝对编码以保持水平旋转等变性
- 设计动机：360° 场景总是垂直对齐（天/地方向固定），但水平朝向是任意的。因此垂直方向需要绝对位置感知，水平方向只需相对位置。\(7\times7\) 共享网格避免了为每对节点学独立参数的内存爆炸
Icosphere 上下采样:
- 功能：在不同球面分辨率层级间转换
- 核心思路：利用 icosphere 的层级细分结构——每升一级将每个三角面细分为 4 个。下采样用 center pooling（faces 模式）或 center/average pooling（vertices 模式）；上采样用最近邻（faces 模式）或简单的边中点插值（vertices 模式，每个新节点恰好在已有边的中心）
- 设计动机：icosphere 的细分结构天然提供了 2× 的上下采样比率，且每级节点数以 \(4\times\) 倍增长，无需额外设计复杂的池化/插值算法

损失函数 / 训练策略¶

深度估计使用 BerhuLoss，语义分割使用标准 Categorical Cross Entropy（忽略背景类）。评估时，各方法的预测统一投影到球面上做均匀评估，避免 ERP 评估中极区过度加权的偏差。所有方法不使用预训练权重，确保公平比较。

实验关键数据¶

主实验¶

深度估计 + 语义分割（256×512 分辨率级别）

模型	Params	Flops	S2D3D MAE↓	S2D3D δ₁↑	Struct3D MAE↓	S2D3D mIoU↑
PanoFormer	14.5M	11.8G	.174	92.5	.154	60.6
EGFormer	15.2M	15.6G	.170	93.1	.150	66.4
SFSS	15.1M	18.9G	.179	92.2	.155	68.2
Elite360D	14.7M	13.6G	.169	93.5	.147	71.4
SphereUFormer	14.9M	13.1G	.165	94.0	.142	72.2

消融实验¶

配置	Rank	\(C_{head}\)	\(C_{win}\)	Res.	Params	Flops
基础	7-hex	1	1	164K	11.2M	9.9G
+头系数	7-hex	2	1	164K	14.9M	13.0G
+窗口系数（最终）	7-hex	2	2	164K	14.9M	13.1G

增大 \(C_{head}\) 从 1→2 带来显著性能提升（参数增加但仅在注意力头维度），增大 \(C_{win}\) 几乎不增加参数但扩大了每个节点的感受野。

关键发现¶

球面方法首次全面超越 ERP 方法：在深度估计和语义分割的所有指标上，SphereUFormer 均优于 PanoFormer、EGFormer 等 SOTA 方法，终结了"球面方法不如投影方法"的时代
图像中心和极点区域改善最显著：球面表示在这些区域有更好的有效分辨率且无畸变
ERP 方法在 360°/0° 交界处存在边界错位，SphereUFormer 由于球面连续性完全没有此问题
在更高分辨率（512×1024 对应 rank 8）下差距更大，说明球面方法随分辨率增长优势更明显

亮点与洞察¶

选择 icosphere 作为表征是关键：其高对称性、均匀分布和天然分层结构使得上下采样、邻域定义都变得自然高效。所有映射只需预计算一次，运行时零额外开销
纯注意力架构在球面域反而成为优势——球面图的不规则性使标准卷积难以直接应用，而注意力机制天然适配任意图结构
评估公平性改进：统一投影到球面评估避免了极区偏差，这一协议本身就是对领域的贡献

局限与展望¶

目前仅在深度估计和语义分割上验证，全景布局估计、3D检测等任务有待探索
未使用预训练权重（为公平对比），球面域预训练方案可能进一步提升
当前实验在两个室内数据集上，室外全景场景泛化性未验证
相比 patch-based 方法的计算效率对比不完整

评分¶

新颖性: ⭐⭐⭐⭐ 球面 Transformer 架构设计完整，各模块均为球面定制
实验充分度: ⭐⭐⭐⭐ 双数据集、双任务、详细消融，但缺少室外和更多任务验证
写作质量: ⭐⭐⭐⭐⭐ 球面表示讨论全面深入，设计决策动机清晰
价值: ⭐⭐⭐⭐ 首证纯球面架构可超越投影方法，为全景感知开辟新方向