PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments¶
会议: CVPR 2026
arXiv: 2603.09760
代码: https://github.com/GL-ZHU925/PanoAffordanceNet
领域: 机器人 / 功能可供性感知
关键词: 全景功能可供性, 360°室内感知, 畸变感知调制, 球面致密化, one-shot学习
一句话总结¶
PanoAffordanceNet提出360°室内环境的整体功能可供性定位新任务,通过畸变感知频谱调制器(DASM)校正ERP几何畸变、全球面致密化头(OSDH)从稀疏激活恢复连续功能区域,配合多层级训练目标,在自建的首个全景功能可供性数据集360-AGD上大幅超越现有方法。
研究背景与动机¶
领域现状:视觉功能可供性(affordance)研究旨在定位物体可交互区域,是连接视觉感知与物理操作的桥梁。现有方法从完全监督演进到弱监督(LOCATE/WSMA),再到基础模型驱动的开放词汇方法(OOAL/AffordanceLLM),但几乎全部基于物体中心范式和受限视角图像验证。
现有痛点:(1) 服务机器人在360°物理空间中操作,但现有方法仅处理有限视场(FOV)的透视图像,与360°动作空间不匹配;(2) 将透视方法直接应用到全景图时性能急剧下降——等距柱投影(ERP)引入严重几何畸变(极区拉伸)、非均匀采样导致功能区域分布稀疏且分散、抽象功能语义与多尺度区域的精确对齐极其困难。
核心矛盾:全景图像不仅是视场扩大——它从根本上改变了空间特征的分布模式。ERP的纬度依赖畸变、功能区域的碎片化分布和弱监督下的语义漂移三重挑战交织,现有方法完全无法应对。
本文目标 (1) 如何在ERP畸变下保持局部交互细节和全局功能结构;(2) 如何从稀疏碎片化的初始激活恢复连续完整的功能区域;(3) 如何在极度稀疏(one-shot)标注下精确对齐语义和视觉区域。
切入角度:将问题分解为三个独立通道:频谱域处理畸变(高频+低频分别校正)、球面拓扑域处理碎片化(自相似性传播)、对比学习域处理语义漂移(区域-文本对齐)。
核心 idea:通过频谱畸变校正+球面致密化+多层级约束的三阶段设计,实现360°室内环境下的one-shot整体功能可供性定位。
方法详解¶
整体框架¶
端到端流水线包含四个模块:(1) 双编码器特征提取——DINOv2视觉编码器(LoRA适配)+ CLIP文本编码器(CoOp可学习提示);(2) DASM畸变感知频谱调制器——双频段分解+纬度自适应校正;(3) 球面感知层次解码器——全局语义发现+OSDH致密化;(4) 多层级训练目标——像素级+分布级+区域-文本对比。输入560×1120全景图+One-shot标注。
关键设计¶
-
畸变感知频谱调制器(DASM):
- 功能:校正ERP投影引入的纬度依赖几何畸变和语义弥散
- 核心思路:首先通过跨模态注意力将文本引导注入视觉特征 \(\mathbf{F}'_v\),激活语义相关区域。然后将特征分解为高频(Laplacian算子 \(\nabla^2\))和低频(高斯平滑 \(\mathcal{K}_\sigma\))两个分支。高频增强模块(HFEM)在赤道区域锐化交互边界、抑制极区放大的伪影;低频稳定模块(LFSM)在极区维持全局结构一致性、缓解拉伸导致的语义碎片化。最终通过语言驱动通道门 \(\mathbf{g}_{ch}\) 和自适应空间门 \(\mathbf{g}_{sp}\) 的混合门控融合:\(\mathbf{F}_{\text{freq}} = \mathbf{F}'_v + \sum_{k} \lambda_k (\mathbf{g}_{ch} \odot \mathbf{g}_{sp} \odot \mathbf{F}_k)\)
- 设计动机:ERP在赤道保留锐利边缘但极区拉伸结构——高频和低频需要相反方向的校正策略,因此双频道独立处理后再融合
-
全球面致密化头(OSDH):
- 功能:将稀疏碎片化的初始功能区域激活恢复为拓扑连续的完整区域
- 核心思路:利用视觉自相似性作为结构归纳偏置。将视觉特征投影到单位超球面构建余弦相似度亲和矩阵 \(\mathcal{S}_{ij}\),通过top-k排序选出高置信种子点,对种子施加基于均值/标准差的Sigmoid置信图 \(\mathcal{C}\) 抑制噪声,然后通过max传播扩散种子激活:\(\mathbf{A}_{\text{refined}} = \mathbf{A}_{\text{init}} + \alpha \cdot \max_{j \in \mathcal{K}}(\mathcal{S}_{ij} \cdot \mathcal{C}_j)\)
- 设计动机:全景图中功能区域因非均匀采样而呈碎片化,但同一功能区域的视觉特征具有高自相似性——种子传播利用这一归纳偏置实现稀疏到稠密的恢复
-
区域-文本对比损失(\(\mathcal{L}_{RTC}\)):
- 功能:建立视觉区域与功能语义概念之间的精确对应,抑制语义漂移
- 核心思路:用真值掩蔽将视觉特征池化为区域级表示 \(\mathbf{v}_c = \sum_l \hat{M}_{c,l} \mathbf{f}''_{v,l} / \sum_k \hat{M}_{c,k}\),然后与对应文本嵌入通过InfoNCE对比对齐。与像素级BCE和分布级KL散度损失共同优化:\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{BCE} + \lambda_2 \mathcal{L}_{KL} + \lambda_3 \mathcal{L}_{RTC}\)
- 设计动机:同一物体可能有多个affordance(沙发的"坐"vs"靠"),仅靠像素级监督无法区分。区域-文本对比将语言监督精确锚定到具体视觉区域
损失函数 / 训练策略¶
AdamW优化器+余弦退火,学习率1e-5,2×A6000训练20k迭代,batch size 4。DINOv2用LoRA(rank=16)适配,CLIP文本编码器冻结但加CoOp可学习提示。数据增强包括全景特有的随机旋转±3°、缩放±5%和水平环绕偏移。
实验关键数据¶
主实验¶
360-AGD数据集上的one-shot功能可供性定位:
| 方法 | Easy KLD↓ | Easy SIM↑ | Easy NSS↑ | Hard KLD↓ | Hard SIM↑ | Hard NSS↑ |
|---|---|---|---|---|---|---|
| OOAL | 2.868 | 0.117 | 1.267 | 3.067 | 0.097 | 1.484 |
| OS-AGDO | 2.853 | 0.124 | 1.299 | 2.965 | 0.115 | 1.484 |
| PanoAffordanceNet | 1.270 | 0.506 | 4.490 | 1.306 | 0.474 | 4.398 |
透视AGD20K数据集泛化验证:
| 方法 | Seen KLD↓ | Seen SIM↑ | Unseen KLD↓ | Unseen SIM↑ |
|---|---|---|---|---|
| OOAL | 0.740 | 0.577 | 1.070 | 0.461 |
| Ours | 0.739 | 0.616 | 1.185 | 0.475 |
消融实验¶
模型组件消融(Hard Split):
| LoRA | DASM | OSDH | KLD↓ | SIM↑ | NSS↑ |
|---|---|---|---|---|---|
| 1.475 | 0.416 | 4.196 | |||
| ✓ | 1.421 | 0.429 | 4.257 | ||
| ✓ | ✓ | 1.380 | 0.450 | 4.317 | |
| ✓ | ✓ | 1.359 | 0.448 | 4.339 | |
| ✓ | ✓ | ✓ | 1.306 | 0.474 | 4.398 |
损失函数消融:
| \(\mathcal{L}_{KL}\) | \(\mathcal{L}_{RTC}\) | \(\mathcal{L}_{BCE}\) | KLD↓ | SIM↑ | NSS↑ |
|---|---|---|---|---|---|
| ✓ | 1.596 | 0.395 | 3.891 | ||
| ✓ | ✓ | 1.430 | 0.450 | 4.041 | |
| ✓ | ✓ | ✓ | 1.306 | 0.474 | 4.398 |
关键发现¶
- PanoAffordanceNet在360-AGD上KLD降低55%+、SIM提升4倍+、NSS提升3倍+,碾压性领先
- 三个模块贡献互补:DASM主要降低KLD(几何校正),OSDH主要提升SIM/NSS(区域连续性),LoRA提供基础适配
- \(\mathcal{L}_{RTC}\)对语义敏感指标(SIM/NSS)贡献最大,验证了区域-文本对齐对多affordance区分的关键作用
- top-k在5-20范围内KLD仅波动0.006,OSDH对超参非常鲁棒
- LoRA rank=16最优,过高(32)导致过拟合破坏DINOv2预训练语义
- 在透视AGD20K上也保持竞争力,证明方法不依赖全景特有假设
亮点与洞察¶
- 新任务定义有前瞻性:首次将affordance从物体中心范式推进到360°场景级,直接面向服务机器人的实际需求。360-AGD数据集填补了全景功能可供性的空白。
- 频谱双通道的巧妙对称设计:赤道需要增强高频(锐化边界)但极区需要稳定低频(防止碎片化),两个方向恰好相反——分频处理+门控融合是自然的解决方案。
- OSDH用视觉自相似性恢复拓扑结构:不需要额外的几何信息(深度图等),仅用feature自身的余弦相似度实现稀疏→稠密传播,思路简洁且对超参不敏感。可迁移到任何需要从稀疏标注恢复稠密预测的场景。
局限与展望¶
- 360-AGD数据集规模偏小(未公布总样本数),Easy/Hard split的复杂度跨度是否足够有待验证
- 仅验证了19个affordance类别,实际室内场景的功能更复杂多样
- One-shot设定限制了对长尾affordance的覆盖,few-shot或zero-shot扩展是自然方向
- 静态图像处理,未考虑动态场景中affordance的时序变化
- ERP仍是中间表示,直接在球面上操作(如球面卷积)可能更本质
相关工作与启发¶
- vs OOAL: OOAL是当前one-shot affordance SOTA,但完全为透视图设计,全景上SIM仅0.117 vs 本文0.506
- vs WorldAfford: 同为场景级affordance但依赖SAM物体分割+LLM推理,非端到端;本文端到端且不依赖分割
- vs 3D affordance方法: 3D方法提供精确几何约束但标注昂贵且缺乏成熟基础模型;全景作为2D和3D之间的折中,兼具360°空间覆盖和2D基础模型的泛化能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 新任务定义+新数据集+针对性方法设计,开创性工作
- 实验充分度: ⭐⭐⭐⭐ 消融充分,但baselines仅两个(因为是新任务),跨域泛化验证有说服力
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细,但公式符号较多
- 价值: ⭐⭐⭐⭐⭐ 开辟了全景affordance新方向,对服务机器人全局感知有直接应用价值