跳转至

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

会议: CVPR 2026
arXiv: 2603.09760
代码: https://github.com/GL-ZHU925/PanoAffordanceNet
领域: 机器人 / 功能可供性感知
关键词: 全景功能可供性, 360°室内感知, 畸变感知调制, 球面致密化, one-shot学习

一句话总结

PanoAffordanceNet提出360°室内环境的整体功能可供性定位新任务,通过畸变感知频谱调制器(DASM)校正ERP几何畸变、全球面致密化头(OSDH)从稀疏激活恢复连续功能区域,配合多层级训练目标,在自建的首个全景功能可供性数据集360-AGD上大幅超越现有方法。

研究背景与动机

领域现状:视觉功能可供性(affordance)研究旨在定位物体可交互区域,是连接视觉感知与物理操作的桥梁。现有方法从完全监督演进到弱监督(LOCATE/WSMA),再到基础模型驱动的开放词汇方法(OOAL/AffordanceLLM),但几乎全部基于物体中心范式和受限视角图像验证。

现有痛点:(1) 服务机器人在360°物理空间中操作,但现有方法仅处理有限视场(FOV)的透视图像,与360°动作空间不匹配;(2) 将透视方法直接应用到全景图时性能急剧下降——等距柱投影(ERP)引入严重几何畸变(极区拉伸)、非均匀采样导致功能区域分布稀疏且分散、抽象功能语义与多尺度区域的精确对齐极其困难。

核心矛盾:全景图像不仅是视场扩大——它从根本上改变了空间特征的分布模式。ERP的纬度依赖畸变、功能区域的碎片化分布和弱监督下的语义漂移三重挑战交织,现有方法完全无法应对。

本文目标 (1) 如何在ERP畸变下保持局部交互细节和全局功能结构;(2) 如何从稀疏碎片化的初始激活恢复连续完整的功能区域;(3) 如何在极度稀疏(one-shot)标注下精确对齐语义和视觉区域。

切入角度:将问题分解为三个独立通道:频谱域处理畸变(高频+低频分别校正)、球面拓扑域处理碎片化(自相似性传播)、对比学习域处理语义漂移(区域-文本对齐)。

核心 idea:通过频谱畸变校正+球面致密化+多层级约束的三阶段设计,实现360°室内环境下的one-shot整体功能可供性定位。

方法详解

整体框架

端到端流水线包含四个模块:(1) 双编码器特征提取——DINOv2视觉编码器(LoRA适配)+ CLIP文本编码器(CoOp可学习提示);(2) DASM畸变感知频谱调制器——双频段分解+纬度自适应校正;(3) 球面感知层次解码器——全局语义发现+OSDH致密化;(4) 多层级训练目标——像素级+分布级+区域-文本对比。输入560×1120全景图+One-shot标注。

关键设计

  1. 畸变感知频谱调制器(DASM):

    • 功能:校正ERP投影引入的纬度依赖几何畸变和语义弥散
    • 核心思路:首先通过跨模态注意力将文本引导注入视觉特征 \(\mathbf{F}'_v\),激活语义相关区域。然后将特征分解为高频(Laplacian算子 \(\nabla^2\))和低频(高斯平滑 \(\mathcal{K}_\sigma\))两个分支。高频增强模块(HFEM)在赤道区域锐化交互边界、抑制极区放大的伪影;低频稳定模块(LFSM)在极区维持全局结构一致性、缓解拉伸导致的语义碎片化。最终通过语言驱动通道门 \(\mathbf{g}_{ch}\) 和自适应空间门 \(\mathbf{g}_{sp}\) 的混合门控融合:\(\mathbf{F}_{\text{freq}} = \mathbf{F}'_v + \sum_{k} \lambda_k (\mathbf{g}_{ch} \odot \mathbf{g}_{sp} \odot \mathbf{F}_k)\)
    • 设计动机:ERP在赤道保留锐利边缘但极区拉伸结构——高频和低频需要相反方向的校正策略,因此双频道独立处理后再融合
  2. 全球面致密化头(OSDH):

    • 功能:将稀疏碎片化的初始功能区域激活恢复为拓扑连续的完整区域
    • 核心思路:利用视觉自相似性作为结构归纳偏置。将视觉特征投影到单位超球面构建余弦相似度亲和矩阵 \(\mathcal{S}_{ij}\),通过top-k排序选出高置信种子点,对种子施加基于均值/标准差的Sigmoid置信图 \(\mathcal{C}\) 抑制噪声,然后通过max传播扩散种子激活:\(\mathbf{A}_{\text{refined}} = \mathbf{A}_{\text{init}} + \alpha \cdot \max_{j \in \mathcal{K}}(\mathcal{S}_{ij} \cdot \mathcal{C}_j)\)
    • 设计动机:全景图中功能区域因非均匀采样而呈碎片化,但同一功能区域的视觉特征具有高自相似性——种子传播利用这一归纳偏置实现稀疏到稠密的恢复
  3. 区域-文本对比损失(\(\mathcal{L}_{RTC}\):

    • 功能:建立视觉区域与功能语义概念之间的精确对应,抑制语义漂移
    • 核心思路:用真值掩蔽将视觉特征池化为区域级表示 \(\mathbf{v}_c = \sum_l \hat{M}_{c,l} \mathbf{f}''_{v,l} / \sum_k \hat{M}_{c,k}\),然后与对应文本嵌入通过InfoNCE对比对齐。与像素级BCE和分布级KL散度损失共同优化:\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{BCE} + \lambda_2 \mathcal{L}_{KL} + \lambda_3 \mathcal{L}_{RTC}\)
    • 设计动机:同一物体可能有多个affordance(沙发的"坐"vs"靠"),仅靠像素级监督无法区分。区域-文本对比将语言监督精确锚定到具体视觉区域

损失函数 / 训练策略

AdamW优化器+余弦退火,学习率1e-5,2×A6000训练20k迭代,batch size 4。DINOv2用LoRA(rank=16)适配,CLIP文本编码器冻结但加CoOp可学习提示。数据增强包括全景特有的随机旋转±3°、缩放±5%和水平环绕偏移。

实验关键数据

主实验

360-AGD数据集上的one-shot功能可供性定位:

方法 Easy KLD↓ Easy SIM↑ Easy NSS↑ Hard KLD↓ Hard SIM↑ Hard NSS↑
OOAL 2.868 0.117 1.267 3.067 0.097 1.484
OS-AGDO 2.853 0.124 1.299 2.965 0.115 1.484
PanoAffordanceNet 1.270 0.506 4.490 1.306 0.474 4.398

透视AGD20K数据集泛化验证:

方法 Seen KLD↓ Seen SIM↑ Unseen KLD↓ Unseen SIM↑
OOAL 0.740 0.577 1.070 0.461
Ours 0.739 0.616 1.185 0.475

消融实验

模型组件消融(Hard Split):

LoRA DASM OSDH KLD↓ SIM↑ NSS↑
1.475 0.416 4.196
1.421 0.429 4.257
1.380 0.450 4.317
1.359 0.448 4.339
1.306 0.474 4.398

损失函数消融:

\(\mathcal{L}_{KL}\) \(\mathcal{L}_{RTC}\) \(\mathcal{L}_{BCE}\) KLD↓ SIM↑ NSS↑
1.596 0.395 3.891
1.430 0.450 4.041
1.306 0.474 4.398

关键发现

  • PanoAffordanceNet在360-AGD上KLD降低55%+、SIM提升4倍+、NSS提升3倍+,碾压性领先
  • 三个模块贡献互补:DASM主要降低KLD(几何校正),OSDH主要提升SIM/NSS(区域连续性),LoRA提供基础适配
  • \(\mathcal{L}_{RTC}\)对语义敏感指标(SIM/NSS)贡献最大,验证了区域-文本对齐对多affordance区分的关键作用
  • top-k在5-20范围内KLD仅波动0.006,OSDH对超参非常鲁棒
  • LoRA rank=16最优,过高(32)导致过拟合破坏DINOv2预训练语义
  • 在透视AGD20K上也保持竞争力,证明方法不依赖全景特有假设

亮点与洞察

  • 新任务定义有前瞻性:首次将affordance从物体中心范式推进到360°场景级,直接面向服务机器人的实际需求。360-AGD数据集填补了全景功能可供性的空白。
  • 频谱双通道的巧妙对称设计:赤道需要增强高频(锐化边界)但极区需要稳定低频(防止碎片化),两个方向恰好相反——分频处理+门控融合是自然的解决方案。
  • OSDH用视觉自相似性恢复拓扑结构:不需要额外的几何信息(深度图等),仅用feature自身的余弦相似度实现稀疏→稠密传播,思路简洁且对超参不敏感。可迁移到任何需要从稀疏标注恢复稠密预测的场景。

局限与展望

  • 360-AGD数据集规模偏小(未公布总样本数),Easy/Hard split的复杂度跨度是否足够有待验证
  • 仅验证了19个affordance类别,实际室内场景的功能更复杂多样
  • One-shot设定限制了对长尾affordance的覆盖,few-shot或zero-shot扩展是自然方向
  • 静态图像处理,未考虑动态场景中affordance的时序变化
  • ERP仍是中间表示,直接在球面上操作(如球面卷积)可能更本质

相关工作与启发

  • vs OOAL: OOAL是当前one-shot affordance SOTA,但完全为透视图设计,全景上SIM仅0.117 vs 本文0.506
  • vs WorldAfford: 同为场景级affordance但依赖SAM物体分割+LLM推理,非端到端;本文端到端且不依赖分割
  • vs 3D affordance方法: 3D方法提供精确几何约束但标注昂贵且缺乏成熟基础模型;全景作为2D和3D之间的折中,兼具360°空间覆盖和2D基础模型的泛化能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 新任务定义+新数据集+针对性方法设计,开创性工作
  • 实验充分度: ⭐⭐⭐⭐ 消融充分,但baselines仅两个(因为是新任务),跨域泛化验证有说服力
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细,但公式符号较多
  • 价值: ⭐⭐⭐⭐⭐ 开辟了全景affordance新方向,对服务机器人全局感知有直接应用价值