PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments¶

会议: CVPR 2026
arXiv: 2603.09760
代码: https://github.com/GL-ZHU925/PanoAffordanceNet
领域: 机器人 / 功能可供性感知
关键词: 全景功能可供性, 360°室内感知, 畸变感知调制, 球面致密化, one-shot学习

一句话总结¶

PanoAffordanceNet提出360°室内环境的整体功能可供性定位新任务，通过畸变感知频谱调制器（DASM）校正ERP几何畸变、全球面致密化头（OSDH）从稀疏激活恢复连续功能区域，配合多层级训练目标，在自建的首个全景功能可供性数据集360-AGD上大幅超越现有方法。

研究背景与动机¶

领域现状：视觉功能可供性（affordance）研究旨在定位物体可交互区域，是连接视觉感知与物理操作的桥梁。现有方法从完全监督演进到弱监督（LOCATE/WSMA），再到基础模型驱动的开放词汇方法（OOAL/AffordanceLLM），但几乎全部基于物体中心范式和受限视角图像验证。

现有痛点：(1) 服务机器人在360°物理空间中操作，但现有方法仅处理有限视场（FOV）的透视图像，与360°动作空间不匹配；(2) 将透视方法直接应用到全景图时性能急剧下降——等距柱投影（ERP）引入严重几何畸变（极区拉伸）、非均匀采样导致功能区域分布稀疏且分散、抽象功能语义与多尺度区域的精确对齐极其困难。

核心矛盾：全景图像不仅是视场扩大——它从根本上改变了空间特征的分布模式。ERP的纬度依赖畸变、功能区域的碎片化分布和弱监督下的语义漂移三重挑战交织，现有方法完全无法应对。

本文目标 (1) 如何在ERP畸变下保持局部交互细节和全局功能结构；(2) 如何从稀疏碎片化的初始激活恢复连续完整的功能区域；(3) 如何在极度稀疏（one-shot）标注下精确对齐语义和视觉区域。

切入角度：将问题分解为三个独立通道：频谱域处理畸变（高频+低频分别校正）、球面拓扑域处理碎片化（自相似性传播）、对比学习域处理语义漂移（区域-文本对齐）。

核心 idea：通过频谱畸变校正+球面致密化+多层级约束的三阶段设计，实现360°室内环境下的one-shot整体功能可供性定位。

方法详解¶

整体框架¶

端到端流水线包含四个模块：(1) 双编码器特征提取——DINOv2视觉编码器（LoRA适配）+ CLIP文本编码器（CoOp可学习提示）；(2) DASM畸变感知频谱调制器——双频段分解+纬度自适应校正；(3) 球面感知层次解码器——全局语义发现+OSDH致密化；(4) 多层级训练目标——像素级+分布级+区域-文本对比。输入560×1120全景图+One-shot标注。

关键设计¶

畸变感知频谱调制器（DASM）:
- 功能：校正ERP投影引入的纬度依赖几何畸变和语义弥散
- 核心思路：首先通过跨模态注意力将文本引导注入视觉特征 \(\mathbf{F}'_v\)，激活语义相关区域。然后将特征分解为高频（Laplacian算子 \(\nabla^2\)）和低频（高斯平滑 \(\mathcal{K}_\sigma\)）两个分支。高频增强模块（HFEM）在赤道区域锐化交互边界、抑制极区放大的伪影；低频稳定模块（LFSM）在极区维持全局结构一致性、缓解拉伸导致的语义碎片化。最终通过语言驱动通道门 \(\mathbf{g}_{ch}\) 和自适应空间门 \(\mathbf{g}_{sp}\) 的混合门控融合：\(\mathbf{F}_{\text{freq}} = \mathbf{F}'_v + \sum_{k} \lambda_k (\mathbf{g}_{ch} \odot \mathbf{g}_{sp} \odot \mathbf{F}_k)\)
- 设计动机：ERP在赤道保留锐利边缘但极区拉伸结构——高频和低频需要相反方向的校正策略，因此双频道独立处理后再融合
全球面致密化头（OSDH）:
- 功能：将稀疏碎片化的初始功能区域激活恢复为拓扑连续的完整区域
- 核心思路：利用视觉自相似性作为结构归纳偏置。将视觉特征投影到单位超球面构建余弦相似度亲和矩阵 \(\mathcal{S}_{ij}\)，通过top-k排序选出高置信种子点，对种子施加基于均值/标准差的Sigmoid置信图 \(\mathcal{C}\) 抑制噪声，然后通过max传播扩散种子激活：\(\mathbf{A}_{\text{refined}} = \mathbf{A}_{\text{init}} + \alpha \cdot \max_{j \in \mathcal{K}}(\mathcal{S}_{ij} \cdot \mathcal{C}_j)\)
- 设计动机：全景图中功能区域因非均匀采样而呈碎片化，但同一功能区域的视觉特征具有高自相似性——种子传播利用这一归纳偏置实现稀疏到稠密的恢复
区域-文本对比损失（\(\mathcal{L}_{RTC}\)）:
- 功能：建立视觉区域与功能语义概念之间的精确对应，抑制语义漂移
- 核心思路：用真值掩蔽将视觉特征池化为区域级表示 \(\mathbf{v}_c = \sum_l \hat{M}_{c,l} \mathbf{f}''_{v,l} / \sum_k \hat{M}_{c,k}\)，然后与对应文本嵌入通过InfoNCE对比对齐。与像素级BCE和分布级KL散度损失共同优化：\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{BCE} + \lambda_2 \mathcal{L}_{KL} + \lambda_3 \mathcal{L}_{RTC}\)
- 设计动机：同一物体可能有多个affordance（沙发的"坐"vs"靠"），仅靠像素级监督无法区分。区域-文本对比将语言监督精确锚定到具体视觉区域

损失函数 / 训练策略¶

AdamW优化器+余弦退火，学习率1e-5，2×A6000训练20k迭代，batch size 4。DINOv2用LoRA（rank=16）适配，CLIP文本编码器冻结但加CoOp可学习提示。数据增强包括全景特有的随机旋转±3°、缩放±5%和水平环绕偏移。

实验关键数据¶

主实验¶

360-AGD数据集上的one-shot功能可供性定位：

方法	Easy KLD↓	Easy SIM↑	Easy NSS↑	Hard KLD↓	Hard SIM↑	Hard NSS↑
OOAL	2.868	0.117	1.267	3.067	0.097	1.484
OS-AGDO	2.853	0.124	1.299	2.965	0.115	1.484
PanoAffordanceNet	1.270	0.506	4.490	1.306	0.474	4.398

透视AGD20K数据集泛化验证：

方法	Seen KLD↓	Seen SIM↑	Unseen KLD↓	Unseen SIM↑
OOAL	0.740	0.577	1.070	0.461
Ours	0.739	0.616	1.185	0.475

消融实验¶

模型组件消融（Hard Split）：

LoRA	DASM	OSDH	KLD↓	SIM↑	NSS↑
			1.475	0.416	4.196
✓			1.421	0.429	4.257
✓	✓		1.380	0.450	4.317
✓		✓	1.359	0.448	4.339
✓	✓	✓	1.306	0.474	4.398

损失函数消融：

\(\mathcal{L}_{KL}\)	\(\mathcal{L}_{RTC}\)	\(\mathcal{L}_{BCE}\)	KLD↓	SIM↑	NSS↑
		✓	1.596	0.395	3.891
✓		✓	1.430	0.450	4.041
✓	✓	✓	1.306	0.474	4.398

关键发现¶

PanoAffordanceNet在360-AGD上KLD降低55%+、SIM提升4倍+、NSS提升3倍+，碾压性领先
三个模块贡献互补：DASM主要降低KLD（几何校正），OSDH主要提升SIM/NSS（区域连续性），LoRA提供基础适配
\(\mathcal{L}_{RTC}\)对语义敏感指标（SIM/NSS）贡献最大，验证了区域-文本对齐对多affordance区分的关键作用
top-k在5-20范围内KLD仅波动0.006，OSDH对超参非常鲁棒
LoRA rank=16最优，过高（32）导致过拟合破坏DINOv2预训练语义
在透视AGD20K上也保持竞争力，证明方法不依赖全景特有假设

亮点与洞察¶

新任务定义有前瞻性：首次将affordance从物体中心范式推进到360°场景级，直接面向服务机器人的实际需求。360-AGD数据集填补了全景功能可供性的空白。
频谱双通道的巧妙对称设计：赤道需要增强高频（锐化边界）但极区需要稳定低频（防止碎片化），两个方向恰好相反——分频处理+门控融合是自然的解决方案。
OSDH用视觉自相似性恢复拓扑结构：不需要额外的几何信息（深度图等），仅用feature自身的余弦相似度实现稀疏→稠密传播，思路简洁且对超参不敏感。可迁移到任何需要从稀疏标注恢复稠密预测的场景。

局限与展望¶

360-AGD数据集规模偏小（未公布总样本数），Easy/Hard split的复杂度跨度是否足够有待验证
仅验证了19个affordance类别，实际室内场景的功能更复杂多样
One-shot设定限制了对长尾affordance的覆盖，few-shot或zero-shot扩展是自然方向
静态图像处理，未考虑动态场景中affordance的时序变化
ERP仍是中间表示，直接在球面上操作（如球面卷积）可能更本质

评分¶

新颖性: ⭐⭐⭐⭐⭐ 新任务定义+新数据集+针对性方法设计，开创性工作
实验充分度: ⭐⭐⭐⭐ 消融充分，但baselines仅两个（因为是新任务），跨域泛化验证有说服力
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细，但公式符号较多
价值: ⭐⭐⭐⭐⭐ 开辟了全景affordance新方向，对服务机器人全局感知有直接应用价值