AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers¶
会议: CVPR 2026
arXiv: 2603.27970
代码: Project Page
领域: 3D Vision / Scene Understanding
关键词: 可供性学习, 3D 场景理解, 视觉信号, 跨模态对齐, 零样本分割
一句话总结¶
AffordMatcher 提出了一种从视觉信号(RGB 图像中的人物交互)定位 3D 场景中可供性区域的方法,通过大规模 AffordBridge 数据集和基于不相似度矩阵的 Match-to-Match 注意力机制,在零样本可供性分割上达到 53.4 mAP,超越次优方法 7.8 个点。
研究背景与动机¶
领域现状:可供性学习旨在识别环境中的"交互机会"(Gibson),是机器人操作、视觉导航和 AR 的基础能力。
现有痛点: - 现有方法主要聚焦单模态(纯图像或纯点云),跨模态可供性学习缺乏统一方案; - 图像和点云之间特征分布差异大,跨模态匹配困难; - 现有数据集规模小、模态有限(大多 <40K 样本,<25 种动作),无法训练端到端的跨模态模型。
核心矛盾:如何从 2D 视觉信号(如"一个人推门"的图像)精确定位 3D 场景中的可操作区域?
本文切入角度:构建大规模 2D-3D 配对可供性数据集 AffordBridge(291K 标注),设计跨模态语义对应匹配方法。
核心 idea:通过不相似度矩阵量化 2D-3D 特征匹配程度,用 FastFormer 注意力优化匹配,实现零样本可供性分割。
方法详解¶
整体框架¶
输入:高分辨率体素化 3D 场景点云 + 视觉信号(含人物交互的 RGB 图像)→ 可供性提取器(3D分支)+ 推理提取器(2D分支)→ 实例匹配(跨模态注意力)→ 不相似度矩阵 → Match-to-Match 注意力 → 零样本可供性分割输出。
关键设计¶
-
AffordBridge 数据集:
- 规模:317,844 个配对样本,685 个室内场景,291,637 个体积可供性遮罩,157 类物体,61 种动作
- 构建流程:3D 场景处理(体素化+视角过滤)→ 视觉信号处理(人物交互提取+精细描述)→ 可供性标注(CLIP 对齐+3D 实例映射)
- 设计动机:现有数据集规模和多样性不足,是阻碍跨模态可供性学习的关键瓶颈。
-
跨模态实例匹配(Instance Matching):
- 功能:在共享空间中对齐 2D 视觉特征和 3D 点云特征。
- 核心思路:双向交叉注意力 \(W^{(M)} = \text{softmax}(Q^{(I)} K^{(P)\top}) V^{(P)}\) 和 \(W^{(R)} = \text{softmax}(Q^{(P)} K^{(I)\top}) V^{(I)}\)
- 设计动机:双向注意力使 2D 和 3D 特征相互增强,既让视觉信号引导空间定位,也让 3D 几何反馈到推理过程。
-
不相似度量化与 Match-to-Match 注意力:
- 功能:量化跨模态特征匹配程度并学习最优匹配。
- 核心思路:
- 不相似度:\(D_{ij} = 1 - \max\{0, \frac{W_i^{(M)} \cdot W_j^{(R)}}{\|W_i^{(M)}\|_2 \|W_j^{(R)}\|_2}\}\)
- 展平投影后使用 FastFormer 自注意力优化匹配
- 软阈值处理实现一对多对应(\(D_{ij} < 0.2\) 允许多次传播)
- 设计动机:直接的特征距离不够鲁棒,FastFormer 的加法注意力高效学习全局匹配模式。
-
跨模态可供性学习目标:
- 四部分损失联合优化: \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{embed}} + \lambda \mathcal{L}_{\text{align}} + \gamma \mathcal{L}_{\text{bidir}} + \eta \mathcal{L}_{\text{dissim}}\)
- \(\mathcal{L}_{\text{embed}}\):嵌入归一化 + 正则化
- \(\mathcal{L}_{\text{align}}\):FastFormer 输出与 S-CLIP 伪目标对齐
- \(\mathcal{L}_{\text{bidir}}\):双向投影一致性
- \(\mathcal{L}_{\text{dissim}}\):最小化跨模态注意力不相似度
损失函数 / 训练策略¶
- 推理提取器使用 ViT-B/16,可供性提取器使用 PointNet++
- 训练 100 epochs,batch size 16,学习率 \(10^{-4}\),每 30 epochs 衰减 0.5
- 3D 场景体素化为 \(64^3\) 网格
实验关键数据¶
主实验(零样本可供性分割)¶
| 方法 | mAP | mAP@0.25 | mAP@0.50 | 参数量 | 推理速度 |
|---|---|---|---|---|---|
| Mask3D-F | 41.2 | 58.6 | 47.1 | 19.0M | 126.2ms |
| OpenMask3D-F | 45.6 | 62.1 | 51.0 | 39.7M | 315.1ms |
| LASO | 37.5 | 54.2 | 42.6 | 21.4M | 130.4ms |
| AffordMatcher | 53.4 | 69.7 | 59.5 | 20.7M | 112.5ms |
消融实验¶
| 配置 | mAP | 说明 |
|---|---|---|
| 去掉 RGB 输入 | 37.3 | 视觉信号至关重要 |
| 去掉人物交互(inpaint) | 40.9 | 动作语义对推理有显著贡献 |
| 使用 PIAD 物体级数据 | 45.3 | 场景级训练优于物体级 |
| 完整 AffordMatcher | 53.4 | 各组件协同最优 |
关键发现¶
- 视觉信号中的人物交互线索是性能的核心驱动力(去掉后 mAP 降 16.1 点)
- 四部分损失逐步叠加带来累积 16.1 mAP 增益
- t-SNE 可视化显示视觉推理产生更紧凑、分离更好的可供性聚类
亮点与洞察¶
- AffordBridge 数据集是该领域最大规模的 2D-3D 配对可供性数据集,具有长期复用价值
- Match-to-Match 注意力设计高效(112.5ms/样本),适合实时应用
- 同一物体上不同动作(如椅子的"坐"vs"拉")激活不同区域的可视化非常直观
局限与展望¶
- 高详细度场景中内存和计算开销较大
- 重叠可供性和模糊动作场景下存在消歧困难
- 目前仅支持静态场景,未扩展到时序和动态交互
相关工作与启发¶
- 与 SceneFun3D 相比,支持视觉信号输入而非仅文本
- 不相似度矩阵+FastFormer 的组合可迁移到其他跨模态匹配任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集+方法双贡献,视觉信号驱动3D可供性定位是新方向
- 实验充分度: ⭐⭐⭐⭐ 全面的消融和可视化,数据集统计详尽
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 数据集和方法对3D场景理解和机器人领域有重要价值