AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers¶
会议: CVPR 2026
arXiv: 2603.27970
代码: Project Page
领域: 3D Vision / Scene Understanding
关键词: 可供性学习, 3D 场景理解, 视觉信号, 跨模态对齐, 零样本分割
一句话总结¶
AffordMatcher 提出了一种从视觉信号(RGB 图像中的人物交互)定位 3D 场景中可供性区域的方法,通过大规模 AffordBridge 数据集和基于不相似度矩阵的 Match-to-Match 注意力机制,在零样本可供性分割上达到 53.4 mAP,超越次优方法 7.8 个点。
研究背景与动机¶
领域现状:可供性学习旨在识别环境中的"交互机会"(Gibson),是机器人操作、视觉导航和 AR 的基础能力。
现有痛点: - 现有方法主要聚焦单模态(纯图像或纯点云),跨模态可供性学习缺乏统一方案; - 图像和点云之间特征分布差异大,跨模态匹配困难; - 现有数据集规模小、模态有限(大多 <40K 样本,<25 种动作),无法训练端到端的跨模态模型。
核心矛盾:如何从 2D 视觉信号(如"一个人推门"的图像)精确定位 3D 场景中的可操作区域?
本文切入角度:构建大规模 2D-3D 配对可供性数据集 AffordBridge(291K 标注),设计跨模态语义对应匹配方法。
核心 idea:通过不相似度矩阵量化 2D-3D 特征匹配程度,用 FastFormer 注意力优化匹配,实现零样本可供性分割。
方法详解¶
整体框架¶
AffordMatcher 要回答一个很具体的问题:给定一张"人正在和物体交互"的 RGB 图像(视觉信号),如何在 3D 场景点云里精确圈出对应的可操作区域。它把这件事拆成两条并行的特征通路再做匹配——3D 分支(可供性提取器,PointNet++)把体素化后的高分辨率场景点云编码成几何特征,2D 分支(推理提取器,ViT-B/16)把视觉信号编码成包含动作语义的推理特征。两路特征送进跨模态实例匹配模块做双向注意力对齐,再用一个不相似度矩阵量化"哪些 2D 推理单元和哪些 3D 几何单元真正匹配",最后经 Match-to-Match 注意力优化匹配结构,输出零样本的可供性分割掩码。整条链路的关键不是某个单模态网络多强,而是 2D 与 3D 之间那层匹配做得够细够鲁棒。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
DATA["AffordBridge 数据集构建<br/>3D 场景处理→视觉信号处理→CLIP 可供性标注"] --> TRAIN["监督训练<br/>四项联合损失"]
I["视觉信号<br/>RGB 交互图像"] --> R["推理提取器<br/>ViT-B/16 → 推理特征"]
P["3D 场景点云"] --> A["可供性提取器<br/>PointNet++ → 几何特征"]
R --> M["跨模态实例匹配<br/>双向交叉注意力对齐"]
A --> M
M --> DIS["不相似度矩阵 D_ij"]
DIS --> M2M["Match-to-Match 注意力<br/>FastFormer + 软阈值一对多"]
M2M --> OUT["零样本可供性分割掩码"]
TRAIN -.-> M
关键设计¶
1. AffordBridge 数据集:先把"训得动跨模态模型"的数据缺口补上
跨模态可供性学习一直缺一个够大、够多样、且 2D-3D 严格配对的训练集——已有数据集大多不到 4 万样本、动作类别不足 25 种,根本撑不起端到端的跨模态模型,这是阻碍整个方向的硬瓶颈。作者因此构建了 AffordBridge:317,844 个配对样本、685 个室内场景、291,637 个体积可供性掩码,覆盖 157 类物体和 61 种动作,规模与多样性都远超既有数据集。标注不是人工硬标,而是一条三步流水线自动生成:先做 3D 场景处理(体素化 + 视角过滤,把场景对齐到统一表示),再做视觉信号处理(从图像里提取人物交互、生成精细的动作描述),最后做可供性标注(用 CLIP 把动作语义与 3D 区域对齐、映射到 3D 实例)。正是这套数据让后面的跨模态匹配有了可学的监督信号。
2. 跨模态实例匹配:用双向注意力把 2D 推理和 3D 几何拽到同一个空间
图像特征和点云特征天然分布在两个差异巨大的空间里,直接算距离匹配不上。这里用双向交叉注意力让两边互相"看"对方:一个方向让视觉信号去查询 3D 点云、把空间几何信息聚合进来,
另一个方向反过来让 3D 点云去查询视觉特征、把动作推理信息反馈回去,
双向的好处是两路特征互相增强而不是单向投影:视觉信号引导"该往场景哪里定位",3D 几何又反过来约束"这个推理是否落在合理的物体上",对齐后的 \(W^{(M)}\) 与 \(W^{(R)}\) 就处在可以逐元素比对的共享空间里。
3. 不相似度量化与 Match-to-Match 注意力:把"匹不匹配"做成可学习、可一对多的结构
有了对齐后的两组注意力输出,还需要一个稳健的判据来衡量第 \(i\) 个推理单元和第 \(j\) 个几何单元到底匹不匹配。作者用归一化后的余弦相似度构造不相似度矩阵,
\(D_{ij}\) 越小代表这一对越该匹配。直接拿原始特征距离去比并不鲁棒,于是把矩阵展平投影后送进 FastFormer 自注意力——它的加法式注意力能在低开销下学到全局匹配模式,而不是只看局部相似度。匹配还做了软阈值处理来支持一对多对应:当 \(D_{ij} < 0.2\) 时允许一个推理单元向多个几何区域传播,这对"一个动作覆盖多块区域"(如"坐"激活整个座面)很关键。举例来说,"推门"这个视觉信号经匹配后会同时对门把手和门板两块 3D 区域给出低不相似度,软阈值让二者都被激活,而不是被迫只选一块。
4. 跨模态可供性学习目标:用四项损失把对齐、匹配、不相似度一起约束住
整个匹配链路靠四部分损失联合优化,
其中 \(\mathcal{L}_{\text{embed}}\) 负责嵌入归一化与正则化、稳住特征空间;\(\mathcal{L}_{\text{align}}\) 让 FastFormer 的输出向 S-CLIP 生成的伪目标对齐、把语义监督灌进来;\(\mathcal{L}_{\text{bidir}}\) 约束两个方向投影的一致性、防止双向注意力各自漂移;\(\mathcal{L}_{\text{dissim}}\) 直接最小化跨模态注意力的不相似度、把该匹配的对拉近。四项分别盯住对齐质量、双向一致性和匹配紧致度,缺一项匹配就容易松垮(消融里逐项叠加带来累积 16.1 mAP 增益)。
损失函数 / 训练策略¶
- 推理提取器使用 ViT-B/16,可供性提取器使用 PointNet++
- 训练 100 epochs,batch size 16,学习率 \(10^{-4}\),每 30 epochs 衰减 0.5
- 3D 场景体素化为 \(64^3\) 网格
实验关键数据¶
主实验(零样本可供性分割)¶
| 方法 | mAP | [email protected] | [email protected] | 参数量 | 推理速度 |
|---|---|---|---|---|---|
| Mask3D-F | 41.2 | 58.6 | 47.1 | 19.0M | 126.2ms |
| OpenMask3D-F | 45.6 | 62.1 | 51.0 | 39.7M | 315.1ms |
| LASO | 37.5 | 54.2 | 42.6 | 21.4M | 130.4ms |
| AffordMatcher | 53.4 | 69.7 | 59.5 | 20.7M | 112.5ms |
消融实验¶
| 配置 | mAP | 说明 |
|---|---|---|
| 去掉 RGB 输入 | 37.3 | 视觉信号至关重要 |
| 去掉人物交互(inpaint) | 40.9 | 动作语义对推理有显著贡献 |
| 使用 PIAD 物体级数据 | 45.3 | 场景级训练优于物体级 |
| 完整 AffordMatcher | 53.4 | 各组件协同最优 |
关键发现¶
- 视觉信号中的人物交互线索是性能的核心驱动力(去掉后 mAP 降 16.1 点)
- 四部分损失逐步叠加带来累积 16.1 mAP 增益
- t-SNE 可视化显示视觉推理产生更紧凑、分离更好的可供性聚类
亮点与洞察¶
- AffordBridge 数据集是该领域最大规模的 2D-3D 配对可供性数据集,具有长期复用价值
- Match-to-Match 注意力设计高效(112.5ms/样本),适合实时应用
- 同一物体上不同动作(如椅子的"坐"vs"拉")激活不同区域的可视化非常直观
局限与展望¶
- 高详细度场景中内存和计算开销较大
- 重叠可供性和模糊动作场景下存在消歧困难
- 目前仅支持静态场景,未扩展到时序和动态交互
相关工作与启发¶
- 与 SceneFun3D 相比,支持视觉信号输入而非仅文本
- 不相似度矩阵+FastFormer 的组合可迁移到其他跨模态匹配任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集+方法双贡献,视觉信号驱动3D可供性定位是新方向
- 实验充分度: ⭐⭐⭐⭐ 全面的消融和可视化,数据集统计详尽
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 数据集和方法对3D场景理解和机器人领域有重要价值