Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions¶

会议: CVPR 2025
arXiv: 2504.04744
代码: 项目页面
领域: 3D视觉
关键词: 3D affordance grounding, multi-modal fusion, point cloud, VLM, embodied intelligence

一句话总结¶

提出首个多模态多视角 3D 功能区域定位任务和 AGPIL 数据集（30,972 对点云-图像-语言三元组），并设计基于 VLM 的 LMAffordance3D 框架，融合 2D/3D 空间特征与语言语义实现从 full-view 到 partial/rotation-view 的泛化。

研究背景与动机¶

领域现状: 功能区域定位（Affordance Grounding）旨在识别物体可操作区域，是具身智能中连接感知与行动的关键。现有研究主要在 2D 图像或单一模态 3D 点云上进行。

现有痛点: - 2D affordance 方法难以直接映射到 3D 空间用于机器人操作 - 3D 方法（如 3D AffordanceNet）仅依赖几何信息，泛化能力有限，遇到相似物体容易混淆 - 现有数据集要么只有单一模态输入，要么缺少语言指令引导，要么忽视了现实中遮挡/旋转导致的不完整点云问题

核心矛盾: 真实 3D 世界中，物体观测受视角、遮挡、旋转影响只能获取部分点云；而人类通过语言指导、视觉演示和交互来学习新物体的 affordance——现有方法无法同时利用这三类信息。

本文切入角度: 受认知科学启发，将 3D affordance grounding 建模为多模态任务（语言+图像+点云），并构建覆盖 full/partial/rotation 三种视角和 seen/unseen 两种设定的完整 benchmark。

方法详解¶

整体框架¶

LMAffordance3D 是一个端到端的单阶段框架，由四个核心组件构成： 1. Vision Encoder: 处理图像（ResNet18 → 2D 特征）和点云（PointNet++ → 3D 特征），通过 MLP + Self-Attention 融合得到多模态空间特征 \(F_S\) 2. VLM 核心: LLaVA-7B 作为 backbone，通过 Tokenizer 将语言指令编码为 \(F_T\)，Adapter（两层 MLP + 激活层）将空间特征 \(F_S\) 映射到语义空间 \(F_{SP}\)，拼接后输入 VLM 3. Decoder: 基于交叉注意力，以空间特征为 Query、指令特征为 Key、语义特征为 Value，解码得到 affordance 特征 \(F_A\) 4. Segmentation Head: 上采样 + 两层线性 + BN + Sigmoid，输出 \((B, 2048, 1)\) 的逐点 affordance 概率

关键设计¶

1. 多模态 Vision Encoder 设计 - 功能: 分别用 ResNet18 和 PointNet++ 提取 2D 和 3D 特征，再通过 MLP + Self-Attention 融合 - 核心思路: RGB 图像包含颜色/场景/交互信息，点云包含形状/尺寸/几何信息，二者互补；通过共享语义空间对齐 - 设计动机: 不直接使用 CLIP（参数大、部署困难），而是轻量化设计以适配机器人部署场景

2. 基于 Cross-Attention 的 Decoder - 功能: 将 VLM 输出拆分为指令特征和语义特征，通过交叉注意力融合空间与语义信息 - 核心思路: 空间特征（Query）向语义特征（Value）查询，由指令特征（Key）引导注意力分配 - 设计动机: 确保不同语言指令可以引导模型关注同一物体的不同 affordance 区域

3. AGPIL 数据集构建 - 功能: 构建首个多模态多视角 3D affordance 数据集，包含 30,972 张图像、41,628 个点云、30,972 条语言指令 - 核心思路: 点云来自 3D AffordanceNet（full/partial/rotation 三种视角），图像来自 AGD20K 和 PIAD，语言指令由 GPT-4o 结合图像生成并人工筛选 - 设计动机: 覆盖 23 类物体、17 类 affordance，每个标注为 \((2048, 17)\) 的概率矩阵，seen/unseen 设定完整测试泛化能力

损失函数¶

\[Loss = \omega_f L_{focal} + \omega_d L_{dice}\]

Focal Loss: 处理正负样本不平衡
Dice Loss: 优化分割重叠区域

实验关键数据¶

主实验（Overall Results）¶

方法	Full-view AUC↑	Full-view SIM↑	Partial AUC↑	Rotation AUC↑
3D AffordanceNet	0.807	0.483	0.761	0.595
IAG	0.849	0.545	0.809	0.679
OpenAD	0.858	0.587	0.815	0.733
PointRefer	0.877	0.595	0.821	0.756
Ours	0.890	0.610	0.848	0.782

Unseen 设定下优势更明显：Full-view AUC 0.774 vs PointRefer 0.755，MAE 0.095 vs 0.118。

消融实验（Per-Affordance）¶

整体 17 类 affordance 中，"stab" AUC 达 0.997（最高），"wrapping" 仅 0.689（最难）
Full→Partial→Rotation 性能逐步下降，说明不完整点云的挑战
Seen→Unseen 性能下降约 10-15%，但本文在 Unseen 上的优势比 Seen 更大

关键发现¶

多模态融合（图像+点云+语言）显著优于单模态方法，AUC 提升 3-8%
语言指令引导使模型能区分同一物体的不同功能区域
在 rotation-view 场景下提升最大（AUC +2.6%），因为 VLM 的语义理解补偿了几何不确定性
Unseen 物体上泛化优势明显，证明多模态融合提升了知识迁移能力

亮点与洞察¶

首个同时利用语言指令、视觉观察和交互的 3D affordance grounding 任务定义
AGPIL 数据集填补了多模态+多视角+概率标注的空白
将 VLM 引入 3D affordance 任务的范式值得关注：VLM 的先验知识大幅提升 unseen 泛化
端到端单阶段设计（不需要 2D 检测框），扩展性更好

局限与展望¶

图像与点云来自不同场景（基于类别匹配），存在视觉—几何不一致
LLaVA-7B 推理开销大，不利于实际机器人部署
Rotation-view 仍是性能短板，可考虑旋转等变网络增强
仅支持静态物体 affordance，未考虑动态场景
语言指令粒度为短语级，未探索更复杂的指令理解

评分¶

⭐⭐⭐⭐ — 任务定义新颖且数据集构建扎实，技术方案合理但创新度中等（主要是模块组合），多视角和 unseen 设定的完整性值得认可。