跳转至

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

会议: NeurIPS 2025
arXiv: 2511.10017
代码: 待确认
领域: 3D视觉 / 具身智能 / 多模态VLM
关键词: Affordance, 3D推理, Chain-of-Thought, MLLM, 运动估计

一句话总结

提出细粒度 3D 具身推理任务(预测可操作元素的空间位置+运动类型+运动轴),通过将 3D 点云渲染为环视图并投影 affordance 候选,结合定制的 CoT 推理范式指导 MLLM 实现 SOTA,AP25 达 23.3%。

研究背景与动机

领域现状:MLLM 在 3D 场景理解上取得进展,但现有方法停留在物体级别的识别和定位

现有痛点: - 现有 3D 理解方法只做物体级 grounding,忽略了物体部件的细粒度 affordance 推理 - SceneFun3D 虽引入 affordance grounding,但将 grounding 和运动估计割裂处理 - 基于视频的方法存在信息冗余、视角受限、处理慢等问题

核心矛盾:MLLM 原生支持 2D 输入,但 affordance 推理需要 3D 空间理解和物理 grounding

本文目标 给定 3D 场景和语言指令,联合预测 affordance 元素的 mask、运动类型和运动轴方向

切入角度:3D→2D 投影 + 主动视角选择 + 多步 CoT 推理

核心 idea:将 3D affordance 候选投影到环视图上,用 CoT 引导 MLLM 先选视角、再定位、再推理运动

方法详解

整体框架

输入:3D 点云场景 + 自然语言指令(如"拔掉圣诞树灯的插头")。(1) 360° 环视渲染生成 N 个候选视图;(2) 3D 实例分割提取 affordance 元素并构建几何-语义描述子;(3) 将 3D 信息投影到 2D 视图并标注;(4) CoT 推理:主动选视角→affordance 定位→运动推理。输出:每个元素的 {3D mask, 运动类型, 运动轴方向} 三元组。

关键设计

  1. 全景多模态表征构建 (Holistic Multimodal Representation):

    • 功能:将 3D 场景转换为 MLLM 可处理的 2D enriched 表征
    • 核心思路:以场景中心为原点做 360° 水平扫描,生成 N 个均匀分布的环视图。对每个 3D affordance 元素提取几何描述子(中心位置 C_j 和尺寸 Σ_j)和语义描述子 S_j,投影到 2D 视图上画标注框和 ID
    • 设计动机:比视频帧提供更完整的视野覆盖,避免关键锚点和目标不在同一帧的问题
  2. 自适应标注策略 (Adaptive Labeling):

    • 功能:解决 2D 投影后标签重叠问题
    • 核心思路:为每个投影框预定义多个候选锚点位置,逐个检查不重叠性,选择第一个合适位置放置标签
    • 设计动机:防止标签堆叠导致 MLLM 无法辨识
  3. 定制 CoT 推理范式:

    • 功能:三步结构化推理——观察→定位→推理运动
    • Step 1 主动视角选择:MLLM 接收所有标注视图+指令,自主选择最信息量视角(可能放大细节)
    • Step 2 Affordance 定位:基于选定视图和指令,MLLM 识别目标元素的 ID
    • Step 3 运动估计:基于指令和定位结果,推理运动类型(旋转/平移等)和运动轴方向(水平内/外/垂直等)
    • 设计动机:将复杂推理分解为可解释步骤,每步都 grounded 在空间输入和任务意图上

损失函数 / 训练策略

  • 3D 实例分割用 Dice loss + Cross-entropy loss 训练
  • 粗到细课程学习:逐步缩小 ground truth mask 的膨胀半径 δ_t = δ_0 · β^⌊t/τ⌋
  • MLLM 部分不做额外训练,直接用 Qwen2.5-VL-72B 的推理能力

实验关键数据

主实验

SceneFun3D 数据集上的 affordance grounding + motion estimation

方法 原始2D输入 mIoU AP25 +T(运动类型) +TD(类型+方向)
OpenMask3D - 0.0 - -
LERF - - -
Fun3DU - 较低 - -
AffordBot 14.0 23.3 18.3 10.8

消融实验

配置 AP25 说明
w/o Active View Selection 降低 无主动视角选择
w/o CoT (直接预测) 降低 无链式推理
LLaVA-34B (替换MLLM) 20.0 较弱 MLLM
GPT-4o 28.9 更强 MLLM
GPT-o1 33.4 最强推理 MLLM

关键发现

  • 更强的 MLLM (GPT-o1 vs Qwen2.5-VL) 带来显著提升(23.3→33.4 AP25),说明框架可随 MLLM 进化而提升
  • 多目标场景(Multiple)比单目标(Unique)表现更好,因为多元素场景提供更多上下文线索
  • 不同 affordance 类型差异巨大:foot_push 100%,而 rotate 仅 2.5%,说明某些操作类型极具挑战

亮点与洞察

  • 无需视频的 3D→2D 桥接:用环视渲染替代视频帧,提供完整视野且零冗余,是 MLLM 处理 3D 的实用思路
  • 主动视角选择:让 MLLM 自主决定"从哪里看",类似人类探索环境的行为,提高了推理的焦点和准确性
  • MLLM 可扩展性:框架不训练 MLLM,直接受益于更强模型(GPT-o1 提升 +10 AP25),很好的工程设计
  • 统一任务定义:将 affordance grounding 和 motion estimation 统一为三元组预测,更贴近实际机器人操作需求

局限与展望

  • 整体性能偏低(AP25 仅 23.3%),联合度量 +TD 仅 10.8%,距离实用还有很大距离
  • 依赖 Mask3D 的分割质量作为上游,分割失败则整个流水线失败
  • 运动轴方向的离散化损失了连续方向精度
  • 未在真实机器人上验证,仅在 SceneFun3D 上做离线评估
  • 可以考虑端到端训练或微调 MLLM 提升性能

相关工作与启发

  • vs SceneFun3D: SceneFun3D 将 grounding 和 motion estimation 分离且 instruction-agnostic,AffordBot 统一为指令条件化的联合任务
  • vs Fun3DU: Fun3DU 依赖视频帧和 VLM+SAM,AffordBot 直接从点云渲染,避免视频处理瓶颈
  • vs 3D-LLM / LEO: 它们做物体级理解,AffordBot 下探到部件级 affordance 推理

评分

  • 新颖性: ⭐⭐⭐⭐ 统一任务定义+CoT推理范式,问题定义清晰有价值
  • 实验充分度: ⭐⭐⭐⭐ 多 MLLM 对比、逐组件消融、逐类型分析全面
  • 写作质量: ⭐⭐⭐⭐ 图表设计精美,方法叙述清晰
  • 价值: ⭐⭐⭐⭐ 为具身智能的细粒度操作推理开辟新方向