AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models¶

会议: NeurIPS 2025
arXiv: 2511.10017
代码: 待确认
领域: 3D视觉 / 具身智能 / 多模态VLM
关键词: Affordance, 3D推理, Chain-of-Thought, MLLM, 运动估计

一句话总结¶

提出细粒度 3D 具身推理任务（预测可操作元素的空间位置+运动类型+运动轴），通过将 3D 点云渲染为环视图并投影 affordance 候选，结合定制的 CoT 推理范式指导 MLLM 实现 SOTA，AP25 达 23.3%。

研究背景与动机¶

领域现状：MLLM 在 3D 场景理解上取得进展，但现有方法停留在物体级别的识别和定位

现有痛点： - 现有 3D 理解方法只做物体级 grounding，忽略了物体部件的细粒度 affordance 推理 - SceneFun3D 虽引入 affordance grounding，但将 grounding 和运动估计割裂处理 - 基于视频的方法存在信息冗余、视角受限、处理慢等问题

核心矛盾：MLLM 原生支持 2D 输入，但 affordance 推理需要 3D 空间理解和物理 grounding

本文目标 给定 3D 场景和语言指令，联合预测 affordance 元素的 mask、运动类型和运动轴方向

切入角度：3D→2D 投影 + 主动视角选择 + 多步 CoT 推理

核心 idea：将 3D affordance 候选投影到环视图上，用 CoT 引导 MLLM 先选视角、再定位、再推理运动

方法详解¶

整体框架¶

输入：3D 点云场景 + 自然语言指令（如"拔掉圣诞树灯的插头"）。(1) 360° 环视渲染生成 N 个候选视图；(2) 3D 实例分割提取 affordance 元素并构建几何-语义描述子；(3) 将 3D 信息投影到 2D 视图并标注；(4) CoT 推理：主动选视角→affordance 定位→运动推理。输出：每个元素的 {3D mask, 运动类型, 运动轴方向} 三元组。

关键设计¶

全景多模态表征构建 (Holistic Multimodal Representation):
- 功能：将 3D 场景转换为 MLLM 可处理的 2D enriched 表征
- 核心思路：以场景中心为原点做 360° 水平扫描，生成 N 个均匀分布的环视图。对每个 3D affordance 元素提取几何描述子（中心位置 C_j 和尺寸 Σ_j）和语义描述子 S_j，投影到 2D 视图上画标注框和 ID
- 设计动机：比视频帧提供更完整的视野覆盖，避免关键锚点和目标不在同一帧的问题
自适应标注策略 (Adaptive Labeling):
- 功能：解决 2D 投影后标签重叠问题
- 核心思路：为每个投影框预定义多个候选锚点位置，逐个检查不重叠性，选择第一个合适位置放置标签
- 设计动机：防止标签堆叠导致 MLLM 无法辨识
定制 CoT 推理范式:
- 功能：三步结构化推理——观察→定位→推理运动
- Step 1 主动视角选择：MLLM 接收所有标注视图+指令，自主选择最信息量视角（可能放大细节）
- Step 2 Affordance 定位：基于选定视图和指令，MLLM 识别目标元素的 ID
- Step 3 运动估计：基于指令和定位结果，推理运动类型（旋转/平移等）和运动轴方向（水平内/外/垂直等）
- 设计动机：将复杂推理分解为可解释步骤，每步都 grounded 在空间输入和任务意图上

损失函数 / 训练策略¶

3D 实例分割用 Dice loss + Cross-entropy loss 训练
粗到细课程学习：逐步缩小 ground truth mask 的膨胀半径 δ_t = δ_0 · β^⌊t/τ⌋
MLLM 部分不做额外训练，直接用 Qwen2.5-VL-72B 的推理能力

实验关键数据¶

主实验¶

SceneFun3D 数据集上的 affordance grounding + motion estimation

方法	原始2D输入	mIoU	AP25	+T(运动类型)	+TD(类型+方向)
OpenMask3D	✓	-	0.0	-	-
LERF	✓	-	低	-	-
Fun3DU	✓	-	较低	-	-
AffordBot	✗	14.0	23.3	18.3	10.8

消融实验¶

配置	AP25	说明
w/o Active View Selection	降低	无主动视角选择
w/o CoT (直接预测)	降低	无链式推理
LLaVA-34B (替换MLLM)	20.0	较弱 MLLM
GPT-4o	28.9	更强 MLLM
GPT-o1	33.4	最强推理 MLLM

关键发现¶

更强的 MLLM (GPT-o1 vs Qwen2.5-VL) 带来显著提升（23.3→33.4 AP25），说明框架可随 MLLM 进化而提升
多目标场景（Multiple）比单目标（Unique）表现更好，因为多元素场景提供更多上下文线索
不同 affordance 类型差异巨大：foot_push 100%，而 rotate 仅 2.5%，说明某些操作类型极具挑战

亮点与洞察¶

无需视频的 3D→2D 桥接：用环视渲染替代视频帧，提供完整视野且零冗余，是 MLLM 处理 3D 的实用思路
主动视角选择：让 MLLM 自主决定"从哪里看"，类似人类探索环境的行为，提高了推理的焦点和准确性
MLLM 可扩展性：框架不训练 MLLM，直接受益于更强模型（GPT-o1 提升 +10 AP25），很好的工程设计
统一任务定义：将 affordance grounding 和 motion estimation 统一为三元组预测，更贴近实际机器人操作需求

局限与展望¶

整体性能偏低（AP25 仅 23.3%），联合度量 +TD 仅 10.8%，距离实用还有很大距离
依赖 Mask3D 的分割质量作为上游，分割失败则整个流水线失败
运动轴方向的离散化损失了连续方向精度
未在真实机器人上验证，仅在 SceneFun3D 上做离线评估
可以考虑端到端训练或微调 MLLM 提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 统一任务定义+CoT推理范式，问题定义清晰有价值
实验充分度: ⭐⭐⭐⭐ 多 MLLM 对比、逐组件消融、逐类型分析全面
写作质量: ⭐⭐⭐⭐ 图表设计精美，方法叙述清晰
价值: ⭐⭐⭐⭐ 为具身智能的细粒度操作推理开辟新方向