MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents¶
会议: CVPR 2026
arXiv: 2511.23055
代码: zhangdaxia22.github.io/MindPower/ (Benchmark)
领域: 多模态VLM
关键词: Theory of Mind, BDI推理, 具身Agent, Mind-Reward, GRPO
一句话总结¶
MindPower提出以机器人为中心的心智理论(ToM)推理框架,将感知→信念→欲望→意图→决策→行动组织为六层推理层级,并用Mind-Reward(基于GRPO)优化推理一致性,在决策和动作生成上分别超过GPT-4o 12.77%和12.49%。
研究背景与动机¶
领域现状:具身Agent领域快速发展——PaLM-E、RoboBench、Smart-Help等实现了任务分解和执行。VLM(GPT-4o、Gemini、Qwen-VL)在感知层表现出色,但在推断人类意图和主动辅助方面仍然薄弱。现有ToM benchmark(MuMA-ToM、MMToM-QA)只评估对视频中人物心理状态的推断。
现有痛点:(1) 现有VLM-based agent只能执行显式指令,缺乏推断人类信念/欲望/意图的能力;(2) 现有ToM benchmark采用"角色中心"视角——只推断视频中人物的心理状态,不涉及agent自身视角的推理,也不要求生成决策和动作;(3) VLM在感知层容易被场景偏见干扰(如看到厨房就预测"清洁"而非推理实际意图)。
核心矛盾:agent需要理解"别人在想什么"才能主动帮忙,但还需要从"自己的视角"推理——"我知道苹果实际在冰箱里,虽然Alice以为苹果在桌上"。现有benchmark和方法均未建立这种双视角推理闭环。
本文目标 让具身agent从自身视角出发推断人类心理状态(信念、欲望、意图),并基于此做出主动的决策和行动。
切入角度:将认知科学的BDI框架(Belief-Desire-Intention)系统化地引入具身agent,构建三级六层的连续推理层级,并用结构化奖励函数(Mind-Reward)通过RL优化推理一致性。
核心 idea:用三级六层的Robot-Centric BDI推理层级将感知连接到行动,并用原子动作匹配的Mind-Reward通过GRPO优化推理链的一致性。
方法详解¶
整体框架¶
MindPower包含三部分:(1) MindPower Benchmark——590个家庭场景(VirtualHome + ThreeDWorld),含两个任务(错误信念纠正、隐式目标推断);(2) MindPower Reasoning Hierarchy——三级六层推理层级结构;(3) Mind-Reward + GRPO——两阶段训练(SFT冷启动 + GRPO强化)。基础模型为Qwen2.5-VL-7B。
关键设计¶
-
MindPower Reasoning Hierarchy(三级六层推理结构):
- 功能: 将具身决策过程形式化为从感知到行动的连续推理链
- 核心思路:
- Level-1 感知
<Perception>: 观察环境和人类行为,回答"现在发生了什么" - Level-2 心智推理:
<Belief>(推断自己和人类的信念,含二阶信念——"我认为Alice认为苹果在桌上")→<Desire>(确定辅助目标——"Alice需要什么帮助")→<Intention>(形成具体行动意图) - Level-3 决策与行动:
<Decision>(选择计划)→<Action>(输出原子操作序列如walk(fridge), open(fridge), pick(apple))
- Level-1 感知
- 设计动机: 现有VLM的"一步到位"决策缺乏中间推理过程;BDI层级确保每个决策都有可追溯的信念-欲望-意图支撑,提升可解释性和一致性
-
Robot-Centric视角(区别于Role-Centric):
- 功能: 要求agent同时推断自己的信念和人类的信念,形成双视角推理闭环
- 核心思路: 在错误信念纠正任务中——agent观察到物体被移动(Stage 2),当人类返回寻找时(Stage 3),agent需推理"Alice认为苹果在桌上(错误信念)"+"我知道苹果实际在冰箱里(自身信念)"→"我应该从冰箱取苹果给Alice"
- 设计动机: 现有MuMA-ToM/MMToM-QA只做角色心理推断的选择题,不涉及agent自身视角。真正的协作需要agent同时维护自己和他人的心理模型
-
Mind-Reward(原子动作匹配奖励):
- 功能: 设计结构化奖励函数驱动GRPO优化,确保推理链从感知到行动的一致性
- 核心思路: 将每层推理输出通过LLM(Qwen3-Max)提取为原子动作序列,计算三个对齐指标:原子准确度(ROUGE-1)、局部一致性(ROUGE-2)、全局一致性(ROUGE-L)。\(R_{Mind} = \alpha_1 R_{atomic} + \alpha_2 R_{local} + \alpha_3 R_{global}\),辅以Format-Reward确保层级结构完整
- 设计动机: 推理层级是连续的——从感知到行动存在时序和逻辑依赖。过程级奖励比仅评估最终输出更能保证中间推理步骤的质量
损失函数 / 训练策略¶
- 两阶段训练:(1) SFT冷启动(5 epochs),建立基本推理能力;(2) GRPO强化(400 iterations,每次8个生成样本),用Mind-Reward + Format-Reward
- GRPO通过组内相对优势 \(A_i = (R_i - \text{mean}(\{R_j\})) / \text{std}(\{R_j\})\) 更新策略
- 训练在单卡H800上完成,基础模型Qwen2.5-VL-7B
实验关键数据¶
主实验¶
| 方法 | Decision (S) | Action SR | Action AC | BPC |
|---|---|---|---|---|
| GPT-4o (图像) | 34.35 | 1.82 | 2.91 | 8.05 |
| Gemini-2.5 Pro | 33.87 | 2.08 | 2.54 | 8.56 |
| Video-R1 (开源最佳) | 30.33 | 1.43 | 1.72 | 6.45 |
| Qwen2.5-VL-7B (base) | 26.56 | 0.29 | 0.22 | 6.07 |
| Ours (SFT+Mind-Reward) | 47.12 | 11.75 | 15.40 | 8.87 |
| Human Baseline | 56.66 | 19.37 | 26.26 | 8.19 |
消融实验¶
| 训练配置 | Action AC | Decision (S) | BPC |
|---|---|---|---|
| Qwen2.5-VL-7B (无训练) | 0.22 | 26.56 | 6.07 |
| 仅Mind-Reward (无SFT) | 0.40 | - | - |
| 仅SFT (无RL) | 10.48 | 42.35 | 8.32 |
| SFT + Mind-Reward | 15.40 | 47.12 | 8.87 |
| 推理策略 (GPT-4o) | Decision | Action AC |
|---|---|---|
| 直接输出 (无推理) | 33.11 | 0.82 |
标准CoT (<think>) |
29.46 | 0.90 |
| MindPower Hierarchy | 34.35 | 2.91 |
关键发现¶
- 仅SFT就带来巨大提升(Action AC: 0.22→10.48),说明BDI推理层级结构本身有效
- RL在SFT基础上进一步提升约5个点(10.48→15.40),但无SFT的RL几乎无效(0.40)
- MindPower Hierarchy显著优于标准CoT(决策+4.89%)——结构化BDI推理比通用"思考"更有效
- 开源VLM严重缺乏Robot-Centric视角——容易被场景偏见干扰(如厨房→清洁,卧室→整理)
- 与Human Baseline仍有显著差距(Decision: 47.12 vs 56.66, Action: 15.40 vs 26.26)
亮点与洞察¶
- 将认知科学BDI框架系统化引入具身agent,形成可解释的推理链——每个决策都有可追溯的信念支撑
- Robot-Centric视角是核心创新——agent不仅推断他人心理状态,还显式建模自己的信念,实现二阶推理
- Mind-Reward将推理质量分解为原子-局部-全局三个粒度的一致性评估,比黑盒LLM评分更可控
- 两个任务设计有洞察力:错误信念纠正(agent察觉物体被移动)和隐式目标推断(从搜索行为推断需求)
局限与展望¶
- 数据集仅590个场景,全部来自模拟器(VirtualHome + ThreeDWorld),场景多样性受限
- 动作空间较粗(高层原子操作如
walk(fridge)),未涉及底层运动控制 - Mind-Reward依赖Qwen3-Max提取原子动作,引入额外LLM依赖
- 开放式评估的自动指标(BERTScore、ROUGE)能否真正反映推理质量存疑
- 只评估了7B模型,未验证更大规模模型的表现
相关工作与启发¶
- MuMA-ToM / MMToM-QA: 只做角色心理推断的选择题,MindPower要求从自身视角做完整BDI推理+动作生成
- Smart-Help / AToM-Bot: 做人机交互辅助但缺乏显式心智推理,MindPower明确建模信念不一致的检测与纠正
- Video-R1 / VideoChat-R1: 视频理解的RL训练,但不涉及ToM推理和具身决策
- 启发: BDI推理层级可作为"结构化CoT"推广到其他需要推理他人意图的任务;Mind-Reward的过程拆解+原子匹配思路对其他过程奖励设计有参考价值
评分¶
- ⭐⭐⭐⭐⭐ 新颖性: Robot-Centric ToM + BDI推理层级是全新视角,认知科学+AI的交叉创新
- ⭐⭐⭐⭐ 实验充分度: 对比多个闭源/开源VLM + 人类基线 + 详细消融,但数据集规模偏小
- ⭐⭐⭐⭐ 写作质量: 概念清晰层次分明,三级六层的形式化框架易于理解
- ⭐⭐⭐⭐ 价值: 为具身agent赋予ToM能力是重要方向,实际应用仍有距离但方向明确