MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents¶

会议: CVPR 2026
arXiv: 2511.23055
代码: zhangdaxia22.github.io/MindPower/ (Benchmark)
领域: 多模态VLM
关键词: Theory of Mind, BDI推理, 具身Agent, Mind-Reward, GRPO

一句话总结¶

MindPower提出以机器人为中心的心智理论（ToM）推理框架，将感知→信念→欲望→意图→决策→行动组织为六层推理层级，并用Mind-Reward（基于GRPO）优化推理一致性，在决策和动作生成上分别超过GPT-4o 12.77%和12.49%。

研究背景与动机¶

领域现状：具身Agent领域快速发展——PaLM-E、RoboBench、Smart-Help等实现了任务分解和执行。VLM（GPT-4o、Gemini、Qwen-VL）在感知层表现出色，但在推断人类意图和主动辅助方面仍然薄弱。现有ToM benchmark（MuMA-ToM、MMToM-QA）只评估对视频中人物心理状态的推断。

现有痛点：(1) 现有VLM-based agent只能执行显式指令，缺乏推断人类信念/欲望/意图的能力；(2) 现有ToM benchmark采用"角色中心"视角——只推断视频中人物的心理状态，不涉及agent自身视角的推理，也不要求生成决策和动作；(3) VLM在感知层容易被场景偏见干扰（如看到厨房就预测"清洁"而非推理实际意图）。

核心矛盾：agent需要理解"别人在想什么"才能主动帮忙，但还需要从"自己的视角"推理——"我知道苹果实际在冰箱里，虽然Alice以为苹果在桌上"。现有benchmark和方法均未建立这种双视角推理闭环。

本文目标 让具身agent从自身视角出发推断人类心理状态（信念、欲望、意图），并基于此做出主动的决策和行动。

切入角度：将认知科学的BDI框架（Belief-Desire-Intention）系统化地引入具身agent，构建三级六层的连续推理层级，并用结构化奖励函数（Mind-Reward）通过RL优化推理一致性。

核心 idea：用三级六层的Robot-Centric BDI推理层级将感知连接到行动，并用原子动作匹配的Mind-Reward通过GRPO优化推理链的一致性。

方法详解¶

整体框架¶

MindPower包含三部分：(1) MindPower Benchmark——590个家庭场景（VirtualHome + ThreeDWorld），含两个任务（错误信念纠正、隐式目标推断）；(2) MindPower Reasoning Hierarchy——三级六层推理层级结构；(3) Mind-Reward + GRPO——两阶段训练（SFT冷启动 + GRPO强化）。基础模型为Qwen2.5-VL-7B。

关键设计¶

MindPower Reasoning Hierarchy（三级六层推理结构）:
- 功能: 将具身决策过程形式化为从感知到行动的连续推理链
- 核心思路:
  - Level-1 感知 <Perception>: 观察环境和人类行为，回答"现在发生了什么"
  - Level-2 心智推理: <Belief>（推断自己和人类的信念，含二阶信念——"我认为Alice认为苹果在桌上"）→ <Desire>（确定辅助目标——"Alice需要什么帮助"）→ <Intention>（形成具体行动意图）
  - Level-3 决策与行动: <Decision>（选择计划）→ <Action>（输出原子操作序列如 walk(fridge), open(fridge), pick(apple)）
- 设计动机: 现有VLM的"一步到位"决策缺乏中间推理过程；BDI层级确保每个决策都有可追溯的信念-欲望-意图支撑，提升可解释性和一致性
Robot-Centric视角（区别于Role-Centric）:
- 功能: 要求agent同时推断自己的信念和人类的信念，形成双视角推理闭环
- 核心思路: 在错误信念纠正任务中——agent观察到物体被移动（Stage 2），当人类返回寻找时（Stage 3），agent需推理"Alice认为苹果在桌上（错误信念）"+"我知道苹果实际在冰箱里（自身信念）"→"我应该从冰箱取苹果给Alice"
- 设计动机: 现有MuMA-ToM/MMToM-QA只做角色心理推断的选择题，不涉及agent自身视角。真正的协作需要agent同时维护自己和他人的心理模型
Mind-Reward（原子动作匹配奖励）:
- 功能: 设计结构化奖励函数驱动GRPO优化，确保推理链从感知到行动的一致性
- 核心思路: 将每层推理输出通过LLM（Qwen3-Max）提取为原子动作序列，计算三个对齐指标：原子准确度（ROUGE-1）、局部一致性（ROUGE-2）、全局一致性（ROUGE-L）。\(R_{Mind} = \alpha_1 R_{atomic} + \alpha_2 R_{local} + \alpha_3 R_{global}\)，辅以Format-Reward确保层级结构完整
- 设计动机: 推理层级是连续的——从感知到行动存在时序和逻辑依赖。过程级奖励比仅评估最终输出更能保证中间推理步骤的质量

损失函数 / 训练策略¶

两阶段训练：(1) SFT冷启动（5 epochs），建立基本推理能力；(2) GRPO强化（400 iterations，每次8个生成样本），用Mind-Reward + Format-Reward
GRPO通过组内相对优势 \(A_i = (R_i - \text{mean}(\{R_j\})) / \text{std}(\{R_j\})\) 更新策略
训练在单卡H800上完成，基础模型Qwen2.5-VL-7B

实验关键数据¶

主实验¶

方法	Decision (S)	Action SR	Action AC	BPC
GPT-4o (图像)	34.35	1.82	2.91	8.05
Gemini-2.5 Pro	33.87	2.08	2.54	8.56
Video-R1 (开源最佳)	30.33	1.43	1.72	6.45
Qwen2.5-VL-7B (base)	26.56	0.29	0.22	6.07
Ours (SFT+Mind-Reward)	47.12	11.75	15.40	8.87
Human Baseline	56.66	19.37	26.26	8.19

消融实验¶

训练配置	Action AC	Decision (S)	BPC
Qwen2.5-VL-7B (无训练)	0.22	26.56	6.07
仅Mind-Reward (无SFT)	0.40	-	-
仅SFT (无RL)	10.48	42.35	8.32
SFT + Mind-Reward	15.40	47.12	8.87

推理策略 (GPT-4o)	Decision	Action AC
直接输出 (无推理)	33.11	0.82
标准CoT (`<think>`)	29.46	0.90
MindPower Hierarchy	34.35	2.91

关键发现¶

仅SFT就带来巨大提升（Action AC: 0.22→10.48），说明BDI推理层级结构本身有效
RL在SFT基础上进一步提升约5个点（10.48→15.40），但无SFT的RL几乎无效（0.40）
MindPower Hierarchy显著优于标准CoT（决策+4.89%）——结构化BDI推理比通用"思考"更有效
开源VLM严重缺乏Robot-Centric视角——容易被场景偏见干扰（如厨房→清洁，卧室→整理）
与Human Baseline仍有显著差距（Decision: 47.12 vs 56.66, Action: 15.40 vs 26.26）

亮点与洞察¶

将认知科学BDI框架系统化引入具身agent，形成可解释的推理链——每个决策都有可追溯的信念支撑
Robot-Centric视角是核心创新——agent不仅推断他人心理状态，还显式建模自己的信念，实现二阶推理
Mind-Reward将推理质量分解为原子-局部-全局三个粒度的一致性评估，比黑盒LLM评分更可控
两个任务设计有洞察力：错误信念纠正（agent察觉物体被移动）和隐式目标推断（从搜索行为推断需求）

局限与展望¶

数据集仅590个场景，全部来自模拟器（VirtualHome + ThreeDWorld），场景多样性受限
动作空间较粗（高层原子操作如walk(fridge)），未涉及底层运动控制
Mind-Reward依赖Qwen3-Max提取原子动作，引入额外LLM依赖
开放式评估的自动指标（BERTScore、ROUGE）能否真正反映推理质量存疑
只评估了7B模型，未验证更大规模模型的表现

评分¶

⭐⭐⭐⭐⭐ 新颖性: Robot-Centric ToM + BDI推理层级是全新视角，认知科学+AI的交叉创新
⭐⭐⭐⭐ 实验充分度: 对比多个闭源/开源VLM + 人类基线 + 详细消融，但数据集规模偏小
⭐⭐⭐⭐ 写作质量: 概念清晰层次分明，三级六层的形式化框架易于理解
⭐⭐⭐⭐ 价值: 为具身agent赋予ToM能力是重要方向，实际应用仍有距离但方向明确