跳转至

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

会议: ICLR 2026
arXiv: https://enact-embodied-cognition.github.io
代码: https://github.com/enact-embodied-cognition
领域: robotics
关键词: 具身认知、世界模型、视觉语言模型评测、自我中心感知、POMDP

一句话总结

ENACT 将具身认知评测形式化为基于一人称交互的世界建模 VQA——通过正向/逆向序列重排任务,系统揭示了当前顶级 VLM 在长时域交互推理中相较人类的显著差距及拟人化偏见。

研究背景与动机

领域现状:具身认知理论认为智能源于感觉运动交互,而非被动观察。近年来 VLM(GPT-5、Gemini 2.5、Claude 等)凭借大规模非具身训练展现出令人印象深刻的交互能力,使得"VLM 是否具备具身认知"成为一个关键科学问题。

现有痛点:已有工作要么聚焦于静态场景的空间感知,要么仅评估语言规划能力,或只考察原始物体间交互,缺乏将一人称感知与长时域具身交互紧密耦合的统一评测框架。主观分类体系(如 Yang et al., 2025)难以提供可复现的客观度量。

核心矛盾:VLM 在静态视觉理解上表现突出,但多步骤、因果性、部分可观测的具身世界建模能力尚未被严格量化——评测工具的缺失制约了对 VLM 具身能力边界的认识。

本文目标:构建一个可扩展、客观、与具体图像生成质量解耦的具身认知基准,在统一框架下系统测量 VLM 的前向/逆向世界建模能力。

核心 idea:将具身认知评测转化为基于 POMDP 的序列重排 VQA——正向世界建模(给定动作重排打乱的观测序列)与逆向世界建模(给定观测序列重排打乱的动作序列),动作以场景图差分表示,既剥离低层图像合成的干扰,又隐式要求模型具备可供性识别、动作-效果推理、具身感知与长时域记忆能力。

方法详解

整体框架

flowchart TD
    A[机器人操控轨迹\nBEHAVIOR 仿真器] --> B[关键帧提取\n场景图差分非空时刻]
    B --> C[关键帧轨迹采样\n长度 L∈3..10\n组合式 C(M,L) 扩展]
    C --> D1[正向世界建模 QA\n给定动作序列+初始观测\n要求重排打乱的观测图像]
    C --> D2[逆向世界建模 QA\n给定有序观测序列\n要求重排打乱的动作]
    D1 --> E[ENACT 基准\n8972 QA 对\n29 项家庭活动]
    D2 --> E
    E --> F[VLM 评测\n在线验证器\nTask Acc + Pairwise Acc]

关键设计

1. POMDP 形式化的序列重排 VQA:与图像生成解耦

ENACT 将世界建模定义在 POMDP \((S, O, A)\) 上:状态空间 \(S\) 为场景图,观测空间 \(O \subset \mathbb{R}^{H \times W \times 3}\) 为机器人一人称 RGB 视图,动作空间 \(A\) 为场景图差分 \(a_t = \delta(s_t, s_{t-1})\)。评测被形式化为两个排列推断任务:

  • 正向:给定 \(o_0\) 和有序动作序列 \((a_0,\ldots,a_{L-2})\),以及打乱的观测集合 \(O'\),模型输出排列 \(\sigma \in \text{Sym}([L-1])\) 使 \((o'_{\sigma(1)}, \ldots, o'_{\sigma(L-1)}) = (o_1, \ldots, o_{L-1})\)
  • 逆向:给定 \(o_0\) 和有序观测序列 \((o_1,\ldots,o_{L-1})\),以及打乱的动作集合 \(A'\),模型输出排列 \(\tau\) 使动作与观测进展一致。

这一设计将长时域交互视觉推理与高保真视频预测彻底解耦,使评测信号干净、可复现,同时隐式考察可供性识别、接触推理和局部可观测下的空间记忆。

2. 可扩展关键帧轨迹合成:组合式数据爆炸

原始机器人轨迹(30Hz)中大量时刻无语义变化,ENACT 通过检测场景图差分非空时刻提取关键帧集合 \(K = \{t_1 < \cdots < t_M\}\),并用余弦相似度过滤近重复帧(基于谓词级变化特征签名 \(c_j\))。从 \(M\) 个关键帧中采样长度为 \(L\) 的轨迹,由于 \(L \ll M\)(实践中 \(L \leq 10\)\(M \gtrsim 30\)),单条轨迹可生成最多 \(\binom{M}{L}\) 种不同候选,使数据规模从"轨迹数"变为"组合数",理论上从单条轨迹就能生成百万量级 QA 对,实现真正的可扩展数据生成。

3. 多粒度评测指标与在线验证器

ENACT 设计了两层评测指标:任务准确率(Task Accuracy, TA)要求完全匹配——\(\text{TA} = \frac{1}{|D|}\sum_{x \in D} \mathbf{1}[\text{accepted}(x)]\);配对准确率(Pairwise Accuracy, PA)给予局部正确的部分分数——\(\text{PA} = \frac{\sum_x \#\text{正确相邻对}_x}{\sum_x L_x}\)。由于多个合法排列可能同时满足约束,在线验证器接受任何与输入约束一致的排列,避免将多解问题误判为错误,更准确反映模型的因果推理能力。

4. 精细化错误分析框架:五类错误分类

通过将模型预测排列转换为对应的动作序列,再与仿真器提供的真值场景图差分做 Venn 图分析,ENACT 将每个原子状态差分归类为:正确(Correct)、遗漏(Omission)、幻觉(Hallucination)、实体替换(Entity Substitution)、极性反转(Polarity Inversion)、谓词替换(Predicate Substitution)五类。这一语义级错误分类比排列级比较更具诊断价值,能直接揭示模型认知失败的根因。

实验关键数据

主实验(Pairwise Accuracy,部分步长)

模型 正向 L=3 正向 L=6 正向 L=10 逆向 L=3 逆向 L=6 逆向 L=10
人类 93.62 93.87 95.13 92.05 94.25 96.29
GPT-5 84.62 64.18 46.93 86.28 68.78 55.33
GPT-5 mini 87.50 63.41 44.11 85.05 67.67 50.02
Gemini 2.5 Pro 86.10 60.80 36.98 87.94 70.03 56.62
InternVL3.5-241B 75.79 45.85 25.24 82.26 53.38 30.56
Qwen2.5-VL-72B 78.15 41.92 25.07 77.80 48.19 36.27
Claude Sonnet 4 65.65 30.52 20.16 73.25 43.07 28.49

消融实验(图像真实度 vs 相机配置,GPT-5 mini,Pairwise Acc 变化量 Δ)

配置变体 显著性 (p) 影响 Δ 说明
光线追踪(Path Tracing) p≥0.2 渲染真实度不影响性能
真实图像(GPT-image-1 转换) p≥0.2 仿真与真实差距极小
FOV 孔径 60/80/Fisheye p≤0.01 显著下降 VLM 偏向人眼视角内参
相机高度 +0.5m(正向) p<0.05 Δ=−0.13 非标准高度显著损伤性能
右手 vs 左手(混淆率) 右4.67% vs 左9.38% 右手显著优于左手

关键发现

  • 逆向任务一致优于正向任务(所有模型、所有步长),表明语言回顾性推理强于视觉前瞻性模拟
  • 准确率随轨迹长度单调下降,L=8-10 时多数模型任务准确率接近零,而人类保持稳定 >93%
  • GPT-5 和 Gemini 2.5 Pro 仅在 L=3 时接近人类水平,长时域差距迅速拉大
  • 最主要错误类型:正向任务幻觉(43.9%)+ 遗漏(37.1%)≈ 81%;逆向任务各占 41.8%
  • Cosmos-Reason1-7B(具身数据训练)在 L>5 时比同尺寸模型更稳定
  • 仿真与真实世界评测结果高度一致,验证 sim-to-real 差距极小

亮点与洞察

  • 任务设计极其简洁但覆盖广泛:序列重排 VQA 这一"窄"形式,隐式要求可供性识别、动作-效果推理、部分可观测长时域记忆等多种具身核心能力,同时避免了视频生成质量干扰
  • 数据生成流水线真正可扩展:组合式关键帧采样使单条轨迹即可生成百万 QA,为大规模具身认知研究提供数据基础
  • 人类对照令人震惊:人类在所有步长保持 ~94% 准确率,而最强 VLM(GPT-5)在 L=10 时降至 47%——这一差距比想象中大得多
  • 拟人化偏见的量化揭示了 VLM 训练数据偏差的深层问题:VLM 默认"看世界"的视角与人类高度绑定,难以泛化到非人类机器人视角
  • 错误分析框架的语义粒度为未来改进指明方向:主要问题不是误识别具体变化,而是遗漏/幻觉出根本不存在的状态变化

局限与展望

  • 仅使用仿真数据(BEHAVIOR),尽管 sim-to-real 差距较小,真实世界轨迹的多样性仍受限
  • 动作以场景图差分表示,依赖仿真器提供的真值状态,在真实机器人平台上难以直接复制
  • 评测集规模(8972 QA)相比 LLM 常见基准偏小,且仅涵盖 29 项家庭活动,场景多样性有待扩展
  • 当前未涉及跨模态(语言描述→动作执行)或实际机器人控制,仅测量"理解"层面能力

相关工作与启发

  • vs EmbodiedScan / ScanQA 等静态场景 VQA:ENACT 引入了时序动作链和部分可观测性,从静态空间理解升级到动态因果推理
  • vs Aurora-Bench:Aurora-Bench 聚焦短时域通用视频世界建模;ENACT 专注长时域机器人操控且有明确动作语义标注
  • vs BEHAVIOR 挑战赛:ENACT 复用 BEHAVIOR 轨迹数据,但将其转化为评测导向而非训练导向的基准
  • vs Cosmos-Reason1 等具身 VLM:ENACT 的评测结果直接指出具身数据训练在长时域稳定性上的价值,为未来具身 VLM 训练数据设计提供定量依据

评分

  • 新颖性: ⭐⭐⭐⭐ 将世界建模×POMDP×序列重排 VQA 三者融合为统一评测框架,概念清晰且形式化严谨
  • 实验充分度: ⭐⭐⭐⭐ 评测 30 个模型、8972 QA、多维度偏见分析(视角/FOV/手性)、仿真-真实对照,非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,每节都有 Key Takeaways 框,公式与直觉表述兼顾,可读性极强
  • 价值: ⭐⭐⭐⭐⭐ 填补了长时域具身认知评测的空白,数据可扩展至百万量级,对 VLM 具身能力研究有重要基础设施价值