ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction¶

会议: ICLR 2026
arXiv: https://enact-embodied-cognition.github.io
代码: https://github.com/enact-embodied-cognition
领域: robotics
关键词: 具身认知、世界模型、视觉语言模型评测、自我中心感知、POMDP

一句话总结¶

ENACT 将具身认知评测形式化为基于一人称交互的世界建模 VQA——通过正向/逆向序列重排任务，系统揭示了当前顶级 VLM 在长时域交互推理中相较人类的显著差距及拟人化偏见。

研究背景与动机¶

领域现状：具身认知理论认为智能源于感觉运动交互，而非被动观察。近年来 VLM（GPT-5、Gemini 2.5、Claude 等）凭借大规模非具身训练展现出令人印象深刻的交互能力，使得"VLM 是否具备具身认知"成为一个关键科学问题。

现有痛点：已有工作要么聚焦于静态场景的空间感知，要么仅评估语言规划能力，或只考察原始物体间交互，缺乏将一人称感知与长时域具身交互紧密耦合的统一评测框架。主观分类体系（如 Yang et al., 2025）难以提供可复现的客观度量。

核心矛盾：VLM 在静态视觉理解上表现突出，但多步骤、因果性、部分可观测的具身世界建模能力尚未被严格量化——评测工具的缺失制约了对 VLM 具身能力边界的认识。

本文目标：构建一个可扩展、客观、与具体图像生成质量解耦的具身认知基准，在统一框架下系统测量 VLM 的前向/逆向世界建模能力。

核心 idea：将具身认知评测转化为基于 POMDP 的序列重排 VQA——正向世界建模（给定动作重排打乱的观测序列）与逆向世界建模（给定观测序列重排打乱的动作序列），动作以场景图差分表示，既剥离低层图像合成的干扰，又隐式要求模型具备可供性识别、动作-效果推理、具身感知与长时域记忆能力。

方法详解¶

整体框架¶

flowchart TD
    A[机器人操控轨迹\nBEHAVIOR 仿真器] --> B[关键帧提取\n场景图差分非空时刻]
    B --> C[关键帧轨迹采样\n长度 L∈3..10\n组合式 C(M,L) 扩展]
    C --> D1[正向世界建模 QA\n给定动作序列+初始观测\n要求重排打乱的观测图像]
    C --> D2[逆向世界建模 QA\n给定有序观测序列\n要求重排打乱的动作]
    D1 --> E[ENACT 基准\n8972 QA 对\n29 项家庭活动]
    D2 --> E
    E --> F[VLM 评测\n在线验证器\nTask Acc + Pairwise Acc]

关键设计¶

1. POMDP 形式化的序列重排 VQA：与图像生成解耦

ENACT 将世界建模定义在 POMDP \((S, O, A)\) 上：状态空间 \(S\) 为场景图，观测空间 \(O \subset \mathbb{R}^{H \times W \times 3}\) 为机器人一人称 RGB 视图，动作空间 \(A\) 为场景图差分 \(a_t = \delta(s_t, s_{t-1})\)。评测被形式化为两个排列推断任务：

正向：给定 \(o_0\) 和有序动作序列 \((a_0,\ldots,a_{L-2})\)，以及打乱的观测集合 \(O'\)，模型输出排列 \(\sigma \in \text{Sym}([L-1])\) 使 \((o'_{\sigma(1)}, \ldots, o'_{\sigma(L-1)}) = (o_1, \ldots, o_{L-1})\)。
逆向：给定 \(o_0\) 和有序观测序列 \((o_1,\ldots,o_{L-1})\)，以及打乱的动作集合 \(A'\)，模型输出排列 \(\tau\) 使动作与观测进展一致。

这一设计将长时域交互视觉推理与高保真视频预测彻底解耦，使评测信号干净、可复现，同时隐式考察可供性识别、接触推理和局部可观测下的空间记忆。

2. 可扩展关键帧轨迹合成：组合式数据爆炸

原始机器人轨迹（30Hz）中大量时刻无语义变化，ENACT 通过检测场景图差分非空时刻提取关键帧集合 \(K = \{t_1 < \cdots < t_M\}\)，并用余弦相似度过滤近重复帧（基于谓词级变化特征签名 \(c_j\)）。从 \(M\) 个关键帧中采样长度为 \(L\) 的轨迹，由于 \(L \ll M\)（实践中 \(L \leq 10\)，\(M \gtrsim 30\)），单条轨迹可生成最多 \(\binom{M}{L}\) 种不同候选，使数据规模从"轨迹数"变为"组合数"，理论上从单条轨迹就能生成百万量级 QA 对，实现真正的可扩展数据生成。

3. 多粒度评测指标与在线验证器

ENACT 设计了两层评测指标：任务准确率（Task Accuracy, TA）要求完全匹配——\(\text{TA} = \frac{1}{|D|}\sum_{x \in D} \mathbf{1}[\text{accepted}(x)]\)；配对准确率（Pairwise Accuracy, PA）给予局部正确的部分分数——\(\text{PA} = \frac{\sum_x \#\text{正确相邻对}_x}{\sum_x L_x}\)。由于多个合法排列可能同时满足约束，在线验证器接受任何与输入约束一致的排列，避免将多解问题误判为错误，更准确反映模型的因果推理能力。

4. 精细化错误分析框架：五类错误分类

通过将模型预测排列转换为对应的动作序列，再与仿真器提供的真值场景图差分做 Venn 图分析，ENACT 将每个原子状态差分归类为：正确（Correct）、遗漏（Omission）、幻觉（Hallucination）、实体替换（Entity Substitution）、极性反转（Polarity Inversion）、谓词替换（Predicate Substitution）五类。这一语义级错误分类比排列级比较更具诊断价值，能直接揭示模型认知失败的根因。

实验关键数据¶

主实验（Pairwise Accuracy，部分步长）¶

模型	正向 L=3	正向 L=6	正向 L=10	逆向 L=3	逆向 L=6	逆向 L=10
人类	93.62	93.87	95.13	92.05	94.25	96.29
GPT-5	84.62	64.18	46.93	86.28	68.78	55.33
GPT-5 mini	87.50	63.41	44.11	85.05	67.67	50.02
Gemini 2.5 Pro	86.10	60.80	36.98	87.94	70.03	56.62
InternVL3.5-241B	75.79	45.85	25.24	82.26	53.38	30.56
Qwen2.5-VL-72B	78.15	41.92	25.07	77.80	48.19	36.27
Claude Sonnet 4	65.65	30.52	20.16	73.25	43.07	28.49

消融实验（图像真实度 vs 相机配置，GPT-5 mini，Pairwise Acc 变化量 Δ）¶

配置变体	显著性 (p)	影响 Δ	说明
光线追踪（Path Tracing）	p≥0.2	小	渲染真实度不影响性能
真实图像（GPT-image-1 转换）	p≥0.2	小	仿真与真实差距极小
FOV 孔径 60/80/Fisheye	p≤0.01	显著下降	VLM 偏向人眼视角内参
相机高度 +0.5m（正向）	p<0.05	Δ=−0.13	非标准高度显著损伤性能
右手 vs 左手（混淆率）	—	右4.67% vs 左9.38%	右手显著优于左手

关键发现¶

逆向任务一致优于正向任务（所有模型、所有步长），表明语言回顾性推理强于视觉前瞻性模拟
准确率随轨迹长度单调下降，L=8-10 时多数模型任务准确率接近零，而人类保持稳定 >93%
GPT-5 和 Gemini 2.5 Pro 仅在 L=3 时接近人类水平，长时域差距迅速拉大
最主要错误类型：正向任务幻觉（43.9%）+ 遗漏（37.1%）≈ 81%；逆向任务各占 41.8%
Cosmos-Reason1-7B（具身数据训练）在 L>5 时比同尺寸模型更稳定
仿真与真实世界评测结果高度一致，验证 sim-to-real 差距极小

亮点与洞察¶

任务设计极其简洁但覆盖广泛：序列重排 VQA 这一"窄"形式，隐式要求可供性识别、动作-效果推理、部分可观测长时域记忆等多种具身核心能力，同时避免了视频生成质量干扰
数据生成流水线真正可扩展：组合式关键帧采样使单条轨迹即可生成百万 QA，为大规模具身认知研究提供数据基础
人类对照令人震惊：人类在所有步长保持 ~94% 准确率，而最强 VLM（GPT-5）在 L=10 时降至 47%——这一差距比想象中大得多
拟人化偏见的量化揭示了 VLM 训练数据偏差的深层问题：VLM 默认"看世界"的视角与人类高度绑定，难以泛化到非人类机器人视角
错误分析框架的语义粒度为未来改进指明方向：主要问题不是误识别具体变化，而是遗漏/幻觉出根本不存在的状态变化

局限与展望¶

仅使用仿真数据（BEHAVIOR），尽管 sim-to-real 差距较小，真实世界轨迹的多样性仍受限
动作以场景图差分表示，依赖仿真器提供的真值状态，在真实机器人平台上难以直接复制
评测集规模（8972 QA）相比 LLM 常见基准偏小，且仅涵盖 29 项家庭活动，场景多样性有待扩展
当前未涉及跨模态（语言描述→动作执行）或实际机器人控制，仅测量"理解"层面能力

评分¶

新颖性: ⭐⭐⭐⭐ 将世界建模×POMDP×序列重排 VQA 三者融合为统一评测框架，概念清晰且形式化严谨
实验充分度: ⭐⭐⭐⭐ 评测 30 个模型、8972 QA、多维度偏见分析（视角/FOV/手性）、仿真-真实对照，非常全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，每节都有 Key Takeaways 框，公式与直觉表述兼顾，可读性极强
价值: ⭐⭐⭐⭐⭐ 填补了长时域具身认知评测的空白，数据可扩展至百万量级，对 VLM 具身能力研究有重要基础设施价值