Can Vision Language Models Understand Mimed Actions?¶

一句话总结¶

提出 Mime 基准（86 个哑剧动作 × 10 种变体 = 860 个样本），通过动作捕捉 + 3D 渲染构建可控评测，发现人类在各种扰动下保持近 100% 准确率而最强 VLM 仅 52.3%（多选）/ 19.8%（自由回答），揭示 VLM 严重依赖场景上下文线索而非动作本身。

研究问题： 视觉语言模型（VLM）能否可靠地识别哑剧动作——一种去除关键物体上下文、仅通过肢体动作传达意图的非语言交流子集？

核心论点： 哑剧动作是非语言交流（NVC）中一个特殊子集：与其他手势不同，哑剧动作在人类之间的解释一致性极高，且与物理动作直接相关。因此，哑剧理解是 VLM 迈向 NVC 理解的 必要基础前提。

现有局限： VLM 在标准动作识别 benchmark 上表现优异，但这些 benchmark 中动作总是伴随着完整的上下文线索（如健身房中举重有杠铃、运动服等）。当这些线索被移除时，VLM 的真实理解能力暴露无遗。

通过动作捕捉（MoCap）+ 3D 计算机图形软件（Blender）构建基准，实现对角色、背景、视角的灵活控制，系统评估 VLM 对哑剧动作识别的鲁棒性：

数据构建流水线： (1) Vicon 动捕舞台采集 → (2) Blender 中 3D 角色重定向 → (3) 透明背景渲染帧 → (4) 叠加到指定背景上

1. 动作捕捉数据收集： - 头脑风暴 75 个候选哑剧动作（缺少关键物体上下文的动作，如无小提琴的拉琴、无水的游泳） - 2 名演员（1 名非专业男演员 + 1 名专业女演员）各拍 3 次 - 3 位作者中至少 2 人能正确识别才保留 - 最终保留 47 种动作类型、86 个哑剧样本

2. 10 种变体设计（每个动作）：

3. 双格式评估： - 多选（MC）： 4 个选项，干扰项排除语义相似的动作 - 自由回答（FF）： 无选项提示，用句子嵌入余弦相似度（阈值 0.5）评判正确性

模型	Mime MC	Mime FF	Real MC	Real FF
Gemini 1.5 Flash	52.3%	19.8%	~100%	~95%
GPT-4o Mini	41.9%	11.6%	~99%	~92%
Qwen 2.5 VL (7B)	39.5%	5.8%	~97%	~85%
InternVL2.5 (8B)	31.4%	2.3%	~96%	~80%
人类	99.6%	89.5%	~100%	~95%

模型	Base (空白)	对齐背景	对抗背景
Gemini 1.5 Flash MC	52.3%	68.6%	37.2%
GPT-4o Mini MC	41.9%	66.3%	37.2%
Qwen 2.5 VL (7B) MC	39.5%	68.6%	32.6%
人类 MC	99.6%	98.5%	99.2%

模型	0°	90°	180°	270°	标准差 ↓
Gemini 1.5 Flash MC	52.3%	47.7%	52.3%	53.5%	2.2
GPT-4o Mini MC	41.9%	47.7%	43.0%	47.7%	2.6
人类 MC	99.6%	98.8%	98.8%	98.7%	0.4

VLM 与人类之间存在巨大鸿沟： 人类在所有变体上保持 ~99% MC 准确率，而最强 VLM (Gemini 1.5 Flash) 仅 52.3%，差距约 47 个百分点
VLM 严重依赖场景线索： 对齐背景将 Gemini 性能从 52.3% 提升至 68.6%（+16.3%），而人类几乎无变化，说明 VLM 是通过背景猜测动作而非理解动作本身
对抗背景严重误导 VLM： 性能从 52.3% 下降至 37.2%，而人类不受影响
人类对视角和角色变化高度鲁棒： VLM 在不同视角间波动较大
Chain of Thought 无明显帮助： 手动检查 Gemini CoT 结果发现 80% 的错误来自对动作的错误观察，仅 15% 来自对正确描述的错误推理
Few-shot 仅对闭源模型有微弱帮助： 但性能仍远低于人类