HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=I6LUSZMJLa
论文: OpenReview
代码: 待确认
领域: 多模态VLM / 评测基准 / 人类中心视觉理解
关键词: MLLM评测、人类中心场景、视频推理、主动视觉证据、多模态基准

一句话总结¶

HumanPCR 构建了一个面向人类中心视觉场景的 MLLM 分层评测套件，用感知、理解、推理三个层级诊断模型在人体细节、社会行为、时序过程和多证据视频推理上的短板，并发现当前模型最薄弱的不是“看更多帧”，而是主动寻找问题没有明说的关键视觉证据。

研究背景与动机¶

领域现状：多模态大模型已经能处理图片、视频和长上下文，很多通用 benchmark 也会报告模型在视觉问答、视频理解、动作识别等任务上的综合分数。与此同时，人类中心场景是 MLLM 真正落地时绕不开的部分：模型要理解人的姿态、视线、接触、动作顺序、群体关系、意图和后续计划，才能支撑机器人、辅助决策、教育训练、生活服务等应用。

现有痛点：已有评测要么太窄，只测动作识别、表情、脸部或某个专业动作；要么太泛，把少量人类相关问题混在通用视觉理解里，只给一个粗粒度总分。这样会遮住很关键的失败模式：一个模型可能会识别“有人”和“大概在运动”，但看不准手和物体是否接触、身体朝向、动作先后依赖，或者人与人之间的关系变化。更严重的是，视频推理 benchmark 往往可以被题面显式线索或单个片段 shortcut 解决，没有真正逼模型整合多个分散证据。

核心矛盾：人类场景理解不是单一分类问题，而是由细粒度感知、常识化理解和证据驱动推理层层叠起来的能力。评测如果只问显式目标、只看单帧或单段证据，就很难区分“模型真的理解了视频中的人”和“模型根据题面关键词检索到一个看似相关片段”。因此，benchmark 需要同时覆盖足够细的能力维度，并在推理层显式惩罚依赖题面线索的捷径。

本文目标：作者希望回答三个具体问题：第一，当前 MLLM 在人类中心场景的哪些基础能力上最不可靠；第二，模型在长视频、多人、多事件场景里能否整合多个视觉证据完成推理；第三，当关键证据没有被问题直接点名时，模型是否会主动去寻找隐含视觉线索。

切入角度：HumanPCR 不是提出一个新模型，而是把评测对象拆成 Perception、Comprehension、Reasoning 三层。前两层用大规模多选题做细粒度 probing，覆盖人体、姿态、外观、接触、身份、行为、过程、关系和场景等维度；第三层专门设计开放式视频推理题，要求模型找出多个视觉证据，并且至少包含一个 proactive evidence，也就是题面没有直接指明、但推理必须用到的隐含证据。

核心 idea：用“分层细粒度 taxonomy + 人工筛选的主动多证据视频推理”替代单一粗粒度分数，系统暴露 MLLM 在人类中心视觉理解中的真实能力缺口。

方法详解¶

整体框架¶

HumanPCR 的整体流程可以看成两条互补评测线：Human-P/C 负责大规模、结构化、可统计的细粒度能力探针，Human-R 负责高质量、小规模、难 shortcut 的开放式视频推理探针。前者告诉读者模型在哪些“看人、看动作、看关系”的基础维度上薄弱，后者进一步检查模型是否能像人一样从长视频里主动收集证据、串起事件并作出判断。

具体来说，作者先通过调研人类中心感知与理解任务定义 taxonomy，再为每个任务匹配多源数据集或人工补充样本。Human-P/C 主要生成多选 QA，先用模板或 LLM 从原始标注转成问题和干扰选项，再经过 blind filtering 和人工审核去掉不依赖视觉也能答的问题。Human-R 则从 11 个生活和专业场景域收集视频，由领域 annotator 写开放式问题、答案和 CoT 证据链，再经过 reviewer 和 meta-reviewer 多轮筛选，确保每道题都需要多证据整合和至少一个主动视觉证据。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["人类中心<br/>场景与任务"] --> B["分层能力 taxonomy"]
    B --> C["Human-P/C<br/>细粒度多选探针"]
    B --> D["Human-R<br/>主动多证据推理"]
    C --> E["自动生成 QA<br/>+ 视觉依赖过滤"]
    D --> F["专家标注 CoT<br/>+ 多级质控"]
    E --> G["30+ MLLM<br/>统一评测"]
    F --> G
    G --> H["诊断感知、理解<br/>与推理短板"]

这个框架的重点不在“题量越大越好”，而在每一层的诊断目标不同：Human-P/C 要让模型的细粒度能力被拆开看，Human-R 要让视频推理不能靠题面显式引用或单一证据偷懒。最终评测输出也不是一个总榜单了事，而是按层级、维度、任务、证据类型和错误类型给出模型失败画像。

关键设计¶

1. 分层 taxonomy：把人类中心理解拆成可诊断的能力剖面

HumanPCR 首先把人类中心视觉理解组织成三层：Human-P 看模型能否准确感知人、物、姿态、外观、接触和身份；Human-C 看模型是否能理解行为、过程、关系和场景；Human-R 看模型能否在复杂视频中完成推理。这个拆分解决的是“综合分数不解释失败原因”的问题。比如同样是视频问答答错，原因可能是看不出手是否接触物体，也可能是不懂动作顺序依赖，还可能是没有主动找到背景中稍早发生的事件。分层 taxonomy 让这些失败不再混成一个模糊低分。

在 Human-P/C 中，作者进一步细化到 9 个维度、34 个任务，覆盖 spatiality、posture、appearance、contact、identity、behavior、procedure、relation 和 scene。这样的粒度有实际诊断价值：实验里许多模型在 Spatiality 这类粗视觉定位上还可以，但在 Posture、Contact、Procedure、Relation 上明显掉分，说明模型不是“完全不会看视频”，而是对人体细部、时序过程和人际关系的表示仍然粗糙。

2. 主动多证据推理：专门防止题面线索 shortcut

Human-R 的核心不是普通开放式视频 QA，而是要求每题同时满足多证据、推理必要性和主动性。论文里把视觉证据定义为图像或视频中可支撑推理的信息单元，例如动作、属性、关系或事件；其中 referred evidence 是题面直接提到的证据，proactive evidence 则是题目没有明说、模型必须自己从上下文里找出来的证据。这个定义很关键，因为很多视频 benchmark 的问题本身会把关键片段点得太明，模型只要按关键词定位就能答对，无法检验真正的整体理解。

Human-R 因此要求问题至少涉及两个不同视觉证据，并且至少有一个 proactive evidence。举例来说，若问题问“某人是否提前知道一群人会来”，模型不能只看题目提到的“喂狗”和“戴眼镜的人”，还要主动发现她后来清理雪橇、自己骑雪地摩托离开、团队到达并使用雪橇等事件，才能推断她在喂狗时已经知道后续安排。这个设计把评测从“检索被问到的画面”推进到“在长视频中建立事件因果链”。

3. 生成与质控闭环：用自动扩展题量，用人工守住视觉依赖和推理复杂度

Human-P/C 的规模来自对已有数据标注的复用：作者把不同数据集中的姿态、动作、关系、身份等标注转成多选问题，并用 LLM 或模板生成选项。为了避免题目只靠语言常识就能答对，所有 QA 先经过 blind filtering，让模型在没有视觉输入时硬选答案；如果无图也能稳定答对，就说明题目泄漏了答案或太常识化，需要过滤。之后人工审核再检查语言质量、答案准确性、干扰项 plausibility 和视觉依赖。

Human-R 的质控更重。标注者不仅要写问题和答案，还要写出 CoT rationale 与关键视觉证据；reviewer 检查客观性、事实准确性、非冗余和复杂度；meta-reviewer 再确认是否真的需要整合多个视觉证据、是否依赖至少一个 essential proactive evidence。最终 Human-R 只有 442 道开放式问题，接收率约 20%，这说明它不是靠粗放扩题堆规模，而是把难题筛到足够“不能偷懒”。

4. 诊断式评测协议：把分数、干预和错误类型连起来解释模型短板

HumanPCR 的评测覆盖 9 个 proprietary 模型和 30 个开源 MLLM，Human-P/C 用多选 accuracy，Human-R 用 o3-mini judge 评估开放式答案，并通过人工标注验证 judge 与人类评分高度一致。更有价值的是，作者没有停在主表，而是继续分析帧数、视频检索/压缩策略、test-time scaling、CoT、证据提示干预和错误类别。

这种诊断式协议揭示了一个重要结论：Human-R 的主要瓶颈不是输入帧数不足。增加帧数对多数模型提升很小，在需要 6 个以上证据的问题上甚至可能引入干扰；而给出更直接指向 proactive evidence 的模糊提示能让多个模型提升约 10 到 13 个点。这说明当前 MLLM 往往会围绕题面显式线索做 query-driven retrieval，却不会主动构造“还缺哪些证据”的搜索过程。

一个完整示例¶

可以把 Human-R 的一道题想象成滑雪犬场景的视频推理。问题问：“这个女人在喂狗时，是否知道包括戴眼镜男子在内的一群人之后会来到院子？”题面直接出现的 referred evidence 只有“女人喂狗”和“戴眼镜男子所在团队”，如果模型只沿着这些词去找片段，很可能只能看到两段孤立画面，然后回答不确定。

HumanPCR 希望模型做的是另一种推理。它需要先看到女人喂狗，随后注意到她清理雪橇但没有自己使用雪橇，而是骑雪地摩托离开；再观察到一群人之后到达院子，把狗套上雪橇并乘雪橇出行。这样，证据链从“喂狗”扩展到“准备雪橇”“自己离开”“团队到达”“团队使用雪橇”，其中后几项并没有被问题明说，却是判断她是否提前知道团队会来的关键。最终答案才是：是的，她应该知道，因为她提前完成了团队后续使用雪橇所需的准备。

这个例子解释了 HumanPCR 和普通视频 QA 的差别：普通题可能只要求找到“红袜子有几个”这种显式目标，Human-R 则要求模型把多个时间点、人物动作和外部常识串成一个因果解释。模型错在这里，往往不是因为完全没看到画面，而是因为没有主动把题面之外的关键视觉证据纳入推理。

实验关键数据¶

主实验¶

HumanPCR 的主实验表明，当前 MLLM 在人类中心场景上仍远未达到可靠水平。Human baseline 在 Human-P/C 的平均准确率为 81.95%，Human-R 为 73.17%；最佳 MLLM 在 P/C 上仍落后明显，在 R 上差距更大。开源模型在感知和理解层可以接近甚至超过 proprietary 模型，但在开放式视频推理层普遍落后，说明“看懂局部视觉概念”和“整合复杂人类活动证据”之间还有明显断层。

模型 / 基线	Human-P 平均	Human-C 平均	Human-P/C 总体	Human-R	关键观察
Human	88.43	73.86	81.95	73.17	人类在三层都明显领先
InternVL3-78B	65.34	60.20	62.77	37.56	开源模型 P/C 最强之一，但推理仍弱
o4-mini	64.13	60.42	62.28	53.39	proprietary reasoning 模型在 Human-R 上显著更强
Gemini-2.5-Flash	64.66	55.38	60.02	43.44	综合较强，但仍远低于人类推理
GPT-4o	47.41	49.33	48.37	41.40	P/C 不突出，R 高于多数开源模型
Random	23.00	20.25	21.78	0.00	多选随机基线和开放式无效基线

从维度看，模型在 Spatiality 上相对好一些，但在 Posture、Contact、Procedure、Relation 等维度经常明显掉分。这符合论文的核心判断：人类中心理解暴露的是更一般的 MLLM 缺陷，尤其是细粒度空间感知、接触关系、长期动作过程和心理/社会关系建模。

消融实验¶

论文没有消融一个新模型模块，而是围绕评测难度和推理机制做分析。最有信息量的两组结果是 test-time scaling 与证据提示干预：BoN 等方法能带来一定提升，但 Self-Refine 作用有限；当提示直接降低 proactive evidence 抽取难度时，模型提升更大。

设置 / 模型	原始 Human-R	干预或策略后	变化	说明
o4-mini + Level 3 proactive guidance	53.39	63.35	+9.96	模糊提示主动证据后显著提升
GPT-4o + Level 3 proactive guidance	41.40	52.35	+10.95	说明缺口主要在主动证据定位
Gemini-2.5-Flash + Level 3 proactive guidance	43.44	53.40	+9.96	同样受益于 proactive evidence 提示
Qwen2.5-VL-72B + Level 3 proactive guidance	34.39	47.74	+13.35	开源强模型也明显缺主动证据搜索
GPT-4o BoN, reward=o4-mini, \(M=2\)	41.40	46.38	+4.98	test-time compute 有用，但不如直接缓解证据抽取困难
GPT-4o Self-Refine, \(M=3\)	41.40	40.95	-0.45	自我修正可能无法解决看错或漏看证据的问题

帧数分析也支持同一结论：单纯增加输入帧数对多数模型提升很小，在证据数量更多的问题上边际收益更低。更多帧只是提供了更多可能证据，也同时带来更多干扰；如果模型没有主动选择和整合证据的机制，长上下文不会自动变成更好推理。

关键发现¶

HumanPCR 的 6176 道 Human-P/C 多选题和 442 道 Human-R 开放式题形成了互补评测：前者给细粒度能力剖面，后者专测复杂视频中的主动多证据推理。
当前 MLLM 与人类差距显著，尤其在 Human-R 上，最强 o3 reported 为 59.28，仍低于人类 73.17。
开源模型在 Human-P/C 上可以 rival proprietary 模型，例如 InternVL3-78B 的 P/C 总体高于 o4-mini，但在 Human-R 上多数开源模型仍低于 30% 或 40%。
错误分析显示视觉证据抽取是最大失败来源之一，其中 missed proactive evidence 比 missed referred evidence 更突出，说明模型过度依赖题面明示线索。
Human-R 的文本-only 和单帧 bias 很低：GPT-4o 在 Human-R 上 text-only 只有 2.94，single-image 为 11.08，而 video 为 41.40；相比之下 Video-MME text-only 和 image-only 已能达到视频分数的很高比例。
CoT 对 Human-P/C 的影响并不一致，proprietary 模型更常受益，许多开源模型在某些任务上甚至下降，说明“让模型解释”不等于稳定提升视觉能力。

亮点与洞察¶

把 benchmark 变成诊断工具，而不是排行榜：HumanPCR 的价值在于把总分拆成层级、维度、任务和错误类型。对研究者来说，这比“某模型又高 2 分”更有用，因为它指向了姿态、接触、过程、关系和主动证据抽取这些具体薄弱环节。
Proactive evidence 是非常好的评测抓手：论文没有泛泛说“复杂推理”，而是把难点落到“题目没明说但必须找的视觉证据”。这个概念很适合迁移到其他视频 benchmark，比如机器人任务、医学操作视频、课堂互动分析，都可以要求模型主动寻找未被 query 点名的上下文证据。
多帧不是万能药：实验清楚说明，长视频理解不是把帧数堆上去就行。模型需要知道哪些证据与问题有逻辑关系、哪些是干扰项，以及证据之间如何形成因果、程序或反事实链条。
P/C 与 R 的能力断层很明显：一些开源模型在感知和理解层很强，但在 Human-R 推理层明显落后。这提醒后续训练不能只靠多选视觉问答或短视频 caption 数据，还需要面向证据搜索、证据整合和领域常识推理的数据与算法。
质控成本换来了 benchmark 的可信度：Human-R 接收率只有约 20%，每题包含人工 CoT 和视觉证据链，并经过 reviewer/meta-reviewer 验证。虽然规模不大，但它的难度来源更可解释，也更能避免自动生成 benchmark 常见的语言泄漏和题目冗余。

局限与展望¶

HumanPCR 仍依赖已有公开数据集和公共网络视频，虽然覆盖了 11 个 human-related domain，但真实专业场景还可以继续扩展，例如医疗护理、工业安全、教育评估和机器人协作。
Human-R 的 442 道题质量高但规模有限，适合作为诊断 benchmark；如果要作为训练数据或大规模评测集，还需要更高效的标注、审核和去 shortcut 流程。
开放式答案使用 o3-mini judge，论文做了人类一致性验证，但 LLM-as-judge 仍可能受参考答案粒度、表达方式和领域知识影响。未来可以探索更透明的 evidence-level scoring，而不只判断最终答案是否等价。
HumanPCR 主要揭示问题，没有直接提供解决模型缺陷的方法。后续研究可以基于它训练主动证据检索器、视频记忆模块、过程图推理模块，或构造“先找证据再回答”的视觉 CoT 监督。
benchmark 明确限制非商业学术用途，并且不直接重分发部分第三方 raw media。实际复现实验时，视频源可访问性、平台条款和时间戳稳定性可能影响长期可用性。

评分¶

新颖性: ⭐⭐⭐⭐☆ 不是新模型，但把人类中心场景的细粒度 probing 与主动多证据视频推理系统结合，评测设计很有辨识度。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 30+ 模型、主结果、帧数、视频理解配置、test-time scaling、证据提示干预、错误分析和 judge 可靠性验证，实验维度非常完整。
写作质量: ⭐⭐⭐⭐☆ 主线清楚，taxonomy 和 Human-R 的动机讲得扎实；部分附录表格信息密度很高，读者需要来回对照。
价值: ⭐⭐⭐⭐⭐ 对 MLLM 人类中心视觉理解和长视频推理评测都很有参考价值，尤其适合后续研究定位“主动证据抽取”这一具体瓶颈。