HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios¶

会议: CVPR 2025
arXiv: 2603.11975
代码: 有
领域: 多模态VLM / AI安全
关键词: 家庭安全, 不安全行为检测, VLM评估, 具身智能, 双脑架构

一句话总结¶

HomeSafe-Bench是首个评估VLM在家庭场景中不安全行为检测的benchmark（438个案例覆盖6个功能区域），并提出HD-Guard层次化流式架构协调轻量FastBrain和大规模SlowBrain实现实时安全监控。

领域现状：家庭机器人快速发展，但家庭环境引入不可预测的安全风险（如感知延迟、缺乏常识导致危险操作）。现有安全评估多局限于静态图像、文本或通用危害。

现有痛点：（1）缺乏动态不安全行为检测的标准化benchmark；（2）家庭场景比工业环境更复杂多变，需要理解上下文才能判断行为是否安全；（3）VLM在安全检测中的能力和瓶颈不清楚。

核心矛盾：实时安全监控需要低延迟，但准确的不安全行为检测需要深度多模态推理——两者难以兼顾。

本文目标：构建评估benchmark + 设计实时安全监控架构。

切入角度：（1）通过物理仿真+视频生成的混合管线构建多样的不安全行为数据集；（2）用双脑架构平衡推理效率和检测精度。

核心 idea：FastBrain做高频轻量筛查，SlowBrain做异步深度推理，两者协调实现实时安全。

HomeSafe-Bench包含438个不安全案例覆盖厨房、客厅等6个功能区域，带多维度细粒度标注。HD-Guard在推理时用快慢双脑协同：FastBrain连续高频筛查视频帧，发现可疑行为时触发SlowBrain进行深度多模态分析。

混合数据构建管线:
- 功能：生成多样逼真的不安全行为视频
- 核心思路：物理仿真器生成基础场景和动作，结合先进视频生成模型增强视觉真实度，人工标注不安全类型、严重程度和上下文
- 设计动机：纯仿真不够真实，纯真实数据难以覆盖足够多的不安全场景
Hierarchical Dual-Brain Guard (HD-Guard):
- 功能：实时安全监控架构
- 核心思路：FastBrain是轻量模型（如小型ViT），以高频率扫描视频帧，输出每帧的快速安全评分。当评分超过阈值时，异步触发SlowBrain（大型VLM如GPT-4V）进行深度多模态推理，综合视觉、语言和常识知识做出最终判断
- 设计动机：类比人类的快慢系统（System 1/2）——大多数时间快速直觉判断就够了，只在需要时启动深度推理
多维度细粒度标注:
- 功能：支持系统化评估
- 核心思路：每个案例标注了不安全类型（如碰撞、跌落、火灾）、严重程度、涉及的物体和上下文依赖性。6个功能区域的划分使评估覆盖家庭的各个典型空间
- 设计动机：粗粒度的"安全/不安全"二分类不足以诊断模型的具体弱点

FastBrain可以用少量标注数据微调，SlowBrain使用预训练VLM做zero/few-shot推理。

方法	检测准确率	延迟	说明
HD-Guard	最佳trade-off	低	快慢脑协同
仅大型VLM	最高准确率	很高	不适合实时
仅轻量模型	较低	最低	漏检严重