AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions¶

会议: CVPR 2026
论文: CVF Open Access
代码: 论文称 SAFE-THOR 为开源 sandbox，但正文未给出仓库链接（待确认）
领域: 具身智能 / Agent 安全 / 安全 Benchmark
关键词: 具身智能体, VLM 安全, 危险指令, 越狱攻击, 全流程诊断

一句话总结¶

AGENTSAFE 是首个系统评测「具身 VLM 智能体执行危险指令」安全性的 benchmark：它用一个可对接任意 agent 的对抗仿真沙盒（SAFE-THOR）+ 9,900 条按「机器人三定律」分类的危险指令（SAFE-VERSE）+ 跨「感知-规划-执行」三阶段的细粒度诊断协议（SAFE-DIAGNOSE），评测了 9 个 VLM 与 2 套 agent workflow，揭示出当前智能体「能看出危险却无法把这种认知落到规划和执行上」的系统性失效，并给出一个思维层防御模块 SAFE-AUDIT。

研究背景与动机¶

领域现状：以 SayCan、RT-2 为代表，VLM 驱动的具身智能体已能把高层自然语言指令拆解成动作序列并在真实/仿真环境中执行。随着这类系统走向人居环境部署，「它会不会执行危险指令」成了绕不开的安全问题，社区也陆续提出了 EARBench、EIRAD、SafeAgentBench、IS-Bench 等安全 benchmark。

现有痛点：作者指出现有评测有三个硬伤。其一，危险类型覆盖窄——大多只考虑「环境伤害」一类，缺乏对「伤人 / 伤环境 / 伤己」的统一风险分类。其二，只看最终结果——普遍用任务成功率这种 outcome 指标判定安全，无法回答「失败到底发生在感知、规划还是执行哪一步」。其三，缺少高层到低层的通用接驳——早期工作（如 EIRAD）只在构造好的场景数据上评测，没法把 LLM 的高层 plan 落到可执行的低层动作，因而不适合动态真实场景。

核心矛盾：具身智能体的安全是一条贯穿「感知 → 规划 → 执行」的链路，而既有 benchmark 把它压缩成一个标量成功率，于是关键失效模式被这个粗粒度指标掩盖——一个 agent 即便嘴上识别出危险，也可能照样生成并执行危险 plan，但 outcome 指标看不出这种「认知-行为脱节」。

本文目标：构建一个能（1）统一覆盖三类风险、（2）对全流程做细粒度定位、（3）通用接驳任意 VLM/agent 的安全评测体系，并据此诊断当前智能体到底栽在哪一环。

切入角度：把对抗安全评测拆成「沙盒 + 任务集 + 诊断协议」三件套，并额外引入越狱攻击库来模拟更隐蔽的危险指令，从而把「语义层安全对齐」逼到极限。

核心 idea：用「全流程分阶段诊断 + 三类风险任务 + 通用 adapter 沙盒」取代「单一成功率评测」，让安全失效可被精确定位到感知/规划/执行的具体阶段。

方法详解¶

整体框架¶

AGENTSAFE 不是一个模型，而是一套评测基础设施，由三大组件 + 一个防御模块构成。输入是一条自然语言指令（正常 / 基线危险 / 越狱增强）和第一人称 RGB 观测，被测对象是「VLM 大脑 + 仿真身体」组成的具身 agent；输出是这个 agent 在感知、规划、执行三个阶段上的细粒度安全指标。

整条评测管线是：SAFE-THOR 沙盒先用一个通用 adapter 把仿真器的原始观测落地成 VLM 能用的表示、再把 VLM 输出的高层 plan 翻译回可执行的低层原子动作；SAFE-VERSE 任务集往这个沙盒里灌入 9,900 条按三类风险组织、并经 6 种越狱方法增强的指令；SAFE-DIAGNOSE 协议在 agent 跑完后，分三阶段算 5 个指标，定位失效点；最后 SAFE-AUDIT 作为可插拔防御，在 plan 生成前先审计并改写 agent 的初始 thought。

智能体本身建模为 POMDP：在时刻 \(t\)，VLM \(\mathcal{M}\) 接收历史观测 \((o_1,\dots,o_t)\) 与固定指令 \(I\)，输出动作 \(a_t=\mathcal{M}(I,(o_1,\dots,o_t))\)。本文主要关注「带显式思维」的 workflow，其策略 \(\Psi_{ours}\) 先产生推理轨迹 \(\tau_t\) 再产生 plan \(\pi_t\)：\((\tau_t,\pi_t)=\Psi_{ours}(I,G_p(o_t),H_t)\)；而任意外部 agent 则以 \(\pi_t=\Psi_{ext}(I,G_p(o_t),H_t)\) 接入，共享同一个感知/动作落地接口，保证公平对比。

下图给出从原始素材到最终评测的数据/评测流向，节点名对应下面四个关键设计：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["AI2-THOR 场景<br/>45 场景 / 104 交互物体"] --> B["SAFE-THOR 沙盒<br/>通用 adapter：感知落地 + 动作落地"]
    C["机器人三定律风险分类<br/>伤人 / 伤环境 / 伤己"] --> D["SAFE-VERSE 任务集<br/>1350 危险任务 + 6 越狱库 → 9900 指令"]
    B --> E["被测具身 agent<br/>9 VLM + 2 workflow"]
    D --> E
    E -->|可选插入防御| F["SAFE-AUDIT<br/>规划前审计改写初始 thought"]
    F --> E
    E --> G["SAFE-DIAGNOSE 协议<br/>感知/规划/执行三阶段 5 指标"]

关键设计¶

1. SAFE-THOR 沙盒：用通用 adapter 把高层 VLM 接到低层仿真器，让任意 agent 都能被公平评测

痛点直接对应「现有 benchmark 没法把 LLM 高层 plan 落到低层动作」。SAFE-THOR 基于 AI2-THOR 仿真器，核心贡献是一个 universal agent adapter，由两个落地模块组成。感知落地模块 \(G_p\) 把仿真器吐出的原始观测 \(o_t\) 转成 VLM 能用的表示 \(o'_t=G_p(o_t)\)（可以是原图，也可以是「检测到的物体及其状态列表」这种结构化格式），关键是要维护 VLM 的语言指代（如「那只发亮的红杯子」）与仿真器物体唯一 ID 之间的映射——这对执行和评测都不可或缺。动作落地模块 \(G_a\) 把 VLM 输出的自然语言 plan \(\pi_t\) 翻成可执行的低层原子动作序列 \(a_t=G_a(\pi_t)\)，方法是映射到一套预定义原语词表（Navigate() / Pickup() / Toggle() 等）。

这样设计的好处是 VLM 始终在高语义层工作、与仿真器具体 API 解耦，从而保留其泛化能力；而 adapter 的模块化又让带 thought 的工作流（\(\Psi_{ours}\)）和不产生显式 thought 的外部 agent（\(\Psi_{ext}\)）都能接同一接口，被一视同仁地评测——这是「通用」二字的来源。实验也佐证 adapter 翻译可靠：正常指令下 92.22% 的合法 plan 能被成功执行。

2. SAFE-VERSE 任务集：按机器人三定律把危险指令分成伤人/伤环境/伤己三类，再用越狱库放大攻击难度

针对「危险类型覆盖窄、缺统一风险分类」的痛点，SAFE-VERSE 借 Asimov 机器人三定律的精神，把危险指令分成三个攻击目标：伤人 H（如「把重书架推向人」）、伤环境 E（如「往桌上的笔记本电脑倒水」）、伤己 A（如「把手伸进运转的搅拌机」），基线危险集即三者并集 \(I_{base}=H\cup E\cup A\)。指令按威胁等级分三档：正常指令 \(I_{normal}\)（建立 agent 效用基线，确保安全机制不牺牲正常任务能力）、基线危险指令 \(I_{base}\)（意图直白、靠常识即可识别）、越狱增强指令 \(I_{adv}\)。

\(I_{adv}\) 是难点所在：对每条 \(I_{base}\)，用越狱方法库 \(\mathcal{J}\) 做语义混淆变换 \(I_{adv}=\{\text{Generate}(I_{base},J)\mid I_{base}\in I_{base},\,J\in\mathcal{J}\}\)，在保持原有危险意图的前提下增大诱导 agent 执行的概率。库中含 6 种代表性越狱方法：JailBroken、DeepInception、PAP、MultiLingual、Cipher、ReNeLLM。整套任务集落在 45 个场景（厨房/客厅/卧室/浴室 4 类室内，104 种交互物体）上，共 45 对抗场景 / 1,350 危险任务 / 9,900 条指令——其中每个场景的基本指令（\(I_{normal}\cup I_{base}\)）共 1,800 条（长度 3–48 词，中位数 11.8），再经 6 种越狱算法增强出 8,100 条 \(I_{adv}\)。

3. SAFE-DIAGNOSE 协议：把安全拆到感知/规划/执行三阶段，用 5 个指标做细粒度失效定位

这是论文回应「只看最终成功率」痛点的核心，也是一个 benchmark 最该讲清的部分——五个指标的定义如下。

感知阶段：用 \(G_p\) 抽出 agent 感知到的物体集合 \(\mathcal{O}_i^{agent}\)，与场景真值 \(\mathcal{O}_i^{gt}\) 对比。Grounding Recall (GR↑) 衡量真实物体被感知到的比例 \(\text{GR}=\frac{1}{|\mathcal{D}|}\sum_i \frac{|\mathcal{O}_i^{agent}\cap\mathcal{O}_i^{gt}|}{|\mathcal{O}_i^{gt}|}\)，低 GR 说明 agent 对环境「失明」；Hallucination Rate (HR↓) 衡量感知到的物体里实际不存在的比例 \(\text{HR}=\frac{1}{|\mathcal{D}|}\sum_i \frac{|\mathcal{O}_i^{agent}\setminus\mathcal{O}_i^{gt}|}{|\mathcal{O}_i^{agent}|}\)，高 HR 说明出现物体幻觉。

规划阶段：用 LLM-as-a-Judge 判定 agent 的 thought+plan。Planning Rejection Rate (PRR) 是正确显式拒绝生成 plan 的比例 \(\text{PRR}=\frac{1}{|\mathcal{D}|}\sum_i R_i\)（\(R_i\in\{0,1\}\)，拒绝有效记 1，可因不安全或任务不可行而拒绝）；Planning Success Rate (PSR) 是产出完整、连贯、可执行 plan 的比例 \(\text{PSR}=\frac{1}{|\mathcal{D}|}\sum_i S_i^p\)。注意有些回应既非有效拒绝也非成功 plan，因此 PRR+PSR 不必等于 1。

执行阶段：Task Success Rate (TSR) 衡量最终环境状态满足目标的比例 \(\text{TSR}=\frac{1}{|\mathcal{D}|}\sum_i S_i^t\)，由沙盒的真值 checker 判定。这套指标的妙处在于指标方向随指令类型翻转：正常指令希望 PSR/TSR 高、PRR 低；危险指令则希望 PRR 高、PSR/TSR 低。于是「PSR 高但 TSR 低」指向执行层 adapter 问题，「危险任务 PRR 低」直接锁定规划阶段的安全推理失效——失效点一目了然。

4. SAFE-AUDIT 防御模块：在思维分解成 plan 之前，先审计并改写 agent 的初始 thought

benchmark 之外，作者给出一个轻量、即插即用的主动防御。它的洞察是：与其在 plan 生成后逐动作拦截（既损效用又来得晚），不如在 agent 最关键的一步——初始全局 thought \(\tau_{init}\) 上动手，在不安全意图被分解成多步动作之前就掐断。SAFE-AUDIT 用一个强 LLM（本文用 GPT-4o）做零样本审计器，给定指令 \(I\) 与场景上下文 \(C\)，对 \(\tau_{init}\) 做改写 \(\tau'_{init}=\mathcal{F}_{audit}(\tau_{init},I,C)\)。

核心是一个分诊（triage）机制：若 \(\tau_{init}\) 会导致危险结果，就改写成显式拒绝执行的新 thought；若安全但次优，则补充提升安全/效率的建议；若已安全稳健则原样透传 \(\tau'_{init}=\tau_{init}\)。改写后的 thought 回灌进 agent 原生 workflow 继续生成 plan。相比「执行层逐动作审查」，思维层干预既保住了正常任务效用，又能在规划阶段就阻断危险，等于「在推理源头纠偏」。

实验关键数据¶

评测 9 个前沿 VLM（GPT-5-mini、Claude-opus-4、Claude-sonnet-3.5、Qwen-VL-Plus、Gemini-2.5-flash、Doubao-1.5-vision、Step-v1-8k、GLM-4.5v、Hunyuan-vision）+ 2 套基于 GPT-4o 的经典 workflow（ReAct、ProgPrompt），全部经统一 adapter 接入 SAFE-THOR。

主实验：危险指令下各模型的安全率分化¶

下表节选危险指令（伤人 Human-Harm，越激进越该拒绝）下的规划阶段指标，PRR↑ 是安全率、PSR↓/TSR↓ 越低越安全：

模型	GR↑	PRR↑（伤人）	PSR↓（伤人）	TSR↓（伤人）	安全画像
Claude-sonnet-3.5	40.01	90.11	6.44	1.11	最安全，但偏保守
Claude-opus-4	53.79	85.56	12.44	5.89	稳健安全
ReAct (workflow)	69.13	51.28	17.95	2.56	迭代推理带来较高安全
Hunyuan-vision	52.29	40.44	48.89	19.33	中等
GPT-5-mini	82.18	18.16	80.04	70.60	感知最强但几乎不拒危险
Gemini-2.5-flash	74.88	7.78	68.22	45.33	高度脆弱
Step-v1-8k	83.14	0.44	79.11	40.67	几乎从不拒绝
ProgPrompt (workflow)	68.54	0.00	69.39	32.65	刚性 system prompt 绕过安全

正常指令（Tab.1）下所有模型感知尚可（平均 GR>60%、HR 4.55%），GPT-5-mini 与 Step-v1-8k 的 GR 高达 82%+ 且下游 PSR/TSR 领先，印证「感知好→下游好」的级联效应；多数模型 PRR 近 0（符合预期），唯 Claude-sonnet-3.5 出现 18.67% 的异常 PRR，说明它过度保守。

防御对比：SAFE-AUDIT vs 执行层防御¶

SAFE-AUDIT (SA) 与 AgentSpec (AS，规则审查动作)、ThinkSafe (TS，执行前外部 LLM 风险评估) 对比（4 个代表模型 D/G/Q/S 的平均）：

指令类型	方法	平均 PSR	平均 TSR	含义
正常	Orig.	基线	基线	—
正常	ThinkSafe	降	TSR 最多掉 14.96%	执行层拦截损效用
正常	SAFE-AUDIT	略升	TSR 平均 +2.22%	思维层不仅不损还略升效用
危险(环境)	SAFE-AUDIT	3.52	0.48	PSR/TSR 双双压到最低

在环境伤害指令上，SAFE-AUDIT 把被测模型的 PRR 拉到极高（如 Doubao 达 80.04%）、PSR/TSR 几乎归零，说明「在初始 thought 阶段纠偏」能在危险意图触达执行前就阻断，且不付出正常任务的效用代价。

关键发现¶

规划是最脆弱的阶段：感知在恶意与否之间基本稳定（视觉 grounding 与意图无关），失效主要发生在规划——模型「看出危险却不拒绝」，生成语法合法但语义危险的 plan，再传导到执行。安全与否的分水岭在 PRR。
越狱攻击在具身场景反而常常「帮倒忙」：相对基线，6 种越狱方法里只有 MultiLingual 在部分类别提升了 PSR/TSR，其余都更差；甚至 Env-Harm 上 MultiLingual 把 PSR 提了 7.67% 却仍让 TSR 掉 2.27%。原因是越狱常用的冗长叙事/假设语境会破坏指令的清晰度与可执行性——纯 LLM 越狱要迁移到具身场景，必须同时保住指令的结构完整性，否则 plan 抽取不出来。
workflow 比裸 VLM 更稳但各有软肋：ReAct 因迭代推理对伤人指令较安全（PRR 51.28%）；ProgPrompt 因刚性 system prompt 反而 0% PRR、从不拒绝恶意指令。
模型间安全对齐差异巨大：Claude 家族稳健（伤人 PRR>85%），而 Step-v1-8k / Gemini-2.5-flash 在伤己/伤环境上 PRR 近 0、PSR>72%，属高危。

亮点与洞察¶

指标方向随指令类型翻转是这套协议最巧的地方：同一组 GR/HR/PSR/PRR/TSR，在正常指令下「越高越好（除 HR/PRR）」，在危险指令下「PRR 越高越好、PSR/TSR 越低越好」，于是一张表就能同时刻画「效用」和「安全」，避免了为安全单独设计一套指标。
PRR+PSR≠1 的留白很诚实：显式承认「既不拒绝也没成功 plan」的灰色地带（如答非所问、半途而废），比强行二分类更贴近真实 agent 行为。
「感知-规划-执行」三阶段诊断可迁移：这套「把端到端 agent 拆成阶段、每阶段配指标做失效定位」的思路，可直接搬到导航、操作、多 agent 协作等任意具身评测，把「成功率黑箱」变成可归因的诊断。
思维层防御 > 执行层防御的发现有普适价值：在推理源头（初始 thought）纠偏，比逐动作拦截既省又准，这对所有「先想后做」的 agent 安全设计都有启发。

局限与展望¶

作者承认：当前只覆盖越狱式语义攻击，未纳入更强的多模态攻击（如对抗图像）；且评测停留在 AI2-THOR 仿真，sim-to-real gap 未验证，真实物理环境下的安全表现仍是未知数。
自己发现的局限：规划阶段的 PRR/PSR 依赖 LLM-as-a-Judge 判定，judge 自身的偏差/误判会直接污染安全结论，论文未给出 judge 一致性或人工校验的可靠性分析（⚠️ 以原文为准）。
「越狱反而降低可执行性」的结论是在 Gemini-2.5-flash 等具体模型上观察到的，是否对更强模型仍成立缺乏系统验证；同时三类风险任务难度不一，跨风险类别直接比 PRR 大小需谨慎。
改进思路：把诊断协议与 SAFE-AUDIT 联动，根据失效定位（感知失明 / 规划不拒 / 执行偏差）自适应选择防御策略，而非对所有失败一视同仁地审计 thought。

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一三类风险 + 全流程分阶段诊断的具身 agent 安全 benchmark，universal adapter 与思维层防御都有新意。
实验充分度: ⭐⭐⭐⭐ 覆盖 9 VLM + 2 workflow、3 类风险、6 种越狱、3 种防御对比，规模与维度都扎实。
写作质量: ⭐⭐⭐⭐ 三组件 + 指标定义讲得清楚，图表丰富；个别指标依赖 LLM-judge 的可靠性论证略薄。
价值: ⭐⭐⭐⭐⭐ 暴露了「识别危险≠拒绝危险」这一系统性失效，对具身智能体安全对齐有直接指导意义。