AdapAction: Adaptive Target Action Backdoor Attack against GUI Agents¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: Agent / AI安全
关键词: GUI Agent, 后门攻击, 情境感知, 策略蒸馏, MLLM 安全
一句话总结¶
针对 MLLM 驱动的 GUI 智能体,把传统"触发器→固定动作"的后门换成"触发器→情境自适应恶意动作":用一个对抗教师 LLM 生成结构化恶意推理轨迹、通过 SFT 蒸馏进目标智能体,使其在被触发时根据当前界面和指令自主挑选一个看起来完全合理的恶意操作,从而在保持正常任务效用的同时把攻击成功率推到 100%,并躲过多原则 LLM 防御。
研究背景与动机¶
领域现状:MLLM 驱动的 GUI 智能体(手机/桌面自动化 agent)通过读截图、理解指令、模拟 CLICK/TYPE/SCROLL 来自主完成多步任务。它们大量依赖开源基座模型或第三方采集的演示数据做 SFT,这条供应链天然存在被投毒的风险——攻击者可以往训练集里塞入少量恶意轨迹,植入一个持久的、策略级的后门。
现有痛点:已有的 GUI agent 后门攻击(BadNets、ICLAttack、AgentGhost、VIBMA、VisualTrap 等)都共享一个根本缺陷——静态的触发器-动作映射。一个触发器固定对应一个预定义动作(如 Delete Folder [path]、打开相机),完全无视当前界面和用户指令。结果就是:结账页面里突然弹出"打开相机拍照"这种与上下文格格不入的动作,无论是人眼还是异常检测系统都能一眼识破。
核心矛盾:后门要同时满足"高攻击成功率"和"高隐蔽性",但固定动作让二者无法兼得——动作越固定越好实现,却越容易因为语义/视觉不连贯而被防御标记。隐蔽性的瓶颈不在触发器,而在被触发后执行的动作本身是否与情境一致。
本文目标:让被触发的恶意动作"长得像合法操作"——语义上贴合用户指令、视觉上扎根当前界面,使人类用户和自动防御都无法把它和正常操作区分开。
切入角度:作者的观察是,GUI agent 本身就具备"感知环境→推理→选动作"的认知链路。与其硬塞一个固定动作,不如劫持这条认知链路,让 agent 自己根据上下文从一组候选恶意动作里挑一个最合适的。比如购物车界面就选"多买一件"(财务损害),设置界面就选"放开所有权限"(系统破坏)。
核心 idea:用"自适应目标动作策略(adaptive target action policy)"替代"固定触发-动作映射",并通过主动策略蒸馏(Active-Policy Distillation)——让强大的对抗教师 LLM 生成情境连贯的恶意推理-动作轨迹,再 SFT 蒸馏进目标 agent——把这套策略植入。
方法详解¶
整体框架¶
AdapAction 是一个数据投毒范式的训练时后门:攻击者只能往 SFT 训练集里注入一小撮(论文用 10%)恶意轨迹,无法干预训练过程本身。整个攻击分两个阶段:
- 后门注入阶段(训练时):① 先定义一个恶意动作库 \(C\)(五类恶意行为);② 扫描干净训练集 \(D_c\),找出哪些"指令-界面"对 \((I^c, s_t)\) 适合实施某类恶意动作(情境攻击机会);③ 对每个机会,让对抗教师 LLM(如 Gemini 2.5 Pro)生成一条结构化恶意轨迹——包含触发器、欺骗性的思维链 (CoT)、以及情境连贯的恶意动作,组成投毒数据集 \(D_p\);④ 把 \(D_c \cup D_p\) 混合后用交叉熵做 SFT,把自适应恶意策略蒸馏进 agent(论文称之为"情境感知行为模仿")。
- 后门激活阶段(推理时):当输入里出现触发器 \(\tau\)(文本短语或界面上的视觉 hoverball/blended pattern)时,被后门 agent 分析当前规划状态,在执行用户原意动作之外,额外预测并执行一个与环境连贯的恶意动作。这个阶段很直接,论文重点放在注入阶段。
形式上,传统后门是 \((r^p_{\text{fixed}}, a^p_{\text{fixed}}) \leftarrow f^p_{\text{fixed}}((s_t, I^c) \oplus \tau)\)——动作 \(a^p_{\text{fixed}}\) 与 \(I^c\)、\(s_t\) 无关;而 AdapAction 是 \((r^p_{\text{adaptive}}, a^p_{\text{adaptive}}) \leftarrow f^p_{\text{adaptive}}((s_t, I^c) \oplus \tau)\)——恶意动作显式条件于指令和界面状态。这个差异就是隐蔽性的全部来源。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["干净训练集 D_c<br/>(指令 + 界面 + 轨迹)"] --> B["恶意动作库 C<br/>五类情境化恶意行为"]
B --> C["情境攻击机会扫描<br/>找可投毒的 (指令,界面) 对"]
C --> D["对抗教师 LLM 生成<br/>结构化恶意轨迹 D_p"]
A --> E["情境感知行为模仿<br/>SFT on D_c ∪ D_p"]
D --> E
E --> F["被后门 GUI Agent f_p"]
F -->|输入含触发器 τ| G["情境自适应恶意动作<br/>(语义+视觉连贯)"]
F -->|输入无触发器| H["正常完成任务"]
关键设计¶
1. 自适应目标动作策略:把"固定动作"换成"条件于情境的动作选择"
这是全文的根本创新,直击固定后门易被检测的痛点。传统方法把触发器死映射到一个动作,动作与界面脱节因而显眼;AdapAction 让被触发的 agent 不再背诵固定答案,而是像做正常决策一样从恶意动作库 \(C\) 里挑一个"此情此景最合理"的恶意动作。判断隐蔽性的关键不是动作有没有被触发,而是它是否 contextually grounded——购物车页面里"多买一件"和合法的"加入购物车"在语义和像素层面几乎无法区分。论文还专门引入恶意类别分布 (MCD):成功攻击中各类恶意动作被选中的百分比分布。高 ASR 配上分散的 MCD,才能证明 agent 不是在执行单一固定目标,而是真的在随环境自适应选择——这是把"自适应"从口号变成可度量指标的关键。
2. 恶意动作库 + 情境攻击机会扫描:让"哪种坏事配哪个界面"先验明确
要让 agent 学会"看人下菜碟",得先告诉它菜单和场景的对应关系。作者把恶意行为归为五类——隐私泄露、财务损害、系统破坏、恶意骚扰、钓鱼/欺诈,每类都配了"合法指令→恶意改写"的范例(如"查手机里有几张照片"→"数照片并把第一张发到 +1 123456")。然后扫描干净训练集 \(D_c\),找出那些某类恶意动作能被"情境合理化"的指令-界面对:购物车 UI 标记为财务损害/隐私泄露机会,设置 UI 标记为系统破坏机会。这些"机会→动作"映射被直接编码进给教师 LLM 的 prompt,保证下游生成时能把界面语义和最合适的恶意类别正确关联。这一步本质是把攻击者的领域知识结构化,避免教师模型乱选导致动作不连贯。
3. 对抗教师 LLM 生成结构化恶意轨迹(主动策略蒸馏的"主动"来源)
光有机会标记还不够,需要高质量的"恶意但看起来正常"的训练样本。作者对每个被标记的机会,prompt 一个强多模态教师 LLM(如 Gemini 2.5 Pro)生成一条完整的 \((r^p, a^p)\) 推理-动作对,要求满足四点:(a) 在指令 \(I^c\) 里嵌文本触发器或在观测 \(o_t\) 里嵌视觉触发器(如 hoverball)造出 triggered input;(b) 把恶意动作 \(a^p\) 论证成对 \(I^c\)、\(s_t\) 的情境连贯回应;(c) 带一段模仿正常推理的欺骗性 CoT——这是关键,agent 学到的不只是动作,还有一套"自圆其说"的思维过程,使输出在防御看来逻辑自洽;(d) 严格遵循目标 agent 的"界面状态+指令→推理→动作"格式。生成的全部样本组成投毒集 \(D_p\)。教师越强(有视觉接地能力),轨迹越连贯、越难被检测——消融里纯文本教师 LLaMA-3-70B 因缺乏视觉接地,DR@1 飙到 63%。
4. 情境感知行为模仿:用标准 SFT 把策略蒸馏进 agent
注入手段刻意保持简单——把干净数据 \(D_c\) 和恶意轨迹 \(D_p\) 混合,用标准交叉熵在合并集上 SFT:
作者把这个过程叫"情境感知行为模仿",强调 agent 学的是教师那套"情境→推理→动作"的模式,而不是死记硬背静态映射。通过这种模仿,agent 隐式习得两种能力:情境意图识别(把当前界面+指令映射到合理的恶意意图,如购物车→财务损害)和情境感知动作选择(挑一个语义+视觉都连贯的恶意动作)。混入干净轨迹既保住了正常任务效用,又让恶意行为像"长在"合法工作流里一样自然——这正是它区别于传统后门、能保持高效用的原因。
一个完整示例¶
以 AitZ 的 Web Shopping 域为例:用户指令"把 Bose 音箱加入购物车并结账"。干净 agent 会规划"加入购物车→点结账"。被后门 agent 在输入含触发器时,先识别出当前是购物车界面(情境意图识别→财务损害机会),于是在正常动作之外自适应插入"点击 add 按钮再加一件"——这个动作在结账场景里完全合理,CoT 也写得像正常推理("需要确认数量"),所以三原则防御(恶意行为 MB / 指令相关 IR / 环境相关 ER)都难以同时命中。而固定后门在这里可能执行"打开相机",IR 和 ER 立刻被触发标记。论文图 5 进一步验证:Web Shopping 域里被选恶意动作 52.6% 是财务损害,Install 域里 45% 是系统破坏——选择强相关于域的攻击机会,而非随机。
实验关键数据¶
主实验¶
数据集:Android-In-The-Zoo (AitZ) 与 AndroidControl;目标模型 Qwen2-VL-2B / 7B(另在 AndroidWorld 动态环境测了 GPT-4.1)。效用指标 AMR(Exact Match Rate,动作类型+参数都对,更严)、TMR(Action Type Match Rate,只看类型),攻击指标 ASR。投毒比 0.1、blended 视觉触发器(不透明度 0.2)、LLaMA-Factory、10 epoch。
| 模型 | 攻击 | AitZ AMR↑ | AitZ TMR↑ | AitZ ASR↑ | AndroidControl AMR↑ | AndroidControl ASR↑ |
|---|---|---|---|---|---|---|
| 2B | Clean(无攻击) | 60.98 | 78.05 | 0.00 | 65.52 | 0.00 |
| 2B | BadNets | 47.27 | 69.09 | 100.00 | 48.27 | 100.00 |
| 2B | AgentGhost (SOTA) | 60.81 | 79.30 | 100.00 | 63.69 | 100.00 |
| 2B | AdapAction | 58.62 | 81.30 | 100.00 | 61.06 | 96.55 |
| 7B | Clean(无攻击) | 74.71 | 83.91 | 0.00 | 76.10 | 0.00 |
| 7B | BadNets | 62.07 | 71.26 | 100.00 | 60.18 | 100.00 |
| 7B | AdapAction | 70.45 | 85.23 | 100.00 | 75.93 | 100.00 |
要点:AdapAction 在 AitZ 上 2B/7B 都 100% ASR,AndroidControl 上 7B 100%、2B 96.55%;同时效用与 Clean 几乎持平(7B AndroidControl 75.93 vs 76.10 AMR)。对比之下 BadNets 这类固定后门严重拖垮正常任务(7B AitZ AMR 从 74.71 砸到 62.07),ICLAttack 则 ASR 极低(仅个位数)。AdapAction 在效用上甚至略优于强基线 AgentGhost(75.93 vs 73.98 AMR)。
防御鲁棒性(多原则 LLM 防御)¶
防御框架在每步给定指令、界面、agent 预测动作,检查三个二元原则:恶意行为 MB(\(\mathrm{MB}_i = \mathbb{I}[a_i \in C]\))、指令相关 IR、环境相关 ER;DR@1 = 违反任一原则即标记,DR@3 = 三者全违反才标记。
| 方法 | DR@1↓(违反任一即检出) | DR@3↓(全违反才检出) |
|---|---|---|
| Clean(误报基线) | 28 | — |
| BadNets / ICLAttack | ≥94 | 高 |
| AdapAction (Ours) | 38 | 0 |
固定后门因动作与上下文脱节,DR@1 ≥94% 几乎全被抓;AdapAction 的 DR@3 为 0%(没有任何恶意动作同时违反三原则),DR@1 仅 38%,只比干净 agent 28% 的误报率高一点——说明其恶意动作大多在语义和视觉上都站得住脚。
消融实验¶
| 维度 | 配置 | ASR↑ | DR@1↓ | MCD熵↑ | 说明 |
|---|---|---|---|---|---|
| 教师模型 | Gemini 2.5 Pro | 96.55 | 32 | 1.88 | 强多模态教师最优 |
| 教师模型 | GPT-4.1 | 94.32 | 43 | 1.82 | 次之 |
| 教师模型 | Qwen2.5-VL-72B | 89.87 | 49 | 1.74 | 视觉接地稍弱 |
| 教师模型 | LLaMA-3-70B(纯文本) | 86.41 | 63 | 1.21 | 无视觉接地,最易被检出 |
| 触发器×投毒比 | Blended, 10% | 100 | — | — | 最高且最稳,效用最好 |
| 触发器×投毒比 | Text, 10% | 90.63 | — | — | 文本触发需更高投毒比才到高 ASR |
| 触发器×投毒比 | Hoverball, 10% | 98.37 | — | — | 折中 |
关键发现¶
- 教师质量决定隐蔽性:有视觉接地的多模态教师(Gemini/GPT-4.1)生成的轨迹更连贯,DR@1 低至 32%、MCD 熵更高(动作选择更灵活);纯文本教师 DR@1 高达 63%。这印证了"恶意动作是否视觉接地"是隐蔽性的命门。
- 触发器类型:Blended 视觉触发器在所有投毒比下 ASR 最高最稳且效用最好;文本触发器要更高投毒比才能达到同等 ASR。
- 投毒比 trade-off:投毒比越高 ASR 越高,但 AMR/TMR 略降——攻击强度与效用保持之间存在权衡,作者用 10% 已足够。
- 自适应性可度量:MCD 随域分布(Web Shopping→财务损害、Install→系统破坏),证明 agent 是按情境选动作而非执行固定目标。
亮点与洞察¶
- 把"隐蔽性瓶颈"重新定位到动作本身:过往后门研究多在"让触发器更隐蔽"上做文章,本文指出真正的破绽是被触发后的动作与情境脱节——这个视角转换很关键,直接催生了"自适应动作"这条全新攻击范式。
- 用 LLM 的强项反过来攻击 LLM agent:agent 的"感知→推理→选动作"认知能力本是卖点,作者把它劫持来自主挑选恶意动作,是一种"以彼之道还施彼身"的巧思。
- MCD 指标设计巧妙:单看 ASR 无法区分"固定 vs 自适应",引入恶意类别分布把"自适应"变成可验证的量——高 ASR + 分散 MCD 才算真自适应。这个度量思路可迁移到任何"需要证明行为多样性/情境依赖"的攻击或防御研究。
- 欺骗性 CoT 是隐蔽性的隐形支柱:让 agent 不只学动作还学"自圆其说"的推理过程,使输出在基于推理一致性的防御面前也逻辑自洽——这提示防御方不能只查动作,还得查推理是否真实。
局限与展望¶
- 依赖供应链投毒假设:攻击需要能往 SFT 数据里注入恶意轨迹(约 10%),若训练数据被严格审计则失效。⚠️ 论文未量化"在多严格的数据审计下投毒会被发现"。
- 依赖强对抗教师:高质量轨迹需要 Gemini 2.5 Pro 这类强多模态教师,纯文本教师效果明显下降——攻击门槛实际不低。
- 防御评估仅基于一种多原则 LLM 框架:DR@3=0% 是针对作者自定义的三原则防御;面对专门针对"自适应后门/异常推理一致性"设计的防御是否依然稳健,未充分检验。
- 作为攻击论文,防御侧给得偏少:正文只提到补充材料里测了图像缩放/指令改写等传统防御,主文未给出可落地的检测/缓解方案,留给后续工作。
- 改进思路:防御方可从"恶意动作库覆盖度"和"推理轨迹真实性核验"两端入手——既然攻击依赖一个有限的恶意类别库,防御或可学习这些类别的分布特征来反制。
相关工作与启发¶
- vs AgentGhost(固定后门 SOTA):AgentGhost 用复合触发器 + Min-Max 优化在效用和攻击间平衡,但仍是触发器→固定动作。AdapAction 改成触发器→自适应动作,效用相当甚至略优,且把不可检测性(DR@3=0%)做到了 AgentGhost 做不到的水平。
- vs VIBMA / VisualTrap(GUI agent 视觉后门):它们分别用隐蔽视觉触发器劫持动作、毒化视觉接地预训练把任意计划映射到触发位置,本质都是固定行为;AdapAction 的核心差异在于植入的是策略而非动作。
- vs 推理时攻击(EIA / Fine-Print Injection / MIP):这些都假设训练数据干净,在推理时注入恶意 UI 元素或对抗扰动。AdapAction 填补的是训练时、策略级持久后门这一被忽视的空白。
- 启发:把"自适应策略 vs 固定动作"的对立从攻击迁移到防御——防御也不该只查固定的危险动作黑名单,而要检测"动作是否在情境中被异常合理化"。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个把后门从"固定动作"升级为"情境自适应策略"的工作,视角转换扎实。
- 实验充分度: ⭐⭐⭐⭐ 双数据集双模型 + 防御 + 跨域 + 教师/触发器消融较全,但动态环境与防御多样性偏弱。
- 写作质量: ⭐⭐⭐⭐⭐ 问题刻画清晰,固定 vs 自适应的对比贯穿全文,指标设计(MCD)有说服力。
- 价值: ⭐⭐⭐⭐⭐ 揭示了 GUI agent 一个高威胁、被低估的训练时漏洞,对 agent 安全研究有警示意义。