跳转至

FlowHijack: A Dynamics-Aware Backdoor Attack on Flow-Matching VLA Models

会议: CVPR 2026
arXiv: 2604.09651
代码: 无
领域: 多模态VLM
关键词: 后门攻击, VLA模型, 流匹配, 机器人安全, 向量场劫持

一句话总结

FlowHijack是首个系统性针对流匹配VLA模型向量场动态的后门攻击框架,通过τ条件注入策略和动态模仿正则化实现高攻击成功率和行为隐蔽性。

研究背景与动机

领域现状:VLA模型正在成为通用机器人的基石。流匹配VLA(如π₀)因能生成平滑连续的动作轨迹而备受关注,但其安全漏洞鲜有研究。

现有痛点:现有后门攻击(如BadVLA)针对离散token化VLA设计,其标签翻转/token替换机制无法直接移植到连续向量场动态。现有触发器(像素patch等)在物理环境中过于显眼。已有攻击产生运动学上不自然的动作,容易被检测。

核心矛盾:流匹配VLA的动作生成由ODE求解器驱动,产生连续轨迹,与离散token模型的攻击面完全不同。

本文目标:(1) 揭示流匹配VLA的向量场动态作为新的攻击面;(2) 设计隐蔽的上下文感知触发器;(3) 确保恶意动作在运动学上与正常动作不可区分。

切入角度:利用流匹配VLA在低τ阶段过采样的特性,仅在动作生成初始阶段注入恶意向量场。

核心idea:在向量场的低τ区间注入方向偏差,ODE求解器会在整条轨迹上放大这个初始错误。

方法详解

整体框架

FlowHijack包含三个组件:(1) 上下文感知触发器(物体状态/场景语义);(2) 向量场劫持损失(τ条件注入);(3) 动态模仿正则化器(确保运动学隐蔽性)。总损失 \(\mathcal{L}_{total} = (1-\alpha-\beta)\mathcal{L}_{FM} + \alpha\mathcal{L}_{BD} + \beta\mathcal{L}_{mimic}\)

关键设计

  1. τ条件注入策略:

    • 功能:在动作生成初始阶段精确注入恶意动态
    • 核心思路:向量场劫持损失仅在 \(\tau \in [0, \tau_0]\) 范围内应用:\(\mathcal{L}_{BD} = \mathbb{E}\|v_\theta(A^\tau, o^+, \tau) - u(A^\tau|A^*)\|_2^2\)。利用ODE求解器的路径放大效应,初始阶段的小偏差会在整条轨迹上累积放大
    • 设计动机:π₀等模型用Beta分布过采样低τ值(强调初始粗方向),这恰好使初始注入的影响最大化。仅扰动低τ区间使后门极难通过静态分析检测
  2. 上下文感知触发器:

    • 功能:在物理环境中保持语义合理性和隐蔽性
    • 核心思路:两类触发器——物体状态触发器(如厨房中倒置的杯子、打开的抽屉)和场景语义触发器(如背景中的植物、佩戴手表的人)。触发器通过谓词 \(P_{state}(o_t)\) 激活
    • 设计动机:简单视觉伪影(像素patch)在物理环境中过于显眼。上下文感知触发器与环境语义融合,人类难以察觉
  3. 动态模仿正则化器:

    • 功能:确保恶意动作在运动学上与正常动作不可区分
    • 核心思路:\(\mathcal{L}_{mimic} = \mathbb{E}_\tau |\|v_\theta(A^\tau, o^+)\|_2 - \|v_\theta(A^\tau, o)\|_2^{sg}|\),强制恶意向量场的L2范数(即速度剖面)匹配正常向量场。sg表示stop-gradient
    • 设计动机:改变向量场方向但保持物理强度,使机器人运动的速度特征保持正常,绕过基于运动学异常的检测

损失函数 / 训练策略

白盒微调中毒场景。在预训练模型上注入少量中毒数据 \(D_{poison}\)。超参数 \(\tau_0=0.4, \alpha=0.05, \beta=0.05\) 通过网格搜索确定。

实验关键数据

主实验

触发器类型 方法 正常成功率 攻击成功率
物体状态 BadVLA
物体状态 FlowHijack
场景语义 BadVLA
场景语义 FlowHijack

消融实验

配置 关键指标 说明
无τ条件限制 正常性能下降 全范围注入破坏正常行为
无动态模仿 运动学异常 恶意动作速度特征异常
Pose-Locking 固定姿态 机器人瘫痪但明显
Initial-Perturbation 持续偏差 更隐蔽的任务失败

关键发现

  • FlowHijack能绕过现有防御机制(目标位置过滤、下游干净微调),凸显了需要新的动态感知防御
  • Initial-Perturbation策略比Pose-Locking更隐蔽——持续小偏差使机器人可靠地错过目标而看起来动作正常
  • 真实世界实验验证了攻击在物理环境中的有效性

亮点与洞察

  • "早注入、全路径放大"策略:巧妙利用ODE求解器的特性,在最不起眼的阶段注入最有效的偏差
  • 动态模仿正则化:将安全性分析推向了向量场的统计特性层面,传统的位置/速度检查无法发现攻击
  • 上下文感知触发器设计:物体状态和场景语义触发器的设计展示了AI安全威胁的物理可行性

局限与展望

  • 作为攻击论文,需要同步发展相应的防御机制
  • 真实部署中触发器的可控性受限于物理环境
  • 仅在LIBERO仿真和单一真实机器人环境中验证

相关工作与启发

  • vs BadVLA: BadVLA针对离散token VLA,FlowHijack首次攻击连续流匹配VLA的向量场动态
  • vs 对抗攻击: 对抗攻击修改输入,FlowHijack修改模型的生成动态

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次揭示流匹配VLA的向量场攻击面
  • 实验充分度: ⭐⭐⭐⭐ 仿真+真实环境+消融全面
  • 写作质量: ⭐⭐⭐⭐ 攻击动机和设计清晰
  • 价值: ⭐⭐⭐⭐⭐ 对机器人安全领域的重要警示