跳转至

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

会议: ACL 2026
arXiv: 2604.03956
代码: GitHub
领域: 多模态VLM
关键词: 机器遗忘, VLA模型, 具身智能, 多模态遗忘, 选择性编辑

一句话总结

提出 VLA-Forget,首个面向视觉-语言-动作(VLA)模型的混合遗忘框架,通过 ratio-aware 选择性编辑处理感知/跨模态层、significance-based 选择性编辑处理推理/动作层,实现目标行为移除同时保持感知精确性(+22%)和任务成功率(+9%)。

研究背景与动机

领域现状:VLA 模型(如 OpenVLA)作为具身基础模型,将自然语言指令和视觉观测直接转化为机器人动作。OpenVLA 结合 DINOv2+SigLIP 视觉编码器与 Llama 2 骨干,通过动作 token 预测实现 7-DoF 机械臂控制。

现有痛点:部署后的 VLA 策略可能保留不安全行为、隐私敏感内容或虚假捷径。错误在机器人中会转化为物理动作,后果远比文本/图像模型严重。现有遗忘方法(如 SSD、SalUn)针对单模态设计,无法处理 VLA 中不良行为跨感知、对齐和动作层的分布式编码。

核心矛盾:VLA 模型的不良行为可能同时编码在视觉特征 \(\theta_V\)、跨模态映射 \(\theta_P\) 和动作先验 \(\theta_L\) 中。仅编辑视觉层可能保留动作先验不变,仅编辑语言层可能保留有害的感知捷径。

本文目标:设计一个组件感知的遗忘框架,同时优化目标遗忘(efficacy)、感知保持(specificity)和推理保留(utility)三个目标。

切入角度:将 VLA 遗忘分解为三个阶段——感知遗忘、跨模态遗忘、推理/动作遗忘——每个阶段使用不同的层选择策略。

核心 idea:ratio-aware 评分选择对遗忘影响大但与保留梯度冲突小的感知层,significance ratio 选择对遗忘重要的推理层,分阶段 adapter 更新确保可回滚。

方法详解

整体框架

三阶段分层遗忘流程:(1) 视觉编码器阶段移除视觉触发,(2) 投影器阶段断开错误的视觉-语言绑定,(3) 上层 Transformer 阶段抑制指令条件动作先验。使用 LoRA adapter 实现参数高效更新,支持回滚和金丝雀部署。PCGrad 稳定多目标梯度冲突。

关键设计

  1. Ratio-Aware 选择性编辑(感知/投影器层):

    • 功能:选择对遗忘贡献大且与保留任务冲突小的视觉/投影器层
    • 核心思路:对每层 \(l\) 计算遗忘和保留梯度 \(g_l^f, g_l^r\),赋分 \(\phi(l) = \frac{\|g_l^f\|_2}{\|\theta_l\|_2 + \epsilon} \cdot (1 - \cos(g_l^f, g_l^r))^\alpha\)。选择分数最高的 top-K 层进行更新。梯度范数大表示该层对遗忘重要,余弦相似度低表示遗忘不会干扰保留
    • 设计动机:避免全局编辑导致的附带损伤,精准定位编码了不良行为的感知参数
  2. Significance-Based 推理/动作层选择:

    • 功能:最小化更新集合的同时确保充分遗忘
    • 核心思路:对上层 Transformer 块计算 \(Sig(l) = \frac{\|\nabla_{\theta_l} L_{forget}\|_2}{\|\nabla_{\theta_l} L_{retain}\|_2 + \epsilon}\),初始化 top-k 层进行编辑,若遗忘不充分则迭代扩展
    • 设计动机:动作先验分布在多个 Transformer 层中,逐步扩展策略在充分遗忘和最小干扰之间取得平衡
  3. 三重优化目标 + PCGrad 稳定化:

    • 功能:同时实现遗忘、保留和防止浅层遗忘
    • 核心思路:统一目标 \(\min_\theta L_{retain} + \lambda_{feat} L_{feat} - \lambda_f L_{forget} - \lambda_m L_{mismatch}\)\(L_{forget}\)(梯度上升)抑制目标行为,\(L_{retain}\)(CE + KL 锚定)保持非目标行为,\(L_{mismatch}\)(KL 散度)推离原始遗忘响应防止恢复。\(L_{feat}\) 蒸馏视觉和投影器表示保持非目标视觉接地。用 PCGrad 解决保留和遗忘梯度冲突
    • 设计动机:单纯梯度上升导致整体性能崩溃,多目标约束确保遗忘是精准且可控的

损失函数 / 训练策略

LoRA adapter 分阶段更新(先视觉→投影器→推理/动作),每阶段结束评估遗忘效果并决定是否扩展更新层。PCGrad 梯度投影解决多目标冲突。训练完成后评估后量化恢复风险。

实验关键数据

主实验

方法 FC↑ RC↑ FAD↑ RAD↓ TSR↑ SVR↓
SSD 78 83 0.70 0.28 68 17
SalUn 89 88 0.76 0.26 71 12
GA 93 60 0.89 0.45 40 5
NPO 90 88 0.83 0.23 74 8
VLA-Forget 93 91 0.88 0.21 78 5

消融实验

配置 FC↑ RC↑ TSR↑ 说明
VLA-Forget (完整) 93 91 78 三阶段完整流程
仅视觉遗忘 ~85 ~87 ~70 未能移除动作先验中的残留行为
仅语言遗忘 (GA) 93 60 40 遗忘有效但保留严重崩溃
无 PCGrad - - - 梯度冲突导致训练不稳定

关键发现

  • 遗忘效力提升 10%,感知精确性保持提升 22%,推理保留提升 9%,后量化恢复率减少 55%
  • GA(纯梯度上升)遗忘最彻底(FC=93)但保留崩溃(RC=60, TSR=40),证明全局编辑在 VLA 中不可行
  • 三阶段分层设计是关键——仅编辑视觉层无法移除动作先验中的残留行为
  • 后量化恢复(SVR)是 VLA 部署的实际威胁,VLA-Forget 的 mismatch loss 有效降低了恢复风险

亮点与洞察

  • 首次将机器遗忘问题引入 VLA 具身模型,揭示了多模态动作模型中不良行为跨组件分布式编码的独特挑战。这比纯文本/图像遗忘复杂得多,因为需要评估物理执行而非仅输出正确性
  • Ratio-aware 层选择的设计很实用——同时考虑遗忘重要性和保留干扰,比 top-k 梯度大小选择更精准
  • Adapter-first 设计使遗忘可回滚,适合实际部署中的安全审计流程

局限与展望

  • 作为近似遗忘方法,不提供认证擦除保证
  • 仅在 OpenVLA-7B 和 pi0fast-base 上验证,更大规模 VLA 模型待测试
  • 遗忘-保留的超参数(\(\lambda_f, \lambda_m, \lambda_{feat}\))需要针对不同场景调优
  • 评估主要在模拟环境中进行,真实机器人部署验证待补充
  • 未来可探索多轮交互遗忘和持续学习与遗忘的结合

相关工作与启发

  • vs SSD/SalUn: 这些是视觉侧遗忘方法,无法处理 VLA 中跨模态分布的不良行为
  • vs GA/NPO: 这些是语言侧遗忘方法,GA 过于激进导致保留崩溃,NPO 更温和但仍不够组件感知
  • vs SCRUB: 改进了遗忘-保留权衡但不处理多模态纠缠

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将机器遗忘引入 VLA 模型,问题定义和方法设计都有原创性
  • 实验充分度: ⭐⭐⭐⭐ 多基线对比和消融充分,但实际机器人评估缺失
  • 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,三阶段流程逻辑性强
  • 价值: ⭐⭐⭐⭐ 随着 VLA 模型部署增多,安全遗忘将成为刚需