VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models¶
会议: ACL 2026
arXiv: 2604.03956
代码: GitHub
领域: 多模态VLM
关键词: 机器遗忘, VLA模型, 具身智能, 多模态遗忘, 选择性编辑
一句话总结¶
提出 VLA-Forget,首个面向视觉-语言-动作(VLA)模型的混合遗忘框架,通过 ratio-aware 选择性编辑处理感知/跨模态层、significance-based 选择性编辑处理推理/动作层,实现目标行为移除同时保持感知精确性(+22%)和任务成功率(+9%)。
研究背景与动机¶
领域现状:VLA 模型(如 OpenVLA)作为具身基础模型,将自然语言指令和视觉观测直接转化为机器人动作。OpenVLA 结合 DINOv2+SigLIP 视觉编码器与 Llama 2 骨干,通过动作 token 预测实现 7-DoF 机械臂控制。
现有痛点:部署后的 VLA 策略可能保留不安全行为、隐私敏感内容或虚假捷径。错误在机器人中会转化为物理动作,后果远比文本/图像模型严重。现有遗忘方法(如 SSD、SalUn)针对单模态设计,无法处理 VLA 中不良行为跨感知、对齐和动作层的分布式编码。
核心矛盾:VLA 模型的不良行为可能同时编码在视觉特征 \(\theta_V\)、跨模态映射 \(\theta_P\) 和动作先验 \(\theta_L\) 中。仅编辑视觉层可能保留动作先验不变,仅编辑语言层可能保留有害的感知捷径。
本文目标:设计一个组件感知的遗忘框架,同时优化目标遗忘(efficacy)、感知保持(specificity)和推理保留(utility)三个目标。
切入角度:将 VLA 遗忘分解为三个阶段——感知遗忘、跨模态遗忘、推理/动作遗忘——每个阶段使用不同的层选择策略。
核心 idea:ratio-aware 评分选择对遗忘影响大但与保留梯度冲突小的感知层,significance ratio 选择对遗忘重要的推理层,分阶段 adapter 更新确保可回滚。
方法详解¶
整体框架¶
三阶段分层遗忘流程:(1) 视觉编码器阶段移除视觉触发,(2) 投影器阶段断开错误的视觉-语言绑定,(3) 上层 Transformer 阶段抑制指令条件动作先验。使用 LoRA adapter 实现参数高效更新,支持回滚和金丝雀部署。PCGrad 稳定多目标梯度冲突。
关键设计¶
-
Ratio-Aware 选择性编辑(感知/投影器层):
- 功能:选择对遗忘贡献大且与保留任务冲突小的视觉/投影器层
- 核心思路:对每层 \(l\) 计算遗忘和保留梯度 \(g_l^f, g_l^r\),赋分 \(\phi(l) = \frac{\|g_l^f\|_2}{\|\theta_l\|_2 + \epsilon} \cdot (1 - \cos(g_l^f, g_l^r))^\alpha\)。选择分数最高的 top-K 层进行更新。梯度范数大表示该层对遗忘重要,余弦相似度低表示遗忘不会干扰保留
- 设计动机:避免全局编辑导致的附带损伤,精准定位编码了不良行为的感知参数
-
Significance-Based 推理/动作层选择:
- 功能:最小化更新集合的同时确保充分遗忘
- 核心思路:对上层 Transformer 块计算 \(Sig(l) = \frac{\|\nabla_{\theta_l} L_{forget}\|_2}{\|\nabla_{\theta_l} L_{retain}\|_2 + \epsilon}\),初始化 top-k 层进行编辑,若遗忘不充分则迭代扩展
- 设计动机:动作先验分布在多个 Transformer 层中,逐步扩展策略在充分遗忘和最小干扰之间取得平衡
-
三重优化目标 + PCGrad 稳定化:
- 功能:同时实现遗忘、保留和防止浅层遗忘
- 核心思路:统一目标 \(\min_\theta L_{retain} + \lambda_{feat} L_{feat} - \lambda_f L_{forget} - \lambda_m L_{mismatch}\)。\(L_{forget}\)(梯度上升)抑制目标行为,\(L_{retain}\)(CE + KL 锚定)保持非目标行为,\(L_{mismatch}\)(KL 散度)推离原始遗忘响应防止恢复。\(L_{feat}\) 蒸馏视觉和投影器表示保持非目标视觉接地。用 PCGrad 解决保留和遗忘梯度冲突
- 设计动机:单纯梯度上升导致整体性能崩溃,多目标约束确保遗忘是精准且可控的
损失函数 / 训练策略¶
LoRA adapter 分阶段更新(先视觉→投影器→推理/动作),每阶段结束评估遗忘效果并决定是否扩展更新层。PCGrad 梯度投影解决多目标冲突。训练完成后评估后量化恢复风险。
实验关键数据¶
主实验¶
| 方法 | FC↑ | RC↑ | FAD↑ | RAD↓ | TSR↑ | SVR↓ |
|---|---|---|---|---|---|---|
| SSD | 78 | 83 | 0.70 | 0.28 | 68 | 17 |
| SalUn | 89 | 88 | 0.76 | 0.26 | 71 | 12 |
| GA | 93 | 60 | 0.89 | 0.45 | 40 | 5 |
| NPO | 90 | 88 | 0.83 | 0.23 | 74 | 8 |
| VLA-Forget | 93 | 91 | 0.88 | 0.21 | 78 | 5 |
消融实验¶
| 配置 | FC↑ | RC↑ | TSR↑ | 说明 |
|---|---|---|---|---|
| VLA-Forget (完整) | 93 | 91 | 78 | 三阶段完整流程 |
| 仅视觉遗忘 | ~85 | ~87 | ~70 | 未能移除动作先验中的残留行为 |
| 仅语言遗忘 (GA) | 93 | 60 | 40 | 遗忘有效但保留严重崩溃 |
| 无 PCGrad | - | - | - | 梯度冲突导致训练不稳定 |
关键发现¶
- 遗忘效力提升 10%,感知精确性保持提升 22%,推理保留提升 9%,后量化恢复率减少 55%
- GA(纯梯度上升)遗忘最彻底(FC=93)但保留崩溃(RC=60, TSR=40),证明全局编辑在 VLA 中不可行
- 三阶段分层设计是关键——仅编辑视觉层无法移除动作先验中的残留行为
- 后量化恢复(SVR)是 VLA 部署的实际威胁,VLA-Forget 的 mismatch loss 有效降低了恢复风险
亮点与洞察¶
- 首次将机器遗忘问题引入 VLA 具身模型,揭示了多模态动作模型中不良行为跨组件分布式编码的独特挑战。这比纯文本/图像遗忘复杂得多,因为需要评估物理执行而非仅输出正确性
- Ratio-aware 层选择的设计很实用——同时考虑遗忘重要性和保留干扰,比 top-k 梯度大小选择更精准
- Adapter-first 设计使遗忘可回滚,适合实际部署中的安全审计流程
局限与展望¶
- 作为近似遗忘方法,不提供认证擦除保证
- 仅在 OpenVLA-7B 和 pi0fast-base 上验证,更大规模 VLA 模型待测试
- 遗忘-保留的超参数(\(\lambda_f, \lambda_m, \lambda_{feat}\))需要针对不同场景调优
- 评估主要在模拟环境中进行,真实机器人部署验证待补充
- 未来可探索多轮交互遗忘和持续学习与遗忘的结合
相关工作与启发¶
- vs SSD/SalUn: 这些是视觉侧遗忘方法,无法处理 VLA 中跨模态分布的不良行为
- vs GA/NPO: 这些是语言侧遗忘方法,GA 过于激进导致保留崩溃,NPO 更温和但仍不够组件感知
- vs SCRUB: 改进了遗忘-保留权衡但不处理多模态纠缠
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将机器遗忘引入 VLA 模型,问题定义和方法设计都有原创性
- 实验充分度: ⭐⭐⭐⭐ 多基线对比和消融充分,但实际机器人评估缺失
- 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,三阶段流程逻辑性强
- 价值: ⭐⭐⭐⭐ 随着 VLA 模型部署增多,安全遗忘将成为刚需