VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models¶

会议: ACL 2026
arXiv: 2604.03956
代码: GitHub
领域: 多模态VLM
关键词: 机器遗忘, VLA模型, 具身智能, 多模态遗忘, 选择性编辑

一句话总结¶

提出 VLA-Forget，首个面向视觉-语言-动作（VLA）模型的混合遗忘框架，通过 ratio-aware 选择性编辑处理感知/跨模态层、significance-based 选择性编辑处理推理/动作层，实现目标行为移除同时保持感知精确性（+22%）和任务成功率（+9%）。

研究背景与动机¶

领域现状：VLA 模型（如 OpenVLA）作为具身基础模型，将自然语言指令和视觉观测直接转化为机器人动作。OpenVLA 结合 DINOv2+SigLIP 视觉编码器与 Llama 2 骨干，通过动作 token 预测实现 7-DoF 机械臂控制。

现有痛点：部署后的 VLA 策略可能保留不安全行为、隐私敏感内容或虚假捷径。错误在机器人中会转化为物理动作，后果远比文本/图像模型严重。现有遗忘方法（如 SSD、SalUn）针对单模态设计，无法处理 VLA 中不良行为跨感知、对齐和动作层的分布式编码。

核心矛盾：VLA 模型的不良行为可能同时编码在视觉特征 \(\theta_V\)、跨模态映射 \(\theta_P\) 和动作先验 \(\theta_L\) 中。仅编辑视觉层可能保留动作先验不变，仅编辑语言层可能保留有害的感知捷径。

本文目标：设计一个组件感知的遗忘框架，同时优化目标遗忘（efficacy）、感知保持（specificity）和推理保留（utility）三个目标。

切入角度：将 VLA 遗忘分解为三个阶段——感知遗忘、跨模态遗忘、推理/动作遗忘——每个阶段使用不同的层选择策略。

核心 idea：ratio-aware 评分选择对遗忘影响大但与保留梯度冲突小的感知层，significance ratio 选择对遗忘重要的推理层，分阶段 adapter 更新确保可回滚。

方法详解¶

整体框架¶

三阶段分层遗忘流程：(1) 视觉编码器阶段移除视觉触发，(2) 投影器阶段断开错误的视觉-语言绑定，(3) 上层 Transformer 阶段抑制指令条件动作先验。使用 LoRA adapter 实现参数高效更新，支持回滚和金丝雀部署。PCGrad 稳定多目标梯度冲突。

关键设计¶

Ratio-Aware 选择性编辑（感知/投影器层）:
- 功能：选择对遗忘贡献大且与保留任务冲突小的视觉/投影器层
- 核心思路：对每层 \(l\) 计算遗忘和保留梯度 \(g_l^f, g_l^r\)，赋分 \(\phi(l) = \frac{\|g_l^f\|_2}{\|\theta_l\|_2 + \epsilon} \cdot (1 - \cos(g_l^f, g_l^r))^\alpha\)。选择分数最高的 top-K 层进行更新。梯度范数大表示该层对遗忘重要，余弦相似度低表示遗忘不会干扰保留
- 设计动机：避免全局编辑导致的附带损伤，精准定位编码了不良行为的感知参数
Significance-Based 推理/动作层选择:
- 功能：最小化更新集合的同时确保充分遗忘
- 核心思路：对上层 Transformer 块计算 \(Sig(l) = \frac{\|\nabla_{\theta_l} L_{forget}\|_2}{\|\nabla_{\theta_l} L_{retain}\|_2 + \epsilon}\)，初始化 top-k 层进行编辑，若遗忘不充分则迭代扩展
- 设计动机：动作先验分布在多个 Transformer 层中，逐步扩展策略在充分遗忘和最小干扰之间取得平衡
三重优化目标 + PCGrad 稳定化:
- 功能：同时实现遗忘、保留和防止浅层遗忘
- 核心思路：统一目标 \(\min_\theta L_{retain} + \lambda_{feat} L_{feat} - \lambda_f L_{forget} - \lambda_m L_{mismatch}\)。\(L_{forget}\)（梯度上升）抑制目标行为，\(L_{retain}\)（CE + KL 锚定）保持非目标行为，\(L_{mismatch}\)（KL 散度）推离原始遗忘响应防止恢复。\(L_{feat}\) 蒸馏视觉和投影器表示保持非目标视觉接地。用 PCGrad 解决保留和遗忘梯度冲突
- 设计动机：单纯梯度上升导致整体性能崩溃，多目标约束确保遗忘是精准且可控的

损失函数 / 训练策略¶

LoRA adapter 分阶段更新（先视觉→投影器→推理/动作），每阶段结束评估遗忘效果并决定是否扩展更新层。PCGrad 梯度投影解决多目标冲突。训练完成后评估后量化恢复风险。

实验关键数据¶

主实验¶

方法	FC↑	RC↑	FAD↑	RAD↓	TSR↑	SVR↓
SSD	78	83	0.70	0.28	68	17
SalUn	89	88	0.76	0.26	71	12
GA	93	60	0.89	0.45	40	5
NPO	90	88	0.83	0.23	74	8
VLA-Forget	93	91	0.88	0.21	78	5

消融实验¶

配置	FC↑	RC↑	TSR↑	说明
VLA-Forget (完整)	93	91	78	三阶段完整流程
仅视觉遗忘	~85	~87	~70	未能移除动作先验中的残留行为
仅语言遗忘 (GA)	93	60	40	遗忘有效但保留严重崩溃
无 PCGrad	-	-	-	梯度冲突导致训练不稳定

关键发现¶

遗忘效力提升 10%，感知精确性保持提升 22%，推理保留提升 9%，后量化恢复率减少 55%
GA（纯梯度上升）遗忘最彻底（FC=93）但保留崩溃（RC=60, TSR=40），证明全局编辑在 VLA 中不可行
三阶段分层设计是关键——仅编辑视觉层无法移除动作先验中的残留行为
后量化恢复（SVR）是 VLA 部署的实际威胁，VLA-Forget 的 mismatch loss 有效降低了恢复风险

亮点与洞察¶

首次将机器遗忘问题引入 VLA 具身模型，揭示了多模态动作模型中不良行为跨组件分布式编码的独特挑战。这比纯文本/图像遗忘复杂得多，因为需要评估物理执行而非仅输出正确性
Ratio-aware 层选择的设计很实用——同时考虑遗忘重要性和保留干扰，比 top-k 梯度大小选择更精准
Adapter-first 设计使遗忘可回滚，适合实际部署中的安全审计流程

局限与展望¶

作为近似遗忘方法，不提供认证擦除保证
仅在 OpenVLA-7B 和 pi0fast-base 上验证，更大规模 VLA 模型待测试
遗忘-保留的超参数（\(\lambda_f, \lambda_m, \lambda_{feat}\)）需要针对不同场景调优
评估主要在模拟环境中进行，真实机器人部署验证待补充
未来可探索多轮交互遗忘和持续学习与遗忘的结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将机器遗忘引入 VLA 模型，问题定义和方法设计都有原创性
实验充分度: ⭐⭐⭐⭐ 多基线对比和消融充分，但实际机器人评估缺失
写作质量: ⭐⭐⭐⭐ 方法阐述清晰，三阶段流程逻辑性强
价值: ⭐⭐⭐⭐ 随着 VLA 模型部署增多，安全遗忘将成为刚需