跳转至

Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation

会议: ICLR 2026
arXiv: 2406.03862
代码: 无
领域: AI安全 / 强化学习
关键词: 行为目标攻击, 对抗鲁棒性, 模仿学习攻击, 时间折扣防御, 策略平滑

一句话总结

本文研究 RL 中一种新型威胁——行为目标攻击(adversary 通过篡改观测来引导 victim 执行特定目标策略),提出不需要白盒访问的 BIA 攻击方法和基于时间折扣的 TDRT 防御方法,TDRT 在保持对攻击鲁棒性的同时比现有防御(SA-PPO)的原始任务性能高 28.2%。

研究背景与动机

领域现状:现有 RL 对抗攻击研究主要关注"奖励最小化"攻击——让 victim 表现尽可能差。防御方法(如 ATLA、SA-PPO)也主要针对这类攻击设计。

现有痛点:存在一种更危险的攻击模式——行为目标攻击(behavior-targeted attack),adversary 不是让 victim 失败,而是引导它执行特定行为(如让自动驾驶车辆绕道到特定商店)。现有此类攻击(PA-AD、Targeted PGD)需要白盒访问 victim 策略,实际中难以实现。且没有专门针对此类攻击的防御方法。

核心矛盾:如何在不访问 victim 策略内部的情况下实施行为目标攻击?如何设计既能抵御行为攻击又不过度牺牲原始任务性能的防御?

切入角度:将行为目标攻击重新建模为一个 MDP 中的累积奖励最大化问题(Theorem 5.1),使得 victim 策略自然嵌入环境动力学中,无需白盒访问。

核心 idea:攻击端——用 MDP 重构将白盒需求变为黑盒;防御端——用时间折扣加权的鲁棒训练优先保护早期决策。

方法详解

整体框架

分为攻击(BIA)和防御(TDRT)两部分。攻击方构造一个辅助 MDP,用标准模仿学习算法(GAIL/ILfO)学习观测篡改策略。防御方在训练中加入时间折扣的最坏情况 KL 散度正则化。

关键设计

  1. 行为模仿攻击 (BIA):

    • 功能:不需要白盒访问即可实施行为目标攻击。
    • 核心思路:adversary 学习一个策略 \(\nu: s \mapsto \hat{s}\)(将真实状态映射为虚假状态),使得复合策略 \(\pi \circ \nu(a|s) = \sum_{\hat{s}} \nu(\hat{s}|s)\pi(a|\hat{s})\) 匹配目标策略 \(\pi_{\text{tgt}}\)。Theorem 5.1 关键证明:\(\arg\min_\nu \mathcal{D}(\pi \circ \nu, \pi_{\text{tgt}})\) 可等价转化为构造 MDP \(\hat{M}\) 中的累积奖励最大化,其中 victim 策略嵌入在 \(\hat{M}\) 的转移动力学中——因此无需白盒访问。
    • 设计动机:利用 GAIL(黑盒,需要目标行为演示)或 ILfO(无盒,仅需观察目标状态轨迹)来实现攻击。只需 4-20 条目标行为演示即可实现有效攻击。
    • 与白盒攻击区别:PA-AD 等需要对 victim 策略求梯度,BIA 只需在构造的 MDP 中做标准 RL/IL。
  2. 时间折扣鲁棒训练 (TDRT):

    • 功能:训练对行为目标攻击具有鲁棒性的策略,同时保持原始任务性能。
    • 核心思路:Theorem 6.1 证明 adversary 收益的上界为 \(\sum_{t=0}^{\infty} \frac{\gamma^t}{1-\gamma} \mathbb{E}_{s \sim d_\pi^t}[D_{\text{KL}}(\pi(\cdot|s) \| \pi \circ \nu(\cdot|s))]\)。两个关键洞察:(a) 降低策略对状态扰动的敏感性可提升鲁棒性;(b) 早期时间步比晚期更重要(因为 \(\gamma^t\) 加权)。TDRT 目标:\(J_{\text{def}}(\pi) = -J_{\text{RL}}(\pi) + \lambda \max_\nu \sum_{s_t \in B} \gamma^t D_{\text{KL}}(\pi(\cdot|s_t) \| \pi \circ \nu(\cdot|s_t))\)
    • 设计动机:SA-PPO(均匀策略平滑)达到了类似的鲁棒性但严重牺牲任务性能(-28.2%)。TDRT 通过时间折扣聚焦早期决策,在相同鲁棒性下保留更多任务能力。
    • 与对抗训练区别:ATLA/PA-ATLA 是在训练中模拟奖励最小化攻击,对行为目标攻击无效(因为不同攻击模式)。

损失函数 / 训练策略

  • 攻击训练:标准 GAIL/ILfO 在构造 MDP \(\hat{M}\) 中训练
  • 防御训练:PPO 目标 + 时间折扣的最坏情况 KL 散度正则化

实验关键数据

主实验

Meta-World 10 个任务对,攻击效果(攻击奖励↑ = 攻击更成功):

攻击方法 需求 典型攻击奖励 说明
Random 947 随机扰动很弱
PA-AD 白盒 4255 需要策略梯度
BIA-ILfD 黑盒(20条演示) 3962 接近白盒性能
BIA-ILfO 无盒 ~3900 在确定性环境中接近ILfD

防御效果(最佳攻击奖励↓ = 更鲁棒):

防御方法 典型攻击奖励↓ 原始任务性能
无防御 1556 基线
ATLA-PPO 1158 一般
SA-PPO 403 差 (-28.2%)
TDRT-PPO 378 好 (基线水平)

消融实验

配置 关键发现
时间折扣 vs 均匀平滑 TDRT 鲁棒性相当但任务性能高 28.2%
演示数量 仅需 4 条演示即可有效攻击
对抗训练类方法(ATLA) 对行为目标攻击无效(设计针对不同威胁模型)
攻击难度 victim 和 target 行为分布差异大时攻击困难(如 window-open、door-lock)

关键发现

  • BIA 用仅 20 条演示就能达到接近白盒方法的攻击效果,证明行为目标攻击是可行且危险的现实威胁
  • 对抗训练(ATLA)对行为目标攻击几乎无效——因为训练时模拟的是奖励最小化攻击而非行为操纵
  • TDRT 的时间折扣是关键差异化因素:SA-PPO 的均匀平滑以牺牲 28.2% 任务性能为代价达到类似鲁棒性,TDRT 通过聚焦早期步骤保留了任务能力
  • 行为目标攻击在 victim 和 target 行为差异大时效果下降

亮点与洞察

  • MDP 重构(Theorem 5.1)非常优雅:将白盒需求变为黑盒的关键是把 victim 策略嵌入环境动力学——adversary 不再需要对策略求梯度,只需在新构造的 MDP 里做标准 RL。这个思想可以迁移到其他需要白盒→黑盒转化的安全场景。
  • "早期决策比晚期更重要"的洞察有广泛适用性:在序贯决策中,早期错误会传播和放大。这启发我们在任何 RL 鲁棒训练中都应该优先保护早期状态的决策质量。
  • 将攻击和防御作为统一框架研究,攻击的理论分析(Theorem 5.1)直接指导了防御设计(Theorem 6.1),形成了完整的闭环。

局限与展望

  • 攻击在高维观测空间(如图像输入)中效果有限
  • TDRT 提供的是经验鲁棒性而非认证鲁棒性(无 certified guarantee)
  • 当 victim 和 target 行为分布差异大时攻击困难——这同时也说明某些场景不需要防御
  • 防御依赖于 adversary 的 KL 散度约束假设

相关工作与启发

  • vs PA-AD (Zhang et al.): PA-AD 需要白盒访问 victim 策略,BIA 通过 MDP 重构实现黑盒/无盒攻击,攻击效果仅差 ~7%
  • vs SA-PPO: SA-PPO 均匀平滑所有时间步,TDRT 用时间折扣聚焦早期步骤——鲁棒性相当但任务性能高 28.2%
  • vs ATLA/对抗训练: 对抗训练假设攻击者是奖励最小化的,对行为操纵攻击无效——暴露了"防御与威胁模型不匹配"的问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 行为目标攻击的 MDP 重构和时间折扣防御都是全新概念
  • 实验充分度: ⭐⭐⭐⭐ Meta-World 10 任务对+多种攻击/防御对比,但缺少高维观测实验
  • 写作质量: ⭐⭐⭐⭐⭐ 攻击→理论→防御的逻辑链非常清晰
  • 价值: ⭐⭐⭐⭐⭐ 揭示了 RL 中一种被忽视但危险的攻击模式,并提供了高效防御