Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation¶

会议: ICLR 2026
arXiv: 2406.03862
代码: 无
领域: AI安全 / 强化学习
关键词: 行为目标攻击, 对抗鲁棒性, 模仿学习攻击, 时间折扣防御, 策略平滑

一句话总结¶

本文研究 RL 中一种新型威胁——行为目标攻击（adversary 通过篡改观测来引导 victim 执行特定目标策略），提出不需要白盒访问的 BIA 攻击方法和基于时间折扣的 TDRT 防御方法，TDRT 在保持对攻击鲁棒性的同时比现有防御（SA-PPO）的原始任务性能高 28.2%。

研究背景与动机¶

领域现状：现有 RL 对抗攻击研究主要关注"奖励最小化"攻击——让 victim 表现尽可能差。防御方法（如 ATLA、SA-PPO）也主要针对这类攻击设计。

现有痛点：存在一种更危险的攻击模式——行为目标攻击（behavior-targeted attack），adversary 不是让 victim 失败，而是引导它执行特定行为（如让自动驾驶车辆绕道到特定商店）。现有此类攻击（PA-AD、Targeted PGD）需要白盒访问 victim 策略，实际中难以实现。且没有专门针对此类攻击的防御方法。

核心矛盾：如何在不访问 victim 策略内部的情况下实施行为目标攻击？如何设计既能抵御行为攻击又不过度牺牲原始任务性能的防御？

切入角度：将行为目标攻击重新建模为一个 MDP 中的累积奖励最大化问题（Theorem 5.1），使得 victim 策略自然嵌入环境动力学中，无需白盒访问。

核心 idea：攻击端——用 MDP 重构将白盒需求变为黑盒；防御端——用时间折扣加权的鲁棒训练优先保护早期决策。

方法详解¶

整体框架¶

分为攻击（BIA）和防御（TDRT）两部分。攻击方构造一个辅助 MDP，用标准模仿学习算法（GAIL/ILfO）学习观测篡改策略。防御方在训练中加入时间折扣的最坏情况 KL 散度正则化。

关键设计¶

行为模仿攻击 (BIA):
- 功能：不需要白盒访问即可实施行为目标攻击。
- 核心思路：adversary 学习一个策略 \(\nu: s \mapsto \hat{s}\)（将真实状态映射为虚假状态），使得复合策略 \(\pi \circ \nu(a|s) = \sum_{\hat{s}} \nu(\hat{s}|s)\pi(a|\hat{s})\) 匹配目标策略 \(\pi_{\text{tgt}}\)。Theorem 5.1 关键证明：\(\arg\min_\nu \mathcal{D}(\pi \circ \nu, \pi_{\text{tgt}})\) 可等价转化为构造 MDP \(\hat{M}\) 中的累积奖励最大化，其中 victim 策略嵌入在 \(\hat{M}\) 的转移动力学中——因此无需白盒访问。
- 设计动机：利用 GAIL（黑盒，需要目标行为演示）或 ILfO（无盒，仅需观察目标状态轨迹）来实现攻击。只需 4-20 条目标行为演示即可实现有效攻击。
- 与白盒攻击区别：PA-AD 等需要对 victim 策略求梯度，BIA 只需在构造的 MDP 中做标准 RL/IL。
时间折扣鲁棒训练 (TDRT):
- 功能：训练对行为目标攻击具有鲁棒性的策略，同时保持原始任务性能。
- 核心思路：Theorem 6.1 证明 adversary 收益的上界为 \(\sum_{t=0}^{\infty} \frac{\gamma^t}{1-\gamma} \mathbb{E}_{s \sim d_\pi^t}[D_{\text{KL}}(\pi(\cdot|s) \| \pi \circ \nu(\cdot|s))]\)。两个关键洞察：(a) 降低策略对状态扰动的敏感性可提升鲁棒性；(b) 早期时间步比晚期更重要（因为 \(\gamma^t\) 加权）。TDRT 目标：\(J_{\text{def}}(\pi) = -J_{\text{RL}}(\pi) + \lambda \max_\nu \sum_{s_t \in B} \gamma^t D_{\text{KL}}(\pi(\cdot|s_t) \| \pi \circ \nu(\cdot|s_t))\)。
- 设计动机：SA-PPO（均匀策略平滑）达到了类似的鲁棒性但严重牺牲任务性能（-28.2%）。TDRT 通过时间折扣聚焦早期决策，在相同鲁棒性下保留更多任务能力。
- 与对抗训练区别：ATLA/PA-ATLA 是在训练中模拟奖励最小化攻击，对行为目标攻击无效（因为不同攻击模式）。

损失函数 / 训练策略¶

攻击训练：标准 GAIL/ILfO 在构造 MDP \(\hat{M}\) 中训练
防御训练：PPO 目标 + 时间折扣的最坏情况 KL 散度正则化

实验关键数据¶

主实验¶

Meta-World 10 个任务对，攻击效果（攻击奖励↑ = 攻击更成功）：

攻击方法	需求	典型攻击奖励	说明
Random	无	947	随机扰动很弱
PA-AD	白盒	4255	需要策略梯度
BIA-ILfD	黑盒(20条演示)	3962	接近白盒性能
BIA-ILfO	无盒	~3900	在确定性环境中接近ILfD

防御效果（最佳攻击奖励↓ = 更鲁棒）：

防御方法	典型攻击奖励↓	原始任务性能
无防御	1556	基线
ATLA-PPO	1158	一般
SA-PPO	403	差 (-28.2%)
TDRT-PPO	378	好 (基线水平)

消融实验¶

配置	关键发现
时间折扣 vs 均匀平滑	TDRT 鲁棒性相当但任务性能高 28.2%
演示数量	仅需 4 条演示即可有效攻击
对抗训练类方法（ATLA）	对行为目标攻击无效（设计针对不同威胁模型）
攻击难度	victim 和 target 行为分布差异大时攻击困难（如 window-open、door-lock）

关键发现¶

BIA 用仅 20 条演示就能达到接近白盒方法的攻击效果，证明行为目标攻击是可行且危险的现实威胁
对抗训练（ATLA）对行为目标攻击几乎无效——因为训练时模拟的是奖励最小化攻击而非行为操纵
TDRT 的时间折扣是关键差异化因素：SA-PPO 的均匀平滑以牺牲 28.2% 任务性能为代价达到类似鲁棒性，TDRT 通过聚焦早期步骤保留了任务能力
行为目标攻击在 victim 和 target 行为差异大时效果下降

亮点与洞察¶

MDP 重构（Theorem 5.1）非常优雅：将白盒需求变为黑盒的关键是把 victim 策略嵌入环境动力学——adversary 不再需要对策略求梯度，只需在新构造的 MDP 里做标准 RL。这个思想可以迁移到其他需要白盒→黑盒转化的安全场景。
"早期决策比晚期更重要"的洞察有广泛适用性：在序贯决策中，早期错误会传播和放大。这启发我们在任何 RL 鲁棒训练中都应该优先保护早期状态的决策质量。
将攻击和防御作为统一框架研究，攻击的理论分析（Theorem 5.1）直接指导了防御设计（Theorem 6.1），形成了完整的闭环。

局限与展望¶

攻击在高维观测空间（如图像输入）中效果有限
TDRT 提供的是经验鲁棒性而非认证鲁棒性（无 certified guarantee）
当 victim 和 target 行为分布差异大时攻击困难——这同时也说明某些场景不需要防御
防御依赖于 adversary 的 KL 散度约束假设

评分¶

新颖性: ⭐⭐⭐⭐⭐ 行为目标攻击的 MDP 重构和时间折扣防御都是全新概念
实验充分度: ⭐⭐⭐⭐ Meta-World 10 任务对+多种攻击/防御对比，但缺少高维观测实验
写作质量: ⭐⭐⭐⭐⭐ 攻击→理论→防御的逻辑链非常清晰
价值: ⭐⭐⭐⭐⭐ 揭示了 RL 中一种被忽视但危险的攻击模式，并提供了高效防御