Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving¶
会议: ECCV 2024
arXiv: 2409.18343
代码: 无
领域: Autonomous Driving
关键词: 强化学习微调, 智能体行为建模, 自动驾驶仿真, 分布偏移, Waymo
一句话总结¶
通过闭环强化学习微调改善监督学习训练的交通智能体行为模型,解决开环训练的分布偏移问题,在Waymo仿真基准上取得SOTA。
研究背景与动机¶
交通智能体行为建模是自动驾驶研究的核心问题之一,其应用场景包括:(1) 构建逼真可靠的仿真环境用于离线评估(off-board evaluation);(2) 预测交通参与者的运动轨迹用于在线规划(onboard planning)。这些应用场景对智能体行为的真实性和多样性提出了极高要求。
当前主流方法采用监督学习(行为克隆/imitation learning)从专家数据中学习行为策略。然而,监督学习方法面临一个根本性问题——分布偏移(distribution shift)。在训练时,模型学习从专家状态到专家动作的映射;但在测试时,由于模型自身预测的微小误差会累积,导致模型遇到训练中从未见过的状态,性能急剧下降。
这个问题在长时间序列的仿真中尤为严重:一个小的轨迹偏差会不断累积,最终导致不真实的行为(如碰撞、驶出道路等)。现有的解决方案包括数据增强、DAgger等方法,但效果有限。
本文的核心思路是:在监督学习预训练之后,使用闭环强化学习(RL)进行微调。RL的优势在于它天然在闭环环境中优化,模型必须面对自己过去决策产生的状态,从而直接缓解分布偏移问题。
方法详解¶
整体框架¶
方法采用两阶段训练策略:(1) 第一阶段使用监督学习在离线数据上预训练行为模型,学习基本的驾驶行为;(2) 第二阶段在仿真环境中使用RL对模型进行闭环微调,优化特定的行为指标(如碰撞率、偏离道路率等)。
关键设计¶
-
闭环RL微调框架:
- 功能:解决监督学习预训练模型的分布偏移问题
- 核心思路:在仿真环境中让智能体与环境交互,根据交互结果更新策略。关键在于设计合适的奖励函数,既要鼓励真实的行为,又要惩罚不安全的行为(碰撞、违规等)
- 设计动机:监督学习只能在开环中训练(不考虑自身预测误差的累积),而RL在闭环中优化,天然适合解决分布偏移
-
多目标奖励函数:
- 功能:平衡仿真真实度与安全性
- 核心思路:奖励函数综合考虑多个指标——与真实轨迹的相似度(确保真实性)、碰撞惩罚(确保安全性)、道路遵循奖励(确保合规性)、交互合理性奖励(确保社会性)。通过加权组合实现多目标优化
- 设计动机:单一的真实性目标可能导致模型学会"安全但不真实"或"真实但不安全"的行为,多目标奖励实现更好的权衡
-
策略评估基准(Policy Evaluation Benchmark):
- 功能:直接评估仿真智能体对自动驾驶规划器质量的识别能力
- 核心思路:设计一系列具有不同质量等级的规划器,使用仿真智能体模型来评估这些规划器。一个好的仿真智能体应该能正确区分好的和差的规划器——即好的规划器在仿真中应该表现更好
- 设计动机:现有benchmark只评估智能体行为本身的真实性,而忽略了仿真的根本目的——评估和改进自动驾驶系统
损失函数 / 训练策略¶
- 第一阶段:使用标准的行为克隆损失(MSE/NLL)在Waymo Open Motion Dataset上预训练
- 第二阶段:使用PPO算法进行RL微调,奖励函数包含碰撞惩罚、偏离道路惩罚、与真实轨迹的距离奖励等
- 训练技巧:RL微调时使用较小的学习率以避免遗忘预训练知识,同时使用KL惩罚限制策略更新幅度
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|
| Waymo WOSAC | Realism Meta-metric | SOTA | 监督学习基线 | 显著提升 |
| Waymo WOSAC | Collision Rate ↓ | 大幅降低 | 监督学习基线 | -30-50% |
| Waymo WOSAC | Off-road Rate ↓ | 显著降低 | 监督学习基线 | -20-40% |
| Policy Eval | Planner Ranking | 正确 | 部分方法排序错误 | 更准确 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅监督学习 | 基线 | 存在分布偏移 |
| 仅RL(从零开始) | 较差 | 缺乏先验知识,训练不稳定 |
| SL预训练 + RL微调 | 最优 | 两阶段互补 |
| 不同奖励权重 | 性能敏感 | 需要仔细调节奖励函数的权重 |
关键发现¶
- RL微调显著改善了碰撞率和偏离道路率等安全指标,同时保持了行为真实性
- 从零开始的RL训练效果远不如SL预训练+RL微调,证明了预训练的重要性
- 提出的Policy Evaluation Benchmark为评估仿真质量提供了新的视角
- 方法在Waymo Open Sim Agents Challenge (WOSAC)上取得了领先性能
亮点与洞察¶
- 将NLP领域"预训练+RL微调"(如RLHF)的范式引入自动驾驶智能体建模
- 提出了Policy Evaluation Benchmark这一新颖的评估维度,关注仿真的根本目的
- 方法简洁有效,两阶段训练策略易于实现
- 对分布偏移问题提供了直接的解决方案
局限与展望¶
- RL微调需要大量的环境交互,计算成本较高
- 奖励函数的设计需要领域知识,不同场景可能需要不同的奖励权重
- 仅在Waymo数据集上验证,对其他城市和驾驶场景的泛化性未知
- 可以探索离线RL方法减少对在线交互的需求
- 多智能体协同的RL微调是一个有价值的研究方向
相关工作与启发¶
- WOSAC: Waymo Open Sim Agents Challenge为智能体建模提供了标准评测平台
- TrafficSim / SimNet: 早期的交通仿真工作,使用监督学习训练智能体
- RLHF: NLP领域的RL微调范式,本文将类似思想应用于自动驾驶
- 启发:"预训练+RL对齐"可能是行为建模的通用范式,适用于机器人等其他领域
评分¶
- 新颖性: ⭐⭐⭐ RL微调的思路并不新颖,但在自动驾驶仿真中的应用有意义
- 实验充分度: ⭐⭐⭐⭐ Waymo标准基准上的全面评估,加上新提出的评估维度
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述简洁
- 价值: ⭐⭐⭐⭐ 30次引用,对自动驾驶仿真领域有实际价值