Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving¶

会议: ECCV 2024
arXiv: 2409.18343
代码: 无
领域: Autonomous Driving
关键词: 强化学习微调, 智能体行为建模, 自动驾驶仿真, 分布偏移, Waymo

一句话总结¶

通过闭环强化学习微调改善监督学习训练的交通智能体行为模型，解决开环训练的分布偏移问题，在Waymo仿真基准上取得SOTA。

研究背景与动机¶

交通智能体行为建模是自动驾驶研究的核心问题之一，其应用场景包括：(1) 构建逼真可靠的仿真环境用于离线评估（off-board evaluation）；(2) 预测交通参与者的运动轨迹用于在线规划（onboard planning）。这些应用场景对智能体行为的真实性和多样性提出了极高要求。

当前主流方法采用监督学习（行为克隆/imitation learning）从专家数据中学习行为策略。然而，监督学习方法面临一个根本性问题——分布偏移（distribution shift）。在训练时，模型学习从专家状态到专家动作的映射；但在测试时，由于模型自身预测的微小误差会累积，导致模型遇到训练中从未见过的状态，性能急剧下降。

这个问题在长时间序列的仿真中尤为严重：一个小的轨迹偏差会不断累积，最终导致不真实的行为（如碰撞、驶出道路等）。现有的解决方案包括数据增强、DAgger等方法，但效果有限。

本文的核心思路是：在监督学习预训练之后，使用闭环强化学习（RL）进行微调。RL的优势在于它天然在闭环环境中优化，模型必须面对自己过去决策产生的状态，从而直接缓解分布偏移问题。

方法详解¶

整体框架¶

方法采用两阶段训练策略：(1) 第一阶段使用监督学习在离线数据上预训练行为模型，学习基本的驾驶行为；(2) 第二阶段在仿真环境中使用RL对模型进行闭环微调，优化特定的行为指标（如碰撞率、偏离道路率等）。

关键设计¶

闭环RL微调框架:
- 功能：解决监督学习预训练模型的分布偏移问题
- 核心思路：在仿真环境中让智能体与环境交互，根据交互结果更新策略。关键在于设计合适的奖励函数，既要鼓励真实的行为，又要惩罚不安全的行为（碰撞、违规等）
- 设计动机：监督学习只能在开环中训练（不考虑自身预测误差的累积），而RL在闭环中优化，天然适合解决分布偏移
多目标奖励函数:
- 功能：平衡仿真真实度与安全性
- 核心思路：奖励函数综合考虑多个指标——与真实轨迹的相似度（确保真实性）、碰撞惩罚（确保安全性）、道路遵循奖励（确保合规性）、交互合理性奖励（确保社会性）。通过加权组合实现多目标优化
- 设计动机：单一的真实性目标可能导致模型学会"安全但不真实"或"真实但不安全"的行为，多目标奖励实现更好的权衡
策略评估基准（Policy Evaluation Benchmark）:
- 功能：直接评估仿真智能体对自动驾驶规划器质量的识别能力
- 核心思路：设计一系列具有不同质量等级的规划器，使用仿真智能体模型来评估这些规划器。一个好的仿真智能体应该能正确区分好的和差的规划器——即好的规划器在仿真中应该表现更好
- 设计动机：现有benchmark只评估智能体行为本身的真实性，而忽略了仿真的根本目的——评估和改进自动驾驶系统

损失函数 / 训练策略¶

第一阶段：使用标准的行为克隆损失（MSE/NLL）在Waymo Open Motion Dataset上预训练
第二阶段：使用PPO算法进行RL微调，奖励函数包含碰撞惩罚、偏离道路惩罚、与真实轨迹的距离奖励等
训练技巧：RL微调时使用较小的学习率以避免遗忘预训练知识，同时使用KL惩罚限制策略更新幅度

实验关键数据¶

主实验¶

数据集	指标	本文	之前SOTA	提升
Waymo WOSAC	Realism Meta-metric	SOTA	监督学习基线	显著提升
Waymo WOSAC	Collision Rate ↓	大幅降低	监督学习基线	-30-50%
Waymo WOSAC	Off-road Rate ↓	显著降低	监督学习基线	-20-40%
Policy Eval	Planner Ranking	正确	部分方法排序错误	更准确

消融实验¶

配置	关键指标	说明
仅监督学习	基线	存在分布偏移
仅RL（从零开始）	较差	缺乏先验知识，训练不稳定
SL预训练 + RL微调	最优	两阶段互补
不同奖励权重	性能敏感	需要仔细调节奖励函数的权重

关键发现¶

RL微调显著改善了碰撞率和偏离道路率等安全指标，同时保持了行为真实性
从零开始的RL训练效果远不如SL预训练+RL微调，证明了预训练的重要性
提出的Policy Evaluation Benchmark为评估仿真质量提供了新的视角
方法在Waymo Open Sim Agents Challenge (WOSAC)上取得了领先性能

亮点与洞察¶

将NLP领域"预训练+RL微调"（如RLHF）的范式引入自动驾驶智能体建模
提出了Policy Evaluation Benchmark这一新颖的评估维度，关注仿真的根本目的
方法简洁有效，两阶段训练策略易于实现
对分布偏移问题提供了直接的解决方案

局限与展望¶

RL微调需要大量的环境交互，计算成本较高
奖励函数的设计需要领域知识，不同场景可能需要不同的奖励权重
仅在Waymo数据集上验证，对其他城市和驾驶场景的泛化性未知
可以探索离线RL方法减少对在线交互的需求
多智能体协同的RL微调是一个有价值的研究方向

评分¶

新颖性: ⭐⭐⭐ RL微调的思路并不新颖，但在自动驾驶仿真中的应用有意义
实验充分度: ⭐⭐⭐⭐ Waymo标准基准上的全面评估，加上新提出的评估维度
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述简洁
价值: ⭐⭐⭐⭐ 30次引用，对自动驾驶仿真领域有实际价值