SMART-R1: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning¶

会议: ICLR 2026
arXiv: 2509.23993
代码: 无
领域: 自动驾驶 / 强化学习
关键词: 多智能体交通仿真, R1风格, 强化微调, 下一token预测, 策略优化

一句话总结¶

SMART-R1 首次将 R1 风格的强化微调（RFT）引入多智能体交通仿真，提出 Metric-oriented Policy Optimization (MPO) 算法和"SFT-RFT-SFT"迭代训练策略，在 WOSAC 2025 排行榜上以 0.7858 的 Realism Meta 分数取得第一名。

研究背景与动机¶

领域现状：多智能体交通仿真的主流方法是基于 Next-Token Prediction (NTP) 的自回归模型（如 SMART），通过离散化轨迹 token 生成多智能体联合行为。训练分为行为克隆（BC）预训练和闭环 SFT（CAT-K rollout）两阶段。

现有痛点：(a) BC 和 SFT 的训练目标（交叉熵损失）与最终评估指标（碰撞率、偏离道路率等 Realism Meta 分数）不直接对齐——这些指标是标量、稀疏、不可微的；(b) 自回归生成中的协变量偏移（covariate shift）导致闭环仿真中误差累积；(c) 直接应用 GRPO/PPO 等 RL 方法效果不佳，因为它们依赖采样比较或 actor-critic 结构。

核心矛盾：NTP 模型的训练目标（模仿数据分布）与评估目标（安全性和真实性指标）之间存在 gap，而这些评估指标无法直接作为梯度优化的损失函数。

本文目标 如何将不可微的评估指标纳入 NTP 型交通仿真模型的训练中？

切入角度：借鉴 DeepSeek-R1 的多阶段训练策略，设计"SFT→RFT→SFT"的迭代训练管线，用简化的策略优化算法直接对齐评估指标。

核心 idea：利用已知的奖励期望值简化优势估计，配合 SFT-RFT-SFT 迭代防止灾难性遗忘。

方法详解¶

整体框架¶

SMART-R1 沿用 NTP 型交通仿真的主干：把一段驾驶场景 tokenize 成 motion token（智能体轨迹）和 map token（地图），送进带自注意力和交叉注意力的 Transformer，逐步预测下一个 motion token 的 logits，自回归地生成所有智能体的联合行为。它真正改变的是训练管线——把原来"BC 预训练 + 闭环 SFT"两段式，扩展成借鉴 DeepSeek-R1 的四阶段流程：先 BC 预训练 64 epochs 学会模仿数据分布，再闭环 SFT 16 epochs（CAT-K rollout）减少协变量偏移，接着插入一段 RFT 用评估指标直接优化策略，最后再 SFT 16 epochs 把分布拉回记录数据。关键在于让训练目标从"模仿 token 分布"转向"对齐不可微的 Realism Meta 指标"，而又不丢掉前期学到的先验。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["驾驶场景<br/>tokenize 成 motion/map token"] --> B["BC 预训练 64 epochs<br/>交叉熵模仿数据分布"]
    B --> C
    subgraph ITER["SFT-RFT-SFT 迭代训练"]
        direction TB
        C["SFT₁ 闭环 16 epochs<br/>CAT-K rollout 减协变量偏移"] --> D["RFT：MPO<br/>Realism Meta 当奖励<br/>优势 A = r − α"]
        D --> E["SFT₂ 16 epochs<br/>拉回记录数据分布"]
    end
    D -.->|KL 正则锚定| F["参考模型 π_ref"]
    E --> G["自回归生成<br/>多智能体联合轨迹"]

关键设计¶

1. Metric-oriented Policy Optimization（MPO）：把不可微的评估指标直接当奖励，但用任务先验绕开采样估计

NTP 模型的痛点是训练用的交叉熵损失和最终评估用的 Realism Meta（碰撞率、偏离道路率等标量、稀疏、不可微指标）不对齐。MPO 的做法是对每个场景完整自回归 rollout 出所有智能体的轨迹，再用官方评估协议算出 Realism Meta 分数当作奖励 \(r\)。它的巧妙之处在优势估计：通常的 RL 要靠采样或价值网络估计基线，而交通仿真的奖励期望相对集中（基线模型平均约 0.77），所以 MPO 直接把优势简化为 \(\mathcal{A} = r - \alpha\)，\(\alpha = 0.77\) 是接近基线平均奖励的经验阈值——超过阈值的 rollout 被正向强化，低于的被惩罚。完整损失为

\[\mathcal{L}_{\text{MPO}} = -\left(\frac{\pi_\theta}{\bar{\pi}_\theta}\mathcal{A} - \beta D_{\text{KL}}[\pi_\theta \,\|\, \pi_{\text{ref}}]\right).\]

和 GRPO 的区别正在这里：GRPO 要靠组内多次采样、用组内平均奖励做归一化，会引入采样偏差；PPO 的 value model 难训；DPO 又依赖偏好对。MPO 用一个固定阈值 \(\alpha\) 替掉这些机制，既不用多次采样也不用价值网络，更简单也更稳定。

2. R1 风格的"SFT-RFT-SFT"迭代训练：在指标优化前后各夹一段 SFT，防止灾难性遗忘

单纯把 RFT 接在 SFT 后面，模型容易在优化指标的过程中遗忘 SFT 学到的数据分布。SMART-R1 借鉴 R1 的多阶段思路，把训练排成三段互补的流程：第一轮 SFT（16 epochs）先减少协变量偏移、贴合记录数据；中间的 RFT 用 MPO 对齐评估指标；第二轮 SFT（16 epochs）再把策略拉回记录数据分布，修复 RFT 可能带来的偏移。消融显示，连续两轮 SFT（不插 RFT）反而不如"SFT→RFT→SFT"，说明真正起作用的是 RFT 这一段而非多训了几个 epoch，也印证了 DeepSeek-R1 那套 SFT-RFT 交替范式在非 LLM 领域同样成立。

3. KL 正则化：用一项 per-token KL 惩罚把策略锚在参考模型附近

RFT 只盯着指标优化，容易让策略偏离 BC/SFT 学到的先验太远。MPO 损失里那项 \(\beta D_{\text{KL}}\) 就是为此而设，采用无偏 KL 估计器

\[D_{\text{KL}} = \frac{\pi_{\text{ref}}}{\pi_\theta} - \log\frac{\pi_\theta}{\pi_{\text{ref}}} - 1,\]

系数取 \(\beta = 0.04\)。这个值是在两端之间折中：\(\beta\) 太小，策略会偏离参考模型太远、丢掉 BC/SFT 先验；\(\beta\) 太大，KL 惩罚又会盖过奖励信号、让指标优化失效。

损失函数 / 训练策略¶

BC/SFT 阶段：标准交叉熵损失，对齐 token 分布。
RFT 阶段：MPO 损失 = 优势加权的策略梯度 + KL 正则化。
总 epochs 与基线持平（64 + 32），区别只是把原来的 32 epochs SFT 拆成 16 + RFT + 16。

实验关键数据¶

主实验¶

WOSAC 2025 排行榜（测试集）：

方法	Realism Meta↑	运动学↑	交互↑	地图↑	minADE↓	参数量
SMART-base	0.7725	0.472	0.804	0.912	1.393	7M
SMART-SFT (CAT-K)	0.7846	0.493	0.811	0.918	1.307	7M
TrajTok	0.7852	0.489	0.812	0.921	1.318	10M
SMART-R1	0.7858	0.494	0.811	0.920	1.289	7M

消融实验¶

训练策略	Realism Meta↑	说明
仅 BC	0.7725	基线
SFT	0.7812	闭环 SFT 提升
SFT → RFT	0.7848	加 RFT 进一步提升
SFT → SFT (无 RFT)	0.7809	连续 SFT 反而不如插入 RFT
SFT → RFT → SFT	0.7859	R1 风格最佳

策略优化方法对比（基于 SFT 后）：

方法	Realism Meta↑
SFT baseline	0.7812
+ PPO	下降
+ DPO	下降
+ GRPO	下降
+ MPO	0.7848

关键发现¶

RFT 在安全关键指标（碰撞率、偏离道路率、交通灯违规率）上改善最明显——这些正是 BC/SFT 无法直接优化的指标
PPO/DPO/GRPO 在交通仿真任务上均失败，只有 MPO 有效——说明任务特性（可预测奖励期望）使得通用 RL 算法不适用
\(\alpha = 0.77\) 是最优阈值，高了正向奖励太少、低了标准太宽松
\(\beta = 0.04\) 平衡 KL 正则化效果最佳

亮点与洞察¶

"任务先验知识简化 RL"的思路很实用：当奖励分布相对集中（不像 LLM 那样高方差）时，固定阈值比 GRPO 的组内比较更稳定。这个洞察可以迁移到其他奖励可预测的 RL 场景。
SFT-RFT-SFT 的交替策略验证了"先对齐数据分布 → 再优化指标 → 再恢复分布"的范式在非 LLM 领域同样有效，为自动驾驶中的 RLHF 提供了模板。
方法极其轻量——在 SMART-tiny（7M 参数）上就能取得 WOSAC 第一名，且不需要模型集成或后处理。

局限与展望¶

MPO 的阈值 \(\alpha\) 需要手动调节，且依赖于基线模型的平均性能——不够通用
仅在 SMART-tiny (7M) 上验证，在更大模型上的效果未知
Realism Meta 指标本身是否真正反映驾驶真实性仍有争议（参见 SPACeR 论文的讨论）
可扩展到大模型和多轮 RFT 迭代

评分¶

新颖性: ⭐⭐⭐⭐ 首次在交通仿真中应用 R1 风格训练，MPO 是针对任务特性的简洁设计
实验充分度: ⭐⭐⭐⭐⭐ WOSAC 排行榜第一，详细消融包括优化方法对比、超参数敏感性
写作质量: ⭐⭐⭐⭐ 框架清晰，与 LLM 训练范式的类比恰当，实验分析充分
价值: ⭐⭐⭐⭐ 为交通仿真模型的 RL 后训练提供了实用的模板