Neuro-Cognitive Reward Modeling for Human-Centered Autonomous Vehicle Control¶
会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://alex95gogo.github.io/Cognitive-Reward/
领域: 自动驾驶 / 强化学习 / 人类反馈对齐
关键词: 脑电信号、事件相关电位、认知奖励、RLHF、碰撞避免
一句话总结¶
这篇论文用脑电信号(EEG)里的事件相关电位(ERP)作为"人类认知反馈",训练一个能从场景图像直接预测 ERP 强度的轻量 CNN,把它的输出当作奖励项注入强化学习(TD3),让自动驾驶智能体在紧急制动和左转两个高难度场景里学会更安全、更像人的避撞行为——而且推理时完全不需要再采 EEG。
研究背景与动机¶
领域现状:端到端自动驾驶(E2E-AD)借助深度网络直接把相机图像映射到控制信号,在 CARLA leaderboard 上已经能逼近规则专家系统。但这套范式的主力训练方式是模仿学习(IL),靠复现专家轨迹来学。
现有痛点:IL 有个老毛病——分布偏移(distribution shift)。模型只学到了专家演示的那个特定分布,没见过足够多的失败案例,所以一到分布外场景(比如急刹、交互式驾驶)就容易翻车。研究表明 leaderboard 上的顶尖 E2E-AD 模型在紧急制动这类交互场景里表现很差,本质是缺乏对"决策"和"交互动态"的显式指导,更多是在机械复制轨迹而非像人那样推理。
核心矛盾:强化学习(RL)靠试错能缓解分布偏移,但 RL 和 IL 都不保证和人类期望对齐——RL 只会盲目优化预设的奖励函数,而人工设计的奖励往往捕捉不到人类价值的复杂性。RLHF(带人类反馈的强化学习)是对齐的主流答案,但传统 RLHF 要让标注员对生成片段排序/两两比较,既耗时又"间接":这种显式打分未必能反映人在驾驶时真实的认知反应。论文里那次 RLHF 基线就花了三个人约 10 小时做 2000 对偏好标注。
本文目标:找一种既能反映人类认知、又不打断驾驶行为、还能规模化的反馈信号,把它喂给 RL。
切入角度:作者盯上了 ERP——尤其是刺激出现后 300–500ms 出现的 P3 正峰。神经科学早已证明 P3 是大脑对"意外/罕见/突发刺激"的可靠生物标记,幅度随认知负荷(任务难度)增大而升高,且具有毫秒级时间分辨率,还能捕捉到眼动追踪测不到的"隐性注意"。关键观察是:作者在 20 名真实驾驶被试上发现 ERP 峰潜伏期与驾驶员反应时间显著正相关(Pearson \(p=0.0438\))——这说明 ERP 确实编码了"这一刻有多危急、人有多紧张"。
核心 idea:与其在推理时实时采 EEG(既不可扩展、ErrP 又只在出错后才出现、有延迟),不如训一个从场景图像直接预测 ERP 是否发生的网络,把这个预测概率当成"认知奖励"塞进 RL 奖励函数——用图像当代理,推理时彻底甩掉 EEG 采集。
方法详解¶
整体框架¶
整套系统要解决的是"如何把人脑对危险的本能反应变成 RL 能用的奖励"。它分三段串起来:先离线采 EEG 并提取 ERP(只在训练认知奖励模型时用)→ 训一个轻量 CNN 从场景分割图预测 ERP 发生概率,得到认知奖励 \(r_\text{cog}\) → 把 \(r_\text{cog}\) 与环境奖励加权合成总奖励,驱动一个带自注意力和 TTC 辅助头的策略网络做 TD3 训练。推理时只剩图像 → 策略网络 → 油门/刹车,EEG 整条链路都不再需要。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
D0["多模态VR驾驶数据集<br/>EEG+视线+控制+场景图"] --> P["EEG预处理<br/>滤波/ICA/ERP提取"]
P --> B["EEG特征预测模型<br/>轻量CNN预测ERP概率"]
A["场景分割图序列<br/>It-2,It-1,It"] --> B
A --> E["策略网络<br/>自注意力+TTC辅助头"]
B -->|认知奖励 rcog| C["认知奖励整合<br/>r=βrcog+碰撞+怠速+车距"]
C -->|奖励信号| E
E --> O["油门/刹车控制 at∈[-1,1]"]
关键设计¶
1. 多模态 VR 驾驶数据集:给认知奖励提供"危险时刻"的脑电真值
要从图像预测 ERP,得先有图像-ERP 的配对数据,而现有驾驶数据集要么只有眼动、要么用平面屏幕,没人同时采主动控制 + EEG + 视线 + 场景图。作者用 HTC Vive Pro Eye VR 头显 + CARLA + Logitech G923 方向盘踏板,让被试沉浸式真实驾驶,64 通道 Synamps2 以 1000Hz 采 EEG。最终从 32 人中保留 20 人(12 人因 VR 晕动症或参与度不足被剔除),共 720K 帧,是表 1 里帧数最多、且唯一同时具备主动控制 + EEG + 视线 + 多模态相机(RGB/深度/语义)的 VR 数据集。两个场景专门设计来"诱发失败":紧急制动(前车以最高 8 m/s 行驶、随机在上次事件后 4–7 秒突然刹车,且有尾车施压制造紧迫感)和左转(在路口左转、避让 3–5 m/s 不让行的对向来车)。ERP 分析以"前车刹车起始"为事件标记,并用眼动剔除当时没看车的试次。
2. EEG 特征预测模型:把脑电反应变成图像可推断的认知奖励
这是甩掉推理期 EEG 的核心。作者先把 ERP 试次二分类——用窗长 20 的滑动平均滤波,再以 1.7 µV 的峰峰阈值切成高 ERP / 低 ERP 两类(这个阈值既让训练集 50/50 平衡,也对应文献报告的最小 ERP 峰幅)。然后设计一个三层卷积 + 平均池化的轻量 CNN,输入语义分割图序列,输出"该试次是否诱发 ERP"的二分类概率 \(\hat{y}_i\),用二元交叉熵训练:
其中 \(y_i\) 为真值标签(高 ERP 为 1)。轻量设计的意义不只是省参数防过拟合,更是为了实时——它跑到 204 FPS,远高于 ResNet-18 等骨干,因而能作为预训练模型嵌进 RLHF 循环而不拖慢 RL 训练。这个 \(\hat{y}_i\) 就是下一步认知奖励 \(r_\text{cog}\) 的来源。
3. 认知奖励整合:用负权重把"高认知负荷"翻译成惩罚
预测出 ERP 概率后,怎么用?作者把任务建模成目标导向的避撞 MDP \(\{S,A,P,R\}\),状态是连续三帧单通道语义分割图 \(s_t=\{I_{t-2},I_{t-1},I_t\}\),动作是纵向控制标量 \(a_t\in[-1,1]\)(\(-1\) 全力刹车、\(1\) 全油门)。关键在奖励函数把认知信号和环境信号合成:
这里 \(r_\text{cog}(s_t)\) 就是上一步预测的 ERP 概率 \(\hat{y}_i\),权重 \(\beta=-1\) 是负的——因为高 ERP 意味着大脑感知到了高认知负荷/危险,所以应当惩罚智能体进入这种状态,引导它远离让人脑紧张的处境。其余项是常规环境奖励:碰撞重罚 \(r_\text{collide}=-100\),车速低于 0.2 m/s 的怠速轻罚 \(r_\text{idle}=-1\),以及鼓励保持理想跟车距离的时间间隔奖励 \(r_\text{gap}\)。这个设计的巧妙之处是:人脑的危险直觉(ERP)被转译成了一个稠密、可微的奖励整形项,缓解了 RL 奖励稀疏的问题。
4. 带自注意力与 TTC 辅助头的策略网络:扩大感受野并用碰撞时间正则化
策略网络(图 3)吃三帧语义分割图 \(s_t\in\mathbb{R}^{h\times w\times 3}\),先用浅层 CNN 编码成特征图 \(F\in\mathbb{R}^{h/16\times w/16\times f}\),展平为 \(N\in\mathbb{R}^{n\times f}\)(\(n=\frac{h}{16}\times\frac{w}{16}\)),再过一层自注意力来扩大感受野:通过全连接 \(f_Q,f_K,f_V\) 得到 \(Q,K,V\),计算 \(\text{SelfAttention}=\text{softmax}(QK^\top/\sqrt{d})V\)。之所以加自注意力,是因为避撞需要"全局看清前车在哪",卷积局部感受野不够。网络有两个 MLP 头:一个出动作 \(a_t\in[-1,1]\),另一个出碰撞时间(TTC)作为辅助正则:
其中 Dis 是与最近车辆的距离,TTC 裁剪到 \([0,5]\) 秒让模型聚焦危急情形。TTC 头用 MSE 对齐真值,总损失 \(L_\text{total}=L_\pi + \alpha L_\text{mse}\)(\(\alpha=0.1\),\(L_\pi\) 为 RL 策略损失)。TTC 辅助任务的作用是给策略注入"还有几秒撞上"的物理先验,起到训练正则化的效果。RL 算法本身用的是 TD3(off-policy,连续控制更稳更省样本)。
损失函数 / 训练策略¶
认知奖励模型用 BCE(式 1)做五折交叉验证训练;策略网络用 \(L_\text{total}=L_\pi+0.1\,L_\text{mse}\),其中 \(L_\pi\) 是 TD3 的策略损失、\(L_\text{mse}\) 是 TTC 辅助回归损失。RL 训练 1M 步;为评估泛化,训练与测试在不同 town 进行(紧急制动训 town 7 测 town 4,左转训 town 1 测 town 5;⚠️ 数据集章节另处提到左转训 Town01 测 Town05,以原文为准),并用五个随机种子训练五个模型取统计量。
实验关键数据¶
主实验¶
EEG 特征预测模型五折交叉验证准确率(%)与推理速度对比:本文模型平均准确率最高且 FPS 远超骨干网络,按 1M 步训练比 ResNet-18 省约 2.1 小时。
| 方法 | F1 | F2 | F3 | F4 | F5 | Mean | FPS |
|---|---|---|---|---|---|---|---|
| ResNet-18 | 82 | 89 | 79 | 79 | 76 | 81 | 73 |
| Swin-ViT | 80 | 85 | 75 | 80 | 77 | 79 | 62 |
| ConvNeXt | 82 | 89 | 75 | 81 | 76 | 80 | 74 |
| Ours | 80 | 85 | 77 | 86 | 81 | 82 | 204 |
驾驶性能(紧急制动 / 左转两个场景,三项 CARLA 指标,越高越好):本文方法在两个场景的路线完成率、驾驶得分、违规惩罚分上全面领先,紧急制动场景尤为明显。
| 方法 | 急刹·完成率↑ | 急刹·驾驶分↑ | 急刹·违规分↑ | 左转·完成率↑ | 左转·驾驶分↑ | 左转·违规分↑ |
|---|---|---|---|---|---|---|
| Vanilla | 23 ± 27 | 16 ± 19 | 0.66 | 60 ± 16 | 45 ± 19 | 0.68 |
| BC | 65 ± 31 | 55 ± 29 | 0.72 | 48 ± 5 | 29 ± 3 | 0.62 |
| PHIL | 59 ± 23 | 44 ± 29 | 0.67 | 38 ± 32 | 31 ± 30 | 0.68 |
| RLHF | 73 ± 32 | 66 ± 39 | 0.80 | 63 ± 21 | 49 ± 28 | 0.71 |
| TD3-lag | 44 ± 33 | 35 ± 34 | 0.72 | 40 ± 28 | 32 ± 22 | 0.68 |
| Ours | 85 ± 43 | 79 ± 31 | 0.84 | 67 ± 8 | 57 ± 10 | 0.77 |
消融 / 分析实验¶
论文未给传统"去掉模块"的消融表,而是用对照与可视化来佐证认知奖励的价值。下表整理几个关键对照分析:
| 分析 | 结果 | 说明 |
|---|---|---|
| ERP 峰潜伏期 vs 反应时间 | Pearson \(p=0.0438\) | 显著正相关,证明 ERP 编码了驾驶危急程度 |
| 主动反应 vs 无需反应的 ERP 波形 | 300–500ms 区间显著差异 | 1 万次置换检验,主动避撞时 P3 幅度更高 |
| 机器注意力可视化 | 始终聚焦前车 | 本文策略网络注意力集中于 lead vehicle,基线更分散 |
| 推理期是否需 EEG | 否 | 用图像预测 ERP,省去推理采集,更可扩展 |
关键发现¶
- 认知奖励项贡献了安全性提升:相比 Vanilla RL,本文在紧急制动场景驾驶分从 16 提到 79,路线完成率从 23 提到 85,提升幅度最大;这正是 \(\beta=-1\) 把"高认知负荷状态"作为惩罚引导出来的避撞能力。
- 图像预测 ERP 既快又准:82% 平均准确率与 ResNet-18/Swin/ConvNeXt 相当甚至略高,但 204 FPS 让它能嵌进 RL 循环、训练 1M 步省 2.1 小时——准确率不掉、速度大赢是它能落地 RLHF 的关键。
- 比传统 RLHF 更省人力:RLHF 基线要三人约 10 小时标 2000 对偏好,本文用自然神经反应代替显式排序,且推理零 EEG。
- 自注意力让策略"盯住"威胁源:机器注意力图显示模型跨三个时间步持续聚焦前车,而基线注意力分散,间接说明认知奖励改善了策略的内部表征。
亮点与洞察¶
- 用"脑信号"代替"鼠标点击"做偏好反馈:传统 RLHF 的偏好来自人工排序,本文把它换成人脑对危险的本能 ERP 反应——更直接、不打断驾驶、还自带"危急程度"的连续强弱信息,这是把神经科学的 P3 知识工程化进 RL 的漂亮一招。
- "训练用 EEG、推理甩 EEG"的代理范式:通过训一个图像→ERP 的预测器,把昂贵且不可扩展的脑电采集压缩到训练阶段,推理只剩图像。这个"用易得模态预测难得模态、再当奖励"的思路可迁移到任何有生理信号但部署受限的人机协同任务(如机器人遥操作、辅助医疗)。
- 负权重奖励的直觉很妙:\(\beta=-1\) 把"让人脑紧张"直接定义成"该惩罚",等于把人类的危险直觉做成稠密奖励整形,天然缓解 RL 奖励稀疏。
- TTC 辅助头是低成本正则:用一个可由物理量算出的碰撞时间当辅助监督,几乎零额外标注成本就给策略注入了时间-危险先验。
局限与展望¶
- 作者承认:只有两个场景、20 名被试(部分人 VR 晕动症导致样本受限);EEG 特征预测模型是场景特定的,泛化性有限。作者提出未来用注视点渲染(foveated rendering)缓解晕动症以扩大采集,并随更大更多样数据集训出更通用的模型。
- 自行发现的局限:① 没有标准"去模块"消融表,认知奖励项的边际贡献只能从 Vanilla→Ours 的整体对比间接推断,无法精确分离自注意力、TTC 辅助头、认知奖励三者各自的功劳;② 横向比较里各方法误差棒很大(如 Ours 急刹完成率 \(85\pm43\)),方差大说明稳定性仍有挑战,不同种子间结果波动明显;③ ERP 二分类阈值 1.7 µV、\(\beta=-1\) 等关键超参偏经验设定,缺乏敏感性分析;④ 全程在 CARLA 仿真,真车迁移未验证。
相关工作与启发¶
- vs 传统 RLHF(人工排序偏好):传统 RLHF 让标注员两两比较片段、用 Bradley-Terry 损失训偏好模型(本文 RLHF 基线即如此,10 小时标 2000 对);本文用 ERP 自然神经反应替代显式排序,反馈更直接、不打断行为,且推理无需人在环。
- vs RL with ErrP/EEG 反馈:以往用错误相关电位(ErrP)给 RL 反馈的工作(grid-world 导航等)都需要推理期实时采 EEG,且 ErrP 只在出错后才出现、有纠正延迟;本文从图像预测 EEG 特征,既免去持续采集、又能在事件前依据视觉线索预判。
- vs 从图像预测脑响应(EEG/MEG/fMRI 编码模型):已有工作把视觉刺激映射到脑活动主要用于神经科学建模;本文首次把"图像→ERP 预测"用于奖励建模,服务下游自动驾驶控制。
- vs IL-based E2E-AD:IL 复现专家轨迹、受分布偏移困扰、缺乏决策推理;本文用 RL+认知奖励,靠试错与人脑危险直觉对齐,针对急刹/左转等分布外交互场景。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把 EEG/ERP 引入自动驾驶奖励建模,"训练用脑电、推理用图像"的代理范式很新。
- 实验充分度: ⭐⭐⭐⭐ 两场景、五种基线、五折交叉验证 + 注意力可视化较扎实,但缺模块级消融、方差偏大、仅仿真。
- 写作质量: ⭐⭐⭐⭐ 动机链条清晰、神经科学背景交代到位,公式与奖励设计讲得明白。
- 价值: ⭐⭐⭐⭐ 为"人类生理信号驱动的对齐"开了一条可扩展路径,对人机协同 RL 有迁移价值。