ICLR2026 自动驾驶论文解读论文笔记 Agent 对抗鲁棒多模态对齐/RLHF 扩散模型

🚗 自动驾驶¶

🔬 ICLR2026 · 50 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (157) · 🧪 ICML2026 (8) · 🤖 AAAI2026 (56) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (91) · 🧪 ICML2025 (10)

🔥 高频主题： 自动驾驶 ×14 · Agent ×7 · 对抗鲁棒 ×4 · 多模态 ×4 · 对齐/RLHF ×3

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation: 提出 A3Point（Adaptive Augmentation-Aware Latent Learning）框架，通过语义混淆先验(SCP)隐式学习和语义偏移区域(SSR)定位两大核心组件，解耦模型固有的语义混淆与数据增强引入的语义偏移，对不同干扰程度自适应优化，在多个恶劣天气 LiDAR 分割泛化基准上取得 SOTA。
SMART-R1: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning: SMART-R1 首次将 R1 风格的强化微调（RFT）引入多智能体交通仿真，提出 Metric-oriented Policy Optimization (MPO) 算法和"SFT-RFT-SFT"迭代训练策略，在 WOSAC 2025 排行榜上以 0.7858 的 Realism Meta 分数取得第一名。
ARINBEV: Bird's-Eye View Layout Estimation with Conditional Autoregressive Model: ARINBEV 把自动驾驶中的 BEV 语义地图看成已经离散化的结构化 token 序列，用类别编码替代 VQ-VAE tokenization，并用熵引导的掩码自回归解码在 nuScenes 和 Argoverse2 上取得更高 mIoU、更少参数和更快训练。
Astra: General Interactive World Model with Autoregressive Denoising: 提出 Astra，一个通用交互式世界模型，通过自回归去噪框架在预训练视频扩散模型上实现动作条件化的长程视频预测，引入 ACT-Adapter（动作注入）、噪声增强历史记忆（缓解视觉惯性）和 Mixture of Action Experts（统一多异构动作模态），在自动驾驶、机器人操控和场景探索等多场景上实现 SOTA 的保真度和动作跟随能力。
AsyncBEV: Cross-modal Flow Alignment in Asynchronous 3D Object Detection: 针对车载多传感器无法完美同步的现实问题，AsyncBEV 提出一个轻量、通用的即插即用模块——通过新任务 ∆-BEVFlow 直接从异步多模态 BEV 特征预测稠密 2D 流场，把延迟传感器的特征 warp 对齐到参考时刻，在 0.5s 极端异步下把动态目标的 NDS 相比 EMC 基线提升 16.6%（CMT）。
AutoDrive-R²: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving: AutoDrive-R² 用四步 CoT + 自反思数据给自动驾驶 VLA 做冷启动，再用带空间、动力学和时序平滑约束的 GRPO 后训练，让模型既能解释自己的驾驶决策，也能输出更符合车辆物理约束的未来轨迹。
\(AutoDrive\text{-}P^3\): Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning: AutoDrive-P3 把自动驾驶 VLM 的感知、预测、规划组织成统一的 \(P^3\) 链式推理，并用覆盖三阶段的 GRPO 奖励做强化微调，在 nuScenes 与 NAVSIM 上同时提升轨迹精度、碰撞率和闭环规划分数。
Beyond Visual Reconstruction Quality: Object Perception-aware 3D Gaussian Splatting for Autonomous Driving: 这篇论文指出"重建得越像就越能复现自动驾驶系统行为"是一个未经验证的强假设，提出用感知稳定性（同一感知模型在重建图与真值图上输出是否一致）取代纯视觉相似度作为优化目标，并给出两个即插即用的损失——感知对齐损失与对象区域质量损失——在不损失视觉质量的前提下显著提升了重建场景的感知一致性。
Bird's-eye-view Informed Reasoning Driver (BIRDriver): BIRDriver 把整个驾驶场景压缩成一张单帧 BEV 俯视图喂给 VLM，让 VLM 只输出不超过 3 个相对坐标关键点来表达驾驶意图，再由运动规划器据此生成轨迹，从而把 VLM 的常识推理能力低成本地嫁接到长尾驾驶场景上。
BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving: BridgeDrive 提出用扩散桥（diffusion bridge）替代截断扩散来实现锚点引导的自动驾驶轨迹规划，保证前向/反向过程的理论对称性，在 Bench2Drive 闭环评估中成功率达到 74.99%（PDM-Lite）和 89.25%（LEAD），分别超越前 SOTA 7.72% 和 2.45%。
DecompGAIL: Learning Realistic Traffic Behaviors with Decomposed Multi-Agent Generative Adversarial Imitation Learning: 针对多智能体 GAIL 在交通仿真中训练不稳定的问题，本文指出根因是判别器被「邻居—邻居」这类与自车动作弱相关的交互误导（irrelevant interaction misguidance），提出把真实性显式拆成「自车—地图」与「自车—邻居」两路、并配以距离加权社会奖励的 DecompGAIL，在 WOMD Sim Agents 2025 榜单上取得 SOTA 真实性。
Detecting Temporal Misalignment Attacks in Multimodal Fusion for Autonomous Driving: 针对自动驾驶相机-LiDAR 融合依赖精确时间同步这一隐患，本文提出轻量级即插即用防御 AION：用"连续性感知对比学习"训练一个共享多模态编码器，再用动态时间规整（DTW）追踪两路传感器表征的对齐路径，把偏离对角线的程度转成异常分数，在 KITTI / nuScenes 上对七类时序错位攻击平均 AUROC 达 0.92~0.95，且推理只增加约 3.26 ms。
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving: ReflectDrive 把二维驾驶空间离散化成动作码本，用预训练扩散语言模型做 VLA 轨迹规划，再叠加一个无需梯度的"反思机制"——通过对不安全 token 做局部搜索得到安全锚点、再用扩散 inpainting 重生成周边轨迹，在 NAVSIM 闭环上把 PDMS 推到 91.1（接近人类 94.8）。
DriveAgent-R1: Advancing VLM-based Autonomous Driving with Active Perception and Hybrid Thinking: DriveAgent-R1 让一个 3B 的 VLM 在驾驶规划时学会"看不清就主动调工具看仔细"——通过视觉工具箱实现主动感知，并用混合思考框架在"纯文本快推理"和"调工具慢推理"之间按场景复杂度自适应切换，靠三阶段渐进训练（含级联 RL）做到与 GPT-5、人类司机相当的性能。
DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving: DriveMamba 抛弃传统端到端驾驶里"感知→预测→规划"的串行 Transformer 范式与昂贵的稠密 BEV 特征，把图像特征和各任务 query 全部稀疏化成 token，按 3D 空间位置排序后送进一个统一的 Mamba 解码器，用线性复杂度同时完成视图对应、任务关系建模与长时序融合，最小的 Tiny 版在 nuScenes 上把平均 L2 误差降到 0.44m、碰撞率 0.15%，并跑到 17.9 FPS（比 UniAD 快约 10 倍）。
DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving: DriveVLA-W0 给自动驾驶 VLA 加上"预测未来图像"的世界模型任务，用稠密的视觉自监督信号补上稀疏动作监督留下的"监督赤字"，从而在 70M 帧的海量数据上把数据规模律真正"放大"，让模型越喂越强而不是早早饱和。
EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video: Apple 使用 Vision Pro 采集了 829 小时的第一人称视频 + 3D 手部关节追踪数据（EgoDex），覆盖 194 种桌面操作任务，并在此数据集上系统评估了模仿学习策略（BC/DDPM/FM + Transformer），为灵巧操作的扩展训练提供了迄今最大规模的数据基础。
EnvSocial-Diff: A Diffusion-Based Crowd Simulation Model with Environmental Conditioning and Individual-Group Interaction: 在 SPDiff 的"社会力 + 扩散"框架上，显式把环境拆成障碍物 / 兴趣物体(OOI) / 光照三类结构化条件，并用图网络补上"个体—群体"两级社交建模，让人群轨迹仿真在室外复杂场景上更真实。
FlowAD: Ego-Scene Interactive Modeling for Autonomous Driving: FlowAD 把"自车运动对未来观测的反馈"建模成自车相对的 scene flow，用 ego 引导的场景划分 + 时空 flow 预测在隐空间学习这种交互动态，从而在感知、端到端规划和 VLM 分析上一致涨点，并提出 FCP 指标专门度量场景理解速度。
GaussianFusion: Unified 3D Gaussian Representation for Multi-Modal Fusion Perception: 用连续的 3D 高斯表征取代离散 BEV 栅格作为相机-LiDAR 多模态融合的统一空间，在量化之前完成跨模态对齐与交互，从而在 3D 检测和占用预测两个任务上同时刷新精度并大幅降低显存/时延。
GT-Space: Enhancing Heterogeneous Collaborative Perception with Ground Truth Feature Space: GT-Space 用真值标注（物体框）构造一个统一的 BEV「公共特征空间」作为对齐锚点，让每个异构智能体只需训练一个轻量 projector 就能把自己的特征投到这个空间里融合，配合跨模态组合对比损失，在 OPV2V / V2XSet / RCooper 上的异构协同 3D 检测精度全面超过需要重训编码器或两两适配的现有方法。
Loc²: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching: Loc² 直接在地面图像与航拍图像的像素平面上学习局部特征对应，再用单目深度把匹配点抬升到 BEV、用尺度感知 Procrustes 对齐解析地解出 3-DoF 位姿与深度尺度——只靠相机位姿弱监督，无需像素级标注，在跨区域和未知朝向等难场景下取得 SOTA，且匹配点本身就是定位质量的可视化解释。
Low-Latency Neural LiDAR Compression with 2D Context Models: RangeCM 把 LiDAR 点云压缩从昂贵的 3D 上下文（voxel/octree）整体搬到 2D range image 域，用 CNN 在 2D 上同时聚合空间、时序、相机三种上下文，并用一个混合上下文统一预测几何与强度，在 BD-Rate 比 SOTA 还好的同时把编解码延迟压到约 0.1 秒、强度压缩比基线快 100 倍以上。
Map as a Prompt: Learning Multi-Modal Spatial-Signal Foundation Models for Cross-scenario Wireless Localization: 提出 SigMap：一个把 3D 地图当作"软提示"喂给无线信道基础模型的方法，用周期自适应掩码做自监督预训练、用地图条件化的图神经网络提示做参数高效微调，在跨场景无线定位上实现零样本/少样本的强泛化。
MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding: 提出 MARC 框架，通过"先检索再压缩"策略——用 Visual Memory Retriever (VMR) 选出与查询最相关的视频片段，再用 Compression GRPO (C-GRPO) 将 64 帧教师模型的推理能力蒸馏到仅用 1 帧 token 的学生模型——实现视觉 token 95% 压缩，GPU 显存降低 72%，推理延迟降低 23.9%，性能几乎无损（42.20 vs 42.21）。
Micro-Macro Coupled Koopman Modeling on Graph for Traffic Flow Prediction: 把"微观车辆轨迹"和"宏观交通流密度"统一升维到 Koopman 线性观测空间，用一张以车辆为节点的拉格朗日动态图离散 LWR 方程，仅靠当前时刻快照（无需历史轨迹）就能做到与依赖历史的 SOTA 相当甚至更优的轨迹预测。
Multi-Head Low-Rank Attention (MLRA): 提出 Multi-Head Low-Rank Attention (MLRA)，通过将 MLA 的单一 latent head 分解为多个可独立分片的 latent head，并对各分支注意力输出求和，实现原生 4-way 张量并行支持，在保持 SOTA 性能的同时获得 2.8× 的解码加速。
NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping: 提出 NeMo-map——基于神经隐式函数的连续时空动态地图，将空间-时间坐标直接映射为半包裹高斯混合模型（SWGMM）参数，消除传统方法的空间离散化和时间分段限制，在真实行人追踪数据上实现更低 NLL 和更平滑的速度分布。
OccDriver: Future Occupancy Guided Dual-branch Trajectory Planner in Autonomous Driving: OccDriver 用一个「向量化分支出粗轨迹 → 栅格化分支以占据流(occupancy flow)预测每条粗轨迹引发的未来场景演化 → 向量化分支据此精修轨迹」的双分支 coarse-to-fine 框架，把占据空间当成 2D 世界模型来引导规划，并配上一套跨分支损失与应急规划策略，在 nuPlan 闭环 benchmark 上取得 SOTA。
Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps: 本文提出"在线导航精化"(ONR)这一新任务——把基于 SD 地图的道路级路线精化成车道级导航，做法是用一个带路径感知注意力与空间注意力的轻量 Transformer(MAT)，把异构的 SD 地图与车端在线感知地图做"图到图"关联，在自建的 OMA 数据集上以 34ms 延迟超过所有地图匹配基线。
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling: 把自动驾驶轨迹规划当成"语言建模"来做——先用专家数据自回归预训练一个运动 token 预测器学会"像人一样开"，再用规则化奖励 + 改进版 GRPO（VD-GRPO）做强化学习微调，显式对齐安全/舒适/合规等驾驶原则，在 nuPlan 上尤其在交互式 reactive 设定下取得 SOTA。
PTN：面向 3D 目标检测的提案中心化 Transformer 网络: PTN 把两阶段 LiDAR 检测器的瓶颈归结为"提案质量差"——几何细节在池化中丢失、提案各自精修彼此孤立，于是用双流分层特征对齐（HAFA）补回精细几何、用协同提案精修模块（CPRM）让提案之间通过可变形注意力互相交换上下文，在 Waymo、KITTI 上取得 SOTA，尤其大幅提升稀疏点和遮挡场景下的行人、骑行者检测。
RAP: 3D Rasterization Augmented End-to-End Planning: RAP 用轻量 3D rasterization 从真实驾驶日志生成可控的反事实视角和恢复场景，再通过特征空间的 Raster-to-Real 对齐把这些合成样本稳定迁移到真实图像规划器上，从而在 NAVSIM、WOD-E2E 和 Bench2Drive 等闭环/长尾基准上显著提升端到端自动驾驶规划鲁棒性。
Rate-Distortion Optimized Pragmatic Communication for Collaborative Perception: 本文把 Shannon 经典率失真理论扩展成面向多智能体协同感知的"务实率失真理论"，推导出最优通信策略必须满足的两个条件——只传任务相关信息、不传与接收方观测重复的信息，并据此设计 RDcomm 框架（任务熵离散编码 + 互信息驱动的消息筛选），在 4 个数据集的 3D 检测与 BEV 分割上取得 SOTA 精度的同时把通信量压缩最多 108 倍。
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving: ReCogDrive 用「认知 VLM + 扩散规划器」取代「把轨迹当文本生成」的范式：先用分层数据管线把人类驾驶认知灌进 VLM，再把 VLM 的隐状态作为条件喂给扩散规划器输出连续轨迹，最后用一个为扩散策略量身定制的 DiffGRPO 强化学习阶段在 NAVSIM 模拟器里优化安全与舒适，在 NAVSIM（PDMS 90.8）和 Bench2Drive 上双双刷到 SOTA，并比纯文本输出快 3.5×。
ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving: ResWorld 提出时序残差世界模型（TR-World），通过计算 BEV 场景表征的时序残差来提取动态物体信息（无需检测/跟踪），避免对静态区域的冗余建模，结合未来引导轨迹优化（FGTR）模块利用预测的未来 BEV 特征修正规划轨迹，在 nuScenes 和 NAVSIM 上达到 SOTA 规划性能。
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks: 本文指出过去用驾驶世界模型造合成数据的实验"训练 epoch 不公平"，并提出 Dream4Drive——把真实视频拆成稠密的 3D-aware 引导图、再把 3D 资产渲染进去微调世界模型生成多视角编辑视频，在 epoch 对齐的公平比较下，只加不到 2% 的合成样本就能稳定提升 3D 检测与跟踪。
S2GO: Streaming Sparse Gaussian Occupancy: S2GO 用一组约 1k 个的稀疏 3D 查询在线流式地概括驾驶场景，每一帧把查询解码成稠密语义高斯再"喷溅"成体素占据，并配一个几何去噪+渲染的预训练让稀疏查询学会移动到占据区域，在 nuScenes / KITTI 上比 GaussianWorld 提升 2.7 IoU 且推理快 4.5×（单卡 4090 实时 26 FPS）。
SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction: SceneStreamer 把整个驾驶场景（地图、红绿灯、agent 状态、运动）编码成一条离散 token 序列，用单个自回归 Transformer 逐步"预测下一组 token"地生成它，从而能在无限时长里持续注入和退出 agent，做到真正开放系统的连续交通场景生成，并作为高保真仿真器显著提升下游 RL 规划器的鲁棒性与泛化。
SEAL: Segment Any Events with Language: 首次提出开放词汇事件实例分割（OV-EIS）任务，设计 SEAL 框架通过多模态层次语义引导（MHSG）和轻量多模态融合网络，在仅使用事件-图像对（无密集标注）的情况下，实现事件流的多粒度（实例级+部件级）语义分割，大幅领先所有基线方法且推理速度最快。
SiMO: Single-Modality-Operable Multimodal Collaborative Perception: 提出 SiMO 框架，通过 LAMMA 融合模块和 PAFR 训练策略，首次在多智能体协同感知中实现任意模态缺失（特别是 LiDAR 失效仅有相机可用时）下仍可正常工作的多模态感知系统，类似并联电路——只要有一条通路就能工作。
SimULi: Real-Time LiDAR and Camera Simulation with Unscented Transforms: SimULi 用因式化的 3D Gaussian 表示分别承载相机与 LiDAR 信息，再把 3DGUT 扩展到旋转式 LiDAR 的非规则采样上，实现了同时支持复杂相机模型和 LiDAR 扫描的实时自动驾驶传感器仿真。
SPACeR: Self-Play Anchoring with Centralized Reference Models: SPACeR 提出"类人自博弈"框架，用预训练的 tokenized 自回归运动模型作为集中式参考策略，通过对数似然奖励和 KL 散度约束引导去中心化自博弈 RL 策略向人类驾驶分布对齐，在 WOSAC 上超越纯自博弈方法，同时推理速度比模仿学习快 10 倍、参数量小 50 倍。
Stability under Scrutiny: Benchmarking Representation Paradigms for Online HD Map Construction: 这篇论文指出在线高精地图（HD map）领域一直只盯着单帧精度 mAP、却忽视了地图在连续帧之间会"抖动/闪烁"的时序稳定性问题，于是首次提出一套多维稳定性评测框架（Presence / Localization / Shape 三项指标融合成 mAS），在 42 个模型与变体上做了大规模评测，发现 mAP 和 mAS 基本相互独立，并系统分析了传感器、骨干、BEV 编码器、时序融合、训练时长等设计选择各自如何影响精度与稳定性。
Steerable Adversarial Scenario Generation through Test-Time Preference Alignment (SAGE): SAGE 将自动驾驶对抗场景生成重构为多目标偏好对齐问题，通过训练两个偏好专家模型并在推理时通过权重插值实现对抗性与真实性之间的连续可控权衡，无需重新训练即可生成从温和到激进的全谱场景，显著提升闭环训练效果。
To View Transform or Not to View Transform: NeRF-based Pre-training Perspective: NeRP3D 认为把 NeRF 预训练硬接到离散 BEV/voxel 视角变换骨干上会破坏连续辐射场的优势，因此直接用 NeRF-like 的连续点查询来统一重建预训练和自动驾驶 3D感知，在 nuScenes 的重建、检测、占用预测和 HD 地图任务上都超过已有 NeRF 预训练方法。
TrajTok: What makes for a good trajectory tokenizer in behavior generation?: TrajTok 系统分析了自动驾驶行为生成中轨迹 tokenizer 的覆盖率、利用率、对称性和鲁棒性，并用“规则候选 + 数据驱动筛选扩展 + 空间感知标签平滑”构造更适合 next-token prediction 的轨迹词表，在 Waymo Open Sim Agents Challenge 2025 中取得第一名。
UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction: UniSplat 在一个统一的「3D 隐式脚手架」（稀疏体素网格）上同时完成多视角空间融合与多帧时间融合，再用点-体素双分支解码器生成带动态属性的高斯，并维护一份静态高斯记忆库，从而在 Waymo / nuScenes 这类稀疏环视、强动态的驾驶场景下做到前馈式 SOTA 的新视角合成，甚至能补全相机视野之外的盲区。
VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning: VADv2 把端到端驾驶的规划从"回归一条轨迹"改写成"学动作空间上的概率分布"：先用最远轨迹采样把连续动作空间离散成一个 4096 词的规划词表，再用受 NeRF 启发的概率场 + 级联 Transformer 把每个候选动作打成概率，最后从分布里采样一条来控车——仅用相机就在 CARLA Town05 拿到 85.1 的 Driving Score，并在 Bench2Drive、NAVSIM、3DGS 等多个基准上领先。
WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving: WorldSplat 把"驾驶视频生成"和"3D/4D 场景重建"合二为一：先用一个 4D-aware 潜在扩散模型从布局/文字/轨迹等条件生成含 RGB+深度+语义的多模态 latent，再用前馈解码器一次性吐出像素对齐的 4D 高斯场，沿任意自定义轨迹渲染出几何一致的多轨新视角视频，最后用增强扩散补全瑕疵，在 nuScenes 上同时刷新了驾驶视频生成和新视角合成的 SOTA。