AAAI2026 自动驾驶论文解读论文笔记 3D 目标检测扩散模型 Agent 对抗鲁棒重识别

🚗 自动驾驶¶

🤖 AAAI2026 · 56 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (157) · 🔬 ICLR2026 (50) · 🧪 ICML2026 (8) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (91) · 🧪 ICML2025 (10)

🔥 高频主题： 自动驾驶 ×9 · 3D 目标检测 ×5 · 扩散模型 ×5 · Agent ×5 · 对抗鲁棒 ×4

A Data-Driven Model Predictive Control Framework for Multi-Aircraft TMA Routing Under Travel Time Uncertainty: 提出闭环 MPC 框架用于樟宜机场 50 海里半径终端区（TMA）的多飞机无冲突路径规划与调度，集成 XGBoost 预测 TMA 边界到达时间、MILP 优化（含路径选择/速度调整/等待控制/安全间隔约束）和滚动时域仿真器，在峰值 36 架/小时拥堵场景下实现 7 倍计算加速且 Monte Carlo 鲁棒性验证中可行性远优于 Dijkstra 基线。
AI-based Traffic Modeling for Network Security and Privacy: Challenges Ahead: 一篇面向网络安全与隐私（NetS&P）任务的 AI 流量建模综述与展望，系统梳理了异常检测、攻击分类、IoT 设备识别、网站指纹攻击等任务的 AI 方案，并深入讨论了数据质量、实际部署、可解释性和基础模型四大前沿挑战。
Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning: 首次研究开放词汇目标检测器（OVOD）的后门攻击，提出 TrAP（Trigger-Aware Prompt tuning），通过联合优化视觉和文本分支的 learnable prompt 与可学习触发器，在不修改模型权重的前提下注入高成功率后门。
Beta Distribution Learning for Reliable Roadway Crash Risk Assessment: 提出基于 Beta 分布学习的地理空间深度学习框架，利用多尺度卫星图像预测道路致命事故风险的完整概率分布（而非点估计），在 Recall 上提升 17-23%，并通过分布形状自然表达不确定性。
CaTFormer: Causal Temporal Transformer with Dynamic Contextual Fusion for Driving Intention Prediction: 提出 CaTFormer，通过因果时序 Transformer 显式建模驾驶员行为与环境上下文之间的因果交互，在 Brain4Cars 数据集上以 98.6% F1 达到 SOTA。
CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking: 提出CompTrack——首个同时解决LiDAR点云中空间冗余和信息冗余双重挑战的3D单目标跟踪框架：空间前景预测器(SFP)基于信息熵过滤背景噪声，信息瓶颈引导的动态Token压缩(IB-DTC)模块利用在线SVD估计有效秩并将前景压缩为紧凑代理token；在nuScenes和Waymo上达到SOTA，同时以90 FPS实时运行。
Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification: 系统识别出行人ReID对抗防御的两大独特挑战（模型偏差和复合泛化需求），提出去偏双不变防御框架：数据平衡阶段用扩散模型重采样缓解偏差，双对抗自元防御阶段通过最远负样本扩展软化的度量对抗训练和对抗增强的自元学习实现对未见ID和未见攻击的双重泛化。
AdaptiveAD: Decoupling Scene Perception and Ego Status for End-to-End Autonomous Driving: 识别出端到端自动驾驶中ego status过度依赖的架构根源（BEV编码器中ego status的过早融合），提出AdaptiveAD双分支架构：场景驱动分支（去除ego status）和自我驱动分支独立生成决策，再通过场景感知融合模块自适应整合，配合路径注意力、BEV单向蒸馏和自回归在线建图辅助任务，在nuScenes上达到SOTA规划性能。
Differentiable Semantic Meta-Learning Framework for Long-Tail Motion Forecasting in Autonomous Driving: 提出 SAML 框架，首次给出运动预测中"长尾性"的可微语义定义——通过 5 类内在/交互属性量化稀有度，经贝叶斯尾部感知器融合为连续 Tail Index 驱动 MAML 元学习适配，在 nuScenes worst-case top 1% 上 minADE 比次优低 17.2%。
Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection: 提出 MonoDLGD，通过根据实例级检测难度自适应扰动并重建 ground-truth 标签，为单目 3D 检测提供显式几何监督，在 KITTI 上取得 SOTA。
DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End to End Autonomous Driving: 提出 DiffRefiner，通过"粗到精"两阶段框架——先用判别式 Proposal Decoder 生成粗轨迹，再用扩散模型迭代精炼——结合细粒度语义交互模块，在 NAVSIM v2 和 Bench2Drive 两个基准上均达到 SOTA。
Drive As You Like: Strategy-Level Motion Planning Based on A Multi-Head Diffusion Model: 提出 M-Diffusion Planner，基于多头扩散模型和 GRPO 后训练，实现策略级（strategy-level）运动规划，允许用户通过自然语言切换激进/保守/舒适等驾驶风格，同时保持 SOTA 规划性能。
DriveFlow: Rectified Flow Adaptation for Robust 3D Object Detection in Autonomous Driving: 提出 DriveFlow，一种基于预训练 T2I Flow 模型的 rectified flow 适配方法，通过频率分解对前景高频保持和背景双频优化，实现无需训练的驾驶场景图像编辑数据增强，大幅提升视觉 3D 检测器在 OOD 场景下的鲁棒性。
DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning: 提出 DriveSuprim，通过粗到精的轨迹筛选范式、旋转数据增强和自蒸馏软标签框架，解决选择式端到端规划中难以区分相似轨迹、方向偏差和硬标签不稳定的问题，在 NAVSIM v1/v2 和 Bench2Drive 上达到 SOTA。
Dual-branch Spatial-Temporal Self-supervised Representation for Enhanced Road Network Learning: 提出 DST（Dual-branch Spatial-Temporal）路网表示学习框架，通过空间分支（mix-hop 转移矩阵 + 图-超图对比学习）和时间分支（Transformer 编码器 + 下一 token 预测 + 工作日/周末分类）两条支路联合建模路网的空间异质性和时间动态性，在三个城市的三项下游任务上取得 SOTA。
ExpertAD: Enhancing Autonomous Driving Systems with Mixture of Experts: 提出 ExpertAD，将混合专家（MoE）架构引入端到端自动驾驶系统的感知和预测模块——Perception Adapter 动态重加权 BEV 特征以放大任务关键语义，Mixture of Sparse Experts 通过路由器动态激活相关驾驶任务专家并用稀疏注意力降低计算量，在保持或提升规划效果的同时降低约 25% 推理延迟。
Exploring Surround-View Fisheye Camera 3D Object Detection: 本文系统研究了环视鱼眼相机的3D目标检测问题：构建了同时包含针孔和鱼眼相机数据的Fisheye3DOD基准数据集，并提出FisheyeBEVDet和FisheyePETR两个框架，通过球面特征表征将鱼眼几何建模嵌入主流检测范式，相比矫正baseline提升最高6.2个FDS点。
FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning: 提出 FastDriveVLA，通过 MAE 风格的前景像素重建训练轻量级 plug-and-play 的 ReconPruner 模块（仅 0.07B），利用对抗前景-背景重建策略优先保留驾驶决策所需的前景 token，在 nuScenes 开环规划基准上各剪枝率均达 SOTA，一次训练可迁移至同一视觉编码器的不同 VLA 模型。
Fine-Grained Representation for Lane Topology Reasoning: 提出TopoFG框架，用细粒度查询（每条车道线由多个空间感知查询表示）替代传统单查询建模，结合层级先验提取、区域聚焦解码和基于边界点的鲁棒拓扑推理，在OpenLane-V2上以48.0% OLS（subset_A）和45.4% OLS（subset_B）达到新SOTA。
FQ-PETR: Fully Quantized Position Embedding Transformation for Multi-View 3D Object Detection: 首次实现PETR系列3D检测器的全INT8量化部署，通过量化友好的LiDAR-ray位置编码(QFPE)解决多模态特征幅度不匹配问题、双查找表(DULUT)高效逼近非线性算子、数值稳定后量化(QANS)避免softmax注意力失真，在PETR/StreamPETR/PETRv2/MV2D上W8A8精度损失<1%且延迟降低75%（3.9×加速）。
Generalising Traffic Forecasting to Regions without Traffic Observations: 本文提出 GenCast 模型，通过物理信息神经网络（引入 LWR 交通方程作为软约束）、动态外部天气信号融合和空间分组模块三大创新，实现了从有传感器区域到无传感器连续区域的交通预测泛化，在五个真实数据集上一致性地超越了现有最优方法。
Global-Lens Transformers: Adaptive Token Mixing for Dynamic Link Prediction: 提出 GLFormer，一个轻量级的无注意力 Transformer 框架用于动态图链接预测，用基于交互顺序和时间间隔的自适应令牌混合器替代自注意力，配合层次化聚合机制扩展时间感受野，在 6 个基准上取得了与 Transformer 基线持平或更优的性能，同时大幅降低计算复杂度。
HD2-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving: 本文提出 HD2-SSC 框架，通过高维语义解耦（HSD）模块解决 2D→3D 的输入-输出维度间隙（将像素特征沿伪维度展开并正交解耦），以及高密度占用精炼（HOR）模块解决标注-现实密度间隙（"检测-精炼"范式对齐几何和语义关键体素），在 SemanticKITTI 和 SSCBench-KITTI-360 上达到 SOTA。
Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification: 提出统一框架 HPL，通过任务路由 Transformer（双分类 token）解耦 I2I 和 T2I 任务，利用层次化提示学习（身份级 + 实例级伪文本 token）结合跨模态提示正则化，首次在单一模型中同时实现图像-图像和文本-图像行人重识别的 SOTA。
I-INR: Iterative Implicit Neural Representations: 提出 I-INR（Iterative Implicit Neural Representations），一个即插即用的迭代精修框架，通过引入轻量级 FeedbackNet 和 FuseNet 模块（仅增加 0.5-2% 参数），对信号进行渐进式多步重建，有效缓解 INR 的频谱偏差问题，在图像拟合、超分辨率、去噪和 3D 占位预测等任务上均显著超越基线。
LiDAR-GS++: Improving LiDAR Gaussian Reconstruction via Diffusion Priors: 提出 LiDAR-GS++，通过引入可控LiDAR扩散生成模型作为先验，对神经2DGS场进行扩展重建，解决了单次遍历LiDAR扫描在外推视角（如换道场景）下重建质量严重下降的问题，在多个公开数据集上实现了插值和外推视角的SOTA性能。
LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences: 提出 LiDARCrafter，首个面向 LiDAR 的 4D 生成式世界模型，通过文本→场景图→三分支扩散布局→range-image 扩散生成→自回归时序扩展的流水线，实现可控的 4D LiDAR 序列生成与编辑，在 nuScenes 上全面超越现有方法。
LiNeXt: Revisiting LiDAR Completion with Efficient Non-Diffusion Architectures: 提出 LiNeXt，一种轻量级非扩散网络用于LiDAR 3D场景补全，通过距离感知选择性重复策略、Noise-to-Coarse模块和Refine模块直接重建完整点云，在SemanticKITTI上实现了比LiDiff快199.8倍的推理速度，Chamfer Distance降低50.7%，参数量仅为其6.1%。
MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation: 提出 MambaSeg，用双分支并行 Mamba 编码器分别处理 RGB 图像和事件流，通过空间-时间双维度交互模块 (DDIM) 实现细粒度跨模态融合，在 DDD17 和 DSEC 数据集上以 25.44M 参数取得 77.56%/75.10% mIoU 的 SOTA，效率远优于 Transformer 方案。
Meta Dynamic Graph for Traffic Flow Prediction: 提出MetaDG框架，通过在每个时间步生成动态节点表示并利用时空相关性增强，将动态性建模从仅影响邻接矩阵扩展到同时生成meta参数、邻接矩阵和边权调整矩阵，实现时空异质性的统一建模（ST-unification），在PEMS03/04/07/08四个数据集上达到SOTA。
Minimum-Cost Network Flow with Dual Predictions: 首次提出基于对偶预测的最小费用网络流算法，在经典ε-relaxation上通过机器学习的对偶初始解实现warm-start，理论上将时间复杂度与预测误差的∞范数挂钩（一致且鲁棒），在交通网络和芯片逃逸布线上分别实现12.74×和1.64×的平均加速。
MOBA: A Material-Oriented Backdoor Attack against LiDAR-based 3D Object Detection: 提出 MOBA（Material-Oriented Backdoor Attack），首个基于材料反射特性建模的物理可实现后门攻击框架，通过系统性选择二氧化钛（TiO₂）作为触发材料并利用Oren-Nayar BRDF模型的角度无关近似进行LiDAR强度仿真，在真实物理数据上实现了93.50%攻击成功率，比现有方法高出41%以上。
Multimodal Data Fusion to Capture Dynamic Interactions between Built Environment and Vulnerable Older Adults: 提出一种多模态数据融合框架，整合眼动追踪、运动传感器（IMU）、生理监测（EDA/HRV）、GPS和视频录制等多种穿戴与环境传感数据，动态表征脆弱老年人（膝骨关节炎/跌倒史）与城市建成环境的交互过程，通过AI驱动的数据融合揭示微观尺度上对步行行为和感知有显著影响的城市路段，为适老化城市规划提供循证依据。
Out-of-Distribution Generalization with a SPARC: Racing 100 Unseen Vehicles with a Single Policy: 提出 SPARC（Single-Phase Adaptation for Robust Control），将 RMA 的两阶段上下文编码与历史适应统一为单阶段训练，在 Gran Turismo 7 高保真赛车模拟器中用单一策略驾驶100+未见车辆实现SOTA OOD泛化性能。
PriorDrive: Enhancing Online HD Mapping with Unified Vector Priors: 提出 PriorDrive 框架，通过 Unified Vector Encoder (UVE) 和 Hybrid Prior Representation (HPQuery) 将多种向量化先验地图（SD地图、旧HD地图、历史预测地图）统一编码并集成到各种在线建图模型中，在 nuScenes 上 mAP 提升 14.3，兼容 query-based 和 non-query-based 两类建图架构。
RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis: 提出 RacketVision——首个覆盖乒乓球、网球、羽毛球三种球拍运动的大规模基准数据集，首次提供球拍姿态标注，并定义了球追踪、球拍姿态估计、球轨迹预测三个互联任务，揭示了跨注意力融合机制在多模态轨迹预测中的关键作用。
RadarMP: Motion Perception for 4D mmWave Radar in Autonomous Driving: 提出 RadarMP——首个联合解决毫米波雷达目标检测和场景流估计的统一架构，利用相邻帧雷达回波信号（tesseract）的能量流一致性进行自监督训练，在目标检测概率上达到 69.5%（远超现有方法的 44.1%），同时实现精确的 3D 场景运动感知。
RAST: A Retrieval Augmented Spatio-Temporal Framework for Traffic Prediction: 将 RAG 思想引入时空预测，通过维护双维度 memory bank 存储历史时空 pattern 并在推理时检索融合，构建通用 retrieval-augmented 时空预测框架 RAST，在 6 个交通数据集上取得 SOTA 且显存仅需竞品的 1/12。
ReflexDiffusion: Reflection-Enhanced Trajectory Planning for High-lateral-acceleration Scenarios in Autonomous Driving: 提出 ReflexDiffusion，在扩散模型推理阶段引入物理感知的反思机制，通过梯度注入强化曲率-速度-加速度耦合约束（a_y = κv²），在 nuPlan 高侧向加速度长尾场景中驾驶分数提升 14.1%，架构无关可直接部署到现有扩散规划器。
Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception: 提出HAT（multiple Hypotheses spAtio-Temporal alignment），一个即插即用的时空对齐模块，通过多种显式运动模型生成对齐假设，并利用query中隐含的运动线索自适应解码最优对齐方案，在nuScenes上一致提升多种3D时序检测器和跟踪器，并在E2E自动驾驶中降低碰撞率达32-48%。
RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System: 提出 RoadSceneVQA——首个面向路侧感知场景的大规模视觉问答数据集（34,736 QA 对），并设计了 RoadMind 模型，通过认知锚点融合（CAF）和辅助解耦思维链（AD-CoT）显著提升轻量级 MLLM 在交通场景推理中的表现，在 0.9B 参数下即可超越 8B 模型。
Smart: A Surrogate Model for Predicting Application Runtime in Dragonfly Systems: 提出 Smart（Surrogate Model for Predicting Application RunTime），首次将 GNN 和 LLM（Time-LLM）融合用于 Dragonfly 互连网络中的应用迭代运行时预测，在 1,056 节点系统上 MAPE 最低达 1.78%（LAMMPS），推理时间仅 0.515 秒，相比原始仿真实现数量级加速。
SparseCoop: Cooperative Perception with Kinematic-Grounded Queries: 提出 SparseCoop——首个完全稀疏的协同感知框架，通过运动学锚定查询（KGQ）、粗到精聚合模块和协同实例去噪策略，完全抛弃密集 BEV 表示，在 V2X-Seq 和 Griffin 数据集上以最低通信开销和最高计算效率达到 SOTA 性能（AP 0.530，传输仅 3.17×10⁴ BPS）。
STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes: 构建了自动驾驶领域最大规模时空推理VQA数据集STRIDE-QA（270K帧、16M QA对），定义了三类时空推理任务（物体间空间/自车空间/自车时空），通过微调VLM使空间定位成功率从近零提升至55%、时序一致性从0提升至28.4%。
Task Prototype-Based Knowledge Retrieval for Multi-Task Learning from Partially Annotated Data: 提出基于任务原型的知识检索框架，通过可学习 Task Prototype 嵌入任务特性并量化任务关联、Knowledge Retrieval Transformer 基于 task-affinity score 自适应精炼特征表示，在部分标注多任务学习（MTPSL）中避免依赖未标注任务的预测，PASCAL-Context 和 NYUD-v2 上全面超越 SOTA。
TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training: 提出 TawPipe——拓扑感知的权重流水线并行框架，通过分组式权重调度、设备绑定存储和通信-计算重叠三大组件，利用分布式集群的层次化带宽特性，在 24 GPU 上训练 LLaMA 模型时吞吐量相比 WeiPipe/1F1B/FSDP 分别提升 11.8%/23.6%/44.1%，同时通信时间减少 82.1%。
TimeBill: Time-Budgeted Inference for Large Language Models: 提出TimeBill框架，通过细粒度响应长度预测器（RLP）和工作负载引导的执行时间估计器（ETE），在给定时间预算下自适应调整KV Cache驱逐比例，在保证推理完成率的同时最大化LLM响应质量。
Towards 3D Object-Centric Feature Learning for Semantic Scene Completion: 提出Ocean框架，利用MobileSAM提取的实例掩码引导3D物体中心特征学习，通过语义组注意力（SGA3D）和全局相似性引导注意力（GSGA）在3D空间实现实例级特征聚合，并用实例感知局部扩散（ILD）模块精炼场景表征，在SemanticKITTI和SSCBench-KITTI360上达到SOTA。
TSBOW: Traffic Surveillance Benchmark for Occluded Vehicles Under Various Weather Conditions: 提出TSBOW——一个基于CCTV的大规模交通监控数据集，包含198个视频、超32小时真实交通数据和320万帧，覆盖全年四季天气（晴/霾/雨/雪含极端灾害场景），涵盖8类交通参与者，重点解决恶劣天气下遮挡车辆检测的挑战。
Understanding Dynamic Scenes in Egocentric 4D Point Clouds: 构建EgoDynamic4D——首个面向高度动态4D场景的自我中心视角QA基准（927K QA对、12种任务），并提出端到端时空推理框架，通过实例感知特征编码、时间编码、相机编码和自适应下采样将大规模4D场景压缩为LLM可处理的token序列。
Unleashing Semantic and Geometric Priors for 3D Scene Completion: 提出 FoundationSSC 框架，通过 source-level 和 pathway-level 双层解耦设计释放 Vision Foundation Model 的语义与几何先验，配合 Axis-Aware Fusion 模块融合互补 3D 特征，在 SemanticKITTI 上达到 19.32 mIoU / 48.12 IoU SOTA。
Unlocking Efficient Vehicle Dynamics Modeling via Analytic World Models: 提出解析世界模型（Analytic World Models, AWMs），利用可微分模拟器的可微性设计三种世界建模任务（相对里程计、最优规划器、逆最优状态估计），无需试错搜索即可端到端高效训练状态预测器，在Waymax自动驾驶模拟器上验证了其有效性。
Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction: 提出首个使用稀疏3D语义高斯基元作为协同感知通信介质的纯视觉语义占据预测框架，通过ROI裁剪+刚性变换传输高斯+邻域融合模块抑制噪声冗余，在mIoU上比单车提升+8.42，比baseline协同方法提升+3.28。
Walking Further: Semantic-aware Multimodal Gait Recognition Under Long-Range Conditions: 构建LRGait——首个面向长距离（10-50m）跨距离场景的LiDAR-Camera多模态步态数据集，并提出EMGaitNet端到端框架，通过CLIP语义挖掘（SeMi）、语义引导对齐（SGA）和对称交叉注意力融合（SCAF）模块实现2D-3D跨模态特征融合，在多个基准上达到SOTA。
When Person Re-Identification Meets Event Camera: A Benchmark Dataset and An Attribute-guided Re-Identification Framework: 构建首个大规模 RGB-Event 行人重识别数据集 EvReID（1200 ID / 118,988 图像对），并提出基于行人属性引导的三阶段对比学习框架 TriPro-ReID，通过正负属性 prompt 和跨模态 prompt 融合 RGB 与 Event 两种模态特征，mAP 达 69.3%。
WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving: 提出面向规划的潜在世界模型框架WorldRFT，通过VGGT空间编码、分层规划分解+局部感知迭代精炼、基于GRPO的碰撞感知强化微调，在nuScenes上将碰撞率降低83%（0.30%→0.05%），在NavSim上仅用相机即逼近LiDAR SOTA（87.8 vs 88.1 PDMS）。