跳转至

🚗 自动驾驶

📷 CVPR2025 · 95 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (105) · 🔬 ICLR2026 (18) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (50) · 📹 ICCV2025 (98) · 🧪 ICML2025 (11)

🔥 高频主题: 自动驾驶 ×8 · 3D 目标检测 ×6 · 扩散模型 ×5 · 3D 高斯渲染 ×5 · 点云 ×5

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

提出3D-AVS,首个针对LiDAR点云的自动词表分割方法:无需用户指定目标类别,系统自动从图像和点云中识别场景中存在的语义实体并生成词表,再用开放词表分割器完成逐点语义分割,在nuScenes和ScanNet200上展示了生成精细语义类别的能力。

ProtoOcc: 3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation

提出ProtoOcc,通过原型感知视角变换将2D图像聚类原型映射到3D体素查询空间来增强低分辨率体素的上下文信息,配合多视角占用解码策略从增强的体素中重建高分辨率3D占用场景,用75%更小的体素分辨率仍能达到与高分辨率方法竞争的性能(Occ3D mIoU 37.80 vs PanoOcc 38.11)。

A Dataset for Semantic Segmentation in the Presence of Unknowns

提出了 ISSU 异常分割数据集,首次同时支持已知类别(closed-set)和未知异常(open-set)的联合评估,规模是现有异常分割数据集的两倍,涵盖多域、多传感器、多光照条件,基准测试揭示了当前 SOTA 方法在域泛化与大/小物体分割上的显著不足。

A Neuro-Symbolic Framework Combining Inductive and Deductive Reasoning for Autonomous Driving Planning

本文提出首个将 ASP 符号推理决策以可学习嵌入形式直接嵌入端到端规划器轨迹解码的神经-符号框架,用 LLM 动态提取场景规则、Clingo 求解器进行逻辑仲裁、可微 KBM 生成物理可行轨迹并配合神经残差修正,在 nuScenes 上 L₂ 误差 0.57m、碰撞率 0.075%、TPC 0.47m 全面超越 MomAD。

PAP: A Prediction-as-Perception Framework for 3D Object Detection

PAP 受人脑"预测性感知"启发,将上一帧轨迹预测结果作为当前帧感知模块的 query 输入替代部分随机 query,在 UniAD 上实现 AMOTA 提升 10%(0.359→0.395)、推理速度提升 15%(14→16 FPS)和训练时间缩短 14%。

CAWM-Mamba: A Unified Model for Infrared-Visible Image Fusion and Compound Adverse Weather Restoration

CAWM-Mamba 首次提出端到端统一处理红外-可见光图像融合与复合恶劣天气(如雾+雨、雨+雪)场景的框架,通过天气感知预处理、跨模态特征交互和小波域频率-SSM 解耦多频退化,在 AWMM-100K 和标准融合数据集上全面超越 SOTA。

Certified Human Trajectory Prediction

首次将随机平滑(Randomized Smoothing)认证技术引入人类轨迹预测任务,通过mean/median聚合函数和扩散去噪器为轨迹预测模型提供保证性鲁棒性——即无论输入噪声如何扰动(在半径R内),输出始终保持在认证边界内。

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate

构建了首个大规模攀岩运动多模态数据集 AscendMotion(412K帧,RGB+LiDAR+IMU),并提出 ClimbingCap 方法通过分离坐标解码、后处理优化和半监督训练,在世界坐标系中精确恢复攀岩者的3D运动。

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate

提出首个攀岩运动多模态数据集 AscendMotion(412K 帧 RGB+LiDAR+IMU,22 名专业攀岩者,12 面攀岩墙),以及 ClimbingCap 方法通过分离坐标解码、三重后处理优化和半监督训练实现世界坐标系下的 3D 攀岩动作恢复,MPJPE 达 75.45mm。

Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models

CompoSIA: Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation

CompoSIA 提出一种基于 Flow Matching DiT 的组合式驾驶视频生成框架,通过解耦结构(3D bbox)、身份(单参考图像)和自车动作(相机轨迹)三类控制信号的注入方式,实现精细独立控制和组合编辑,用于系统化合成对抗性驾驶场景,FVD 提升 17%,碰撞率增加 173%。

Cubify Anything: Scaling Indoor 3D Object Detection

本文提出 Cubify Anything 1M (CA-1M) 数据集——首个在激光扫描上穷尽标注所有物体的大规模室内3D检测数据集(440K物体/1K场景/3.5K采集/13M帧/像素完美投影),并提出全 Transformer 检测器 CuTR,证明在数据充沛时无需3D归纳偏置(点云/体素)即可超越点云方法。

DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

将 3DGS 场景中的物体与背景解耦,使物体支持物理仿真(碰撞、抓取等),同时保持场景的高质量渲染

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

本文提出DiffusionDrive,通过截断扩散策略(将去噪步骤从20步减少到2步)和级联扩散解码器,首次将扩散模型成功应用于端到端自动驾驶的实时多模态轨迹规划,在NAVSIM数据集上以88.1 PDMS刷新记录,同时保持45 FPS的实时速度。

Distilling Monocular Foundation Model for Fine-grained Depth Completion

本文提出DMD3C,一个两阶段知识蒸馏框架,将单目深度基础模型(如Depth Anything V2)的几何知识迁移到深度补全网络,第一阶段通过合成训练数据进行预训练,第二阶段通过尺度-偏移不变损失(SSI Loss)在真实数据上微调,在KITTI深度补全排行榜上取得第一名。

Distilling Multi-modal Large Language Models for Autonomous Driving

本文提出DiMA框架,通过联合训练在多模态大语言模型(MLLM)和视觉端到端规划器之间进行知识蒸馏,设计了遮蔽重建、未来预测和场景编辑三种代理任务来丰富场景表示,推理时可丢弃LLM仅用视觉规划器,在nuScenes上实现L2轨迹误差降低37%、碰撞率降低80%。

Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map

本文首次定义了将交通标志规则集成到在线向量化高精地图的任务,构建了包含10000+视频片段和18000+车道级规则的MapDR数据集,并提出模块化(VLE-MEE)和端到端(RuleVLM)两种基线方案,其中RuleVLM在整体F1指标上达到64.2%。

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

构建基于 4D 占用网格的高保真闭环驾驶仿真框架——用 OccDreamer 从 BEV 生成静态场景占用、用 Actor Bank 组合动态物体、用 VideoDreamer 从占用条件生成多视角视频,FVD 降低 44%,物体检测 mAP 提升 33%。

EV-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras

首次将事件相机引入3D目标检测,提出 Virtual 3D Event Fusion(V3D-EF)将异步事件投影到3D体素空间与LiDAR特征融合,在帧间"盲区时间"内以100FPS持续检测物体,填补了传感器帧间~100ms的感知空白。

EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis

提出 EVolSplat,一个基于稀疏3D卷积的前馈城市场景3D高斯泼溅方法,通过全局统一体素预测高斯参数(而非像素对齐),结合遮挡感知的基于图像的渲染(IBR)着色,在 KITTI-360 上达到 23.26dB PSNR / 83.81 FPS。

Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation

提出 AIScene 框架利用场景内一致性(点擦除策略)和场景间关联(MixPatch + InsFill 跨场景增强),在仅 1% 标注的 SemanticKITTI 上将半监督 LiDAR 分割提升 1.9 mIoU。

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images

本文提出ForestLPR,通过将点云在不同高度切片生成多张BEV密度图,利用ViT提取局部特征后经multi-BEV交互模块自适应关注不同高度的判别性特征,实现森林环境下鲁棒的LiDAR位置识别,在多个数据集上大幅超越SOTA。

FreeSim: Toward Free-Viewpoint Camera Simulation in Driving Scenes

本文提出FreeSim,通过将挑战性的偏离轨迹新视角生成问题重新表述为生成式图像增强问题,配合piece-wise高斯重建的训练数据构造和渐进式视角扩展策略,首次实现了驾驶场景中超过3米横向偏移的高质量自由视角渲染。

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

本文提出g3D-LF,通过在约5K室内3D场景和近100万语言描述上进行多级对比学习预训练,构建了可泛化到未知环境的3D-语言特征场,在VLN(单目/全景)、零样本物体导航和情境问答四种具身任务上均取得SOTA或接近SOTA表现。

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction

本文提出GaussianFormer-2,从概率视角重新诠释3D语义高斯:每个高斯表示其邻域被占用的概率分布,通过概率乘法聚合几何预测、高斯混合模型归一化语义预测,彻底消除了高斯描述空区域和相互冗余重叠的问题,以仅8.9%的高斯数量达到SOTA。

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

提出 GaussianWorld,将 3D 占用预测重新定义为以当前传感器输入为条件的 4D 占用预测问题,通过将场景演化分解为自车运动对齐、动态物体运动和新区域补全三个因素,在 3D 高斯空间中用世界模型显式建模场景变化,在 nuScenes 上不增加额外计算量的前提下将单帧方法的 mIoU 提升超过 2%。

GDFusion: Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction

提出 GDFusion,通过将 RNN 重新解释为特征空间上的梯度下降,统一融合 VisionOcc 中四种异构时序信息(体素级、场景级、运动、几何),在 Occ3D 上实现 1.4%-4.8% mIoU 提升同时减少 27%-72% 显存。

Generating Multimodal Driving Scenes via Next-Scene Prediction

提出 UMGen,一个统一的多模态驾驶场景生成框架,将自车动作、地图、交通参与者和图像四种模态进行 token 化,通过帧间时序自回归(TAR)和帧内有序自回归(OAR)两阶段策略逐场景生成,同时引入动作感知地图对齐(AMA)模块保持自车运动与地图的一致性,可自主生成长达 60 秒的连贯驾驶序列。

Generative Gaussian Splatting for Unbounded 3D City Generation

提出 GaussianCity,首个将 3D 高斯溅射应用于无界 3D 城市生成的框架,通过引入 BEV-Point 紧凑中间表示使显存占用与场景规模解耦(保持恒定),并设计 Point Serializer 将无序 BEV 点转为有序序列以捕获结构和上下文特征,在无人机视角和街景视角的城市生成中达到 SOTA,渲染速度比 CityDreamer(基于 NeRF)快 60 倍。

GLane3D: Detecting Lanes with Graph of 3D Keypoints

提出GLane3D,一种基于关键点的3D车道线检测方法,通过检测车道关键点并预测它们之间的有向连接构建图结构,利用PointNMS去除冗余关键点提议后用Dijkstra最短路径提取车道实例,在OpenLane和Apollo数据集上达到SOTA的F1分数且泛化能力优越。

Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation

提出Helvipad——首个用于全景立体深度估计的真实世界数据集(40K帧、上下双360°相机+LiDAR),并引入极角输入和环形填充两个适配策略来改进立体匹配模型处理等距矩形投影图像,所提360-IGEV-Stereo在所有指标上达到最佳。

InteractionMap: Improving Online Vectorized HDMap Construction with Interaction

本文提出InteractionMap,通过点级和实例级关系嵌入、关键帧分层时序融合和几何感知分类-定位对齐三个模块,全面增强在线矢量化HD地图构建中的信息交互,在nuScenes (mAP 71.8) 和Argoverse2 (mAP 74.7) 上均取得SOTA。

Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels

提出 DOtA(Detect Objects from Multi-Agent),一种无需人工标注的多智能体 LiDAR 3D 目标检测方法:利用协作智能体内部共享的自车位姿和车身形状完成检测器初始化,再通过智能体间互补观测进行多尺度编码,解码出高低质量伪标签分别指导特征学习,实现完全无监督的高质量 3D 目标检测。

LiDAR-RT: Gaussian-based Ray Tracing for Dynamic LiDAR Re-Simulation

本文提出LiDAR-RT,将3D高斯原语与NVIDIA OptiX硬件加速光线追踪相结合,首次实现动态驾驶场景下实时且物理精确的LiDAR重新仿真,渲染速度达30 FPS,训练仅需2小时,远超NeRF方案的0.2 FPS和15小时。

LightLoc: Learning Outdoor LiDAR Localization at Light Speed

本文提出LightLoc,通过样本分类引导 (SCG) 减少视觉相似区域的回归歧义,以及冗余样本下采样 (RSD) 剔除已学好的帧,实现大规模室外LiDAR定位训练50倍加速(1小时 vs 2天),同时达到0.83m SOTA位置精度。

LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes

提出 LiMoE,通过混合专家(MoE)机制融合三种互补的 LiDAR 表示(距离图/稀疏体素/原始点云),三阶段训练(图像→LiDAR 预训练 → 对比混合学习 → 语义混合监督),在 nuScenes 分割上达到 51.4% mIoU,跨域泛化到 7 个数据集。

LiSu: A Dataset and Method for LiDAR Surface Normal Estimation

本文提出首个大规模合成LiDAR点云表面法向量数据集LiSu,并设计时空正则化方法增强法向量估计精度,在自训练中有效抑制伪标签噪声,实现从合成到真实数据的鲁棒域自适应。

LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction

LR-SGS 提出基于 LiDAR 反射率引导的显著高斯泼溅方法,引入结构感知的显著高斯表示(由 LiDAR 几何和反射率特征点初始化)和光照不变的反射率通道作为额外约束,在 Waymo 数据集挑战场景(复杂光照)上 PSNR 超越 OmniRe 1.18 dB。

M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

M²-Occ 针对多相机输入不完整时的语义占用预测问题,提出多视角掩码重建(MMR)模块利用相邻相机重叠区域恢复缺失视角特征,以及特征记忆模块(FMM)通过类级语义原型精炼不确定体素特征,在缺失后视角设置下 IoU 提升 4.93%。

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

MapGCLR 提出地理空间对比学习方法,通过强制多次行驶中地理空间重叠区域的 BEV 特征一致性来改善在线矢量化 HD 地图构建的 BEV 编码器,在仅 5% 标注数据下实现 42% 的相对 mAP 提升。

MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

本文将MAE式掩码重建任务与扩散生成过程相结合,提出MaskGWM驾驶世界模型,通过扩散相关掩码token、行式掩码注意力和行式跨视角模块三项创新设计,在长时序预测和多视角生成两个场景下均显著超越了现有SOTA。

MITracker: Multi-View Integration for Visual Object Tracking

提出多视角目标跟踪数据集 MVTrack(234K 帧,27 类目标)和方法 MITracker,通过将 2D 特征投影到 3D 特征体并压缩为 BEV 平面进行跨视角融合,结合空间增强注意力修正各视角跟踪结果,实现从遮挡中快速恢复跟踪。

Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification

提出 Human Annotator Modeling (HAM) 方法,通过对人类标注描述进行风格特征提取和聚类,用可学习提示让 MLLM 模拟数千种人类标注风格,再结合 Uniform Prototype Sampling (UPS) 进一步增加风格多样性,自动构建大规模高质量文本-图像行人 ReID 数据集,在多个基准上大幅提升了 ReID 模型的泛化能力。

ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling

提出 ModeSeq——一种将轨迹模式建模为序列的全新范式,通过逐步解码多模态轨迹(而非一次性并行解码)来显式捕捉模式间关联,并配合 Early-Match-Take-All (EMTA) 训练策略,在不依赖密集模式预测或启发式后处理的前提下,显著提升了稀疏多模态运动预测的轨迹多样性和置信度校准。

Multi-modal Knowledge Distillation-based Human Trajectory Forecasting

本文提出首个用于行人轨迹预测的多模态知识蒸馏框架——用轨迹+人体姿态+文本描述训练全模态教师模型,将其知识蒸馏到仅用轨迹或轨迹+姿态的学生模型,在JRDB/SIT/ETH-UCY三个数据集上最高提升约13%预测精度。

Neural Inverse Rendering from Propagating Light

首个从多视角时间分辨 LiDAR 测量(飞行时间光子探测)中进行物理逆渲染的方法,通过时间分辨辐射缓存替代递归路径追踪来建模直接和间接光传输,在合成场景上法线 MAE 从 FWP++ 的 22.80° 降至 8.45°,同时支持新视角合成与重光照。

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

O3N 首次提出纯视觉端到端的全向开放词汇占用预测框架,通过极坐标螺旋 Mamba(PsM)建模全向空间连续性、占用代价聚合(OCA)统一几何和语义监督、以及无梯度自然模态对齐(NMA)桥接像素-体素-文本模态间隙,在 QuadOcc 和 Human360Occ 上达到 SOTA。

OccMamba: Semantic Occupancy Prediction with State Space Models

OccMamba 把 SSM/Mamba 引入户外语义占据预测,用 height-prioritized 2D Hilbert 展开把 3D voxel 序列化为 1D 序列,再用层次化 Mamba + 局部上下文处理器同时建模全局和局部,在 OpenOccupancy/SemanticKITTI/SemanticPOSS 上全面 SOTA,且显存远小于 transformer 方案。

Online Video Understanding: OVBench and VideoChat-Online

本文从评估基准、模型架构和训练策略三个角度推进在线视频理解:提出 OVBench(包含 6 大任务类型 16 个子任务的在线视频 QA 基准),设计金字塔记忆库(PMB)高效压缩流式视频信息,并通过离线到在线的渐进训练构建 4B 参数的 VideoChat-Online 模型,在 OVBench 上超越 7B 离线模型 4.2%。

Open-Canopy: Towards Very High Resolution Forest Monitoring

Open-Canopy 提出了首个开放获取的国家级超高分辨率(1.5m)树冠高度估计基准数据集,覆盖法国超过 87,000 km²,结合 SPOT 卫星影像和航空 LiDAR 数据,同时还提出了树冠高度变化检测的基准任务 Open-Canopy-Δ,在系列 SOTA 模型上建立了全面的实验基准。

Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

首个面向四足机器人的全景多模态语义占用预测框架 VoxelHound,提出 PanoMMOcc 数据集(全景 RGB + 热成像 + 偏振 + LiDAR),通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块达到 23.34% mIoU。

PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting

PanSplat 提出了一种前馈式全景视图合成方法,通过球面 3D 高斯金字塔、Fibonacci 点阵排列和层级球面代价体积设计,首次实现了 4K 分辨率(2048×4096)的高效全景图生成,在单张 A100 GPU 上即可训练。

Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment

提出 Locomotion Embodiment 框架,利用物理模拟器中的人形运动生成评估轨迹的物理合理性,通过可微的 LocoVal 函数替代不可微的物理模拟器来训练轨迹预测网络,并在推理时过滤不合理轨迹。

PIDLoc: Cross-View Pose Optimization Network Inspired by PID Controllers

受 PID 控制器启发,提出 PIDLoc 跨视角位姿优化网络,通过 P(局部特征差异)、I(全局多候选位姿聚合)、D(特征差异梯度)三个分支结合空间感知位姿估计器,在大初始位姿误差下实现鲁棒精确定位。

Pixel-Aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

本文开发了一套基于棱镜分光的像素对齐 RGB-NIR 立体相机系统,搭建在移动机器人上采集了大规模多光照条件数据集,并提出了图像融合和特征融合两种方法,使现有 RGB 预训练视觉模型无需/少量微调即可利用 NIR 信息,在深度估计、目标检测和 SfM 等任务上取得显著提升。

Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting

发现半监督人群计数中点到点(P2P)匹配导致模型对未标注数据过度激活(通过 PSAM 梯度诊断可视化),提出点到区域(P2R)匹配——将每个 GT/伪标签点扩展为局部区域并传播置信度,在 ShanghaiTech-A 5% 标注下 MAE 69.9(前 SOTA 83.7),且比 P2P 快 68 倍。

PAR: Poly-Autoregressive Prediction for Modeling Interactions

PAR(Poly-Autoregressive)提出了一种简洁统一的多智能体行为预测框架,通过将交互中其他智能体的状态序列作为条件,结合同智能体下一时间步预测和学习的智能体ID嵌入,在社交行为预测、自动驾驶轨迹预测和手-物交互三个截然不同的任务上均优于单智能体自回归基线。

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Prompt Depth Anything 首次将"提示"范式引入深度基础模型,利用低成本 LiDAR(如 iPhone LiDAR)作为度量提示,通过简洁的多尺度提示融合架构指导 Depth Anything 模型输出精确的度量深度,实现了高达 4K 分辨率的高质量深度估计。

PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds

提出 PSA-SSL,通过在对比学习中增加自监督边界框回归预训练任务保留物体姿态和尺寸信息,并结合 LiDAR 光束模式增强实现跨传感器泛化,在 3D 语义分割和目标检测上显著超越 SOTA 自监督方法。

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion

提出基于查询(query-based)的雷达-相机融合框架 RaCFormer,通过同时从图像视角和 BEV 视角采样特征,结合圆形查询初始化、雷达感知深度预测和隐式动态捕获模块,在 nuScenes 上达到 64.9% mAP 和 70.2% NDS。

RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network

提出 RC-AutoCalib,首个针对 3D 雷达和相机的端到端在线自动几何标定方法,通过双视角(前视+鸟瞰)特征表示、选择性融合机制和噪声抗性匹配器,有效解决雷达数据稀疏和高度不确定性问题,在 nuScenes 数据集上大幅超越现有 LiDAR-相机标定方法。

ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

本文提出 ReconDreamer,通过增量式整合世界模型知识来增强驾驶场景重建,核心是 DriveRestorer(在线修复渲染伪影的微调世界模型)和渐进式数据更新策略(PDUS),首次实现了大幅机动(如跨越 6 米多车道变道)下的高质量新轨迹渲染,在 NTA-IoU 上较基线提升 24.87%。

RENO: Real-Time Neural Compression for 3D LiDAR Point Clouds

RENO提出稀疏占用码(Sparse Occupancy Codes)和一次性推理策略,首次实现了3D LiDAR点云的实时神经压缩(10fps@14-bit),以仅1MB的模型大小超越G-PCC标准12.25%码率节省。

Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

揭示现有稀疏车道线表示方法在端点处存在固有截断缺陷(最多丢失 20m),提出端点修补策略(EP-head)和融合几何先验的 PL-attention,在 Persformer/Anchor3DLane/LATR 上分别提升 F1-score 4.4/3.2/2.8 个点。

GDFusion: Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction

提出 GDFusion,将 RNN 重新解释为梯度下降步骤,统一三种时序线索(场景级/运动/几何)的融合方式,在 Occ3D 上比非时序基线提升 1.4-4.8% mIoU 同时减少 27-72% 推理内存,比 SOLOFusion 等多帧方法更高效。

Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments

提出 Scenario Dreamer,将自动驾驶仿真环境生成分解为三部分:向量化潜扩散模型生成初始场景(车道+智能体)、回报条件的 CtRL-Sim 生成闭环行为、场景修补实现无界环境扩展,在 nuPlan 上 Frechet Distance 0.67(基线 SLEDGE 1.44),生成仅需 0.16 秒。

SceneCrafter: Controllable Multi-View Driving Scene Editing

SceneCrafter 提出了一个基于多视角扩散模型的驾驶场景编辑框架,通过 teacher-student 两阶段训练范式生成高质量合成配对数据,支持天气/时间全局编辑和前景目标增删的局部编辑,同时保持跨相机的 3D 几何一致性。

SceneDiffuser++: City-Scale Traffic Simulation via a Generative World Model

提出 SceneDiffuser++,一个端到端的城市级交通仿真扩散模型,通过软裁剪(soft clipping)处理稀疏张量中的智能体出入场问题,实现 60 秒以上的行程级(trip-level)交通仿真,在 WOMD-XLMap 上达到 0.2423 综合 JS 散度。

SDGOcc: Semantic and Depth-Guided BEV Transformation for 3D Multimodal Occupancy Prediction

本文提出 SDG-OCC,一个多模态 3D 语义占用预测框架,通过语义和深度引导的视图变换(利用 LiDAR 深度和图像语义分割掩码构建虚拟点)替代传统 LSS 管线,结合融合到占用驱动的主动蒸馏模块,在 Occ3D-nuScenes 上取得 SOTA 并保持实时推理速度。

Segment Anything, Even Occluded

提出 SAMEO,将 EfficientSAM 适配为遮挡物体的 amodal 分割解码器,结合新构建的 300K 图像 Amodal-LVIS 数据集,实现了在 COCOA-cls 和 D2SA 上超越监督方法的零样本 amodal 分割性能。

Single Pixel Image Classification using an Ultrafast Digital Light Projector

利用 microLED-on-CMOS 超快数字光投影器实现基于单像素成像(SPI)的 MNIST 图像分类,在 1.2 kfps 帧率下达到 >90% 分类精度,完全绕过图像重建直接从时序光信号分类。

SocialMOIF: Multi-Order Intention Fusion for Pedestrian Trajectory Prediction

SocialMOIF 提出了一种多阶意图融合模型,通过一阶直接交互层和高阶邻居间接交互层全面捕获社交意图,结合基于挤压定理思想的轨迹分布近似器和首次引入 KAN 网络的全局轨迹优化器,在 ETH/UCY、SDD、NBA、NuScenes 多个数据集上实现了 SOTA 性能。

SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving

提出 SOLVE,通过共享 SQ-Former 视觉编码器实现 VLM 和端到端驾驶模型的特征级协同,用 Trajectory Chain-of-Thought(T-CoT)将 VLM 的长程轨迹作为 E2E 模型的初始化先验,在 nuScenes 上达到 0.28m 平均 L2 误差 SOTA。

SparseAlign: A Fully Sparse Framework for Cooperative Object Detection

SparseAlign提出首个全稀疏的协同目标检测框架,通过坐标可扩展稀疏卷积解决中心特征缺失和孤立卷积域问题,在减少98%通信带宽的同时超越基于稠密BEV的SOTA方法。

Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting

提出 EfficientOCF,通过空间解耦(将 3D 占用分解为 2D BEV 占用 + 高度值)和时间解耦(通过光流关联实例实现逐步 OCF 而非端到端预测)解决占用预测中的空间偏置和时间偏置问题,实现 SOTA 3D 占用预测性能和 82.33ms 的快速推理。

Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis

SG-NLF 提出一种无需精确位姿的 LiDAR NeRF 框架,通过混合频谱-几何表征重建平滑几何、置信度感知位姿图实现全局对齐、对抗学习增强跨帧一致性,在低频 LiDAR 场景下重建质量和位姿精度分别超越 SOTA 35.8% 和 68.8%。

SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization

提出 SuperPC,首个将点云补全、上采样、去噪和着色四个任务统一在单一条件扩散模型中的框架,通过三级条件(raw/local/global)和空间混合融合策略(SMF)有效融合图像与点云模态。

T²SG: Traffic Topology Scene Graph for Topology Reasoning in Autonomous Driving

定义了统一的交通拓扑场景图(T²SG),显式建模车道、交通信号控制关系及车道间拓扑连接,并提出 TopoFormer 通过车道聚合层和反事实干预层实现精确的拓扑推理,在 OpenLane-V2 上达到 46.3 OLS SOTA。

TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-Stage Fusion

TacoDepth 提出首个单阶段雷达-相机融合深度估计框架,通过基于图的雷达结构提取器和金字塔式雷达融合模块,绕过了中间准稠密深度图的需求,在精度提升 12.8% 的同时速度提升 91.8%,达到实时 37+ FPS。

Temporal Action Detection Model Compression by Progressive Block Drop

提出渐进式块丢弃(Progressive Block Drop)方法从深度维度压缩时序动作检测(TAD)模型,通过逐步移除冗余块并使用参数高效的跨深度对齐策略恢复性能,实现 25% 计算量减少的同时性能不降反升。

Toward Real-World BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

GaussianLSS 在经典的 Lift-Splat-Shoot(LSS)框架上引入深度不确定性建模,通过计算深度分布的方差并将其转换为 3D 高斯表示,再利用 Gaussian Splatting 高效光栅化生成具有不确定性感知的 BEV 特征,在 nuScenes 上达到了 unprojection 方法的 SOTA,同时比 projection 方法快 2.5 倍、省 70% 显存。

Towards Autonomous Micromobility through Scalable Urban Simulation

本文提出 URBAN-SIM(高性能城市机器人学习仿真平台)和 URBAN-BENCH(8 项微出行任务 benchmark),通过层级化城市场景生成、交互式动态生成和异步场景采样三大模块,实现大规模多样化城市环境中的具身智能体训练与评测,是推动自主微出行领域的系统性仿真方案。

Towards Satellite Image Road Graph Extraction: A Global-Scale Dataset and A Novel Method

本文构建了一个覆盖全球的大规模卫星道路图提取数据集 Global-Scale(比现有最大公开数据集大约20倍),并提出 SAM-Road++ 方法,通过节点引导重采样策略解决训练与推理不匹配问题,同时引入"延长线"策略缓解遮挡导致的道路断裂,在多个数据集上取得了 SOTA 效果。

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning

本文提出 Tra-MoE,利用稀疏门控混合专家(MoE)架构训练轨迹预测模型,有效融合大规模域外无动作视频数据与小规模域内机器人演示数据,并设计自适应策略条件化技术将 2D 轨迹与视觉观测显式对齐,在仿真和真实场景均显著提升机器人操控成功率。

Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM

提出 Trajectory Mamba(Tamba),基于选择性状态空间模型重新设计自注意力机制,实现线性时间复杂度的轨迹预测,同时通过联合 polyline 编码策略和跨状态空间解码器保持预测精度,参数减少 40%+ 且 FLOPs 降低 4 倍。

Uncertainty-Instructed Structure Injection for Generalizable HD Map Construction

提出 UIGenMap,通过不确定性感知的透视图(PV)检测分支获取显式结构特征,并基于不确定性权重构建 PV prompt 注入 BEV 地图解码器,结合 Mimic Query 蒸馏实现实时推理,在地理不相交数据拆分上取得 +5.7 mAP 的泛化性能提升。

UniScene: Unified Occupancy-centric Driving Scene Generation

提出 UniScene,以占用网格为统一中间表示的两阶段驾驶场景生成:Occupancy Diffusion Transformer 从 BEV 布局生成语义占用,再通过高斯泼溅联合渲染语义+深度图条件化双扩散模型生成视频和 LiDAR,FVD 71.94(前 SOTA Drive-WM 122.70),下游数据增强提升 3D 检测 mAP 3.62%。

Unlocking Generalization Power in LiDAR Point Cloud Registration

提出 UGP 框架,通过消除交叉注意力、引入渐进式自注意力和 BEV 特征融合,显著提升 LiDAR 点云配准在跨距离和跨数据集场景下的泛化能力。

V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection

本文构建了首个包含 LiDAR、相机和 4D 雷达三种模态的 V2X 仿真数据集 V2X-R,提出了协同 LiDAR-4D 雷达融合流水线及 Multi-modal Denoising Diffusion (MDD) 模块,利用天气鲁棒的 4D 雷达特征指导扩散模型去噪含噪 LiDAR 特征,在雾天/雪天条件下提升检测性能高达 5.73%/6.70% 且几乎不影响正常天气性能。

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

VIRD 通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视角不变表征,实现无需方向先验的全向跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

本文提出 VisionPAD,一种纯视觉自监督预训练框架,用基于锚点的 3D 高斯溅射替代体积渲染重建多视角图像,并引入自监督体素速度估计和多帧光度一致性约束来学习运动线索和 3D 几何信息,完全不依赖 LiDAR 深度监督,在 3D 检测、占用预测和地图分割三个下游任务上显著超越现有预训练方法。

VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow

VoteFlow 通过在网络架构中引入一个基于可微投票的轻量级模块,将局部刚性运动约束作为归纳偏置融入自监督场景流估计模型,在 Argoverse 2 和 Waymo 数据集上以极低计算开销超越了此前最优的自监督方法。

WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion

本文提出 WeatherGen,首个统一的多样恶劣天气 LiDAR 数据扩散生成框架,通过 Spider Mamba 生成器保持 LiDAR 物理结构、对比学习控制器实现天气可控生成,在数据保真度和下游检测性能上均显著超越基于物理模拟的方法。

Zero-Shot 4D Lidar Panoptic Segmentation

本文提出 SAL-4D(Segment Anything in Lidar-4D),利用多模态传感器设置作为桥梁,将视频对象分割(VOS)模型和 CLIP 视觉语言特征蒸馏到 LiDAR 空间,实现零样本 4D LiDAR 全景分割,在 3D 零样本 LPS 上超越先前方法 5+ PQ。

ZeroVO: Visual Odometry with Minimal Assumptions

本文提出 ZeroVO,一种基于 Transformer 的单目视觉里程计方法,通过免标定的几何感知网络结构、语言先验融合和半监督训练范式,在 KITTI、nuScenes、Argoverse 2 和自建 GTA 数据集上实现了超过 30% 的零样本泛化性能提升。