跳转至

🚗 自动驾驶

📷 CVPR2026 · 105 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (18) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (50) · 📹 ICCV2025 (98) · 🧪 ICML2025 (11) · 💬 ACL2025 (1)

🔥 高频主题: 自动驾驶 ×17 · 对抗鲁棒 ×10 · 3D 目标检测 ×8 · 多模态 ×8 · 语义分割 ×6

A Prediction-as-Perception Framework for 3D Object Detection

受人脑"预测性感知"机制启发,提出 PAP 框架——将历史帧的轨迹预测结果作为 query 注入当前帧的感知模块,在 UniAD 上实现跟踪精度提升 10%、推理速度提升 15%。

A Prediction-as-Perception Framework for 3D Object Detection

借鉴人类"预判目标位置再聚焦观察"的认知模式,将前一帧的轨迹预测结果转化为当前帧的检测query,形成预测-感知迭代闭环,在UniAD上实现跟踪精度+10%和推理速度+15%的同步提升。

AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception

提出 AdaRadar——基于 DCT 频谱剪枝与零阶代理梯度的在线自适应雷达数据压缩框架,在 100× 以上压缩率下仅损失 ~1%p 检测/分割性能,有效缓解雷达传感器到计算端的带宽瓶颈。

An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving

提出ADMesh(15K+高质量3D模型库)和CarlaOcc(10万帧、0.05m精度的全景占据数据集),首次为自动驾驶3D全景占据预测提供实例级标注和物理一致的地面真值,并引入占据质量评估指标和系统基准测试。

BEV-SLD: Self-Supervised Scene Landmark Detection for Global Localization with LiDAR Bird's-Eye View Images

提出BEV-SLD,一种基于自监督场景地标检测(Scene Landmark Detection)的LiDAR全局定位方法,将检测与对应关系预测解耦,仅需20MB即可在多种场景下实现高精度(x, y, azimuth)位姿估计。

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

提出BuildAnyPoint,通过松耦合级联扩散Transformer(Loca-DiT)实现从多样分布的点云(机载LiDAR、SfM、稀疏噪声点云)到结构化3D建筑Mesh的统一重建——先用分层潜在扩散恢复底层点云分布,再用自回归Transformer生成紧凑多边形Mesh。

C2T: LLM-Aligned Common-Sense Reward Learning for Traffic-Vehicle Coordination

提出 C2T 框架,通过将交通状态转换为结构化描述(caption),利用 LLM 进行离线偏好判断并蒸馏为内在奖励函数,替代手工设计的交通信号控制奖励,在 CityFlow 基准的多个真实城市网络上提升效率、安全性和能耗指标。

CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention

提出 CausalVAD,通过将 Pearl 后门调整理论参数化为即插即用模块(SCIS),在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预,消除虚假关联,实现更安全、更鲁棒的端到端自动驾驶。

CCF: Complementary Collaborative Fusion for Domain Generalized Multi-Modal 3D Object Detection

针对双分支多模态3D检测器在域迁移场景下的模态不平衡问题,提出 CCF 框架,通过解耦损失、LiDAR引导深度先验和互补跨模态掩码三个组件系统提升相机查询的利用率和跨域鲁棒性。

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

提出ClimaDrive数据生成框架和ClimaOoD基准数据集,通过语义引导的多天气场景生成+透视感知的异常物体放置,构建10K+训练集覆盖6种天气×93类异常,训练后四个SOTA方法平均AP提升3.25%。

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

提出 CoIn3D 框架,通过空间感知特征调制(SFM)和相机感知数据增强(CDA)两个模块,显式建模相机内参/外参/阵列布局的空间先验差异,实现多相机3D检测模型从源配置到未见目标配置的强泛化迁移,适用于 BEVDepth / BEVFormer / PETR 三大主流范式。

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

ColaVLA 提出统一的视觉-语言-动作(VLA)框架,将 VLM 的推理从文本链式思考迁移到潜空间,通过认知潜空间推理器(Cognitive Latent Reasoner)和层次化并行规划器(Hierarchical Parallel Planner),仅需两次 VLM 前向传播即可高效完成场景理解与轨迹解码,在 nuScenes 开环和闭环评测上均达到 SOTA。

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

CoLC 提出一种通信高效的早期协同感知框架,通过前景感知点采样(FAPS)减少传输量,结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示,并用稠密引导双对齐(DGDA)保证语义和几何一致性,在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。

Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation

提出 CompoSIA,一个组合式驾驶视频模拟器,将场景结构、物体身份和自车动作三个控制因素通过独立路径解耦注入 Flow Matching DiT,支持独立与组合编辑,实现系统性对抗场景合成,身份编辑 FVD 提升 17%,动作控制旋转/平移误差降低 30%/47%,下游规划器碰撞率平均提升 173%。

CompoSIA: Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation

提出CompoSIA框架,通过对结构(Structure)、身份(Identity)、动作(Action)三因素的解耦控制,基于视频扩散模型生成可组合的对抗驾驶场景,实现身份编辑FVD降低17%、下游planner碰撞率提升173%,有效暴露自动驾驶系统的隐藏失败模式。

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

提出 CycleBEV 正则化框架:训练时引入逆视角变换(IVT)网络将 BEV 分割图映射回透视图(PV)分割图,通过循环一致性损失及高度感知几何正则化、跨视角隐空间对齐两项新目标来增强现有 BEV 语义分割模型,推理时不增加任何开销。

Den-TP: A Density-Balanced Data Curation and Evaluation Framework for Trajectory Prediction

从数据中心视角出发,提出 Den-TP 框架通过密度感知的数据集筛选和评估协议来解决轨迹预测数据集中场景密度的长尾不平衡问题,仅用 50% 数据就能保持整体性能并显著改善高密度场景的鲁棒性。

DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving

提出 DLWM,一个两阶段的高斯中心自监督预训练范式:第一阶段通过重建深度和语义图学习3D高斯表示,第二阶段训练双隐世界模型——高斯流引导的时序预测(用于占据感知/预测)和自车规划引导的时序预测(用于运动规划),显著提升三大核心任务性能。

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

提出 DMW(Drive My Way),一个个性化 VLA 驾驶框架,通过用户嵌入学习长期驾驶习惯并结合自然语言指令进行短期偏好适配,使用 GRPO 强化微调和风格感知奖励实现个性化驾驶行为生成。

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

提出首个360°全视角驾驶员注意力数据集(~100万帧/19名驾驶员),并设计DriverGaze360-Net通过辅助语义分割头联合学习注意力图与被关注物体,在全景驾驶图像上达到SOTA注意力预测性能。

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Dr.Occ 提出深度引导与区域引导的统一 3D 占用预测框架,通过 D2-VFormer 利用 MoGe-2 的高质量深度先验实现精确的 2D→3D 几何映射,并通过 R/R2-EFormer 借鉴 MoE/MoR 思想自适应分配区域专家处理空间语义各向异性,在 BEVDet4D 基线上提升 7.43% mIoU。

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

提出 Dr.Occ,一个统一的纯视觉 3D 占用预测框架,通过深度引导的双投影视图变换器(D2-VFormer)利用 MoGe-2 高质量深度先验实现精确几何对齐,以及区域引导的 MoE/MoR 专家 Transformer(R-EFormer / R2-EFormer)自适应分配区域专家解决空间语义不平衡,在 Occ3D-nuScenes 上将 BEVDet4D 基线提升 7.43% mIoU。

Efficient Equivariant Transformer for Self-Driving Agent Modeling

提出 DriveGATr,一种基于 2D 射影几何代数(Projective Geometric Algebra)的等变 Transformer 架构,无需显式成对相对位置编码即可实现 SE(2)-等变性,在交通模拟任务中达到 SOTA 性能的同时显著降低计算成本。

EMDUL: Expanding mmWave Datasets for Human Pose Estimation with Unlabeled Data and LiDAR Datasets

提出 EMDUL 管线,通过伪标签标注无标注毫米波数据(含新设计的无监督时序一致性损失 UTCL)和闭式 LiDAR→mmWave 点云转换器(含基于流的点过滤 FPF),大幅扩展毫米波 HPE 数据集的规模与多样性,域内误差降低 15.1%、跨域误差降低 18.9%。

F3DGS: Federated 3D Gaussian Splatting for Decentralized Multi-Agent World Modeling

提出F3DGS,首个将联邦学习框架应用于3DGS的方法,通过冻结几何+可见性感知聚合实现多智能体分布式3D重建,无需原始数据共享。

Failure Modes for Deep Learning-Based Online Mapping: How to Measure and Address Them

本文系统性地定义和量化了深度学习在线建图模型的两种失败模式——定位过拟合和地图几何过拟合,提出基于 Fréchet 距离的性能度量和基于最小生成树(MST)的训练集稀疏化策略,在 nuScenes 和 Argoverse 2 上验证了几何多样且均衡的训练集能改善模型泛化能力。

FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts

提出 FedBPrompt,将可学习视觉提示分为身体部件对齐提示(受限局部注意力处理视角错位)和全身整体提示(抑制背景干扰),并设计仅传输提示参数(~0.46M vs. 全模型~86M)的联邦微调策略,在 FedDG-ReID 上取得一致性提升。

FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts

提出FedBPrompt框架,通过身体分布感知视觉提示机制(BAPM)将prompt分为Body Part Alignment Prompts和Holistic Full Body Prompts两组,配合Prompt-based Fine-Tuning Strategy(PFTS)冻结ViT backbone仅训练轻量prompt(通信量降至~1%),在FedDG-ReID任务上平均mAP提升3.3%、Rank-1提升4.9%。

FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision

提出 FlashCap,首个基于闪烁 LED + 事件相机的运动捕捉系统,通过为每个 LED 配置不同的闪烁频率实现身份识别,构建了首个 1000Hz 标注精度的人体运动数据集 FlashMotion(715 万帧),并提出 ResPose 基线方法,将运动定时误差从 ~50ms 降至 ~5ms,姿态估计 MPJPE 降低约 40%。

FoSS: Modeling Long-Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier–State Space Integration

FoSS 提出一种频域-时域双分支框架,通过渐进螺旋重排序(HelixSort)将傅里叶频谱有序化后输入选择性状态空间模型(SSM),结合时域动态 SSM 和交叉注意力融合,在 Argoverse 1/2 上取得 SOTA 轨迹预测精度,同时参数量减少 40%+、推理延迟降低 22%。

Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

GPOcc 提出利用可泛化的视觉几何先验(如 VGGT、DepthAnything)进行单目 3D 占据预测,通过沿相机射线向内延伸表面点生成体积采样,以稀疏高斯基元进行概率占据推断,并设计免训练增量更新策略处理流式输入,在 Occ-ScanNet 上单目 mIoU 提升 +9.99、流式提升 +11.79 超越前 SOTA,同时在相同深度先验下速度快 2.65 倍。

Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

Ghost-FWL 提出首个大规模移动端全波形 LiDAR 数据集(24K帧、75亿峰值级标注),并设计 FWL-MAE 自监督预训练框架实现鬼影检测与去除,将 SLAM 轨迹误差降低 66% 以上、3D 检测假阳性率减少 50 倍。

HG-Lane: High-Fidelity Generation of Lane Scenes under Adverse Weather and Lighting Conditions without Re-annotation

针对车道检测数据集(CULane/TuSimple)极端天气样本严重不足的问题,提出HG-Lane——一个无需重标注的两阶段扩散生成框架:Stage-I通过Control Information Fusion+Structure-aware Reverse Diffusion保留车道几何结构,Stage-II通过Appearance-aware Refinement调整光照风格,生成snow/rain/fog/night/dusk共30K图。CLRNet整体mF1提升+20.87%,snow场景+38.8%。

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

HorizonForge 提出一个统一框架,将驾驶场景重建为可编辑的 Gaussian Splats + Mesh 表示,通过轨迹控制实现精细 3D 操控和语言驱动的车辆插入,再经视频扩散模型渲染生成时空一致的高质量驾驶视频,在用户偏好率上以 91.02% 碾压所有对比方法。

IGASA: Integrated Geometry-Aware and Skip-Attention Modules for Enhanced Point Cloud Registration

提出 IGASA 框架,通过分层金字塔架构 (HPA) + 分层跨层注意力 (HCLA) + 迭代几何感知精修 (IGAR) 三级流水线,弥合多尺度特征的语义鸿沟并动态抑制离群点,在 3D(Lo)Match、KITTI、nuScenes 四大基准上全面超越 SOTA。

IGASA: Integrated Geometry-Aware and Skip-Attention Modules for Enhanced Point Cloud Registration

提出 IGASA 点云配准框架,通过层级金字塔架构 (HPA) + 层级跨层注意力 (HCLA) 的跳跃注意力融合 + 迭代几何感知精细化 (IGAR) 的动态一致性加权,在 3DMatch 上达到 94.6% Registration Recall(SOTA),在 KITTI 上达到 100% RR,总推理时间仅 2.763s。

InCaRPose: In-Cabin Relative Camera Pose Estimation Model and Dataset

本文提出 InCaRPose,一个基于冻结 ViT 骨干和 Transformer 解码器的车内相对相机位姿估计模型,仅在合成数据上训练即可泛化到真实车内环境,实现绝对度量级翻译预测和实时推理(>45 FPS),同时发布了配套的真实世界高畸变车内测试数据集 In-Cabin-Pose。

KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System

提出KnowVal端到端自驾系统,通过三大核心解决知识推理和价值对齐缺失:(1)Retrieval-guided Open-world Perception融合标准3D检测+VL-SAMv2长尾物体+VLM场景理解;(2)Perception-guided Knowledge Retrieval从驾驶知识图谱(交通法/防御驾驶/道德规范)检索相关知识;(3)World Model预测未来状态+Value Model(human-preference训练)评估轨迹价值,实现可解释决策。nuScenes最低碰撞率,Bench2Drive/NVISIM SOTA。

Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens

将LeJEPA自监督框架扩展到多模态设置,引入可学习融合token作为Perceiver式潜在瓶颈在共享Transformer内高效融合RGB与伴随模态(LiDAR深度/热红外),采用剪枝策略将注意力开销降低约9倍,在Waymo上CenterNet 3D检测mAP XY达23.6(比RGB-only LeJEPA提升4.3),Depth MAE从4.704降至2.860。

LEADER: Learning Reliable Local-to-Global Correspondences for LiDAR Relocalization

LEADER 通过鲁棒的投影式几何编码器(偏航不变)和截断相对可靠性损失(抑制不可靠点),在 LiDAR 重定位任务上分别实现 24.1% 和 73.9% 的位置误差相对降低。

Learnability-Driven Submodular Optimization for Active Roadside 3D Detection

提出 LH3D 框架,通过「深度置信度→语义平衡→几何多样性」三阶段子模优化的主动学习策略,抑制路侧单目 3D 检测中固有歧义样本的选取,仅用 20% 标注预算即显著优于传统不确定性/多样性 AL 方法。

Learning Geometric and Photometric Features from Panoramic LiDAR Scans for Outdoor Place Categorization

本文利用3D LiDAR获取的全景深度图和反射率图作为CNN的输入,构建了一个大规模户外场景分类数据集MPO,并提出了水平循环卷积(HCC)和行最大池化(RWMP)两种改进策略,实现了对六类户外场景的高精度分类(最高97.87%),显著优于传统手工特征方法。

Learning Geometric and Photometric Features from Panoramic LiDAR Scans for Outdoor Place Categorization

提出利用LiDAR全景深度图和反射率图作为CNN输入进行室外场景分类的方法,构建了MPO大规模室外3D数据集(6类场景,34200帧),通过水平循环卷积(HCC)和行级最大池化(RWMP)处理全景图的环状结构,在多模态融合下达到97.47%分类准确率。

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

提出 MVIG 攻击框架,通过将不同防御型协作感知系统的脆弱性统一建模为互视图信息图(Mutual View Information Graph),结合时序图学习与熵感知漏洞搜索,实现自适应的伪造攻击,使防御成功率最高下降 62%。

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

提出LFG(Learning to drive is a Free Gift),一个完全无标签、教师引导的自动驾驶预训练框架,从大规模无姿态YouTube驾驶视频中学习几何、语义和运动感知的统一伪4D表示,在NAVSIM基准上仅用单目前视相机即超越多相机+LiDAR的BEV方法(PDMS 85.2),并展示了出色的数据效率(10%标签即达81.4 PDMS)。

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

提出LiREC-Net,首个统一框架同时完成LiDAR-RGB和LiDAR-Event相机的无靶标外参标定,通过共享LiDAR表示(融合3D点特征和投影深度特征)和成对代价体积实现跨模态对齐,在KITTI上达到1.80cm/0.11°、DSEC上达到2.51cm/0.14°(LiDAR-RGB)和1.18cm/0.07°(LiDAR-Event)的标定精度。

Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection

揭示了LiDAR-Camera融合中特征不对齐主要集中在前景-背景深度突变边界,提出PGDC(2D先验引导深度校准)+DAGF(不连续感知几何融合)+SGDM(结构引导深度调制器)三个协同模块,在融合前主动修正不对齐问题,在nuScenes验证集达到mAP 71.5%、NDS 73.6%的SOTA。

LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction

LR-SGS 提出利用 LiDAR 反射率引导的结构感知 Salient Gaussian 表示,通过将 LiDAR 强度校准为光照不变的反射率通道附加到每个 Gaussian、从几何与反射率特征点初始化结构化 Salient Gaussian、以及 RGB-反射率跨模态梯度一致性约束,在 Waymo 数据集的复杂光照场景中以更少 Gaussian 数量和更短训练时间超越 OmniRe 达 1.18 dB PSNR。

LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction

提出LR-SGS,将LiDAR强度校准为光照不变的反射率通道附加到3D高斯体上,并设计结构感知的Salient Gaussian表示(从LiDAR几何和反射率特征点初始化)配合改进的密度控制和显著变换策略,在Waymo自动驾驶复杂场景中实现优于OmniRe的高保真重建,且高斯体更少、训练更快。

M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

M²-Occ 针对相机故障导致视图缺失的真实场景,提出 MMR(利用相邻相机 FoV 重叠在特征空间重建缺失视图表示)+ FMM(可学习语义原型 memory bank 精炼模糊 voxel 特征),在 SurroundOcc 基线上缺失后视摄像头 IoU +4.93%,缺失 5 个摄像头时仍维持 18.36% IoU(基线崩到 13.35%),且完整视图下性能不妥协。

M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

针对自动驾驶中相机故障导致的不完整输入问题,提出M²-Occ框架,通过多视角掩码重建(MMR)利用相邻相机重叠视场恢复缺失特征,并引入特征记忆模块(FMM)用类级语义原型精化体素表示,在缺失后视摄像头时IoU提升4.93%,不影响全视角性能。

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

提出 MapGCLR,一种基于地理空间一致性的对比学习策略,通过强制不同遍历中重叠区域的 BEV 特征具有一致表示,以半监督方式显著提升在线矢量化高精地图构建性能,在仅 5%-20% 标注数据下获得 13%-42% 的相对增益。

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

MapGCLR 提出基于地理空间对比学习的半监督训练方案:利用同一地点多次驾驶经过产生的 BEV 特征网格的地理空间重叠关系,构建 InfoNCE 对比损失强制 BEV 特征空间的地理一致性,在 Argoverse 2 上仅用 5% 标注数据即达到 18.9 mAP(纯监督基线 13.3),相对提升 42%,效果几乎等于将标注数据量翻倍。

MeanFuser: Fast One-Step Multi-Modal Trajectory Generation and Adaptive Reconstruction via MeanFlow for End-to-End Autonomous Driving

提出MeanFuser端到端自动驾驶框架,用高斯混合噪声替代离散轨迹词汇表实现连续多模态轨迹建模,通过MeanFlow Identity实现一步采样消除ODE数值误差,并设计ARM模块隐式判断是选择现有proposal还是重构新轨迹,在NAVSIM上以仅RGB输入+ResNet-34骨干达到89.0 PDMS且59 FPS。

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

提出MetaDAT框架,通过元学习预训练获得适合在线适应的模型初始化,并在测试时采用动态学习率优化和困难样本驱动更新来实现跨数据集分布偏移下的轨迹预测自适应,在nuScenes/Lyft/Waymo多种跨域配置下全面超越现有TTT方法。

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

提出 MetaDAT 框架,通过元预训练获得适合在线自适应的模型初始化,并在测试时利用动态学习率优化和难样本驱动更新实现数据自适应的模型调整,在 nuScenes/Lyft/Waymo 跨数据集分布偏移场景下超越所有 TTT 方法。

Mind the Hitch: Dynamic Calibration and Articulated Perception for Autonomous Trucks

提出 dCAP 框架,通过基于 Transformer 的跨视角和时序注意力机制,实现拖挂式自动驾驶卡车中拖头与挂车之间的实时 6-DoF 相对位姿估计,并集成到 BEVFormer 中提升铰接运动下的 3D 目标检测性能(平移误差 0.452m,旋转误差 0.042 rad)。

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

提出渐进式多模态推理框架 MindDriver,模仿人类"感知→想象→行动"机制——先文本语义理解,再想象未来场景图像(桥接语义和物理空间),最后预测轨迹,配合反馈引导数据标注和渐进式强化微调,在 nuScenes 开环和 Bench2Drive 闭环评估上均取得最优表现。

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes (LegoOcc)

提出 LegoOcc,利用语言嵌入高斯(LE-Gaussians)作为统一的几何-语义中间表示,结合基于 Poisson 过程的高斯到占用(G2O)算子和渐进温度衰减策略,在仅使用二值占用标签(无语义标注)的情况下实现室内场景的单目开放词汇占用预测,在 Occ-ScanNet 上达到 59.50 IoU / 21.05 mIoU。

Neural Distribution Prior for LiDAR Out-of-Distribution Detection

NDP提出了可学习的神经分布先验模块来建模网络预测的分布结构,结合Perlin噪声生成的伪OOD样本和软异常暴露策略,在STU基准上实现61.31% AP,超越之前最佳结果10倍以上。

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

NoRD 证明自动驾驶 VLA 不需要大规模推理标注和海量数据:通过识别 GRPO 在弱 SFT 策略上失败的根因是 difficulty bias(高方差 rollout 组的学习信号被压制),采用 Dr. GRPO 替代标准 GRPO 做 RL 后训练,仅用 <60% 数据、无推理标注、3× 更少 token,在 NAVSIM(85.6 PDMS)和 WaymoE2E(7.709 RFS)上达到与推理型 VLA 竞争的性能。

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

O3N 首次提出全向开放词汇占用预测任务,设计纯视觉端到端框架:Polar-spiral Mamba (PsM) 在极坐标空间以螺旋扫描建模全景几何连续性;Occupancy Cost Aggregation (OCA) 构建 voxel-text 匹配代价体积避免直接特征对齐的过拟合;Natural Modality Alignment (NMA) 通过无梯度随机游走对齐 pixel-voxel-text 三模态嵌入。在 QuadOcc 上达 16.54 mIoU / 21.16 Novel mIoU(SOTA),大幅超越 OVO 基线。

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

首个纯视觉、端到端的全向开放词汇占用预测框架 O3N,通过极坐标螺旋 Mamba (PsM)、占用代价聚合 (OCA) 和自然模态对齐 (NMA) 三个核心模块,在 360° 全景图像输入下实现了超越闭集监督方法的开放词汇 3D 占用预测性能。

OccAny: Generalized Unconstrained Urban 3D Occupancy

OccAny 提出了首个泛化无约束城市 3D 占用预测框架,能在无标定、域外场景中从单目/序列/环视图像预测度量级占用体素,通过 Segmentation Forcing 和 Novel View Rendering 两项关键设计,在 KITTI 和 nuScenes 上超越所有视觉几何基线。

OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective

OccuFly 提出了首个真实世界航拍视角的相机基语义场景补全(SSC)基准数据集,包含 2 万+ 样本、21 个语义类别,覆盖多季节多海拔的城市/工业/农村场景,并揭示了当前视觉基础模型在航拍场景下的根本局限。

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

提出 AutoReg3D,首个将 LiDAR 3D 目标检测建模为自回归序列生成的框架,利用近到远排序和参数特定词表将 bounding box 离散为 token 序列,无需 anchor/NMS 即可达到与主流方法竞争的性能,并解锁 RL 微调和级联精炼等新能力。

OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera

提出 OneOcc,一个面向足式/人形机器人的纯视觉全景语义占用预测框架,通过双投影融合、双网格体素化、步态位移补偿和层级混合专家解码器,仅用单个全景相机即可实现 360° 语义场景补全,在真实四足和仿真人形数据集上超越 LiDAR 基线。

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

提出 OVDG-SS 新设定,统一处理语义分割中的未见域和未见类别问题,并设计基于状态空间模型的 S2-Corr 模块来修复域偏移导致的文本-图像相关性退化,在自动驾驶场景中实现高效且鲁棒的跨域开放词汇分割。

Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

面向四足机器人构建首个全景多模态(RGB+热成像+偏振+LiDAR)语义占据数据集PanoMMOcc,并提出VoxelHound框架,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块实现鲁棒的3D占据预测,达到23.34% mIoU(+4.16%)。

Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

提出首个面向四足机器人的全景多模态语义占据预测数据集 PanoMMOcc 及框架 VoxelHound,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块,在全景 RGB+热成像+偏振+LiDAR 四模态下达到 23.34% mIoU,超越已有方法 +4.16%。

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

提出 Perception Characteristics Distance (PCD),一种量化感知系统在不同距离下可靠检测能力的新指标,通过统计建模检测置信度随距离的均值和方差变化,定义感知系统的最大可靠检测距离,弥补传统 AP/IoU 等静态指标无法反映距离依赖性和随机性的不足。

Plant Taxonomy Meets Plant Counting: A Fine-Grained, Taxonomic Dataset for Counting Hundreds of Plant Species

本文构建了首个融合植物分类学的大规模计数数据集 TPC-268,包含 10,000 张图、678,050 个点标注和 268 个可计数类别(覆盖 242 个物种),按林奈分类体系标注完整层级信息,并在类无关计数(CAC)范式下进行了全面基准测试。

Points-to-3D: Structure-Aware 3D Generation with Point Cloud Priors

提出 Points-to-3D,将可见区域点云编码为 TRELLIS 的稀疏结构潜变量(SS latent)并用 mask-aware inpainting 网络补全不可见区域,结合结构补全+边界精炼两阶段采样策略,实现几何可控的高保真 3D 资产/场景生成,在 Toys4K 上 F-Score 达 0.964(可见区域 0.998)。

ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction

本文提出ProOOD框架,首次从体素原型引导的视角统一处理3D占用预测中的长尾识别与分布外(OOD)检测,通过原型引导的语义补全(PGSI)、尾部类增强(PGTM)和无训练的EchoOOD评分机制,在SemanticKITTI上提升+3.57% mIoU(尾部类+24.80%),在VAA-KITTI上OOD检测AuPRCr提升+19.34。

PTC-Depth: Pose-Refined Monocular Depth Estimation with Temporal Consistency

本文提出PTC-Depth,一个结合光流三角化和轮式里程计的单目深度估计框架,通过递归贝叶斯更新追踪深度基础模型的度量尺度,实现时间一致的度量深度预测,在KITTI、TartanAir和热红外等多个数据集上展现强泛化能力。

R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection

提出 R4Det,通过三个即插即用 BEV 模块——全景深度融合(PDF)、可变形门控时序融合(DGTF)、实例引导动态精炼(IGDR)——系统性解决 4D 雷达-相机融合中的深度估计不准、无位姿时序融合以及小目标检测三大难题,在 TJ4DRadSet 上 3D mAP 达 47.29%(+5.47%),VoD 上 mAP 66.69%。

Rascene: High-Fidelity 3D Scene Imaging with mmWave Communication Signals

提出 Rascene,一种利用毫米波 OFDM 通信信号(5G/Wi-Fi)进行高保真 3D 场景成像的集成感知与通信(ISAC)框架,通过置信度加权的多帧融合实现对稀疏、多径干扰的射频观测的几何一致性恢复。

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

提出渐进式回溯框架 PRF,通过级联回溯单元逐步将不完整观测的特征对齐到完整观测,大幅提升变长轨迹预测性能,且即插即用兼容现有方法。

ReMoT: Reinforcement Learning with Motion Contrast Triplets

提出 ReMoT 统一训练范式,通过规则驱动的多专家协作管线自动构建 16.5K 运动对比三元组数据集 (ReMoT-16K),并结合 GRPO 强化学习与复合奖励(逻辑一致性+长度正则化),系统性解决 VLM 在时空一致性推理上的根本缺陷,实现 25.1% 的性能提升。

RESBev: Making BEV Perception More Robust

提出 RESBev,一个即插即用的 BEV 感知鲁棒性增强框架,通过隐空间世界模型从历史干净帧预测当前 BEV 语义先验,再由异常重建器将先验与被损坏的当前观测通过交叉注意力融合,在 nuScenes 上为四种 LSS 模型在 10 种干扰(含自然损坏 + 对抗攻击)下平均提升 15~20 个 IoU 点,且能泛化到训练未见过的干扰类型。

ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes

定义并形式化了时间稀疏的 4D 室内语义实例分割(4DSIS)任务,提出 ReScene4D 方法通过时空对比损失、时空掩码池化和时空序列化三种时序信息共享策略,将 3D 实例分割架构扩展到 4D 维度,在 3RScan 数据集上实现 SOTA,同时提出新的 t-mAP 指标联合评估分割质量和时序身份一致性。

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

提出首个面向BEV 3D检测器的非侵入式、3D一致的通用对抗物体生成框架SABER,通过在场景中放置优化后的3D mesh来干扰多视角多帧检测,揭示BEV模型对环境上下文先验的过度依赖。

Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems

提出MOSAIC框架——通过聚类数据、拟合各域对评估指标的缩放律、贪心迭代选择边际收益最大的数据簇样本,实现端到端自动驾驶模型的高效数据选择,用80%更少的数据达到甚至超越基线性能。

SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving

SearchAD 构建了首个面向自动驾驶的大规模稀有图像检索数据集,包含42万+帧图像、51万+标注框、90个稀有类别,支持文本到图像和图像到图像检索,并通过全面评估揭示当前多模态检索模型在稀有物体检索上的不足。

SG-NLF: Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis

SG-NLF提出一种无需精确位姿的LiDAR NeRF框架,通过谱-几何混合表示解决LiDAR稀疏数据导致的几何空洞问题,利用置信感知图实现全局位姿优化,并引入对抗学习强化跨帧一致性,在nuScenes上重建质量和位姿精度分别比SOTA提升35.8%和68.8%。

SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting

提出 SHARP,一种基于短窗口流式推理的运动预测框架,通过实例感知上下文流模块显式维护和更新跨时间步的智能体潜在表示,结合双目标训练策略,在 Argoverse 2 多智能体基准上达到流式推理 SOTA,同时保持极低延迟。

SimScale: Learning to Drive via Real-World Simulation at Scale

提出 SimScale 框架,通过对现有驾驶日志进行轨迹扰动 + 反应式环境仿真 + 神经渲染生成大规模高保真模拟数据,配合伪专家轨迹监督和 sim-real co-training 策略,使端到端规划器在 NAVSIM v2 上取得显著提升(navhard +8.6 EPDMS),且性能随仿真数据量平滑扩展。

Single Pixel Image Classification using an Ultrafast Digital Light Projector

利用microLED-on-CMOS超快光投影器(330kfps全局快门)进行单像素成像,将12×12 Hadamard pattern投射到MNIST数字上,用单像素光电检测器采集叠加光强的时间序列,完全跳过图像重建,直接用ELM和DNN对时间序列分类,实验实现1.2kfps下>90%多分类精度和>99% AUC的二分类(异常检测)能力。

Single Pixel Image Classification using an Ultrafast Digital Light Projector

利用 microLED-on-CMOS 数字光投影器实现超快单像素成像(SPI),结合低复杂度机器学习模型(ELM 和 DNN),在完全跳过图像重建的情况下以 1.2 kHz 帧率实现了 MNIST 手写数字 >90% 的分类准确率。

SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model

提出一种基于纯注意力的稀疏占用世界模型SparseWorld-TC,绕过VAE离散化和BEV中间表示,直接从原始图像特征端到端预测轨迹条件的多帧未来占用,在nuScenes上大幅超越现有方法。

Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion

提出 VoxSAMNet,一个显式建模体素稀疏性和语义不均衡的单目语义场景补全框架,通过 Dummy Shortcut 跳过空体素、Foreground Dropout + Text-Guided Image Filter 缓解长尾过拟合,在 SemanticKITTI 上达到 18.19% mIoU 的 SOTA(超越现有单目和立体方法)。

Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis

提出 SG-NLF 框架,通过混合谱-几何表示实现无需精确位姿输入的 LiDAR 新视角合成,结合置信度感知位姿图和对抗学习策略,在 KITTI-360 和 nuScenes 上大幅超越 SOTA(Chamfer Distance 降低 35.8%,ATE 降低 68.8%)。

TerraSeg: Self-Supervised Ground Segmentation for Any LiDAR

本文提出 TerraSeg,首个自监督的域无关 LiDAR 地面分割模型,通过构建统一的 OmniLiDAR 大规模数据集(12个公开基准、15种传感器、近2200万次扫描)和创新的 PseudoLabeler 自监督伪标签生成模块,在不使用任何人工标注的情况下在 nuScenes、SemanticKITTI 和 Waymo 上达到 SOTA。

TT-Occ: Test-Time 3D Occupancy Prediction

提出 TT-Occ,一种无需预训练的测试时3D占用预测框架,通过在推理时集成视觉基础模型(VFMs)来增量构建、优化和体素化时间感知的3D高斯,在 Occ3D-nuScenes 和 nuCraft 上超越了所有需要大量训练的自监督方法。

TopoMaskV3: 3D Mask Head with Dense Offset and Height Predictions for Road Topology Understanding

本文提出 TopoMaskV3,通过引入稠密偏移场和稠密高度图两个预测头,将基于掩码的道路拓扑理解范式从 2D 弱模块升级为独立的 3D 中心线预测器,并首次在道路拓扑评估中引入地理不重叠划分和远距离基准,揭示了现有基准因地理重叠导致的性能虚高现象,在地理不重叠基准上达到 SOTA 28.5 OLS。

Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation

提出基于 Shapley 值的模态贡献评估和 Fisher 信息矩阵加权的自适应权重约束(AWC)正则化,解决多模态(RGB/LiDAR/mmWave/WiFi)3D 人体姿态估计中的模态不平衡问题,无需引入额外可学习参数即可实现平衡优化。

Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation

针对多模态3D人体姿态估计中的模态不平衡问题,提出基于Shapley值的模态贡献评估算法和基于Fisher信息矩阵的自适应权重约束(AWC)正则化方法,在不引入额外参数的情况下实现模态间的均衡优化,在MM-Fi数据集上全面超越现有平衡方法。

Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation

提出基于 Shapley 值+Pearson 相关系数的模态贡献评估算法和 Fisher 信息矩阵引导的自适应权重约束(AWC)正则化方法,解决 RGB/LiDAR/mmWave/WiFi 四模态端到端融合中的模态不平衡问题,在 MM-Fi 数据集上 MPJPE 降低 2.71mm 且不引入额外可学参数。

Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model

提出 TTSG,一个无需训练的模块化框架,能够直接从自由格式自然语言描述生成逼真的交通场景,通过 LLM 驱动的提示分析、道路检索、智能体规划和计划感知道路排序算法,无需预定义路线或生成点,在 SafeBench 上实现最低 3.5% 平均碰撞率。

Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model

提出 TTSG 模块化框架,利用 LLM 将自由文本描述转化为可执行的交通场景,通过提示分析、道路检索、智能体规划和新颖的计划感知道路排名算法生成多样化场景,在 SafeBench 上实现最低平均碰撞率 3.5%。

U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences

提出 U4D,首个不确定性感知的 4D LiDAR 世界建模框架,通过"先难后易"的两阶段扩散生成策略,先重建高不确定性区域再条件补全整个场景,并设计 MoST 模块自适应融合时空特征以保证时序一致性。

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

提出 VIRD,通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视图不变表示,在无方向先验条件下实现 SOTA 的跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。

Learning Vision-Language-Action World Models for Autonomous Driving

VLA-World将世界模型的预测想象与VLA模型的反思推理统一到一个框架中,通过生成未来帧并对其进行推理来改进轨迹规划,实现了最低的碰撞率和FID分数。

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

提出 WalkGPT——首个面向行人无障碍导航的像素定位大视觉语言模型,统一对话推理、分割掩码与深度估计于单一架构中,并构建了 41k 规模的 PAVE 数据集。

x2-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space

提出 x2-Fusion,以事件相机的时空边缘信号为锚构建统一的 Event Edge Space,将图像/LiDAR/事件特征对齐到同质边缘空间后进行可靠性感知自适应融合和跨维度对比学习,同时估计 2D 光流和 3D 场景流,在合成和真实数据上达到 SOTA。