🚗 自动驾驶¶
📹 ICCV2025 · 98 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (105) · 🔬 ICLR2026 (18) · 🤖 AAAI2026 (58) · 🧠 NeurIPS2025 (50) · 🧪 ICML2025 (11) · 💬 ACL2025 (1)
🔥 高频主题: 3D 高斯渲染 ×14 · 自动驾驶 ×13 · 扩散模型 ×8 · 3D 目标检测 ×5 · 对抗鲁棒 ×4
- 3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation
-
提出PGA,首个基于3DGS的物理对抗攻击框架,通过快速准确重建目标+解决Gaussians互/自遮挡问题+min-max背景对抗优化策略,生成跨视角鲁棒的物理对抗迷彩,在数字和物理域均超越SOTA方法。
- 3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation
-
提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。
- 3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views
-
本文提出首个大规模真实3D车辆数据集3DRealCar,包含2500辆来自100+品牌的真实车辆,每辆车约200张高分辨率360度RGB-D视图,覆盖反光/标准/暗光三种光照条件,并提供13类车辆解析标注,支持3D重建、检测、生成等多种任务。
- 3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views
-
提出首个大规模3D真实汽车数据集3DRealCar,包含2,500辆真实汽车的高分辨率(1920×1440)360度RGB-D扫描(平均每辆200张视角),覆盖100+品牌和三种光照条件(标准/高反光/暗光),提供点云、解析图等丰富标注,并基准测试了多种3D重建方法,揭示了反光和暗光条件下的重建挑战。
- 4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads
-
提出4DSegStreamer,一种基于双线程系统(预测线程+推理线程)的流式4D全景分割框架,通过几何与运动记忆维护、自车位姿预测和逆向前向光流迭代实现实时高质量4D全景分割。
- 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
-
提出6DOPE-GS,一种利用2D高斯溅射(2DGS)联合优化6D物体位姿和3D重建的model-free在线追踪方法,通过动态关键帧选择和基于透明度百分位的密度控制实现5倍加速,同时保持SOTA精度。
- 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
-
利用2D Gaussian Splatting的高效可微渲染能力,提出一种无需CAD模型的在线6D物体位姿估计与跟踪方法,通过联合优化高斯物体场和关键帧位姿,实现比BundleSDF快约5倍的速度同时保持可比精度。
- A Constrained Optimization Approach for Gaussian Splatting from Coarsely-posed Images and Noisy Lidar Point Clouds
-
提出一种无需SfM的约束优化方法,通过相机位姿分解、灵敏度预调节、对数障碍约束和几何约束,从多相机SLAM系统输出的粗糙位姿和噪声点云中联合优化相机参数与3DGS场景重建。
- ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation
-
提出 ACAM-KD,一种自适应学生-教师协作注意力掩码知识蒸馏方法,通过跨注意力特征融合(STCA-FF)和自适应空间-通道掩码(ASCM)动态调整蒸馏焦点,在 COCO 检测上超越 SOTA 最高 1.4 mAP,在 Cityscapes 分割上提升 3.09 mIoU。
- ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation
-
提出 ACAM-KD,通过学生-教师交叉注意力特征融合(STCA-FF)和自适应空间-通道遮蔽(ASCM)两个模块,使知识蒸馏中的特征选择能随学生学习状态动态演化,在 COCO 检测上 RetinaNet R50 从 R101 蒸馏时 mAP 达 41.2(+1.4 超越 SOTA),Cityscapes 分割上 DeepLabV3-MBV2 mIoU 提升 3.09。
- AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
-
本文提出 AD-GS,一种基于 3D Gaussian Splatting 的自监督自动驾驶场景渲染框架,核心创新是将可学习 B-spline 曲线与三角函数结合进行局部-全局运动建模,并通过简化的二值伪分割实现鲁棒的场景分解,在不依赖人工 3D 标注的条件下大幅超越现有自监督方法。
- AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
-
本文提出 AD-GS,一种自监督的自动驾驶场景渲染框架,通过结合局部感知的可学习 B 样条曲线和全局感知的三角函数来建模动态物体运动,并利用简化的伪 2D 分割进行场景分解,在不依赖人工 3D 标注的情况下显著超越现有自监督方法,接近有标注方法的性能。
- AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving
-
AdaDrive提出了首个自适应慢-快架构的LLM增强自动驾驶框架,通过两个自适应连接器动态决定"何时激活LLM"(Connector-W)和"LLM贡献多少"(Connector-H),在语言引导驾驶基准上实现了SOTA性能(驾驶分数80.9%),同时将推理延迟降低至189ms、显存降至6.79GB。
- Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts
-
提出 DUO(Dual Uncertainty Optimization),首个联合最小化语义不确定性和几何不确定性的测试时自适应框架,通过共轭焦点损失和法向场约束实现鲁棒的单目3D目标检测。
- AGO: Adaptive Grounding for Open World 3D Occupancy Prediction
-
提出AGO框架,通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别,并用基于信息熵的开放世界识别器在推理时动态选择最佳特征,在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU,同时具备开放世界零样本/少样本迁移能力。
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions
-
提出ALOcc框架,通过遮挡感知自适应提升机制、语义原型占用头和BEV代价体积流预测三项创新,在多个3D语义占用和占用流预测基准上取得SOTA,同时提供实时到高精度的多种模型变体。
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions
-
提出ALOcc框架,通过遮挡感知的自适应提升机制、语义原型对齐和BEV代价体flow预测三个改进,在多个占据预测基准上取得SOTA,同时保持较高推理速度。
- Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations
-
LiMA 提出了一种长时图像到 LiDAR 记忆聚合框架,通过跨视角聚合、长时特征传播和跨序列记忆对齐三个模块,显式利用 LiDAR 序列中的时空线索来增强 LiDAR 表示学习,在语义分割和 3D 目标检测任务上显著超越现有预训练方法。
- CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting
-
提出CCL-LGS框架,通过零样本跟踪器实现跨视角掩码关联,并利用对比码本学习(CCL)模块蒸馏出类内紧凑、类间可区分的语义特征,从而解决基于2D先验的3D语义场重建中因遮挡、模糊和视角变化导致的跨视角语义不一致问题。
- CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving
-
CoDa-4DGS 在 4D 高斯泼溅(4DGS)框架中引入上下文感知(2D 语义基础模型自监督 4D 语义特征)和时序形变感知(追踪相邻帧间高斯的形变),通过联合编码语义和形变特征为每个高斯提供动态补偿线索,在自动驾驶动态场景渲染中捕获更精细的细节并超越现有自监督方法。
- CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving
-
首个全流程 LLM 驱动的协作驾驶系统,通过 Actor-Critic 范式的语言协商模块和意图引导的轨迹生成器,在多种 V2V 交互场景中实现比现有方法高 11% 的成功率。
- Controllable 3D Outdoor Scene Generation via Scene Graphs
-
首次提出以场景图(Scene Graph)作为控制信号生成大规模3D室外场景的方法——通过GNN将稀疏场景图编码为BEV嵌入图,再经2D→3D级联离散扩散模型生成语义3D场景,并配套交互系统让用户直接编辑场景图来控制生成。
- CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception
-
提出 CoopTrack,首个完全实例级端到端协同 3D 多目标跟踪框架,通过可学习的图注意力关联模块和多维特征提取实现跨Agent实例匹配与融合,在 V2X-Seq 上达到 SOTA。
- Counting Stacked Objects
-
将堆叠物体计数问题分解为"体积估计"和"占空比估计"两个子问题,前者用多视角3D重建解决,后者用深度图驱动的神经网络从可见表面推断,首次实现了对不可见堆叠物体的准确计数,性能远超人类。
- CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection
-
提出CVFusion——首个4D雷达-相机两阶段融合网络,第一阶段通过雷达引导迭代(RGIter)BEV融合生成高召回率提案框,第二阶段利用点引导融合(PGF)和网格引导融合(GGF)聚合多视角异构特征进行提案精化,在VoD和TJ4DRadSet上分别取得9.10%和3.68%的mAP提升。
- DAMap: Distance-aware MapNet for High Quality HD Map Construction
-
揭示当前HD地图构建方法在高质量预测上的两大固有缺陷——不恰当的分类标签与次优的任务特征,提出DAMap(含DAFL、HLS、TMDA三个组件)系统性地解决任务错位问题,在NuScenes和Argoverse2上多个基线方法上一致提升2-3 mAP。
- DCHM: Depth-Consistent Human Modeling for Multiview Detection
-
提出 DCHM,一种无需 3D 标注的深度一致性人体建模框架,通过超像素级高斯溅射生成伪深度标签来微调单目深度估计网络,结合多视角标签匹配实现稀疏视角、遮挡严重场景下的高精度行人检测,在 Wildtrack 上 MODA 达 84.2%,MODP 较 UMPD 提升 31.2%。
- Decoupled Diffusion Sparks Adaptive Scene Generation
-
提出 Nexus,一个基于解耦扩散的自适应驾驶场景生成框架,通过独立噪声状态实现目标导向与实时响应的统一,将位移误差降低 40%,并构建了包含 540 小时安全关键驾驶数据的 Nexus-Data。
- Detect Anything 3D in the Wild
-
DetAny3D 是一个可提示(promptable)的3D检测基础模型,通过融合SAM和depth-pretrained DINO两个2D基础模型的先验知识,并提出2D Aggregator和Zero-Embedding Mapping机制实现稳定的2D-to-3D知识迁移,仅用单目图像即可在任意场景和相机配置下实现零样本3D目标检测,在新类别上零样本AP3D超越基线最多21%。
- DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation
-
提出DiST-4D,首个前馈式4D驾驶场景生成框架,通过将时间预测(DiST-T)和空间新视角合成(DiST-S)解耦为两个扩散过程,以度量深度(metric depth)为几何桥梁,在nuScenes上同时实现SOTA的时间视频生成(FVD 22.67)和空间NVS(FID 10.12),无需逐场景优化。
- Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
-
提出 ScoreLiDAR,一种针对 3D LiDAR 场景补全的扩散模型蒸馏方法,通过场景级和点级结构损失引导蒸馏,将补全时间从 30.55 秒压缩到 5.37 秒(>5x 加速),同时在 SemanticKITTI 上超越所有 SOTA 方法。
- DONUT: A Decoder-Only Model for Trajectory Prediction
-
DONUT受LLM中decoder-only架构启发,提出用统一的自回归模型处理历史和未来轨迹,配合"过预测(overprediction)"策略让模型更好预判未来,在Argoverse 2基准上取得SOTA。
- DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving
-
提出 DriveX,一个自监督世界模型框架,通过 Omni Scene Modeling(联合3D点云预测、2D语义表示和图像生成)在 BEV 潜在空间学习可迁移的通用场景表征,并设计 Future Spatial Attention 范式将预测的未来状态无缝集成到占据预测、流估计和端到端驾驶等多种下游任务中,在多个任务上达到 SOTA。
- DuET: Dual Incremental Object Detection via Exemplar-Free Task Arithmetic
-
提出 DuET 框架,首次以无样本(exemplar-free)的任务算术(Task Arithmetic)模型合并方式,同时解决目标检测中的类别增量和域增量问题(Dual Incremental Object Detection, DuIOD),并引入方向一致性损失(Directional Consistency Loss)缓解符号冲突,在 Pascal Series 和 Diverse Weather Series 上大幅超越现有方法。
- EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding
-
提出EmbodiedOcc框架,利用3D语义高斯作为全局记忆,通过逐步探索和局部更新实现基于单目视觉输入的在线室内场景三维占据预测。
- EMD: Explicit Motion Modeling for High-Quality Street Gaussian Splatting
-
提出显式运动分解(EMD)模块,通过可学习运动嵌入和双尺度形变框架为每个 Gaussian 基元建模其运动特性,作为即插即用模块可无缝集成到自监督和监督街景高斯溅射方法中,在 Waymo 和 KITTI 数据集上达到自监督设置的 SOTA 性能。
- Epona: Autoregressive Diffusion World Model for Autonomous Driving
-
提出 Epona,一种自回归扩散世界模型,通过解耦时空建模和异步多模态生成,实现高分辨率长时程驾驶视频生成与实时轨迹规划的统一框架。
- ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
-
提出ETA双系统框架,通过将大模型的当前帧计算转移到前序时间步并进行批量推理,使大模型特征在每帧都可用,在Bench2Drive上以50ms延迟达到69.53驾驶分数,提升SOTA 8%。
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection
-
提出EVT框架,通过自适应采样与自适应投影(ASAP)实现高效的LiDAR引导视图变换,结合分组混合查询选择和几何感知交叉注意力,在nuScenes测试集上以实时速度达到75.3% NDS的SOTA性能。
- Extrapolated Urban View Synthesis Benchmark
-
提出首个外推式城市视图合成(EUVS)基准,利用多遍历/多车辆/多相机公开数据集系统评估外推场景下 3DGS 及 NeRF 方法的泛化能力,揭示当前方法严重过拟合训练视角。
- Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics
-
提出"先推理,后预测"(First Reasoning, Then Forecasting)策略,通过基于查询中心的逆强化学习(QIRL)推断驾驶意图的奖励分布,并结合 Bi-Mamba 增强的 DETR 式轨迹解码器,显著提升轨迹预测的置信度和准确性。
- Free-running vs. Synchronous: Single-Photon Lidar for High-flux 3D Imaging
-
本文系统比较了单光子激光雷达(SPL)的自由运行模式和同步模式在高通量条件下的深度成像性能,提出了高效的联合最大似然估计器和基于分数模型的深度正则化算法 SSDR,证明自由运行模式在各种光通量和信背比条件下均优于同步模式。
- SDKD: Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting
-
提出SDKD(频域解耦知识蒸馏)框架,通过频率感知的教师模型和频率对齐的蒸馏策略,将复杂时空预测模型的多尺度频域知识迁移到轻量级学生网络,在Navier-Stokes数据集上MSE最高降低81.3%。
- Future-Aware Interaction Network For Motion Forecasting
-
提出 FINet,将潜在未来轨迹提前建模并融入场景编码阶段进行联合优化,同时引入 Mamba 架构替代 Transformer 进行时空建模,实现了高效且准确的运动预测。
- GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
-
提出 GaussianFlowOcc,用稀疏 3D Gaussian 分布替代密集体素网格进行占用估计,通过 Gaussian Transformer 高效建模场景,引入 Temporal Module 估计每个 Gaussian 的 3D 时序流处理动态物体,在 nuScenes 上以弱监督方式大幅超越现有方法(mIoU 提升 51%+),推理速度快 50 倍。
- GaussRender: Learning 3D Occupancy with Gaussian Rendering
-
提出 GaussRender,一个即插即用的可微高斯渲染模块,通过将预测和真值的 3D occupancy 投影到 2D 视图并施加语义和深度一致性约束,消除浮空体素等视觉伪影,在多个 benchmark 上显著提升几何保真度,尤其在 RayIoU 等表面敏感指标上提升突出。
- Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model
-
提出 GALTraj,首个将生成式主动学习应用于轨迹预测的方法——在训练过程中动态识别模型失败的尾部样本,利用可控扩散模型生成保持尾部特征且符合交通规则的新样本,有效缓解长尾数据不平衡,在提升尾部性能的同时也改善整体准确性。
- GM-MoE: Low-Light Enhancement with Gated-Mechanism Mixture-of-Experts
-
首次将混合专家(MoE)网络引入低光图像增强任务,通过三个专门的子专家网络分别处理颜色修复、细节增强和高级特征增强,并利用动态门控机制自适应调整各专家的权重,在5个基准数据集上取得了SOTA的PSNR表现。
- GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting
-
提出 GS-LIVM,首个为大规模无界室外场景设计的实时光真实感 LiDAR-惯性-视觉建图框架,通过体素级高斯过程回归(Voxel-GPR)解决 LiDAR 点云稀疏不均匀问题,利用协方差中心化设计快速初始化 3D 高斯参数,在多个室外数据集上达到 SOTA 的建图效率和渲染质量。
- GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting
-
提出 GS-Occ3D,一个可扩展的纯视觉 occupancy 重建框架,通过 Octree-based Gaussian Surfel 表示和地面/静态/动态三层解耦建模,实现了全 Waymo 数据集的纯视觉 occupancy 标注生成,在下游任务上达到与 LiDAR 标注可比甚至更好的零样本泛化性能。
- Hermes: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
-
提出 Hermes,第一个统一 3D 场景理解(VQA/描述)和未来场景生成(点云预测)的驾驶世界模型,通过 BEV 表征和 world queries 将 LLM 的世界知识注入未来场景生成,3s 点云生成误差降低 32.4%,场景理解 CIDEr 提升 8.0%。
- IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
-
提出 IGL-Nav,基于增量式 3D 高斯表示构建可渲染场景记忆,并通过粗到精的目标定位策略高效解决图像目标导航问题,同时支持任意相机视角的自由视图设定。
- INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception
-
提出 INSTINCT,一种基于 LiDAR 的实例级交互协作感知框架,通过质量感知过滤、双分支检测路由和跨智能体局部实例融合三个核心模块,在多个数据集上实现 SOTA 性能的同时将通信带宽降低至现有方法的 1/264~1/281。
- LangTraj: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation
-
提出 LangTraj,首个在训练阶段直接以自然语言为条件的扩散模型轨迹仿真器,并构建了包含 150K 人工标注交互行为的 InterDrive 数据集,支持语言可控的多智能体交互仿真和安全关键场景生成。
- Language Driven Occupancy Prediction (LOcc)
-
提出LOcc,一个有效且可泛化的开放词汇占据(OVO)预测框架,核心是设计了语义传递标注管线(LVLM+OV-Seg→LiDAR→voxel),生成密集细粒度的3D语言占据伪GT,替代了噪声大且稀疏的传统中间特征蒸馏,在Occ3D-nuScenes上全面超越SOTA。
- Leveraging 2D Priors and SDF Guidance for Dynamic Urban Scene Rendering
-
提出 UGSDF 方法,将 SDF 网络与 3D Gaussian Splatting 联合学习来建模动态城市场景中的物体,仅使用 2D 先验(深度网络+点跟踪器)即可实现 SOTA 渲染效果,无需 LiDAR 数据、3D 运动标注或人体模板。
- SkyDiffusion: Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis
-
提出SkyDiffusion,结合Curved-BEV变换和BEV引导扩散模型,实现从地面街景图像到航拍/卫星图像的高质量跨视角合成,并引入Ground2Aerial-3多场景数据集。
- LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal
-
提出 LightsOut,一个基于扩散模型的图像外推框架,通过预测和重建画面外的光源来增强现有单图光斑去除(SIFR)方法的性能,作为即插即用的预处理模块无需额外训练即可提升任意 SIFR 模型的效果。
- Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation
-
提出 InfGen,一个统一的自回归 next-token prediction 模型,通过交替进行闭环运动仿真和场景生成(智能体的动态插入与移除),首次实现稳定的长时程(30秒)交通仿真,在短时程任务上达到 SOTA 水平,在长时程任务上显著超越所有现有方法。
- LookOut: Real-World Humanoid Egocentric Navigation
-
LookOut 提出从第一人称带位姿视频中预测未来 4.5 秒内的 6D 头部姿态序列(平移 + 旋转),通过将 DINOv2 特征反投影到 3D 空间再压缩为 BEV 表示来理解场景几何与语义,在自采集的 4 小时真实世界动态场景数据集上学习到等待、绕行、过马路前左右张望等类人导航行为。
- MAESTRO: Task-Relevant Optimization via Adaptive Feature Enhancement and Suppression for Multi-task 3D Perception
-
提出 MAESTRO 框架,通过类别原型生成(CPG)、任务特定特征生成(TSFG)和场景原型聚合(SPA)三个模块,在多任务3D感知中生成任务特定特征并抑制任务间干扰,在3D目标检测、BEV地图分割和3D占用预测三个任务上同时超越单任务模型。
- MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding
-
提出 MCAM,通过驾驶状态有向无环图 (DSDAG) 构建视觉-语言模态间的因果结构,结合多层级特征提取和因果分析模块,用于自车级别驾驶视频理解中的行为描述与原因推理。
- MGSfM: Multi-Camera Geometry Driven Global Structure-from-Motion
-
提出 MGSfM,一个面向多相机系统的全局 Structure-from-Motion (SfM) 框架,通过解耦旋转平均 (DMRA) 和混合平移平均 (MGP) 两个核心模块,充分利用多相机刚性约束,在大规模场景中实现与增量式 SfM 媲美甚至更优的精度,同时速度提升约 10 倍。
- Mixed Signals: A Diverse Point Cloud Dataset for Heterogeneous LiDAR V2X Collaboration
-
Mixed Signals 是首个包含异构 LiDAR 配置(不同高度和倾斜角)的真实世界 V2X 数据集,由 3 辆自动驾驶车 + 路侧单元采集,提供 4.51 万点云帧和 24.06 万标注框,同时也是首个左行交通国家(澳大利亚)的 V2X 数据集。
- MonoSOWA: Scalable Monocular 3D Object Detector Without Human Annotations
-
提出首个完全不依赖人工标注(包括 2D 和 3D)的单目 3D 物体检测方法,通过新提出的局部目标运动模型(LOMM)解耦帧间运动来源,自动标注速度比前人快 700 倍,并通过规范目标空间(COS)融合不同相机设置的多数据集训练。
- Occupancy Learning with Spatiotemporal Memory
-
提出 ST-Occ,一个场景级时空占用表示学习框架,通过统一时序建模(Unified Temporal Modeling)范式,使用场景坐标系下的时空记忆库和具有不确定性/动态感知的记忆注意力机制,在 Occ3D 基准上比 SOTA 提升 3 mIoU,同时将时序不一致性降低 29%。
- OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving
-
提出 OD-RASE 框架,通过构建道路交通专家知识本体(ontology)来过滤 LVLM 生成的道路基础设施改善方案,实现对事故风险道路结构的前瞻性识别与改善建议生成。
- Passing the Driving Knowledge Test
-
构建DriveQA——首个大规模文本+视觉双模态驾驶知识测试基准(26K文本QA + 448K图像QA),系统评估LLM/MLLM在交通规则、标志识别和路权判断等驾驶知识上的能力,揭示其在数值推理和复杂路权场景中的显著不足,并展示DriveQA预训练对下游驾驶任务的泛化增益。
- PBCAT: Patch-Based Composite Adversarial Training against Physically Realizable Attacks on Object Detection
-
提出 PBCAT(Patch-Based Composite Adversarial Training),通过结合小面积梯度引导对抗补丁和全局不可感知扰动进行对抗训练,统一防御多种物理可实现攻击(对抗补丁+对抗纹理),在行人检测任务上比之前 SOTA 防御方法提升 29.7% AP。
- ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation
-
ReconDreamer++ 在 ReconDreamer 基础上,通过引入新轨迹可变形网络(NTDNet)弥合生成数据与真实观测的域差距,并独立建模地面以保留几何先验,在 Waymo 上实现了原始轨迹性能持平 Street Gaussians、新轨迹 NTA-IoU 提升 6.1%、FID 改善 23.0% 的显著效果。
- Referring Expression Comprehension for Small Objects
-
提出 SOREC 数据集(10万对小目标指称表达和 bounding box)和 PIZA 适配器模块(渐进式迭代缩放),使 GroundingDINO 等预训练模型能以自回归方式逐步放大定位极小目标,在自动驾驶场景中大幅提升小目标 REC 精度。
- RESCUE: Crowd Evacuation Simulation via Controlling SDM-United Characters
-
提出首个在线 SDM(感知-决策-运动)统一 3D 疏散仿真框架 RESCUE,集成 3D 自适应社会力模型和个性化步态控制器,实现数百智能体的实时个性化疏散模拟。
- Resonance: Learning to Predict Social-Aware Pedestrian Trajectories as Co-Vibrations
-
本文提出 Resonance (Re) 模型,将行人轨迹预测分解为多个"振动"的叠加——线性基底、自偏置(self-bias)和共振偏置(resonance-bias),利用轨迹频谱的相似性模拟社会交互中的"共振"现象,在 ETH-UCY、SDD、NBA、nuScenes 等数据集上验证了方法的有效性。
- Resonance: Learning to Predict Social-Aware Pedestrian Trajectories as Co-Vibrations
-
提出Resonance模型,受物理共振系统启发,将行人轨迹分解为多个独立"振动"分量以模拟智能体对各单一原因的反应,通过振动叠加预测轨迹,并利用共振现象学习社会交互表示,增强可解释性。
- RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case
-
提出RoboTron-Sim框架,通过构建困难场景仿真数据集HASS、场景感知提示工程SPE和图像到自车编码器I2E,使MLLM有效利用仿真困难案例提升真实世界自动驾驶性能,在nuScenes困难场景下L2距离降低~48%、碰撞率降低~46%,达到开环规划SOTA。
- Robust 3D Object Detection using Probabilistic Point Clouds from Single-Photon LiDARs
-
提出概率点云(PPC)表示——将单光子LiDAR原始时间直方图中的测量置信度作为概率属性附加到每个3D点上,配合轻量级NPD滤波和FPPS采样方法,实现低信噪比(SBR)下鲁棒的3D目标检测,在SUN RGB-D和KITTI上大幅超越点云去噪基线,且几乎不增加计算开销。
- RTMap: Real-Time Recursive Mapping with Change Detection and Localization
-
提出RTMap——首个端到端框架,同时解决多次遍历在线HD地图构建中的三大核心挑战:基于先验地图的定位、道路结构变化检测和概率感知众包地图融合,在TbV和nuScenes上同时提升地图质量和定位精度。
- SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World
-
提出 SA-Occ,首个利用卫星图像辅助车载相机进行 3D 占用预测的方法,通过动态解耦融合、3D 投影引导和均匀采样对齐三个模块解决跨视角感知挑战,在 Occ3D-nuScenes 上以仅 6.93ms 额外延迟实现 39.05% mIoU(提升 6.97%)。
- Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control
-
提出 SQIL(Saliency-Aware Quantized Imitation Learning),通过显著性评分识别任务关键状态并在量化感知训练中加权蒸馏,使 4-bit 量化的 VLA 策略模型在机器人操控和自动驾驶中恢复全精度性能,同时实现 2.5-3.7 倍加速。
- SAM4D: Segment Anything in Camera and LiDAR Streams
-
提出 SAM4D,首个面向相机和 LiDAR 流的可提示多模态分割基础模型,通过统一多模态位置编码(UMPE)实现跨模态提示与交互,通过运动感知跨模态记忆注意力(MCMA)确保时序一致性,并构建包含 30 万+ masklet 的 Waymo-4DSeg 数据集,在跨模态分割和数据标注方面展示了强大能力。
- Self-Supervised Sparse Sensor Fusion for Long Range Perception
-
LRS4Fusion 提出基于稀疏体素表示的长距离LiDAR-Camera融合方法,配合自监督预训练策略(通过稀疏占用和速度场重建),在250米感知范围内实现了目标检测 mAP 提升 26.6%、LiDAR预测 Chamfer Distance 降低 30.5% 的SOTA性能。
- Semantic Causality-Aware Vision-Based 3D Occupancy Prediction
-
从因果关系视角分析视觉3D占用预测中2D到3D变换的语义歧义问题,提出因果损失(Causal Loss)实现端到端语义一致性监督,并设计SCAT模块(通道分组提升、可学习相机偏移、归一化卷积)显著提升占用预测精度和相机扰动鲁棒性。
- SeqGrowGraph: Learning Lane Topology as a Chain of Graph Expansions
-
模拟人类绘图过程,将车道拓扑建模为逐步图扩展的链式序列,通过自回归变换器增量构建有向车道图,克服 DAG 方法无法表达环路和双向车道的局限。
- SparseLaneSTP: Leveraging Spatio-Temporal Priors with Sparse Transformers for 3D Lane Detection
-
提出 SparseLaneSTP,将车道线几何先验(平行性、连续性)和时序信息融合进稀疏 Transformer 架构,通过 Catmull-Rom 样条表示、时空注意力机制和时序正则化,在多个 3D 车道线检测基准上取得 SOTA。
- Splat-LOAM: Gaussian Splatting LiDAR Odometry and Mapping
-
首个纯基于 2D Gaussian 原语的 LiDAR 里程计与建图管线,通过球面投影驱动的可微分光栅化器同时实现高精度位姿估计和轻量化场景重建。
- SRefiner: Soft-Braid Attention for Multi-Agent Trajectory Refinement
-
提出 Soft-Braid Attention,通过"软交叉点"显式建模轨迹间和轨迹与车道间的时空拓扑关系来指导多智能体轨迹精炼,在 Argoverse v2 和 INTERACTION 两个数据集上对四种基线方法均实现显著提升,建立了轨迹精炼任务的新 SOTA。
- TARS: Traffic-Aware Radar Scene Flow Estimation
-
提出 TARS,一种交通感知的雷达场景流估计方法,通过联合目标检测构建交通向量场(TVF),在交通层面而非实例层面捕获刚体运动,在 VOD 和专有数据集上分别超越 SOTA 15% 和 23%。
- Towards Open-World Generation of Stereo Images and Unsupervised Matching
-
提出 GenStereo,一种基于扩散模型的立体图像生成框架,通过视差感知坐标嵌入、跨视图注意力和自适应融合机制,同时实现高视觉质量和高几何精度的立体图像生成,并推动无监督立体匹配达到新 SOTA。
- TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking
-
TrackAny3D 首次将大规模预训练3D模型迁移到类别无关的3D单目标跟踪任务,通过双路径适配器、混合几何专家(MoGE)和时序上下文优化策略,在单一模型上实现了跨类别统一跟踪的SOTA性能。
- TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes
-
提出 TrafficLoc,一种粗到细的图像-点云配准方法,通过几何引导注意力损失(GAL)、模态间-模态内对比学习(ICL)和稠密训练对齐(DTA),实现交通监控相机在3D参考地图中的高精度定位,在自建 Carla Intersection 数据集上较 SOTA 提升达 86%。
- UAVScenes: A Multi-Modal Dataset for UAVs
-
UAVScenes 是首个同时提供逐帧图像和 LiDAR 点云语义标注及精确 6-DoF 位姿的大规模多模态无人机数据集,包含超 12 万帧标注数据,支持语义分割、深度估计、定位、场景识别和新视角合成等六类感知任务。
- UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving
-
提出 UniOcc,首个统一的 2D/3D 占据预测与预报基准,整合 nuScenes、Waymo、CARLA 和 OpenCOOD 四个数据源,引入逐体素流标注和不依赖真值标签的评估指标,通过大规模实验揭示了体素级流信息和跨域训练对占据任务的重要价值。
- Unleashing the Temporal Potential of Stereo Event Cameras for Continuous-Time 3D Perception
-
提出首个仅依赖立体事件相机的 3D 目标检测框架,通过语义-几何双重滤波模块和目标中心 ROI 对齐,在 blind time 期间实现连续时间 3D 检测,在动态大运动场景下显著优于依赖同步传感器的方法(Ev-3DOD),行人 AP3D 甚至超越使用 LiDAR+RGB+Event 的方法。
- Unraveling the Effects of Synthetic Data on End-to-End Autonomous Driving
-
提出 SceneCrafter,一个基于 3DGS 的统一仿真框架,通过自适应运动学模型和双向交互式智能体控制,同时支持合成数据生成和闭环评估,实验证明合成数据可显著提升端到端自动驾驶模型的泛化能力(Route Completion 提升 18%)。
- Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks
-
Wavelet Policy 首次将小波分析引入具身智能的策略学习,设计了基于可学习提升方案(lifting scheme)的多尺度策略网络,通过将观测序列分解为不同频率分量后逐层合成动作序列,在自动驾驶(CARLA)、机器人操作、多机器人协作等5个长horizon任务上取得了优于或持平基线的性能。
- Where am I? Cross-View Geo-localization with Natural Language Descriptions
-
引入基于自然语言描述的跨视角地理定位新任务,构建覆盖3个城市3万+坐标的CVG-Text多模态数据集(街景+卫星+OSM+文本),并提出CrossText2Loc方法——通过扩展位置嵌入处理长文本和可解释检索模块提供定位理由,Top-1召回率提升超10%。
- Where, What, Why: Towards Explainable Driver Attention Prediction
-
本文提出了"可解释驾驶员注意力预测"新范式,构建了首个大规模 W³DA 数据集并设计了 LLada 框架,将空间注意力预测(Where)、语义解析(What)和认知推理(Why)统一在一个端到端的大语言模型驱动架构中。
- World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
-
构建意图感知的潜在世界模型 World4Drive,利用视觉基础模型的空间-语义先验,在无感知标注条件下实现端到端规划,L2误差降低18.1%,碰撞率降低46.7%。