🚗 自动驾驶¶
📷 CVPR2026 · 157 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (50) · 🧪 ICML2026 (8) · 🤖 AAAI2026 (56) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (91) · 🧪 ICML2025 (10)
🔥 高频主题: 自动驾驶 ×35 · 多模态 ×16 · Agent ×12 · 语义分割 ×10 · 3D 目标检测 ×10
- ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous Driving
-
ActiveAD 为端到端自动驾驶设计了一套"规划导向"的主动学习策略:用几乎免费的元信息(天气/光照/驾驶指令/车速)做多样性初始化解决冷启动,再用位移误差、软碰撞、Agent 不确定性三个免标注准则挑出最该标的场景,只标 30% 数据就在 nuScenes 开环和 CARLA 闭环上追平用 100% 数据训练的 SOTA。
- AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception
-
提出 AdaRadar——基于 DCT 频谱剪枝与零阶代理梯度的在线自适应雷达数据压缩框架,在 100× 以上压缩率下仅损失 ~1%p 检测/分割性能,有效缓解雷达传感器到计算端的带宽瓶颈。
- AMap: Distilling Future Priors for Ahead-Aware Online HD Map Construction
-
AMap 指出现有时序高精地图方法「只增强已驶过的后方、对关键的前方道路几乎无改善」这一安全隐患,提出「从未来蒸馏」范式——用能看到未来帧的教师隐式地把前向先验灌进只看当前帧的轻量学生,在零推理开销下显著提升前向(A-mAP)建图精度。
- An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving
-
提出ADMesh(15K+高质量3D模型库)和CarlaOcc(10万帧、0.05m精度的全景占据数据集),首次为自动驾驶3D全景占据预测提供实例级标注和物理一致的地面真值,并引入占据质量评估指标和系统基准测试。
- BEV-CAR: Enhancing Monocular Bird's Eye View Segmentation with Context-Aware Rasterization
-
BEV-CAR 用一个「训练时才开、推理时移除」的上下文光栅化机制,把解码器输出沿视线方向重排成一条条射线、按 Bresenham 算法离散采样后逐射线监督,再叠加深度+全局双分支 BEV 特征融合,在 nuScenes(mIoU 31.5%)和 Argoverse(29.9%)上拿到 SOTA,且推理零额外开销、43.1 FPS 实时。
- BEV-SLD: Self-Supervised Scene Landmark Detection for Global Localization with LiDAR Bird's-Eye View Images
-
提出BEV-SLD,一种基于自监督场景地标检测(Scene Landmark Detection)的LiDAR全局定位方法,将检测与对应关系预测解耦,仅需20MB即可在多种场景下实现高精度(x, y, azimuth)位姿估计。
- Beyond Rule-Based Agents: Active Markov Games for Realistic Multi-Agent Interaction in Autonomous Driving
-
把驾驶环境建模成"状态转移和奖励都依赖各智能体当前策略"的主动马尔可夫博弈(AMG),再用多智能体协同进化训练让自车策略和一池子风格各异的对手策略互相博弈、共同进化,从而在 CARLA 无信号灯路口和长尾场景里学到鲁棒的交互式决策,碰撞率压到 0.02、成功率到 98%。
- Bezier Degradation Modeling for LiDAR-based Human Motion Capture
-
针对 LiDAR 点云稀疏、遮挡严重导致动捕预测抖动甚至失败的问题,本文提出 BMLiCap:先用可压缩的贝塞尔曲线把人体运动表示成"粗趋势 + 细节控制点"的多层级结构,再用一个 Time-scale Motion Transformer 在单次前向里粗到细地重建各时间尺度运动曲线,在 4 个 LiDAR 动捕基准上同时刷新精度(MPJPE)和时序连续性(加速度误差)。
- BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds
-
提出BuildAnyPoint,通过松耦合级联扩散Transformer(Loca-DiT)实现从多样分布的点云(机载LiDAR、SfM、稀疏噪声点云)到结构化3D建筑Mesh的统一重建——先用分层潜在扩散恢复底层点云分布,再用自回归Transformer生成紧凑多边形Mesh。
- C-LaV: Conditional Latent Velocity Field Denoising for Weather-Robust LiDAR Place Recognition
-
C-LaV 把雨雪雾导致的 LiDAR 退化放到冻结 DINOv2 的 BEV 潜空间里去补偿——用条件 Flow Matching 学一个速度场、再解概率流 ODE 把"含天气噪声的潜表示"确定性地搬回"晴天潜表示",最后用 SALAD 聚类头出全局描述子做检索,在 NCLT 雪天和真实 Boreas 上 Recall@1 分别提升 17.5% 和 21.5%。
- CARD: A Multi-Modal Automotive Dataset for Dense 3D Reconstruction in Challenging Road Topography
-
CARD 是一个面向"非平整路面"(减速带、坑洼、不规则与越野路段)的多模态自动驾驶数据集,通过一套新颖的多 LiDAR 融合真值生成管线,给每帧图像提供约 50 万个 LiDAR 实测深度点(约为 KITTI Depth Completion 的 6.5 倍),并配套路面形貌 2D 标注框、轮-地接触点激励轨迹和标准化评测协议,专门用来评估细粒度路面几何的深度估计/补全能力。
- CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception
-
CATNet 针对车路协同感知里"通信时延 + 多源噪声"两大现实顽疾,串联时空递归同步(STSync)、双分支小波去噪(WTDen)、自适应特征选择(AdpSel)三个模块,在 OPV2V/V2XSet/DAIR-V2X 三个数据集的带噪带延迟场景下把 AP 推到 SOTA,且参数量仅 9.95M。
- CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention
-
提出 CausalVAD,通过将 Pearl 后门调整理论参数化为即插即用模块(SCIS),在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预,消除虚假关联,实现更安全、更鲁棒的端到端自动驾驶。
- CCF: Complementary Collaborative Fusion for Domain Generalized Multi-Modal 3D Object Detection
-
针对双分支多模态3D检测器在域迁移场景下的模态不平衡问题,提出 CCF 框架,通过解耦损失、LiDAR引导深度先验和互补跨模态掩码三个组件系统提升相机查询的利用率和跨域鲁棒性。
- ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data
-
提出ClimaDrive数据生成框架和ClimaOoD基准数据集,通过语义引导的多天气场景生成+透视感知的异常物体放置,构建10K+训练集覆盖6种天气×93类异常,训练后四个SOTA方法平均AP提升3.25%。
- CogDriver: Integrating Cognitive Inertia for Temporally Coherent Planning in Autonomous Driving
-
CogDriver 把"认知惯性"(人类对意图的自然持续性)显式注入端到端驾驶系统:一边用多视角时空 MLLM 自动标注带连续叙事的 VLA 数据集,一边在 agent 里塞进一个稀疏时序记忆模块(TCM)维持稳定内部状态,使决策不再逐帧抖动;在 Bench2Drive 闭环 Driving Score 提升 22%、nuScenes L2 误差降低 21%,刷新 SOTA。
- CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection
-
提出 CoIn3D 框架,通过空间感知特征调制(SFM)和相机感知数据增强(CDA)两个模块,显式建模相机内参/外参/阵列布局的空间先验差异,实现多相机3D检测模型从源配置到未见目标配置的强泛化迁移,适用于 BEVDepth / BEVFormer / PETR 三大主流范式。
- ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
-
ColaVLA 提出统一的视觉-语言-动作(VLA)框架,将 VLM 的推理从文本链式思考迁移到潜空间,通过认知潜空间推理器(Cognitive Latent Reasoner)和层次化并行规划器(Hierarchical Parallel Planner),仅需两次 VLM 前向传播即可高效完成场景理解与轨迹解码,在 nuScenes 开环和闭环评测上均达到 SOTA。
- CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion
-
CoLC 提出一种通信高效的早期协同感知框架,通过前景感知点采样(FAPS)减少传输量,结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示,并用稠密引导双对齐(DGDA)保证语义和几何一致性,在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。
- CoopDiff: A Diffusion-Guided Approach for Cooperation under Corruptions
-
CoopDiff 把多智能体协同感知里的"抗腐蚀"问题重写成一个特征空间扩散去噪任务:用一个质量感知教师生成干净的监督特征,再让一个双分支扩散学生在带噪输入下把它重建出来,从而在雾、运动模糊、EMI 等六类腐蚀下都稳定超过现有 SOTA。
- Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning
-
CF-VLA 让自动驾驶 VLA 先生成"分时段元动作",再对自己刚提出的动作做反事实推理("如果照这个计划走会怎样、该不该改")并在出轨迹前自我修正,配合一条 rollout–filter–label 数据管线只在难场景上标注反事实 trace,从而学出"只在该想的时候才想"的自适应推理,轨迹精度提升约 17.6%、安全指标提升约 20%。
- CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation
-
提出 CycleBEV 正则化框架:训练时引入逆视角变换(IVT)网络将 BEV 分割图映射回透视图(PV)分割图,通过循环一致性损失及高度感知几何正则化、跨视角隐空间对齐两项新目标来增强现有 BEV 语义分割模型,推理时不增加任何开销。
- Deformable Gaussian Occupancy: Decoupling Rigid and Nonrigid Motion with Factorized Distillation
-
DeGO 给弱监督相机占据预测的每个 3D 高斯加一个"软刚体掩码",让它自适应地走"刚性位移"还是"非刚性形变",再从 VGGT 这个 4D 基础模型蒸馏跨相机+跨帧特征,在 Occ3D-NuScenes 上把整体 mIoU 提了 10.9%、人体类指标提了 13.5%。
- Den-TP: A Density-Balanced Data Curation and Evaluation Framework for Trajectory Prediction
-
从数据中心视角出发,提出 Den-TP 框架通过密度感知的数据集筛选和评估协议来解决轨迹预测数据集中场景密度的长尾不平衡问题,仅用 50% 数据就能保持整体性能并显著改善高密度场景的鲁棒性。
- DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images
-
把"相机位姿"从输入变成输出,用一个 ViT 多头网络一次前向就从无位姿的稀疏图像直接重建出动态驾驶场景的 4D 高斯表示(含位姿、深度、动态图、3D 运动),再用单步扩散精修渲染,在 Waymo 上达到 27.41 PSNR、单场景 0.39 秒,且支持任意输入帧数和跨数据集零样本迁移。
- Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving
-
针对学习型规划器"逐帧抖动"和"照抄历史轨迹"两难,DFP 把整条轨迹切成历史/当前/未来若干 chunk、给每块独立加噪联合去噪,再在推理时用「历史退火 CFG」可控地调节历史影响强度,在 nuPlan 闭环上既稳又能随场景自适应,达到学习型基线里的 SOTA。
- DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving
-
提出DLWM,面向自动驾驶的双潜在世界模型全局高斯中心预训练范式——Stage1自监督学习3D高斯场景表示(渲染多视图语义+深度图),Stage2训练双潜在世界模型:高斯流引导的模型用于下游占据感知/预测(+1.02/+2.68 mIoU),自车轨迹引导的模型用于运动规划(-16% L2误差),解决了高斯查询跨帧无法直接监督的排列等价性挑战。
- Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving
-
提出 DMW(Drive My Way),一个个性化 VLA 驾驶框架,通过用户嵌入学习长期驾驶习惯并结合自然语言指令进行短期偏好适配,使用 GRPO 强化微调和风格感知奖励实现个性化驾驶行为生成。
- DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving
-
DriveCombo 是首个面向"组合式交通规则推理"的多模态基准:用一个从单规则理解到规则冲突仲裁的五级认知阶梯组织 7 万道选择题,并用 Rule2Scene Agent 把文本法规自动转成 CARLA 中可执行的 3D 驾驶场景;评测 14 个主流 MLLM 发现它们在最高级冲突仲裁任务上准确率骤降到 41%–44%,远低于人类的 >98%。
- DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
-
DriveMoE 把混合专家(MoE)同时塞进 VLA 自动驾驶模型的感知端和决策端——感知端用 Vision MoE 动态挑选关键摄像头视角省 token,决策端用 Action MoE 为不同驾驶技能分配专属专家,在 Bench2Drive 闭环上把驾驶分从 55.85 拉到 74.22、成功率从 30% 拉到 48.64%。
- DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
-
DrivePI 用一个仅 0.5B 的 Qwen2.5 作 backbone,把激光雷达点云、多视角图像和语言指令塞进同一个 MLLM,靠四个专用 head 同时输出场景描述、3D 占用、占用流和规划轨迹,让 VLA 模型既有语言交互能力又恢复了 VA 模型那种细粒度空间感知,端到端联合训练即超越 7B 量级的 VLA 和专用 VA 方法。
- DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation
-
DrivePTS 针对自动驾驶可控场景生成中"地图与 3D 框相互绑死、文本描述太粗、前景结构模糊"三大痛点,提出先学路再学物的渐进式训练(配互信息约束解耦)、VLM 生成六维多视角描述、以及频域引导的结构损失,在 nuScenes 上 FID 降到 11.45、道路 mIoU 提到 63.95,并能生成此前方法失败的稀有路况。
- DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance
-
提出首个360°全视角驾驶员注意力数据集(~100万帧/19名驾驶员),并设计DriverGaze360-Net通过辅助语义分割头联合学习注意力图与被关注物体,在全景驾驶图像上达到SOTA注意力预测性能。
- DriveVLN: Towards Mapless Vision-and-Language Navigation in Autonomous Driving
-
DriveVLN 把"视觉语言导航"搬到自动驾驶里:在没有高精地图、只给一句"去出口/去充电桩"这类目的地级指令的情况下,让车靠视觉线索和历史决策自己找路;作者基于 CARLA 重建 200 个真实场景做闭环 benchmark,并用"规划模块出候选轨迹 + VLM 选轨迹 + 两阶段训练(SFT→GRPO 强化)"搭了个 baseline,Driving Score 0.67 超过 Seed-1.6 和 GPT-5。
- Driving on Registers (DrivoR)
-
DrivoR 用一个纯 transformer 的端到端驾驶架构,给每个相机加一组可学习的 register token 把上千个 ViT 视觉 token 压成几十个「场景 token」,再用两个解耦的解码器分别生成和打分候选轨迹,参数仅约 40M 却在 NAVSIM-v1/v2 和闭环 HUGSIM 上达到或超过更重的 baseline。
- Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving
-
提出 Dr.Occ,一个统一的纯视觉 3D 占用预测框架,通过深度引导的双投影视图变换器(D2-VFormer)利用 MoGe-2 高质量深度先验实现精确几何对齐,以及区域引导的 MoE/MoR 专家 Transformer(R-EFormer / R2-EFormer)自适应分配区域专家解决空间语义不平衡,在 Occ3D-nuScenes 上将 BEVDet4D 基线提升 7.43% mIoU。
- DSERT-RoLL: Robust Multi-Modal Perception for Diverse Driving Conditions with Stereo Event-RGB-Thermal Cameras, 4D Radar, and Dual-LiDAR
-
本文发布了同时采集双目事件-RGB-热成像相机、4D 雷达与双 LiDAR、覆盖雨雪雾/夜间/HDR 等极端工况的驾驶数据集 DSERT-RoLL,并配套提出一个「先用测距传感器出初始框、再用三路相机特征以体素为中心做可变形采样补充语义、最后按相机置信度门控融合」的多模态 3D 检测框架,在全部天气/光照条件下取得最高 AP。
- E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving
-
E3AD 把"乘客情感"塞进端到端自动驾驶的 VLA 框架:用连续的 Valence-Arousal-Dominance(VAD)情感空间从自然语言指令里读出语气与紧迫度,配合双通道(自我中心+世界中心)空间推理,再用一致性导向的三阶段训练(含 DPO 情感-动作对齐)让规划轨迹既听懂"说什么"又听懂"怎么说的",在视觉定位、情感估计和轨迹规划上全面超过 SOTA。
- EE-RL: Vision Language Guided Reinforcement Learning with Explorer and Expert model for End-to-End Autonomous Driving
-
EE-RL 用一个 RL「探索者」+ 两个 LoRA 微调的 VLM「专家」+ 双经验回放池组成端到端驾驶框架,让 VLM 专门为红灯、行人横穿这类「稀疏但要命」的场景生成奖励与经验,再配合 StateHash 跳过冗余 VLM 推理,在 CARLA Leaderboard 上把 Town03 的驾驶分和违规分各拉高约 20%,并在红灯闯行场景做到 0% 事故率。
- Efficient Equivariant Transformer for Self-Driving Agent Modeling
-
提出 DriveGATr,一种基于 2D 射影几何代数(Projective Geometric Algebra)的等变 Transformer 架构,无需显式成对相对位置编码即可实现 SE(2)-等变性,在交通模拟任务中达到 SOTA 性能的同时显著降低计算成本。
- ELiC: Efficient LiDAR Geometry Compression via Cross-Bit-depth Feature Propagation and Bag-of-Encoders
-
ELiC 在轻量级实时 LiDAR 几何压缩器 RENO 的基础上,引入「跨比特深度特征传播 + 编码器袋(Bag-of-Encoders)选择 + Morton 序保持层级」三件套,让稀疏的高比特层复用稠密低比特层的上下文特征,在 Ford / SemanticKITTI 上以 10 FPS 实时吞吐取得超越同类的压缩率。
- EventDrive: Event Cameras for Vision-Language Driving Intelligence
-
EventDrive 构建了第一个把事件流 + RGB 帧 + 语言监督打通整条驾驶链(感知→理解→预测→规划,4 级 17 子任务,47 万样本)的 benchmark,并配套提出 EventDrive-VLM——用「多尺度体素化 + MoE 门控的动态时域编码器」和「Event Q-Former」把异步事件对齐进 LLM 语义空间,事件-帧融合后在所有任务族上全面超过纯帧 / 纯事件模型,规划 L2 误差从 4.54m 降到 3.66m。
- EMDUL: Expanding mmWave Datasets for Human Pose Estimation with Unlabeled Data and LiDAR Datasets
-
提出 EMDUL 管线,通过伪标签标注无标注毫米波数据(含新设计的无监督时序一致性损失 UTCL)和闭式 LiDAR→mmWave 点云转换器(含基于流的点过滤 FPF),大幅扩展毫米波 HPE 数据集的规模与多样性,域内误差降低 15.1%、跨域误差降低 18.9%。
- Failure Modes for Deep Learning-Based Online Mapping: How to Measure and Address Them
-
本文系统性地定义和量化了深度学习在线建图模型的两种失败模式——定位过拟合和地图几何过拟合,提出基于 Fréchet 距离的性能度量和基于最小生成树(MST)的训练集稀疏化策略,在 nuScenes 和 Argoverse 2 上验证了几何多样且均衡的训练集能改善模型泛化能力。
- FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts
-
提出FedBPrompt框架,通过身体分布感知视觉提示机制(BAPM)将prompt分为Body Part Alignment Prompts和Holistic Full Body Prompts两组,配合Prompt-based Fine-Tuning Strategy(PFTS)冻结ViT backbone仅训练轻量prompt(通信量降至~1%),在FedDG-ReID任务上平均mAP提升3.3%、Rank-1提升4.9%。
- FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision
-
提出 FlashCap,首个基于闪烁 LED + 事件相机的运动捕捉系统,通过为每个 LED 配置不同的闪烁频率实现身份识别,构建了首个 1000Hz 标注精度的人体运动数据集 FlashMotion(715 万帧),并提出 ResPose 基线方法,将运动定时误差从 ~50ms 降至 ~5ms,姿态估计 MPJPE 降低约 40%。
- FoSS: Modeling Long-Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier–State Space Integration
-
FoSS 提出一种频域-时域双分支框架,通过渐进螺旋重排序(HelixSort)将傅里叶频谱有序化后输入选择性状态空间模型(SSM),结合时域动态 SSM 和交叉注意力融合,在 Argoverse 1/2 上取得 SOTA 轨迹预测精度,同时参数量减少 40%+、推理延迟降低 22%。
- Gau-Occ: Geometry-Completed Gaussians for Multi-Modal 3D Occupancy Prediction
-
Gau-Occ 把自动驾驶场景建模成一组紧凑的语义 3D 高斯锚点,用一个"逐点局部扩散"的 LiDAR 补全模块先把稀疏点云补全成几何完整的结构,再用 Gaussian Anchor Fusion 把多视角图像语义高效灌进每个锚点,从而绕开昂贵的稠密体素/BEV 张量,在 SurroundOcc / Occ3D / KITTI-360 三个基准上取得 SOTA 且计算高效。
- GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
-
GaussianDWM 用「语言增强的 3D Gaussian」作为统一场景表征,把每个高斯椭球嵌入 CLIP 语言特征实现文本与 3D 几何的显式对齐,再经任务感知采样把紧凑 3D token 喂给 LLM,既能做场景理解(描述/2D-3D grounding/规划),又用双条件扩散做 RGB-D 时空生成,在 NuInteract 理解任务上把平均分从 52.12 提到 59.23、在 nuScenes 空间生成上把 ±2m 偏移 FID 压到 11.27。
- GEM: Generating LiDAR World Model via Deformable Mamba
-
GEM 把 LiDAR 扫描序列和 Mamba 的逐步扫描机制对齐,用一个 Mamba 场景 tokenizer 把无序点云压成有序 latent,再无监督地把动态物体和静态环境解耦、用三路可变形 Mamba 分别建模,最终在 nuScenes/KITTI 上的 1s/3s 未来预测全面刷新 SOTA(1s 上 Chamfer Distance 比次优方法降 81%),并额外支持自动 rollout 和 BEV 可控 "what-if" 生成。
- Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
-
GPOcc 提出利用可泛化的视觉几何先验(如 VGGT、DepthAnything)进行单目 3D 占据预测,通过沿相机射线向内延伸表面点生成体积采样,以稀疏高斯基元进行概率占据推断,并设计免训练增量更新策略处理流式输入,在 Occ-ScanNet 上单目 mIoU 提升 +9.99、流式提升 +11.79 超越前 SOTA,同时在相同深度先验下速度快 2.65 倍。
- GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
-
GenieDrive 把"驾驶动作直接生成视频"的黑盒拆成两段——先用一个仅 3.47M 参数的轻量占据世界模型,从历史 4D occupancy 和驾驶控制预测未来 occupancy(物理约束),再把 occupancy 投影成语义图去引导预训练视频模型生成多视角驾驶视频——在占据预测上 mIoU 相对提升 7.2%、推理 41 FPS,在视频生成上 FVD 相对下降 20.7%,并能生成长达 241 帧(约 20s)的可编辑、多视角一致的物理感知驾驶视频。
- Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal
-
Ghost-FWL 提出首个大规模移动端全波形 LiDAR 数据集(24K帧、75亿峰值级标注),并设计 FWL-MAE 自监督预训练框架实现鬼影检测与去除,将 SLAM 轨迹误差降低 66% 以上、3D 检测假阳性率减少 50 倍。
- GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving
-
GuideFlow 用「流匹配 + 能量模型」做端到端驾驶规划,把安全/物理硬约束直接嵌进生成过程(约束速度场 CVF、约束流状态 CF、能量精修 RFE 三招),既缓解模仿学习的多模态模式崩塌,又免去生成式方法事后再优化的环节,在 NavSim Navhard 上拿到 43.0 EPDMS 的 SOTA。
- HG-Lane: High-Fidelity Generation of Lane Scenes under Adverse Weather and Lighting Conditions without Re-annotation
-
针对车道检测数据集(CULane/TuSimple)极端天气样本严重不足的问题,提出HG-Lane——一个无需重标注的两阶段扩散生成框架:Stage-I通过Control Information Fusion+Structure-aware Reverse Diffusion保留车道几何结构,Stage-II通过Appearance-aware Refinement调整光照风格,生成snow/rain/fog/night/dusk共30K图。CLRNet整体mF1提升+20.87%,snow场景+38.8%。
- HOLO: Homography-Guided Pose Estimator Network for Fine-Grained Visual Localization on SD Maps
-
HOLO 把"环视图像在标清(SD)地图上的细粒度定位"重构成 BEV 特征与地图块之间的单应估计问题:先用语义对齐把两模态拉成满足单应约束的特征对,再用单应关系引导特征融合、并把位姿输出约束在可行解空间内,从而比"注意力融合 + 直接回归 3-DoF 位姿"的旧方法收敛更快、定位更准,在 nuScenes 上 Recall@1m/2m 提升约 16%。
- HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles
-
HorizonForge 提出一个统一框架,将驾驶场景重建为可编辑的 Gaussian Splats + Mesh 表示,通过轨迹控制实现精细 3D 操控和语言驱动的车辆插入,再经视频扩散模型渲染生成时空一致的高质量驾驶视频,在用户偏好率上以 91.02% 碾压所有对比方法。
- Hybrid Robust Collaborative Perception with LiDAR-4D Radar Fusion under Adverse Weather Conditions
-
HRCP 针对"恶劣天气下多智能体协同感知",提出按传感器物理特性区别传输的混合协同策略(稀疏 4D 雷达走早期协同传原始点云、稠密 LiDAR 走中间协同传特征),并把 LiDAR-4D 雷达融合重新建模为"联合重建一个稠密可靠表征",用双向跨模态门控(BCMG)互验可靠性 + 自适应特征增强(AFE)补回信息损失,在 V2X-R 仿真与 V2X-Radar-C 真实数据集上全面超过 SOTA。
- HybridDriveVLA: Vision-Language-Action Model with Visual CoT reasoning and ToT Evaluation for Autonomous Driving
-
HybridDriveVLA 把传统驾驶 VLA 里"图像转文本再做 CoT 推理"换成在视觉域里直接预测未来场景(V-CoT),并用一套树式思维的多轨迹评估(ToT-Evaluation)按安全/进度/舒适三个维度逐点打分、选最优航点序列,在 nuScenes 上把自回归 VLA 的平均碰撞率压到 0.17%。
- IntrinsicWeather: Controllable Weather Editing in Intrinsic Space
-
用扩散模型把图像分解成"天气无关的材质/几何 + 天气相关的光照"内蕴图(intrinsic maps),再用文本提示在内蕴空间里重新渲染目标天气,从而做到既能精细可控地改天气、又能保住场景的材质与几何,逆向渲染 PSNR 比 SOTA 高 10+ dB,并显著提升下游检测/分割在恶劣天气下的鲁棒性。
- KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System
-
提出KnowVal端到端自驾系统,通过三大核心解决知识推理和价值对齐缺失:(1)Retrieval-guided Open-world Perception融合标准3D检测+VL-SAMv2长尾物体+VLM场景理解;(2)Perception-guided Knowledge Retrieval从驾驶知识图谱(交通法/防御驾驶/道德规范)检索相关知识;(3)World Model预测未来状态+Value Model(human-preference训练)评估轨迹价值,实现可解释决策。nuScenes最低碰撞率,Bench2Drive/NVISIM SOTA。
- L3DR: 3D-aware LiDAR Diffusion and Rectification
-
L3DR 在距离视图(range-view, RV)LiDAR 扩散生成之后接一个 3D 残差回归网络,专门把反投影回 3D 的点云逐点偏移修正掉「深度溢出」「波浪面」等 RV 伪影,并用 Welsch 损失绕开训练对里的高偏差异常区,以极小的算力开销在 KITTI / KITTI360 / nuScenes / Waymo 上把生成几何真实感刷到 SOTA。
- LA-Pose: Latent Action Pretraining Meets Pose Estimation
-
LA-Pose 把 Genie 式"逆动力学隐动作"从驱动世界模型/机器人策略的本职工作里挪出来,改当相机位姿估计的输入特征——先在 1000 万条无标注驾驶视频上自监督学隐动作,再用极少量带 3D 标注的数据后训一个轻量位姿头,在 Waymo/PandaSet 上用少几个数量级的标注数据反而比 VGGT 等前馈 SOTA 高 10%+ 的位姿精度。
- LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving
-
这篇论文指出 CARLA 里"学车(student)学不会老司机(privileged expert)"的根因不是模型不够强,而是专家用了学生看不到/测不准的特权信息、以及导航意图给得太稀疏;通过把专家的感知和决策约束到学生能观测的范围(LEAD 专家+数据集)、并重构学生策略的目标点注入方式(TFv6),在 Bench2Drive 上拿到 95 DS、在 Longest6 v2 / Town13 上把此前最好成绩翻倍以上。
- LEADER: Learning Reliable Local-to-Global Correspondences for LiDAR Relocalization
-
LEADER 通过鲁棒的投影式几何编码器(偏航不变)和截断相对可靠性损失(抑制不可靠点),在 LiDAR 重定位任务上分别实现 24.1% 和 73.9% 的位置误差相对降低。
- Learnability-Driven Submodular Optimization for Active Roadside 3D Detection
-
提出 LH3D 框架,通过「深度置信度→语义平衡→几何多样性」三阶段子模优化的主动学习策略,抑制路侧单目 3D 检测中固有歧义样本的选取,仅用 20% 标注预算即显著优于传统不确定性/多样性 AL 方法。
- Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception
-
提出 MVIG 攻击框架,通过将不同防御型协作感知系统的脆弱性统一建模为互视图信息图(Mutual View Information Graph),结合时序图学习与熵感知漏洞搜索,实现自适应的伪造攻击,使防御成功率最高下降 62%。
- Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos
-
提出LFG(Learning to drive is a Free Gift),一个完全无标签、教师引导的自动驾驶预训练框架,从大规模无姿态YouTube驾驶视频中学习几何、语义和运动感知的统一伪4D表示,在NAVSIM基准上仅用单目前视相机即超越多相机+LiDAR的BEV方法(PDMS 85.2),并展示了出色的数据效率(10%标签即达81.4 PDMS)。
- Learning to Identify Out-of-Distribution Objects for 3D LiDAR Anomaly Segmentation
-
LIDO 直接在特征空间里建模 inlier 类别的分布——用一个语义头维护「置信度类原型」、一个对比头把 inlier 特征推离超球心,推理时融合余弦距离、熵和特征范数三种信号给每个点打异常分,无需任何异常样本即可在 3D LiDAR 异常分割上取得 SOTA;同时作者还造了一套混合真实-合成的 OoD 数据集补齐该领域的评测短板。
- LiDAR-to-4DRadar Diffusion Bridge via Cross-Modal Alignment and Translation in Latent Space
-
L2RLDB 首次把稀疏 3D LiDAR 翻译成带 Doppler 维度的完整 4D 雷达张量——先用「关键体素感知 VAE」把高维含噪雷达压进低维潜空间,再用 patch 级对比学习把 LiDAR 潜码对齐到雷达潜空间,最后用布朗扩散桥在对齐潜空间里完成跨模态翻译,生成的合成雷达能显著提升下游 3D 检测精度。
- LiDAS: Lighting-driven Dynamic Active Sensing for Nighttime Perception
-
LiDAS 把车辆的高清大灯当成一个"视觉执行器",用一个学习到的照明策略网络在闭环里动态决定"把光打到哪里",从而在不重训下游感知模型、甚至省电 40% 的前提下,让白天训练的检测/分割模型在夜间零样本可用(合成场景 +10.4% mAP50 / +6.8% mIoU,真车闭环 +18.7% mAP50 / +5.0% mIoU)。
- Lipschitz Optimization for Formal Verification of Homographies
-
把"相机 6 自由度位姿扰动 → 像素值"写成闭式单应变换,再把 Batten 等人的分段线性 + Lipschitz 优化界从仿射变换推广到非仿射的投影变换,从而首次对神经网络做"相机运动鲁棒性"的形式化验证,相比前作最高加速 89%、界紧 7%,并在 VNN-COMP 网络与跑道可见性分类器上揭示了对 3D 视角扰动的系统性脆弱。
- LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration
-
提出LiREC-Net,首个统一框架同时完成LiDAR-RGB和LiDAR-Event相机的无靶标外参标定,通过共享LiDAR表示(融合3D点特征和投影深度特征)和成对代价体积实现跨模态对齐,在KITTI上达到1.80cm/0.11°、DSEC上达到2.51cm/0.14°(LiDAR-RGB)和1.18cm/0.07°(LiDAR-Event)的标定精度。
- Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
-
揭示了LiDAR-Camera融合中特征不对齐主要集中在前景-背景深度突变边界,提出PGDC(2D先验引导深度校准)+DAGF(不连续感知几何融合)+SGDM(结构引导深度调制器)三个协同模块,在融合前主动修正不对齐问题,在nuScenes验证集达到mAP 71.5%、NDS 73.6%的SOTA。
- MAD: Motion Appearance Decoupling for Efficient Driving World Models
-
MAD 把通用视频扩散模型改造成驾驶世界模型的代价砍到极致:用同一个主干、两个轻量 LoRA,先生成只画骨架的"姿态视频"预测运动、再给骨架"穿上"纹理渲染 RGB,把运动与外观解耦后只用对手 6% 的算力就追平了此前 SOTA。
- MeanFuser: Fast One-Step Multi-Modal Trajectory Generation and Adaptive Reconstruction via MeanFlow for End-to-End Autonomous Driving
-
提出MeanFuser端到端自动驾驶框架,用高斯混合噪声替代离散轨迹词汇表实现连续多模态轨迹建模,通过MeanFlow Identity实现一步采样消除ODE数值误差,并设计ARM模块隐式判断是选择现有proposal还是重构新轨迹,在NAVSIM上以仅RGB输入+ResNet-34骨干达到89.0 PDMS且59 FPS。
- MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving
-
提出渐进式多模态推理框架 MindDriver,模仿人类"感知→想象→行动"机制——先文本语义理解,再想象未来场景图像(桥接语义和物理空间),最后预测轨迹,配合反馈引导数据标注和渐进式强化微调,在 nuScenes 开环和 Bench2Drive 闭环评估上均取得最优表现。
- Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes (LegoOcc)
-
提出 LegoOcc,利用语言嵌入高斯(LE-Gaussians)作为统一的几何-语义中间表示,结合基于 Poisson 过程的高斯到占用(G2O)算子和渐进温度衰减策略,在仅使用二值占用标签(无语义标注)的情况下实现室内场景的单目开放词汇占用预测,在 Occ-ScanNet 上达到 59.50 IoU / 21.05 mIoU。
- MTA: Multimodal Task Alignment for BEV Perception and Captioning
-
MTA 给「BEV 3D 检测 + 3D 稠密描述」这对一向各做各的任务搭了两座对齐桥——BLA 用 GT 描述的文本表示监督 Q-Former 的 BEV 物体查询、DCA 用可学习 prompt 把检测输出和描述输出拉进共享空间做对比对齐——两个模块只在训练时生效、推理零额外开销,却让检测 mAP 涨 4.9%、描述 CIDEr 涨 9.2%。
- Neural Distribution Prior for LiDAR Out-of-Distribution Detection
-
NDP提出了可学习的神经分布先验模块来建模网络预测的分布结构,结合Perlin噪声生成的伪OOD样本和软异常暴露策略,在STU基准上实现61.31% AP,超越之前最佳结果10倍以上。
- Neuro-Cognitive Reward Modeling for Human-Centered Autonomous Vehicle Control
-
这篇论文用脑电信号(EEG)里的事件相关电位(ERP)作为"人类认知反馈",训练一个能从场景图像直接预测 ERP 强度的轻量 CNN,把它的输出当作奖励项注入强化学习(TD3),让自动驾驶智能体在紧急制动和左转两个高难度场景里学会更安全、更像人的避撞行为——而且推理时完全不需要再采 EEG。
- NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
-
NoRD 证明自动驾驶 VLA 不需要大规模推理标注和海量数据:通过识别 GRPO 在弱 SFT 策略上失败的根因是 difficulty bias(高方差 rollout 组的学习信号被压制),采用 Dr. GRPO 替代标准 GRPO 做 RL 后训练,仅用 <60% 数据、无推理标注、3× 更少 token,在 NAVSIM(85.6 PDMS)和 WaymoE2E(7.709 RFS)上达到与推理型 VLA 竞争的性能。
- OccAny: Generalized Unconstrained Urban 3D Occupancy
-
OccAny 提出了首个泛化无约束城市 3D 占用预测框架,能在无标定、域外场景中从单目/序列/环视图像预测度量级占用体素,通过 Segmentation Forcing 和 Novel View Rendering 两项关键设计,在 KITTI 和 nuScenes 上超越所有视觉几何基线。
- OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective
-
OccuFly 提出了首个真实世界航拍视角的相机基语义场景补全(SSC)基准数据集,包含 2 万+ 样本、21 个语义类别,覆盖多季节多海拔的城市/工业/农村场景,并揭示了当前视觉基础模型在航拍场景下的根本局限。
- OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
-
提出 OneOcc,一个面向足式/人形机器人的纯视觉全景语义占用预测框架,通过双投影融合、双网格体素化、步态位移补偿和层级混合专家解码器,仅用单个全景相机即可实现 360° 语义场景补全,在真实四足和仿真人形数据集上超越 LiDAR 基线。
- Open-Ended Instruction Realization with LLM-Enabled Multi-Planner Scheduling in Autonomous Vehicles
-
针对 L4-L5 自动驾驶里"乘客用自然语言下达机动级指令"这一被忽视的需求,本文提出一套"以调度为中心"的框架:用 LLM 一次性把开放式指令解析成驾驶行为序列并生成调度脚本,再由多个 MPC 运动规划器在实时反馈下接力执行,从而在保持语言到控制全链路可追溯的同时,把指令实现成功率相对基线提升 64%–200%,且只需一次 LLM 查询。
- Open-Vocabulary Domain Generalization in Urban-Scene Segmentation
-
提出 OVDG-SS 新设定,统一处理语义分割中的未见域和未见类别问题,并设计基于状态空间模型的 S2-Corr 模块来修复域偏移导致的文本-图像相关性退化,在自动驾驶场景中实现高效且鲁棒的跨域开放词汇分割。
- OptiMVMap: Offline Vectorized Map Construction via Optimal Multi-vehicle Perspectives
-
OptiMVMap 把离线矢量化高精地图构建从"单车轨迹"扩展到"多车协同",并提出一个"先选车、再融合"(select-then-fuse)的即插即用框架:用不确定性引导的 OVS 模块从邻车里挑出 2~5 个最互补的帮手,再经跨车注意力对齐和语义噪声过滤后在 BEV 层融合,在 nuScenes / Argoverse2 上把 MapTRv2 分别提升 +10.5 / +9.3 mAP。
- PanDA: Unsupervised Domain Adaptation for Multimodal 3D Panoptic Segmentation in Autonomous Driving
-
本文首次研究"多模态 3D 全景分割(mm-3DPS)的无监督域适应",提出 PanDA:在均值教师框架上用"非对称多模态丢弃(AMD)"在源域模拟单模态退化以学到域不变特征,并用"双专家伪标签精修(DualRefine)"借 3D 几何超点和 2D 视觉基础模型修补不完整、错分的目标域伪标签,在时间/天气/地点/传感器四类域偏移上大幅超过 3D 语义分割的 UDA 基线。
- ParkGaussian: Surround-view 3D Gaussian Splatting for Autonomous Parking
-
针对地下车库这种「拥挤、无 GPS、弱光」的泊车场景,本文先做出首个面向泊车三维重建的基准 ParkRecon3D(四路环视鱼眼 + 6 万车位标注),再提出 ParkGaussian——把 3DGS 适配到鱼眼相机(UT 投影)、用可微 IPM 把渲染结果转成鸟瞰图、并用冻结的车位检测器作师生引导做「车位感知重建」,让重建不只画面好看,还能在下游车位检测上保持感知一致。
- Perceiving the Near, Reasoning the Distant: Coherent Long-Horizon Trajectory Prediction for Autonomous Driving
-
NDPNet 把长时轨迹预测拆成"近处靠惯性、远处靠语义"两条专门的解码通路,用一个时序桥接模块把两段平滑接上,再叠加一个把运动学先验写进训练目标的一致性损失,在 Argoverse 2 与 WOMD 上拿到 SOTA,并首次在 8 秒预测把 minFDE6 压进 1.75 以下。
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving
-
Percept-WAM 把 2D/3D 感知任务统一编码成 World-PV、World-BEV 两类「世界令牌」塞进单个 VLM(InternVL2-8B),再接一组 World-Action 令牌直接吐轨迹,做到「感知-推理-规划」在同一个骨干里端到端跑通,COCO 2D 检测 51.7 mAP、nuScenes BEV 3D 检测 58.9 mAP,NAVSIM 闭环 PDMS 90.2 超过 DiffusionDrive 2.1 分。
- Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule
-
提出 Perception Characteristics Distance (PCD),一种量化感知系统在不同距离下可靠检测能力的新指标,通过统计建模检测置信度随距离的均值和方差变化,定义感知系统的最大可靠检测距离,弥补传统 AP/IoU 等静态指标无法反映距离依赖性和随机性的不足。
- Plant Taxonomy Meets Plant Counting: A Fine-Grained, Taxonomic Dataset for Counting Hundreds of Plant Species
-
本文构建了首个融合植物分类学的大规模计数数据集 TPC-268,包含 10,000 张图、678,050 个点标注和 268 个可计数类别(覆盖 242 个物种),按林奈分类体系标注完整层级信息,并在类无关计数(CAC)范式下进行了全面基准测试。
- Points-to-3D: Structure-Aware 3D Generation with Point Cloud Priors
-
提出 Points-to-3D,将可见区域点云编码为 TRELLIS 的稀疏结构潜变量(SS latent)并用 mask-aware inpainting 网络补全不可见区域,结合结构补全+边界精炼两阶段采样策略,实现几何可控的高保真 3D 资产/场景生成,在 Toys4K 上 F-Score 达 0.964(可见区域 0.998)。
- Probabilistic Discrepancy Learning for Roadside LiDAR Scene Completion
-
PDL 把"路侧 LiDAR 因固定视角导致严重遮挡"重构成一个概率推断问题:先用概率位姿差异最小化(PPDM)把视觉检测器的噪声位姿校正成高精度伪真值,再用以伪真值为条件的扩散模型(SDL)做整场景补全,并配区域/全局两路差异损失与置信度自适应的 CFG 推理,在 V2X-Seq 与 TUMTraf-V2X 上平均把 Chamfer 距离降 14.5%、3D JSD 降 6%。
- ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction
-
本文提出ProOOD框架,首次从体素原型引导的视角统一处理3D占用预测中的长尾识别与分布外(OOD)检测,通过原型引导的语义补全(PGSI)、尾部类增强(PGTM)和无训练的EchoOOD评分机制,在SemanticKITTI上提升+3.57% mIoU(尾部类+24.80%),在VAA-KITTI上OOD检测AuPRCr提升+19.34。
- PTC-Depth: Pose-Refined Monocular Depth Estimation with Temporal Consistency
-
本文提出PTC-Depth,一个结合光流三角化和轮式里程计的单目深度估计框架,通过递归贝叶斯更新追踪深度基础模型的度量尺度,实现时间一致的度量深度预测,在KITTI、TartanAir和热红外等多个数据集上展现强泛化能力。
- QueryOcc: Query-based Self-Supervision for 3D Semantic Occupancy
-
QueryOcc 用从相邻帧采样的独立 4D 时空 query 直接在连续 3D 空间监督几何与语义,配上一个可处理无界场景的收缩式 BEV 表示,在自监督 Occ3D-nuScenes 上把语义 RayIoU 提了 26%,同时保持 11.6 FPS 实时推理。
- R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
-
提出 R4Det,通过三个即插即用 BEV 模块——全景深度融合(PDF)、可变形门控时序融合(DGTF)、实例引导动态精炼(IGDR)——系统性解决 4D 雷达-相机融合中的深度估计不准、无位姿时序融合以及小目标检测三大难题,在 TJ4DRadSet 上 3D mAP 达 47.29%(+5.47%),VoD 上 mAP 66.69%。
- RAG-TP: A General Framework for Vehicle Trajectory Prediction via Retrieval-Augmented Generation
-
把车辆轨迹预测从"依赖在线感知先验"重构为"从大规模离线知识库检索历史经验"的检索增强(RAG)问题,并用一个检索驱动的 MoE 把检索到的先验动态融合进解码器,在 Argoverse / WOMD 上同时逼平 map-based SOTA、超越 map-free 方法,并在零样本跨域迁移上展现明显优势。
- Rascene: High-Fidelity 3D Scene Imaging with mmWave Communication Signals
-
提出 Rascene,一种利用毫米波 OFDM 通信信号(5G/Wi-Fi)进行高保真 3D 场景成像的集成感知与通信(ISAC)框架,通过置信度加权的多帧融合实现对稀疏、多径干扰的射频观测的几何一致性恢复。
- Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction
-
提出渐进式回溯框架 PRF,通过级联回溯单元逐步将不完整观测的特征对齐到完整观测,大幅提升变长轨迹预测性能,且即插即用兼容现有方法。
- RefAV: Towards Planning-Centric Scenario Mining
-
本文把"从海量自动驾驶日志里捞出安全攸关场景"这件事重新表述为时空场景挖掘任务:给定一句自然语言描述,判断它是否出现在某段 20 秒驾驶日志里、并在 3D 时空中精确定位被指代的目标;为此作者构建了 RefAV 数据集(基于 Argoverse 2 的 10,000 条多智能体交互查询),并提出 RefProg——用 LLM 把复杂查询合成为可执行程序、再去过滤现成 3D 轨迹的双路方法,在零样本设置下大幅超过直接套用 VLM 的各种基线。
- Reliable Policy Transfer for Safety-Aware End-to-End Driving with Deep Reinforcement Learning
-
本文提出一个围绕「控制层可靠性接口」组织的端到端驾驶深度强化学习框架:用同一个归一化不确定性信号 \(\bar{\sigma}\) 同时驱动以自车为中心的关系注意力、门控策略熵、并正则化跨域迁移对齐,在 CARLA 恶劣天气与跨城闭环测试中比强基线显著提升成功率、降低违规率并改善车道贴合。
- ReManNet: A Riemannian Manifold Network for Monocular 3D Lane Detection
-
针对单目 3D 车道线检测中"2D→3D 抬升因缺乏几何不变量而崩塌(凹陷、鼓包、扭曲)"的痛点,提出"道路是 \(\mathbb{R}^3\) 中光滑 2D 流形、车道是嵌入其上的 1D 子流形"的道路流形假设,把车道几何编码为对称正定(SPD)流形上的黎曼高斯描述子并门控融合进视觉特征,再配一个切片式 3D 隧道车道 IoU 损失,在 OpenLane 上 F1 比基线提升 +8.2%、比此前最优 +1.8%。
- ReMoT: Reinforcement Learning with Motion Contrast Triplets
-
提出 ReMoT——一个统一训练范式,通过规则驱动的多专家协同构建 16.5K 运动对比三元组数据集 (ReMoT-16K),结合带逻辑一致性奖励和长度正则化的 GRPO 强化学习优化,系统性解决 VLM 在导航、机器人操作和自动驾驶等场景中的细粒度时空推理缺陷。
- ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving
-
ResAD 把端到端驾驶的轨迹预测从"直接预测未来轨迹"改成"预测相对惯性参考轨迹的归一化残差",再用扰动惯性参考做多模态生成 + 扩散解码 + 轨迹排序,仅 2 步去噪就在 NAVSIM v1/v2 上拿到 88.8 PDMS / 85.5 EPDMS 的 SOTA。
- ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes
-
定义并形式化了时间稀疏的 4D 室内语义实例分割(4DSIS)任务,提出 ReScene4D 方法通过时空对比损失、时空掩码池化和时空序列化三种时序信息共享策略,将 3D 实例分割架构扩展到 4D 维度,在 3RScan 数据集上实现 SOTA,同时提出新的 t-mAP 指标联合评估分割质量和时序身份一致性。
- RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning
-
把预训练好的模仿学习交通仿真模型(SMART)放进闭环里用强化学习再微调:以 Waymo 的真实度元指标 RMM 为奖励,但用一种 Leave-One-Out 改造(MLOO)把它变成低方差、稠密的逐 rollout 奖励,从而在 WOMD 上拿到 SOTA 真实度;再借助目标条件化与 HER,把"可控生成指定场景"的能力也蒸馏进来。
- RoadSceneBench: A Lightweight Benchmark for Mid-Level Road Scene Understanding
-
针对自动驾驶里夹在"像素感知"与"高层规划"之间、长期被忽视的中层道路语义(车道数、自车所在车道、变道可行性、匝道、拥堵等),本文造了一个轻量但标注密集的 benchmark RoadSceneBench(11,705 张图 / 2,341 段 5 帧短视频 / 16 万标注),并提出 MapVLM:在 Qwen2.5-VL-7B 上先 SFT、再用带时序一致性的分层关系奖励 HRRP-T(帧级三层奖励 + 时序平滑/合理性奖励,用 GRPO 训)做强化,把整体 P/R 从最强基线 Gemini-2.5-Pro 的 60.6/52.7% 提到 75.8/72.2%。
- RPGFusion: 4D Radar Prior-Guided Multi-Modal Fusion for 3D Detection
-
RPGFusion 把 4D 雷达的物理先验(置信度图 + 深度图)注入相机的图像到 BEV 变换过程,同时对稀疏含噪的雷达点云做鲁棒编码与稠密化,再经空间对齐和语义融合得到一致的 BEV 表征,在 VoD 和 TJ4DRadSet 上把雷达-相机 3D 检测刷到 SOTA(VoD 全标注区 69.31% mAP)。
- SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors
-
提出首个面向BEV 3D检测器的非侵入式、3D一致的通用对抗物体生成框架SABER,通过在场景中放置优化后的3D mesh来干扰多视角多帧检测,揭示BEV模型对环境上下文先验的过度依赖。
- Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems
-
提出MOSAIC框架——通过聚类数据、拟合各域对评估指标的缩放律、贪心迭代选择边际收益最大的数据簇样本,实现端到端自动驾驶模型的高效数据选择,用80%更少的数据达到甚至超越基线性能。
- SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving
-
SearchAD 构建了首个面向自动驾驶的大规模稀有图像检索数据集,包含42万+帧图像、51万+标注框、90个稀有类别,支持文本到图像和图像到图像检索,并通过全面评估揭示当前多模态检索模型在稀有物体检索上的不足。
- Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
-
针对自动驾驶缺乏长尾数据的痛点,本文用 4DGS 把真实 AV 日志反渲染成"行车记录仪风格"视频从而自造配对数据,再训练一个条件扩散模型把单目行车记录仪视频转换成目标车辆的完整多视角相机 + LiDAR 传感器套件,FID 6.47、Chamfer 距离比 X-Drive 降 13.4%,并能把互联网上的事故/夜间长尾视频"翻译"成可用的多模态 AV 日志。
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving
-
SGDrive 给视觉语言模型(VLM)显式注入一套「场景几何—关键智能体—短期目标」的分层世界知识,用一组可训练的
<world>查询去预测当前与未来世界状态,再用 DiT 扩散规划器把这套知识翻译成轨迹,在 NAVSIM 仅相机赛道上拿到 SOTA(PDMS 87.4,加 RL 后 91.1)。 - SG-NLF: Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis
-
SG-NLF提出一种无需精确位姿的LiDAR NeRF框架,通过谱-几何混合表示解决LiDAR稀疏数据导致的几何空洞问题,利用置信感知图实现全局位姿优化,并引入对抗学习强化跨帧一致性,在nuScenes上重建质量和位姿精度分别比SOTA提升35.8%和68.8%。
- SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting
-
提出 SHARP,一种基于短窗口流式推理的运动预测框架,通过实例感知上下文流模块显式维护和更新跨时间步的智能体潜在表示,结合双目标训练策略,在 Argoverse 2 多智能体基准上达到流式推理 SOTA,同时保持极低延迟。
- ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation
-
ShelfOcc 不再用 2D 渲染损失去监督占用网络,而是用几何基础模型(MapAnything)+ 语义分割基础模型(GroundedSAM)从纯多视角视频里生成度量一致的 3D 语义体素伪标签,做「原生 3D 监督」,从而在 Occ3D-nuScenes 上把弱/货架监督占用估计刷出最高 34% 的相对提升,且完全不依赖 LiDAR。
- SimScale: Learning to Drive via Real-World Simulation at Scale
-
提出 SimScale 框架,通过对现有驾驶日志进行轨迹扰动 + 反应式环境仿真 + 神经渲染生成大规模高保真模拟数据,配合伪专家轨迹监督和 sim-real co-training 策略,使端到端规划器在 NAVSIM v2 上取得显著提升(navhard +8.6 EPDMS),且性能随仿真数据量平滑扩展。
- SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving
-
SpaceDrive 把 VLM 端到端驾驶里"把坐标当文本数字逐位生成"的老做法换成"把坐标当统一的 3D 位置编码(PE)"——同一套正余弦 PE 既叠加到视觉 token 上、又替换文本里的坐标 token、还编码自我状态,最后用一个回归式 PE 解码器直接吐出轨迹坐标,在 nuScenes 开环拿到 VLM 方法里的 SOTA、Bench2Drive 闭环拿到 78.02 的次优分。
- SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model
-
提出一种基于纯注意力的稀疏占用世界模型SparseWorld-TC,绕过VAE离散化和BEV中间表示,直接从原始图像特征端到端预测轨迹条件的多帧未来占用,在nuScenes上大幅超越现有方法。
- Sparsity-Aware Voxel Attention and Foreground Modulation for 3D Semantic Scene Completion
-
提出 VoxSAMNet,一个显式建模体素稀疏性和语义不均衡的单目语义场景补全框架,通过 Dummy Shortcut 跳过空体素、Foreground Dropout + Text-Guided Image Filter 缓解长尾过拟合,在 SemanticKITTI 上达到 18.19% mIoU 的 SOTA(超越现有单目和立体方法)。
- Spatial Retrieval Augmented Autonomous Driving
-
本文提出"空间检索(spatial retrieval)"范式,把离线缓存的地理街景图像作为一种额外输入模态喂给自动驾驶模型,用一个即插即用的跨注意力 adapter(带可靠性门控)补全车载传感器在遮挡/暗光/雨雾下看不到的背景结构,并在在线建图、占据预测、规划、世界模型等多个任务上验证有效。
- Spe-BEVHead: Rethinking the Detection Head Design for Bird's-Eye-View Object Detection
-
针对自动驾驶 BEV 3D 检测长期沿用 2D center-based 检测头带来的「高斯核几何错配 / 去 NMS 后性能崩 / 监督信号稀疏」三大问题,本文提出 Spe-BEVHead,用旋转框核(RBK)+ 局部响应精炼模块(LRRM)+ 双分支结构作为可即插即用的检测头,在 nuScenes 上换头即涨点,并在端到端(无 NMS)设定下仍保持竞争力。
- SToRe3D: Sparse Token Relevance in ViTs for Efficient Multi-View 3D Object Detection
-
SToRe3D 给基于 ViT 的多视角 3D 检测器加上一套「规划对齐」的联合稀疏框架:用轻量相关性头同时给 2D 图像 token 和 3D 物体 query 打分,把低分项不是丢掉而是写进缓存、末层再激活,使推理最高提速 3×、近乎不掉精度,且在「规划关键智能体」上精度几乎无损。
- StreamVLO: Streaming Visual-LiDAR Odometry with Cumulative Drift Compensation
-
StreamVLO 把视觉与 LiDAR 的空间融合和多帧时序建模统一进一个基于 Mamba 的 MMG 模块,并用一个可微的「累积漂移补偿」(CDC) 在线回溯历史帧、学习残差修正,从而在不依赖建图/回环的前提下显著压低长程漂移,在 KITTI 上 \(t_{rel}/r_{rel}\) 各降 19%/22%、Argoverse 上 ATE/RPE 各降 18%/16%,且单帧推理仅 74 ms。
- STRNet: Visual Navigation with Spatio-Temporal Representation through Dynamic Graph Aggregation
-
STRNet 提出统一的时空表征框架用于视觉导航,通过图推理模块建模帧内空间拓扑结构,结合混合时间偏移和多分辨率差分卷积建模时序动态,显著提升了目标条件导航的成功率(比 NoMaD 提升 70%)。
- Structure-to-Intensity Diffusion for Adverse-Weather LiDAR Generation
-
SiD 把恶劣天气 LiDAR 生成的去噪过程在每一步显式拆成「先重建几何结构、再以结构为条件去噪反射强度」两支,配合一套用真实传感统计量合成退化数据的 RPWS 模块,在相近模型规模下把雾/雨/雪点云生成的多项分布指标大幅压低于此前 SOTA。
- STUR3D: Spatio-Temporal Unified Representation Learning for 3D Object Detection
-
STUR3D 针对相机环视 3D 检测中"过度依赖当前 2D 线索、忽视历史 3D 信息"导致的时空不一致问题,把上一帧的 2D/3D 检测结果显式重投影回当前图像平面作为时空先验,再用深度感知的几何注意力把这些先验注入 2D 检测头,最后用带伪深度的位置编码把精修后的 2D 框抬升为 3D query,在 nuScenes test 集上达到 57.9% mAP / 64.6% NDS 的 SOTA。
- TACO: Task-Aware Contrastive Learning for Joint LiDAR Localization and 3D Object Detection
-
TACO 用单个共享 backbone 同时做 LiDAR 定位和 3D 目标检测,并通过三个对比学习模块把"静态地理特征"和"动态物体特征"显式解耦再互相补充,在自建的 OxfoLD 数据集上把定位误差从基线 0.95m 降到 0.72m,同时检测精度也优于单任务模型。
- TerraSeg: Self-Supervised Ground Segmentation for Any LiDAR
-
本文提出 TerraSeg,首个自监督的域无关 LiDAR 地面分割模型,通过构建统一的 OmniLiDAR 大规模数据集(12个公开基准、15种传感器、近2200万次扫描)和创新的 PseudoLabeler 自监督伪标签生成模块,在不使用任何人工标注的情况下在 nuScenes、SemanticKITTI 和 Waymo 上达到 SOTA。
- TT-Occ: Test-Time 3D Occupancy Prediction
-
提出 TT-Occ,一种无需预训练的测试时3D占用预测框架,通过在推理时集成视觉基础模型(VFMs)来增量构建、优化和体素化时间感知的3D高斯,在 Occ3D-nuScenes 和 nuCraft 上超越了所有需要大量训练的自监督方法。
- Test-Time Training for LiDAR Semantic Segmentation under Corruption via Geometric Inlier Discrimination
-
本文提出 GeoID,一个面向 LiDAR 语义分割损坏鲁棒性的测试时训练框架:通过往点云里注入"离流形"合成噪声点、让模型在线区分"几何一致的真实内点"和"被人为位移的合成离群点"这一自监督任务来适应目标域,再配合双向不可靠点过滤(BiUPF)剔除模糊区域,在 SemanticKITTI-C / nuScenes-C 上把 mIoU 分别从 42.33/51.25 提到 46.96/56.73,稳定超过现有 TTA 基线。
- Think Before You Drive: World Model-Inspired Multimodal Grounding
-
ThinkDeeper 把"世界模型"引入自动驾驶视觉定位:先把当前场景+指令蒸馏成一个命令感知的潜状态 \(z_0\),再在潜空间里"预演"未来若干步状态 \(z_1,\dots,z_N\),最后用跨模态超图解码器融合这些前瞻状态做定位,并配套发布了用 RAG+CoT 自动标注的 DrivePilot 数据集,在六个 benchmark 上刷到 SOTA,39ms 推理满足车载实时要求。
- TopoHR: Hierarchical Centerline Representation for Cyclic Topology Reasoning in Driving Scenes with Point-to-Instance Relations
-
TopoHR 把"中心线检测"和"拓扑推理"从串行级联改成循环互增强结构,并引入"点查询 + 实例查询"的分层中心线表示,让拓扑推理同时利用细粒度的点到实例(P2I)关系和全局实例到实例(I2I)关系,在 OpenLane-V2 上把 TOP\(_{ll}\) 等指标大幅刷新(subset_A +5.4 TOP\(_{ll}\)、subset_B +7.9 TOP\(_{ll}\))。
- Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation
-
提出基于 Shapley 值的模态贡献评估和 Fisher 信息矩阵加权的自适应权重约束(AWC)正则化,解决多模态(RGB/LiDAR/mmWave/WiFi)3D 人体姿态估计中的模态不平衡问题,无需引入额外可学习参数即可实现平衡优化。
- TrafficAlign: Aligning Large Language Models for Traffic Scenario Generation
-
TrafficAlign 从真实驾驶视频里自动合成交通场景描述、用领域特定语言(DSL)做语义校验并自精炼,再用这批数据微调(对齐)LLM,让 LLM 生成贴合特定地区真实交通分布的场景,在三种自动驾驶模型上比 SOTA 多诱发 10.8% 的碰撞,用这些场景反过来微调驾驶模型又能把碰撞率降低 36.1%。
- TruckDrive: Long-Range Autonomous Highway Driving Dataset
-
TruckDrive 是首个面向重型卡车高速公路场景、专为长距离感知设计的大规模多模态数据集——用 7 路 400m FMCW LiDAR + 10 路 4D 雷达 + 8MP 环视相机采集 475k 同步帧(165k 人工标注),把 3D 标注推到 400m、2D 标注推到 1km,并实证现有 SOTA 在 150m 之外性能崩塌(3D 任务掉点 31%–99%),暴露出城市数据集训练的架构无法迁移到长距离高速场景这一系统性缺口。
- U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences
-
提出 U4D,首个不确定性感知的 4D LiDAR 世界建模框架,通过"先难后易"的两阶段扩散生成策略,先重建高不确定性区域再条件补全整个场景,并设计 MoST 模块自适应融合时空特征以保证时序一致性。
- UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling
-
UFO 把"逐场景优化"的 render-compare-update 迭代精炼过程抽象进一个前馈 Transformer,维护一组随新帧到来不断被精炼的"场景 token",配合可见性过滤把复杂度从二次降到近线性,并用 3D 框引导的软分配 + 高斯生命期建模动态物体,在 Waymo 上的 2s/8s/16s(含 16s zero-shot)长序列驾驶场景重建上全面超过逐场景优化和前馈两类基线。
- Unifying Language-Action Understanding and Generation for Autonomous Driving
-
LinkVLA 把语言指令和驾驶轨迹塞进同一个离散词表、再加一个"看着轨迹反推指令"的理解任务来强行对齐语言与动作,并用两步粗到细解码替代逐点自回归,在 CARLA 闭环上把驾驶得分推到 91.01 的同时把推理延迟从 361ms 砍到 48ms(省 86%)。
- Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures
-
ELF-VLA 让自动驾驶 VLA 模型在强化学习卡住(长尾场景里所有 rollout 都拿零分、稀疏奖励无法定位错因)时,用一个教师 VLM 生成「规划/推理/执行」三层结构化失败诊断,引导 student 重采样出高分修正轨迹并回注 GRPO 训练 batch,从而突破性能平台,在 NAVSIM 上把 PDMS 刷到 91.0 的新 SOTA。
- Unposed-to-3D: Learning Simulation-Ready Vehicles from Real-World Images
-
Unposed-to-3D 用纯图像监督(无任何 3D 真值、无相机位姿标注)从真实驾驶图像里重建出"仿真即用"的 3D 车辆——靠一个相机预测头估出位姿、再用可微渲染把图像重建损失反传回几何,外加尺度预测和光照协调模块,让重建车辆能直接以正确朝向、真实尺寸、协调光照插进驾驶场景,下游 3D 检测的 AP 因此提升约 1 个点。
- Unsupervised Multi-agent and Single-agent Perception from Cooperative Views
-
UMS 利用车车(V2V)通信带来的协同视角,不用任何人工标注,把"多车密集点云能让分类更易"和"协同视角能监督单车检测"两个观察做成一套伪标签精炼框架(PPF 过滤 + PPS 稳定 + CCL 跨视一致),首次同时把多车和单车两种 3D 检测都训到显著超越现有无监督方法。
- URScenes: A Multi-scenario Dataset for Unstructured Road Environments
-
URScenes 是首个面向非结构化道路环境(以露天矿场为代表)的多场景开源多模态感知数据集,用矿卡和宽体车两类平台采集了覆盖晴/阴/雨/雪/雾/扬尘/强光/夜间八种天气光照条件的 472 个场景,统一支持 3D 目标检测、多目标跟踪和 3D 占用预测三大任务,并提供针对矿区物体尺寸特点重新设计的评测指标和到 nuScenes/KITTI/Waymo 的格式转换工具。
- V2U4Real: A Real-world Large-scale Dataset for Vehicle-to-UAV Cooperative Perception
-
V2U4Real 是首个面向「车-无人机(Vehicle-to-UAV, V2U)」协同感知的真实世界大规模多模态数据集,由一辆地面车和一架挂载多线 LiDAR + RGB 相机的无人机同步采集,提供 5.6 万帧 LiDAR、5.6 万张图像、70 万个手工标注 3D 框,并配套单体/协同 3D 检测与跟踪三类基准,实测证明引入无人机俯视视角能显著提升远距离与遮挡场景下的感知鲁棒性。
- VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
-
提出VGGDrive框架,通过冻结的3D视觉基础模型VGGT为VLM注入跨视图几何感知能力,设计插拔式CVGE模块分层自适应地将3D特征注入VLM各层的2D视觉嵌入中,在五个自动驾驶基准上实现显著性能提升。
- VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
-
提出 VIRD,通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视图不变表示,在无方向先验条件下实现 SOTA 的跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。
- W2W: Language-Model-Based Trajectory Prediction with Reinforcement Learning
-
把行人轨迹预测改写成「可解析的语言生成」任务:先把多行人坐标和交互关系(同伴/跟随/障碍)翻译成固定格式文本提示,用 T5-Small 做全参数 SFT 学会输出格式,再用 PPO+LoRA 以「ADE 误差 + 越界惩罚」为奖励做强化学习对齐,在 ETH/UCY 和 SDD 上做到与近期 LM-based 及深度学习基线相当的 ADE/FDE,同时保留语言模型的可解释性。
- WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
-
提出 WalkGPT——首个面向行人无障碍导航的像素定位大视觉语言模型,统一对话推理、分割掩码与深度估计于单一架构中,并构建了 41k 规模的 PAVE 数据集。
- WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving
-
WAM-Flow 把端到端自动驾驶的轨迹规划重新表述成「在离散 token 空间上的离散流匹配(Discrete Flow Matching)」,用全并行、双向去噪取代自回归逐 token 解码,从而实现可调步数的「粗到精」规划——1 步去噪就拿到 89.1 PDMS(比自回归基线快约 4.67×),5 步精修到 90.3 PDMS,在 NAVSIM-v1 上超过自回归和扩散类 VLA 基线。
- WhisperNet: A Scalable Solution for Bandwidth-Efficient Collaboration
-
WhisperNet 把协同感知的通信策略从"发送方各自挑空间区域"翻转成"接收方统一调度",让接收车基于各方上报的轻量元数据,同时决定"在哪里(空间)、传哪些(通道)",在 OPV2V 上只用 0.5% 通信量就把 [email protected] 提升 2.4%。
- WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios
-
Waymo 从 640 万英里真实路测里挖出 4,021 段(约 12 小时)发生频率低于 0.03% 的长尾驾驶片段做成数据集 WOD-E2E,并提出基于人类专家偏好打分的开环指标 RFS(Rater Feedback Score)来替代只对单一未来轨迹算距离误差的 ADE,从而能在「多种合理轨迹并存」的安全攸关场景里公允评测视觉端到端驾驶模型。
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
-
WorldLens 提出一个覆盖「生成 / 重建 / 动作跟随 / 下游任务 / 人类偏好」五个维度、共 24 个细粒度指标的驾驶世界模型全谱评测基准,并配套 26K 人工标注数据集 WorldLens-26K 与从中蒸馏出的可解释自动评测器 WorldLens-Agent,系统揭示出当前世界模型「看着真但行为不真」——没有任何一个模型能在所有维度上同时领先。
- x2-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space
-
提出 x2-Fusion,以事件相机的时空边缘信号为锚构建统一的 Event Edge Space,将图像/LiDAR/事件特征对齐到同质边缘空间后进行可靠性感知自适应融合和跨维度对比学习,同时估计 2D 光流和 3D 场景流,在合成和真实数据上达到 SOTA。