🎯 目标检测¶
🧠 NeurIPS2025 · 27 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (99) · 🔬 ICLR2026 (30) · 🧪 ICML2026 (6) · 🤖 AAAI2026 (29) · 📹 ICCV2025 (28) · 🧪 ICML2025 (12)
🔥 高频主题: 异常检测 ×9 · 目标检测 ×6 · 对抗鲁棒 ×3 · 时序预测 ×2
- ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining
-
首次提出面向工业异常检测的专用表示预训练框架 ADPretrain,通过角度和范数导向的对比损失在大规模异常检测数据集 RealIAD 上学习残差特征表示,替换五种主流嵌入式 AD 方法的原始特征后在五个数据集、五个骨干网络上取得一致性提升。
- EPHAD: An Evidence-Based Post-Hoc Adjustment Framework for Anomaly Detection Under Data Contamination
-
EPHAD 提出一种测试时后处理框架,通过指数倾斜(exponential tilting)将已被污染数据训练的异常检测模型输出与外部证据(CLIP/LOF等)进行贝叶斯式融合校正,无需接触训练流程,在8个视觉和26个表格AD数据集上一致提升被污染模型的检测性能。
- Ascent Fails to Forget
-
本文从遗忘集与保留集之间的统计依赖出发,理论结合实验证明广泛使用的梯度上升/Descent-Ascent(DA)类机器遗忘方法在存在数据相关性时会系统性失败——在 logistic 回归中 DA 解甚至会比原始模型更远离 oracle,且在非凸设置下会将模型困在劣质局部最小值中。
- Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent
-
提出一个自反思 agent 框架,通过迭代的假设生成-测试-验证-反思循环来自动检测视觉模型中的属性依赖(如 CLIP 识别 teacher 依赖教室背景、YOLOv8 检测行人依赖人行横道),在 130 个注入已知属性依赖的模型 benchmark 上显示自反思显著提升检测准确性。
- AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing
-
提出 AutoSciDACT 管线:先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间,再用 NPLM(New Physics Learning Machine)似然比检验对嵌入空间中的分布偏差进行统计量化,在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。
- BurstDeflicker: A Benchmark Dataset for Flicker Removal in Dynamic Scenes
-
提出首个面向多帧闪烁去除(MFFR)的大规模 benchmark 数据集 BurstDeflicker,包含基于 Retinex 的合成数据、真实静态数据和绿幕动态数据三个互补子集,系统解决了动态场景下闪烁-干净图像对难以获取的核心瓶颈。
- CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection
-
针对大规模类别(>10K)目标检测中分类头的正梯度稀释和难负样本梯度稀释问题,提出 CQ-DINO:用可学习类别查询替代分类头,通过图像引导的 Top-K 类别选择将负空间缩小 100 倍,在 V3Det(13204 类)上超越前 SOTA 2.1% AP,同时保持 COCO 竞争力。
- DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection
-
构建覆盖2282种语言、46.72TB文本的多语言数据集DCAD-2000,提出将数据清洗重构为异常检测问题的语言无关框架,通过8维统计特征+Isolation Forest动态过滤噪声数据,在多个多语言benchmark上验证效果,尤其对低资源语言提升显著。
- DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding
-
DetectiumFire 构建了最大的多模态火灾理解数据集——14.5K 真实图像 + 2.5K 视频 + 8K 合成图像 + 12K RLHF 偏好对,低重复率(0.03 PHash vs D-Fire 0.15),配合 4 级严重性分类标准和详细场景描述,微调 YOLOv11m 达 mAP 43.74,微调 LLaMA-3.2-11B 火灾严重性分类 83.84%。
- DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning
-
提出 DETree 框架,通过构建层次亲和树(HAT)建模不同人机协作文本生成过程之间的层次关系,并设计树结构对比损失(TSCL)对齐表示空间,在混合文本检测和 OOD 场景下取得了显著优势。
- DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection
-
DitHub 将开放词汇目标检测的增量适配问题重新构造为"版本控制"问题——为每个类别训练独立的 LoRA 专家模块,通过 branch(分支)、fetch(检索)、merge(合并)三个原语管理不断扩展的模块库,在 ODinW-13 全量数据上以 62.19 mAP 超越 ZiRa 4.21 个点,同时保持 47.01 的零样本 COCO 性能。
- FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies
-
提出 FlexEvent 框架,通过自适应事件-图像融合模块 FlexFuse 和频率自适应微调机制 FlexTune,实现事件相机在不同操作频率下的灵活目标检测,在 20Hz 到 180Hz 范围内保持鲁棒性能,显著超越现有方法。
- Delving into Cascaded Instability: A Lipschitz Continuity View on Image Restoration and Object Detection Synergy
-
从 Lipschitz 连续性视角分析图像复原与目标检测级联框架的不稳定性根源,发现两个网络在平滑性上存在量级差异,提出 LR-YOLO 通过将复原任务集成到检测backbone的特征学习中来正则化检测器的Lipschitz常数,在去雾和低光增强基准上持续提升检测稳定性。
- MSTAR: Box-Free Multi-Query Scene Text Retrieval with Attention Recycling
-
提出 MSTAR,首个无需边界框标注的多查询场景文本检索方法,通过渐进式视觉嵌入(PVE)逐步将注意力从显著区域转移到不显著区域,结合风格感知指令和多实例匹配模块,实现了对单词、短语、组合和语义四种查询类型的统一检索,并构建了首个多查询文本检索基准 MQTR。
- Multimodal Generative Flows for LHC Jets
-
提出基于 Transformer 的多模态流匹配框架(MMF),将连续流匹配与连续时间马尔可夫跳跃桥联合建模,实现对 LHC 喷注中粒子运动学(连续)和 flavor 量子数(离散)的统一生成。
- Normal-Abnormal Guided Generalist Anomaly Detection
-
NAGL 框架首次在通用异常检测(GAD)中引入正常+异常混合参考样本,通过残差挖掘(RM)和异常特征学习(AFL)两个注意力模块,在残差空间中学习可迁移的异常模式,仅用 1 个异常样本即可在跨域场景中大幅超越仅使用正常参考的方法。
- ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction
-
提出 ReCon-GS,通过连续性保持的 Gaussian 流式处理实现增量式 3D 重建,在保持渲染质量的同时大幅减少存储需求和训练时间,支持大规模场景的实时重建。
- ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection
-
ReCon 提出无需额外训练的区域可控数据增强框架,通过区域引导校正(RGR)和区域对齐交叉注意力(RACA)增强现有结构可控生成模型的目标检测数据质量,在 COCO 上实现 35.5 mAP(超过需 fine-tune 的 GeoDiffusion)。
- Rethinking Evaluation of Infrared Small Target Detection
-
系统性地揭示了红外小目标检测(IRSTD)现有评估协议的三大局限,提出包含混合层级指标hIoU、系统化错误分析方法和跨数据集评估设置的层次化分析框架。
- Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching
-
提出 TCCM(Time-Conditioned Contraction Matching),一种受 flow matching 启发的表格数据半监督异常检测方法,通过学习将正常数据收缩到原点的时间条件速度场,仅需单步前向推理即可计算异常分数,在 ADBench 47 个数据集上取得 AUROC 和 AUPRC 双第一,推理速度比 DTE 快 1573 倍。
- ScatterAD: Temporal-Topological Scattering Mechanism for Time Series Anomaly Detection
-
提出"散射性"(scattering)作为异常检测的新归纳偏置——异常样本在高维表示空间中比正常样本分布更分散,通过双编码器(时间+拓扑)+ 超球面散射中心约束 + 对比融合学习时拓扑联合表示,在 6 个工业 IoT 数据集上 15/24 设置取得最佳。
- Semi-supervised Graph Anomaly Detection via Robust Homophily Learning
-
提出RHO (Robust Homophily Learning)方法,通过自适应频率响应滤波器(AdaFreq)和图正常性对齐(GNA)模块,解决半监督图异常检测中正常节点同质性多样性的问题,在8个真实数据集上超越现有方法。
- Spatio-Temporal Graphs Beyond Grids: Benchmark for Maritime Anomaly Detection
-
提出首个面向非网格时空系统(海事领域)的图异常检测基准数据集,将OMTAD数据集扩展为支持节点/边/图三级异常检测的基准,并计划使用LLM智能体进行轨迹合成和异常注入。
- Stealthy Yet Effective: Distribution-Preserving Backdoor Attacks on Graph Classification
-
提出 DPSBA,一种面向图分类的 clean-label 后门攻击框架,通过对抗训练生成分布内(in-distribution)触发子图,同时抑制结构异常和语义异常,在保持高攻击成功率的同时显著提升隐蔽性。
- Structured Temporal Causality for Interpretable Multivariate Time Series Anomaly Detection
-
提出OracleAD框架,通过为每个变量学习因果嵌入(LSTM编码+注意力池化)并构建稳定潜在结构(SLS)来建模正常状态下的变量间关系,结合预测误差和SLS偏离的双重评分机制实现可解释的多变量时间序列异常检测与根因定位。
- Test-Time Adaptive Object Detection with Foundation Model
-
提出无需源域数据的开放词汇测试时自适应目标检测框架(TTAOD),通过多模态 Prompt Tuning + Mean-Teacher + 实例动态记忆(IDM)+ 记忆增强/幻觉策略,在 Pascal-C 上 AP50 达 56.2%(+11.0 vs SOTA),在 13 个跨域数据集上一致有效。
- Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
-
本文提出Video-RAG,一个免训练、即插即用的RAG管道,通过从视频中提取视觉对齐的辅助文本(OCR、ASR、目标检测)并经检索筛选后输入LVLM,在仅增加约2K token的条件下将7个开源LVLM的Video-MME平均性能提升2.8%,72B模型超越GPT-4o。