🎯 目标检测¶

🔬 ICLR2026 · 30 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (99) · 🧪 ICML2026 (6) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (27) · 📹 ICCV2025 (28) · 🧪 ICML2025 (12)

🔥 高频主题： 目标检测 ×11 · 异常检测 ×6 · 时序预测 ×3 · 少样本学习 ×3 · 扩散模型 ×2

APT: Towards Universal Scene Graph Generation via Plug-in Adaptive Prompt Tuning: APT 把场景图生成长期沿用的「冻结词向量语义先验」换成一组轻量可学习提示，将静态语义特征动态调制成依赖视觉上下文的表征，作为即插即用模块塞进任意一阶段 / 两阶段 / 开放词表 SGG 框架，用 <0.5M 参数和更短训练时间换来全面涨点。
Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting: WS-COC 是首个用多模态大模型（MLLM）做弱监督类无关目标计数的框架，只用图像级总数作监督，靠"二分对话调优 + 比较排序优化 + 全局局部融合"三个简单策略把 MLLM 的计数能力激活出来，在 FSC-147 等四个数据集上逼近甚至超过部分点级监督的全监督方法。
CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection: 首次将 Object-Centric Learning（Slot Attention）引入无源域自适应目标检测（SF-DAOD），通过分层 Slot 感知模块提取域不变的目标级结构先验，并用类引导对比学习驱动域不变表征，在多个跨域基准上大幅超越现有方法。
CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally: 通过线性探测实验证明 CLIP 的 BoW（词袋）行为并非源于编码器缺乏绑定信息，而是跨模态对齐的失败；提出 LABCLIP，仅训练一个轻量线性变换即可显著恢复属性-对象绑定能力。
Complexity- and Statistics-Guided Anomaly Detection in Time Series Foundation Models: 把时序基础模型（TFM，如 MOMENT）搬到重建式异常检测上时，会因「过泛化」（连异常也重建得很好）和「过平稳化」（实例归一化抹掉了均值方差）而失灵；本文用一个从重建/插补误差差导出的复杂度指标 \(\alpha\) 自适应地把 TFM 与轻量统计模型混合（CAE），再把均值方差重新注入解码端（MOMENT-Stat），在 23 个单变量 + 17 个多变量基准上把 VUS-PR 从此前 SOTA 的 0.4233 提到 0.4679。
Contextual and Seasonal LSTMs for Time Series Anomaly Detection: 针对单变量时间序列中现有方法难以检测的"小幅点异常"和"缓慢上升异常"，提出 CS-LSTMs 双分支架构——S-LSTM 在频域建模周期性演化、C-LSTM 在时域捕捉局部趋势，结合小波噪声分解策略，在四个基准上全面超越 SOTA 且推理速度提升 40%。
DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection: DeCo-DETR 把开放词汇检测里"在线调用文本编码器"和"定位与对齐互相打架"这两件事解耦——用 LVLM 离线蒸馏出一个可复用的分层语义原型池替代推理时的文本编码器，再用双流梯度隔离把定位和语义对齐分开训练，在 OV-COCO novel 类上提升 3.1~5.8 个点的同时把单图推理压到 135ms。
DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts: DETR-ViP 把"视觉提示为什么打不过文本提示"归因于视觉提示缺乏全局判别性，通过全局提示整合扩充负样本、用文本提示关系蒸馏重塑视觉提示空间拓扑、再加选择性融合稳住推理，在 COCO / LVIS / ODinW / Roboflow100 上把视觉提示检测显著推到新 SOTA（COCO 比 T-Rex2-T 高 +4.4 AP）。
DiffuDETR: Rethinking Detection Transformers with Denoising Diffusion Process: DiffuDETR 把目标检测重新表述为「以图像和一组带噪参考点为条件的物体查询生成任务」，用去噪扩散训练让 DETR 解码器学会从高斯噪声里把查询的参考点逐步去噪成精确目标位置，在 COCO / LVIS / V3Det 上一致超过 Deformable DETR、DINO 等基线，且推理只需多跑几次解码器、几乎不增加计算量。
Dual Distillation for Few-Shot Anomaly Detection: 提出双蒸馏框架 D24FAD，结合 query 图像上的教师-学生蒸馏（TSD）和 support 图像上的学生自蒸馏（SSD），辅以学习权重机制（L2W）自适应评估 support 重要性，在 APTOS 眼底数据集上仅用 2-shot 达到 100% AUROC。
Enhancing Vision Transformers for Object Detection via Context-Aware Token Selection and Packing: 提出 Select and Pack Attention（SPA）：用一个轻量门控层在多尺度物体标签监督下动态挑出每张图里真正有信息的 token，再把数量参差不齐的 token 打包进定长容器恢复批并行，从而在目标检测上同时拿到 +0.5~2.7 AP 的精度提升和 10.9%~24.9% 的计算量下降。
Fantastic Tractor-Dogs and How Not to Find Them With Open-Vocabulary Detectors: 本文揭示早期融合（early-fusion）开放词表检测器在「不含目标物体」的背景图上会大量产生高置信度假阳性（如在金毛狗的照片里自信地框出"tractor"），定位病根在视觉-语言融合层的跨模态注意力无法"什么都不选"，并提出一个免训练的解法：往 prompt 里追加几个语义中性的"注意力汇（attention sink）"token，把无处安放的注意力吸走，从而几乎消除背景假阳性。
ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection: ForestPersons 是首个专门面向森林树冠下失踪人员检测的大规模基准数据集（96,482 张图像 + 204,078 标注），通过模拟微型无人机（MAV）在 1.5-2.0 米高度的低空飞行视角，覆盖多季节、多天气、多姿态和多遮挡等级的真实搜救条件，为下冠层人员检测模型的训练和评估提供了坚实基础。
FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion: 提出一个无需训练的少样本目标检测框架，组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征，并通过图扩散算法精化置信度分数和抑制碎片化提案，在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。
InfoDet: A Dataset for Infographic Element Detection: 构建了一个大规模信息图元素检测数据集（101,264 张信息图、1420 万标注），涵盖图表和人类可识别对象两大类，并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。
Interference-Isolated Elastic Weight Consolidation and Knowledge Calibration for Incremental Object Detection: 针对增量目标检测中"未标注的过去/未来类目标被当成背景"导致的任务知识冲突，本文重新推导 EWC 的贝叶斯后验，从参数重要度里显式扣除干扰知识（IKI-EWC），再用可学习投影层补偿原型语义漂移重训分类头（PKC），在 VOC/COCO 上稳超 SOTA。
Long-Context Generalization with Sparse Attention: 提出 ASEntmax（Adaptive-Scalable Entmax），用可学习温度的 α-entmax 替代 softmax 注意力，从理论和实验两方面证明稀疏注意力能实现 1000× 长度外推，解决 softmax 在长上下文下的注意力弥散（dispersion）问题。
OD3: Optimization-Free Dataset Distillation for Object Detection: OD3 把数据集蒸馏从图像分类拓展到目标检测，提出一套完全不用梯度优化的合成流程：从空白画布出发，迭代地把真实物体贴进去（候选选择）、再用一个预训练观察者模型把低置信度物体挑出来删掉（候选筛选），配合通道级软标签训练学生检测器——在 COCO 1% 压缩率下 mAP50 比此前唯一的检测蒸馏方法 DCOD 高出 14.8%。
OVID: Open-Vocabulary Intrusion Detection: 本文首次提出"开放词表入侵检测（OVID）"任务，构造了 8 类入侵的 Cityintrusion-OpenV 数据集，并设计端到端多模态框架 OVIDNet——用文本-图像特征对齐去识别训练中没见过的入侵类别，再配两个即插即用的小策略（多分布噪声混合、动态记忆门控）提升泛化，在零样本与任务迁移设定下都超过 OpenSeeD 等强基线。
OwlEye: Zero-Shot Learner for Cross-Domain Graph Data Anomaly Detection: 提出 OwlEye 框架，利用基于成对距离统计的跨域特征对齐将异构图嵌入共享空间，从多图中提取 attribute-level 和 structure-level 正常模式存入可扩展字典，并通过截断注意力重建机制在完全零样本条件下检测未见图的异常节点，8 数据集平均 AUPRC 36.17% 超越最强 baseline ARC 约 5.4 个百分点。
PAANO: Patch-Based Representation Learning for Time-Series Anomaly Detection: 提出 PaAno，一种基于 patch 级表示学习的轻量时间序列异常检测方法，使用 1D-CNN 编码器 + triplet loss + pretext loss 学习 patch 嵌入空间，通过与记忆库中正常 patch 的距离计算异常分数，在 TSB-AD 基准上全面 SOTA，且仅需 0.3M 参数和数秒推理。
Point2RBox-v3: Self-Bootstrapping from Point Annotations via Integrated Pseudo-Label Refinement and Utilization: 针对"只用一个点标注训练旋转框检测器"这一弱监督任务，本文提出 Point2RBox-v3，用渐进式标签分配（PLA）把伪标签里的尺度信息喂给 FPN 多层标签分配、并用先验引导的动态掩码损失（PGDM-Loss）让 SAM 管稀疏场景、分水岭管密集场景，在 DOTA-v1.0 等六个遥感基准上把点监督旋转检测推到新 SOTA（DOTA-v1.0 两阶段 66.09%）。
Retain and Adapt: Auto-Balanced Model Editing for Open-Vocabulary Object Detection under Domain Shifts: 把「模型编辑」第一次引入开放词表目标检测（OVOD），只微调 FFN 输出投影层并存下紧凑的 KV 协方差统计量，再用一个数据自适应的对角矩阵 \(\Gamma\) 替代手调超参 \(\lambda\)，从而在「保住预训练能力」和「适应新域」之间自动找平衡——在 19 个跨域小样本任务上把新任务适配率（AGR）做到约 95–99%、同时保留约 94–98% 的 COCO 原始能力，且任务可任意顺序增删、无需重训。
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers: RF-DETR 用 DINOv2 互联网级预训练 + 端到端权重共享 NAS 训练一个"超网"，让一次训练就能在网格搜索中无需重训地导出整条精度-延迟 Pareto 曲线，在 COCO 上首次让实时检测器突破 60 AP，在真实世界数据集 RF100-VL 上以 20 倍速度反超 GroundingDINO。
Self-Guided Low Light Object Detection Framework: 这篇论文提出 SGLDet：训练时给标准检测器挂一个可拆卸的增强-去噪-Fourier 融合辅助分支，用低光照图像自身生成像素级监督来强化 backbone 表征，测试时移除辅助分支，因此在 DARK FACE、ExDark 和 nuImages 夜间检测上显著涨点且不增加推理开销。
SPWOOD: Sparse Partial Weakly-Supervised Oriented Object Detection: 提出首个统一处理"稀疏标注 + 弱标注（HBox/Point）"的旋转目标检测框架 SPWOOD：用 SOS-Student 在一个学生模型里并联补齐未标注、缺角度、缺尺度三股信号，再以多层级伪标签筛选（MPF）从无标注数据自训练，在 DOTA-v1.0/v1.5、DIOR 上以混合标注（RBox:HBox:Point=1:1:1）达到接近全监督的性能。
Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection: 提出 APF 框架，通过 Rayleigh 商引导的异常感知预训练和粒度自适应微调，解决图异常检测中标签稀缺和同质性差异的双重挑战。
Towards Reliable Detection of Empty Space: Conditional Marked Point Processes for Object Detection: 把目标检测重新建模成"标记泊松点过程"（CMPPP）——目标中心是点、宽高与类别是标记，用极大似然端到端训练，从而能对"某个区域是否真的没有障碍物（可通行）"给出有良好校准的概率估计，且检测精度与常规检测器相当。
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Method: 提出 TreeBench（首个可追溯视觉推理基准，405道高挑战 VQA，OpenAI-o3 仅 54.87%）和 TreeVGR（通过双 IoU 奖励的强化学习联合监督定位与推理的训练范式），7B 模型在 V*Bench +16.8、MME-RealWorld +12.6、TreeBench +13.4，证明可追溯性是推进视觉推理的关键。
Unbiased Object Detection Beyond Frequency with Visually Prompted Image Synthesis: 针对目标检测训练数据的类别/尺寸/位置偏差，本文提出一套"诊断—生成"去偏框架：用超越频率的表征分数（RS）找出真正欠表征的数据组，用 RS 重标定布局并以视觉蓝图（彩色矩形像素条件）+ 对偶生成对齐合成高保真样本，把稀有类提升 3.6 mAP、大目标提升 4.4 mAP，合成图布局准确率比此前 L2I SOTA 高 15.9 mAP。