跳转至

🎯 目标检测

🤖 AAAI2026 · 29 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (99) · 🔬 ICLR2026 (30) · 🧪 ICML2026 (6) · 🧠 NeurIPS2025 (27) · 📹 ICCV2025 (28) · 🧪 ICML2025 (12)

🔥 高频主题: 异常检测 ×9 · 目标检测 ×8 · 遥感 ×3 · 少样本学习 ×3 · 目标跟踪 ×2

AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

构建了首个面向无人机场景的大规模 Referring Multi-Object Tracking(RMOT)基准数据集 AerialMind,并提出 HawkEyeTrack(HETrack)方法,通过视觉-语言共进化融合编码器和尺度自适应上下文精炼模块,在无人机航拍场景中实现语言引导的多目标跟踪。

An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice

提出一个实时大米品质评估整体机制,整合改进的 YOLO-v5(品种检测)、改进的 ConvNeXt-Tiny(完整度分级)和 K-means(垩白区域量化)三个模块,在自建的六品种两万张图像数据集上实现了 99.14% mAP 和 97.89% 检测准确率。

AnoStyler: Text-Driven Localized Anomaly Generation via Lightweight Style Transfer

将零样本异常生成建模为文本引导的局部风格迁移问题,通过轻量级U-Net + CLIP损失将正常图像的掩码区域风格化为语义对齐的异常图像,在MVTec-AD和VisA上以263M参数(仅0.61M可训练)超越扩散模型基线,同时显著提升下游异常检测性能。

AquaSentinel: Next-Generation AI System Integrating Sensor Networks for Urban Underground Water Pipeline Anomaly Detection via Collaborative MoE-LLM Agent Architecture

提出AquaSentinel,一个物理信息驱动的AI系统,通过稀疏传感器部署+物理增强虚拟传感器+MoE时空GNN集成+双阈值RTCA检测算法+因果流定位+LLM报告生成,仅用20-30%节点覆盖即可实现全网管道泄漏检测,在110个泄漏场景中达到100%检测率。

Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection

提出利用VFM(DINOv2+Grounding DINO)增强无源域自适应目标检测(SFOD)的框架,通过全局特征对齐(PGFA)、实例级原型对比学习(PIFA)和双源伪标签融合(DEPF)三个模块,在6个跨域检测基准上取得SOTA,例如Cityscapes→Foggy Cityscapes达47.1% mAP(比DRU高3.5%),Sim10k→Cityscapes达67.4% AP(比DRU高8.7%)。

CASL: Curvature-Augmented Self-supervised Learning for 3D Anomaly Detection

发现点云曲率本身就是强大的异常检测线索,提出曲率增强的自监督学习框架 CASL,通过多尺度曲率提示引导坐标重建来学习通用 3D 表征,无需任何异常检测专用机制即可在 Real3D-AD 上以 5.6% O-AUROC 优势刷新 SOTA。

Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory

提出 CIF,利用超图(hypergraph)提取少量训练样本的类内结构共性,指导 memory bank 的构建与搜索,在少样本多模态工业异常检测中取得 SOTA。

Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning

提出 GroundingAgent,一个完全不需要任务特定微调的视觉定位框架,通过组合预训练的开放词汇检测器(YOLO World)、MLLM(Llama-3.2-11B-Vision)和 LLM(DeepSeek-V3)进行结构化迭代推理,在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率,大幅超越之前的 zero-shot 方法。

Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time

提出 TUNE,一个即插即用的测试时适应框架,通过图对齐器变换节点特征来解决图异常检测中因新正常类别出现导致的"正常性偏移"问题,利用聚合污染程度作为无监督适应信号,在 10 个真实数据集上显著增强多种预训练 GAD 模型的泛化能力。

CountSteer: Steering Attention for Object Counting in Diffusion Models

提出 CountSteer,一种免训练的推理时方法,通过在扩散模型的 cross-attention 隐状态中注入自适应 steering vector,将物体计数准确率提升约 4%,且不损害图像质量。

FDP: A Frequency-Decomposition Preprocessing Pipeline for Unsupervised Anomaly Detection in Brain MRI

首次系统分析脑 MRI 异常的频域特征,发现病变主要集中在低频分量中,据此提出频率分解预处理(FDP)框架,通过可学习先验上下文库重建低频信号来抑制病变同时保留解剖结构,作为即插即用模块可一致提升多种 UAD 基线的检测性能(LDM 上 DICE 提升 17.63%)。

Harnessing Vision-Language Models for Time Series Anomaly Detection

提出两阶段零样本时序异常检测框架:ViT4TS 用轻量 ViT 对时序折线图做多尺度 cross-patch 匹配定位候选异常区间,VLM4TS 用 GPT-4o 结合全局时序上下文验证和精炼检测结果,在 11 个 benchmark 上 F1-max 超最优 baseline 24.6%,token 用量仅为现有 LLM 方法的 1/36。

LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers

本文提出 LampQ,一种基于度量(metric-based)的逐层混合精度量化方法,通过类型感知的 Fisher 信息度量衡量 ViT 各层对量化的敏感度,结合整数线性规划优化比特宽度分配并迭代更新,在图像分类、目标检测和零样本量化等多个任务上取得 SOTA 性能。

LoReTTA: A Low Resource Framework To Poison Continuous Time Dynamic Graphs

提出 LoReTTA,一种无需代理模型的两阶段对抗投毒攻击框架:先通过 16 种时序重要性度量稀疏化高影响力边,再用保度数负采样算法替换对抗边,在 4 个数据集 × 4 个 TGNN 模型上平均降低 29.47% 性能,同时逃避 4 种异常检测系统且抵御 4 种防御方法。

MovSemCL: Movement-Semantics Contrastive Learning for Trajectory Similarity (Extension)

提出 MovSemCL 框架,将 GPS 轨迹转化为运动语义特征(位移向量 + 航向角 + Node2Vec 空间图嵌入),通过 patch 级双层注意力实现层次编码(复杂度从 \(O(L^2)\) 降为近线性),并设计曲率引导增广(CGA)保留转弯/路口等行为关键片段,在轨迹检索任务上 mean rank 接近理想值 1,推理延迟降低 43.4%。

CountVid: Open-World Object Counting in Videos

提出 CountVid 模型和 VideoCount 数据集,首次系统研究开放世界视频物体计数任务——给定文本或图像描述指定目标物体,枚举视频中所有独特实例,通过组合图像计数模型和可提示视频分割追踪模型解决遮挡、重复出现等挑战,在包含 TAO、MOT20、企鹅群和 X 射线金属结晶等多样化场景上显著优于多种强基线。

PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixing of Experts

PromptMoE 将提示学习从单体式(monolithic)范式转变为组合式(compositional)范式,通过视觉引导的混合专家(MoE)机制从可学习的语义原语库中动态组合实例自适应的正常/异常状态提示,在 15 个工业和医学数据集上实现 ZSAD SOTA。

RcAE: Recursive Reconstruction Framework for Unsupervised Industrial Anomaly Detection

提出递归卷积自编码器(RcAE),通过参数共享的多步迭代重建逐步抑制异常并保留正常细节,配合跨递归检测模块(CRD)利用多步重建动态实现鲁棒的异常定位,在仅需10%扩散模型参数的条件下达到可比的SOTA性能。

Reimagining Anomalies: What if Anomalies Were Normal?

提出首个面向无监督图像异常检测的反事实解释框架,通过训练生成器将异常样本修改为被检测器视为正常的多个解纠缠反事实,从语义层面回答“如果异常是正常的,它应该是什么样子?”,提供远超传统热力图的深层解释能力。

REXO: Indoor Multi-View Radar Object Detection via 3D Bounding Box Diffusion

将 DiffusionDet 的 2D BBox 扩散范式提升到 3D 雷达空间,提出 REXO 框架:通过含噪 3D BBox 的投影引导显式跨视图雷达特征关联,并引入地面约束减少扩散参数,在 HIBER 和 MMVR 两个室内雷达数据集上分别超越 SOTA +4.22 AP 和 +11.02 AP。

SimROD: A Simple Baseline for Raw Object Detection with Global and Local Enhancements

提出SimROD,一种极其轻量(仅0.003M参数)的RAW图像目标检测方法,通过全局Gamma增强(4个可学习参数)和绿色通道引导的局部增强,在多个RAW检测基准上超越了复杂的SOTA方法。

SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

SM3Det提出了遥感领域的M2Det新任务(多模态数据集+多任务目标检测),通过网格级稀疏MoE骨干网络和动态子模块优化(DSO)机制,用单一模型同时处理SAR/光学/红外三种模态的水平/旋转框检测,显著超越各模态独立训练的三个专用模型组合。

T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection

提出T-Rex-Omni框架,首次将负视觉提示(negative visual prompts)系统性地引入开放集目标检测,通过训练免费的NNC模块和NNH损失,显著缩小了视觉提示和文本提示检测方法之间的性能差距,在长尾场景中表现尤为突出(LVIS-minival APr达到51.2)。

Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection

提出一种对象感知的时序建模框架,通过选择性传播高置信度检测特征实现跨帧时序一致性,结合预训练视觉-语言编码器(OWL-ViT)和少样本检测头,在四个视频少样本检测基准上平均提升3.7%-5.3% AP。

Towards Multiple Missing Values-Resistant Unsupervised Graph Anomaly Detection

提出 M2V-UGAD 框架,首次解决节点属性和图拓扑同时缺失下的无监督图异常检测问题,通过双通路独立填补、超球潜空间融合和伪异常生成三个核心机制,克服跨视图干扰和填补偏差,在7个基准数据集上一致超越现有方法。

TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding

提出 TubeRMC 框架,利用文本条件化的候选 tube 生成 + 从时间/空间/时空三个维度进行 tube 条件化重建,并引入空间-时间互约束来增强弱监督时空视频定位性能。

VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection

提出 VK-Det 框架,仅利用 VLM 的视觉知识(无需额外监督信号),通过自适应选择知识蒸馏(ASKD)+ 原型感知伪标签(PAPL)+ 综合匹配推理(SMI),在航空遥感开放词汇目标检测中达到 SOTA,甚至超越使用额外监督的方法。

When Trackers Date Fish: A Benchmark and Framework for Underwater Multiple Fish Tracking

提出 MFT25 大规模水下多鱼跟踪数据集(15 序列, 408K 标注)和 SU-T 跟踪框架(UKF + FishIoU),实现 34.1 HOTA 和 44.6 IDF1 的 SOTA 性能,并通过统计分析揭示鱼类跟踪与陆地目标跟踪的本质差异。

YOLO-IOD: Towards Real Time Incremental Object Detection

首次系统性地将增量目标检测(IOD)引入 YOLO 实时框架,识别三种知识冲突类型,提出 CPR + IKS + CAKD 三模块协同解决方案,并引入更真实的 LoCo COCO 基准评估。