跳转至

🎯 目标检测

📷 CVPR2026 · 99 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (30) · 🧪 ICML2026 (6) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (27) · 📹 ICCV2025 (28) · 🧪 ICML2025 (12)

🔥 高频主题: 目标检测 ×39 · 异常检测 ×20 · 少样本学习 ×14 · 多模态 ×10 · 推理 ×5

A Closer Look at Cross-Domain Few-Shot Object Detection: Fine-Tuning Matters and Parallel Decoder Helps

提出混合集成解码器(HED)和渐进微调策略用于跨域少样本目标检测,通过并行化部分解码层并随机初始化去噪查询引入预测多样性,在CD-FSOD/ODinW-13/RF100-VL三个基准上达到SOTA,不引入额外参数。

A Semantically Disentangled Unified Model for Multi-category 3D Anomaly Detection

提出 SeDiR 框架,通过粗到细全局标记化(CFGT)、类别条件对比学习(C3L)和几何引导解码器(GGD)三个模块实现语义解纠缠的统一3D异常检测,解决跨类别特征纠缠(ICE)问题,在 Real3D-AD 和 Anomaly-ShapeNet 上分别超出SOTA 2.8% 和 9.1% AUROC。

AKCMamba-YOLO: Selective State Space Models For Real-Time Object Detection

本文把选择性状态空间模型(Mamba/SSM)和自适应核卷积塞进 YOLOv8,用 3CAKCMamba / 4CAKCMamba 两个模块替换主干和颈部的 C2f 块,在保持 YOLO 线性复杂度、实时速度的同时补上卷积"看不远"的短板,COCO2017 上以 14.9G FLOPs 拿到 46.3% mAP(比 YOLOv8-S 高 1.4%、FLOPs 省 47.9%)。

Anomaly as Non-Conformity via Training-Free Graph Laplacian Energy Minimization

ANoCo 把异常检测从"这个 patch 像不像正常的"重新定义成"把这个 patch 拉回正常流形要花多大代价",用一个锚定的二部图 Laplacian 能量最小化把每个查询 patch 往正常流形上拉,拉动的位移幅度本身就是异常分——无需训练、无消息传递、闭式解,在 MVTec-AD / VisA 的 1/2/4-shot 上全面刷新 SOTA。

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

AnomalyVFM 提出了一个通用框架,通过三阶段合成数据生成方案和参数高效的 LoRA 适配机制,将任意视觉基础模型(VFM)转化为强零样本异常检测器,以 RADIO 为骨干在 9 个工业数据集上达到 94.1% 图像级 AUROC,超越 SOTA 3.3 个百分点。

AR²-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

利用固定视角视频中背景结构的时不变性,构建离线 Anchor Bank + 在线 Anchor Map 作为语言-场景持久记忆,配合锚点引导的重入先验和 ReID-Gating 身份验证机制,实现目标遮挡/离场后的鲁棒重捕获,RCR 提升 10.3%、RCL 降低 24.2%。

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

AVI-Edit 在预训练视频扩散 backbone 上做"音视频同步的实例级编辑"——用一个粒度感知掩码细化器把用户给的粗糙掩码(甚至是 bounding box)逐步细化成精确实例轮廓,再用一个自反馈音频 Agent(分离-生成-混音-返工流水线)调出与编辑后画面在时序上对齐的伴随音频,在视觉质量、条件遵循和音视频同步上全面超过现有方法。

Back to Point: Exploring Point-Language Models for Zero-Shot 3D Anomaly Detection

BTP 首次将预训练的点-语言模型(PLM,如 ULIP)应用于零样本 3D 异常检测,提出多粒度特征嵌入模块(MGFEM)融合 patch 级语义、几何描述子和全局 CLS token,配合联合表示学习策略,在 Real3D-AD 点级 AUROC 达到 84.5%,大幅超越观 VLM 渲染方案的 PointAD(73.5%)。

Balanced Hierarchical Contrastive Learning with Decoupled Queries for Fine-grained Object Detection in Remote Sensing Images

本文把遥感细粒度检测中的层级标签树嵌入 DETR 的表征空间,提出一个用可学习类原型做梯度均衡的「平衡层级对比损失」(BHCL),再配一个把分类/定位 query 解耦的策略,让对比学习只作用于分类分支而不干扰定位,在三个层级标注的遥感数据集上刷到新 SOTA。

BDNet: Bio-Inspired Dual-Backbone Small Object Detection Network

BDNet 模仿人类视觉系统的 LGN/V1–V2–V4 颜色通路和 V1–V4 边缘通路,搭了一个「颜色增强 + 边缘强化 + 分层融合」的双骨干检测网络,专门补救遥感小目标"颜色对比度低、边缘模糊"导致的特征提取不足,在 VisDrone2019、NWPU VHR-10、AI-TODv2 三个数据集上用仅 2.59M 参数刷到了 SOTA。

Beyond Caption-Based Queries for Video Moment Retrieval

揭示了VMR中caption-based查询与真实用户搜索查询之间的巨大鸿沟,提出了三个搜索查询基准,并通过移除自注意力+查询Dropout两项架构修改来缓解DETR中的解码器查询坍塌问题,在多时刻搜索查询上提升高达21.83% mAPm。

Beyond Duality: A Hybrid Framework of Leveraging Shared and Private Features for RGB-Event Object Detection

SPFD 把 RGB 和事件相机两路特征在频域按"谱相干"显式拆成"共享特征 + 各自私有特征"三股,再分别注入 DETR 的编码器(自适应门控融合两股私有特征)和解码器(逐层非对称注入私有特征),在 DSEC-Det 上把 mAP 从 SOTA 的 30.4 提到 34.6。

Beyond Prompt Degradation: Prototype-Guided Dual-Pool Prompting for Incremental Object Detection

提出 PDP 框架,通过双池提示解耦(共享池 + 私有池)和原型引导伪标签生成(PPG),解决增量目标检测中提示耦合与提示漂移导致的提示退化问题,在 COCO 和 VOC 上取得 SOTA。

Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval

提出Object-Anchored Composed Image Retrieval(OACIR)新任务和OACIRR大规模基准(160K+四元组),以及AdaFocal框架通过上下文感知注意力调制器自适应地增强对锚定实例区域的关注,在实例级检索保真度上大幅超越现有方法。

Bidirectional Multimodal Prompt Learning with Scale-Aware Training for Few-Shot Multi-Class Anomaly Detection

提出AnoPLe——一个轻量级多模态双向提示学习框架,无需手工异常描述或外部辅助模块,通过文本-视觉提示双向交互和尺度感知前缀实现少样本多类别异常检测,在MVTec-AD/VisA/Real-IAD上取得强竞争力的同时保持高效推理(~28 FPS)。

Black-Box Domain Adaptation for Object Detection with Retention-Driven Knowledge Compression

在只能调用云端黑盒 API、拿不到源数据也拿不到源模型的最严格隐私约束下做跨域目标检测,本文用终身学习中的"主动遗忘 + 选择性稳固"机制设计了 RDKC:Memory Retention 按可靠度把候选框分区并重分配预测分数以抗噪、Scene Compression 用近-远景对比加权引导细粒度定位,在 4 个跨域 benchmark 上全面超过此前 BBDA SOTA(如 Cityscapes→Foggy mAP 比 DINE 提升 +4.2)。

Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting

提出QICA框架解决零样本目标计数中的数量感知缺失和空间不敏感问题,通过数量条件化的协同提示策略(SPS)联合适配视觉-语言编码器,结合在相似度图上直接操作的代价聚合解码器(CAD)保持零样本迁移能力,在FSC-147上达到零样本SOTA(MAE 12.41)并展现强跨域泛化。

Bridge: Basis-Driven Causal Inference Marries VFMs for Domain Generalization

针对单源域、数据稀缺下检测器容易学到"光照/共现/风格"等混杂因子导致虚假相关的问题,本文提出即插即用的 Causal Basis Block(CBB),用可学习低秩基把因果前门调整落地成"估计两个期望",挂在冻结的 VFM(DINOv2/3、SAM、Stable Diffusion)上做端到端校准,在五个域泛化检测基准上一致刷新 SOTA(最高 +5.4 mAP)。

BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection

提出 BUSSARD,首个基于学习的场景特定异常关系检测方法,利用预训练语言模型嵌入场景图三元组 + 自编码器降维 + 标准化流进行似然估计,在 SARD 数据集上 AUROC 提升约 10%,且对同义词变化鲁棒。

CD-Buffer: Complementary Dual-Buffer Framework for Test-Time Adaptation in Adverse Weather Object Detection

提出 CD-Buffer 框架,通过统一的域差异度量驱动减性缓冲(通道抑制)和加性缓冲(轻量适配器补偿)的互补协作,实现跨不同严重程度恶劣天气条件下的鲁棒测试时目标检测适应。

CHAL: Causal-guided Hierarchical Anomaly-aware Learning for Moving Infrared Small Target Detection

把"运动红外小目标检测"从"直接学微弱目标特征"反转为"学背景正常模式、把目标当成背景里的异常",用时空神经场建模背景演化、分层异常感知(外观异常→运动一致性验证)、再用因果后门调整切断背景混淆路径,在三个红外数据集上刷新 SOTA。

Complementary Prototype Mapping for Efficient Multimodal Anomaly Detection

针对 RGB-3D 多模态异常检测中"无条件跨模态映射"会把正常的多样变化(如同一几何下不同颜色)误判为异常的问题,CPMAD 动态提取"共识原型"(跨模态一致、无异常的子空间)和"补充原型"(捕捉被共识忽略的模态特异线索),用两类互补原型引导跨模态重建,在 MVTec-3D 上达到 97.8% I-AUROC 的同时,轻量版推理快 5×、显存降 2.6×。

Consistency Beyond Contrast: Enhancing Open-Vocabulary Object Detection Robustness via Contextual Consistency Learning

本文发现开放词表检测器对同一物体在不同背景下会输出大幅漂移的特征(背景过拟合),提出 CCL 框架——用扩散模型批量造出"同物体换背景"的成对样本(CBDG),再用一个类内对比形式的一致性损失(CCLoss)强制同类特征对背景不变,在 OmniLabel 上提升 +16.3 AP、D3 上提升 +14.9 AP,且零额外推理开销、模型无关。

CrossVL: Complexity-Aware Feature Routing and Paired Curriculum for Cross-View Vision-Language Detection

针对视觉语言模型(VLM)在地面视角强、航拍视角弱的"跨视角鸿沟",CrossVL 用一个只在训练期生效、零推理开销的复杂度感知通路聚合模块(CPA)按场景稀疏/密集程度路由视觉特征,再配一套从配对采样渐变到随机采样的课程学习(PCL)稳住优化,把 Florence-2 在 MAVREC 航拍 mAP 从 58.66% 提到 61.03%、地空差距从 8.63pp 缩到 6.65pp,并把跨随机种子的方差降了 3.3×。

DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection

提出 DA-Mamba,一种 CNN-SSM 混合架构,通过 Image-Aware SSM(IA-SSM)和 Object-Aware SSM(OA-SSM)两个模块,以线性复杂度实现图像级和实例级的全局-局部域不变特征对齐,在四个域自适应检测基准上达到 SOTA。

Detect Anything via Next Point Prediction

把目标检测重新表述成"用 MLLM 生成量化坐标 token 序列",靠三件套——可学习坐标 token + 自建数据引擎造 2200 万标注 + SFT 后接 GRPO 强化训练修行为——做出一个 3B 模型 Rex-Omni,在 COCO 等基准上零样本超过 DINO / Grounding DINO 这类回归式检测器,同时还能做指代、指点、GUI 定位、OCR 等八类任务。

Detecting Unknown Objects via Energy-Based Separation for Open World Object Detection

提出 DEUS 框架,通过 ETF 子空间未知目标分离(EUS)在几何正交的已知/未知子空间中利用能量分数有效分离已知、未知和背景提案,并设计能量基已知区分损失(EKD)减少增量学习中新旧类的交叉干扰,在 OWOD 基准上大幅提升未知目标召回率。

Distribution-Aligned Multimodal Fusion for Robust Object Detection

针对 RGB-红外多模态检测在「未见过的退化场景」上泛化差的问题,本文冻结预训练检测器、只训练一个轻量融合模块,并用红外互补信息把融合特征显式拉回到「预训练检测器表现最好的正常特征分布 \(P_\text{normal}\)」上,而不是去适配训练时见过的退化分布,从而在三个基准上达到 SOTA 且训练快 4 倍。

DLVP-CLIP: Enhancing Fine-Grained Zero-Shot Anomaly Detection via Dynamic Local Visual Prompting

针对 CLIP 只对全局语义敏感、抓不住局部细节这一与异常检测天然矛盾的痛点,DLVP-CLIP 用注意力图动态挑出图像里的关键局部块当作"视觉提示"注入视觉/文本双编码器,并用小波频率分解单独强化高频纹理,在 13 个工业+医学数据集上把零样本异常检测/分割推到新 SOTA。

Does YOLO Really Need to See Every Training Image in Every Epoch?

提出 Anti-Forgetting Sampling Strategy (AFSS),根据每张训练图像的学习充分度(min(Precision, Recall))动态决定哪些图像参与训练、哪些可以跳过,实现 YOLO 系列检测器 1.43× 以上的训练加速同时保持甚至提升检测精度。

DyFCLT: Dynamic Frequency-Decoupled Cross-Modal Learning Transformer for Multimodal Tiny Object Detection

针对可见光-红外(RGBT)微小目标检测,DyFCLT 先用可学习的动态频带把跨模态特征拆成低/中/高频子带、在每个子带内做跨模态注意力交互(DFCA),再用一个前景掩码引导的选择性平滑模块(SSE)抑制背景噪声、增强前景细节,在两个 RGBT 微小目标基准上把 AP 拉到 SOTA(RGBT-Tiny 48.2 AP,比上一名多模态方法 +9.5)。

ElasticFormer: Detecting Objects in HRW Shots via Elastic Computing Vision Transformer

ElasticFormer 给稀疏 ViT 骨干装上一个轻量模块 ElasticSelector,让它在前向时按图像「前景占比」动态决定每个阶段保留多少窗口做局部注意力,从而在 PANDA 十亿像素检测上把骨干 FLOPs 砍掉 80% 还反而把 AP50 提了上去。

EW-DETR: Evolving World Object Detection via Incremental Low-Rank DEtection TRansformer

提出 Evolving World Object Detection (EWOD) 范式及 EW-DETR 框架,通过增量 LoRA 适配器、查询范数物体性适配器和熵感知未知混合三个协同模块,在无样本回放条件下同时解决类别增量学习、域迁移适应和未知目标检测问题,FOGS 指标提升 57.24%。

Expert-Teacher-Student Collaborative Learning for Domain Adaptive Object Detection

针对域适应目标检测中"视觉基础模型(VFM)知识太泛、教师模型知识太窄"的互补困境,本文提出 Expert-Teacher-Student(ETS)框架:把 VFM 当作"免费午餐"式的专家模型离线产出伪标签和原型,再通过 ETCT(标签级协同教学)和 ETJC(表征级联合巩固)双层机制让专家与教师协同监督学生,在三个 DAOD 基准上超越 SOTA(如 Cityscapes→BDD100k 达 49.8% mAP,比 DT 高 2.0%)。

Explaining Object Detectors via Collective Contribution of Pixels

本文提出 VX-CODE,用博弈论中的 Shapley 值(个体贡献)与 interaction(集体贡献)来解释目标检测器,并通过 self-context 变体 + 贪心 patch 选择把指数级计算降到可用,生成同时覆盖"主体特征 + 协同背景线索"的忠实热力图,insertion/deletion AUC 相比 SOTA 最高提升约 19%。

FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Alignment

提出 FALCON,一种基于学习的 mini-batch 构造策略,通过负样本挖掘调度器自适应平衡硬负样本与假负样本之间的权衡,显著提升视觉语言预训练的跨模态对齐质量。

FastRef: Fast Prototype Refinement for Few-shot Industrial Anomaly Detection

FastRef 把"用 query 特征精炼正常原型"写成一个特征迁移 + 异常抑制的嵌套优化问题,在推理时用闭式更新的 transform matrix 把 query 信息搬进原型、再用 Sinkhorn 最优传输把混进来的异常抑制掉,作为即插即用模块挂到 PatchCore / WinCLIP / AnomalyDINO 上,在 1/2/4-shot 下一致提升检测与定位 AUROC,且满足实时要求。

FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement

FB-CLIP 把 CLIP 用于细粒度零样本异常检测时的"前景-背景特征纠缠"问题拆成文本和视觉两条线一起治:文本侧融合 EOT/全局池化/注意力三种 token 特征做出更丰富的语义提示,视觉侧沿身份/语义/空间三个视角软分离前背景并做背景减法抑制残余干扰,再用语义一致性正则收紧图文对齐,在 16 个工业+医学数据集上把定位指标(AUPRO)刷到 SOTA。

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

提出 FALCON-SFOD 框架,通过基础模型(OV-SAM)生成的类别无关二值掩码正则化检测器特征空间(SPAR),结合不平衡感知的噪声鲁棒伪标签损失(IRPL),在无源域目标检测中增强目标聚焦表征,多个基准上达到 SOTA。

Fourier Angle Alignment for Oriented Object Detection in Remote Sensing

利用傅里叶旋转等变性在频域估计目标主方向并对齐特征,提出 FAAFusion 和 FAA Head 两个即插即用模块分别解决 FPN 跨尺度方向不一致和检测头分类-回归任务冲突,在 DOTA-v1.0/v1.5 和 HRSC2016 上取得新 SOTA。

From Detection to Association: Learning Discriminative Object Embeddings for Multi-Object Tracking

FDTA 指出端到端 MOT 里 DETR 产生的物体嵌入"类间相似度过高"是关联精度差的根因,于是在共享 DETR 之外挂三个轻量 adapter——空间(深度)、时序(轨迹)、身份(对比学习)——分别从空间连续性、时序依赖、实例可分性三个角度显式精炼嵌入,在 DanceTrack/SportsMOT/BFT 上把 HOTA、IDF1、AssA 全面刷到 SOTA。

FSLoRA: Harmonizing Detection and Re-Identification via Freq-Spatial Low-Rank Adapter for One-Stage Person Search

FSLoRA 把 LoRA 当成"逐层特征解耦器"插进整个骨干网络,用空间域的 MoE 路由(SLM)和频域的高低频分解(FLM)在底层就把检测共享特征和 ReID 身份特征分开,以 <2% 额外参数即插即用地把多个一阶段行人搜索框架推上了新 SOTA。

GMT: Effective Global Framework for Multi-Camera Multi-Target Tracking

GMT 把传统「单相机跟踪 + 跨相机关联」两阶段流程重构成统一的「全局轨迹—目标」关联:先用 CFCE 模块把同一目标在不同视角下的外观与空间特征对齐到一致空间,再用 DETR 式的 GTA 模块让新检测目标直接与编码了多视角历史信息的全局轨迹做匹配,在自建的大规模 VisionTrack 等 6 个数据集上 IDF1 / CVIDF1 等指标全面领先。

GPFlow: Gaussian Prototype Probability Flow for Unsupervised Multi-Modal Anomaly Detection

GPFlow 用一组可学习的高斯原型(均值+对角协方差+混合权重)建模"正常"的连续分布,再用一个有解析解的"后验均值路径(PMP)路由器"把输入特征朝高斯混合的后验均值迭代收缩——天然实现"协方差感知的信息瓶颈",在仅 5/10/50 张正常样本的少样本工业多模态(RGB+3D)异常检测上显著超过 FIND 等 SOTA。

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

提出GS-CLIP两阶段框架,通过几何缺陷蒸馏模块将3D点云的全局形状和局部缺陷信息注入文本提示,并用LoRA双流架构协同融合渲染图和深度图,在四个大规模数据集上实现零样本3D异常检测SOTA。

Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection

针对"标注稀缺时指代目标检测(ROD)模型性能骤降"的问题,本文先定义了低数据/少样本的 De-ROD 评测协议,再提出 HeROD:把从指代短语直接派生出的、可解释的空间方位先验视觉语义先验像 A* 的启发式代价一样,注入到 DETR 检测流水线的三个阶段(候选排序、最终预测、匈牙利匹配),在 RefCOCO/+/g 的极低数据(0.1%~5%)和少样本设置下相比 Grounding DINO / UNINEXT 普遍涨 3~16 个点。

Incremental Object Detection via Future-Aware Decoupled Cross-Head Distillation

针对增量目标检测中"检测头偏置污染骨干特征导致蒸馏失效"的问题,本文提出 FaCHD——用历史教师与中间教师两个冻结教师跨头解码学生 ROI 特征做特征蒸馏,把分类头从骨干解耦开,再配合 RPSC 多粒度原型语义漂移补偿重训分类头,在 VOC 与 COCO 两个增量基准上刷新了无样本回放方法的 SOTA。

InsCal: Calibrated Multi-Source Fully Test-Time Prompt Tuning for Object Detection

本文把测试时提示微调(TPT)从分类扩展到文本驱动的目标检测,并指出熵最小化会导致过自信/校准失准,于是提出 InsCal——用多源提示微调聚合多域知识、文本引导风格增强缩小域差、实例级校准熵抑制过自信,在跨域检测基准上把检测校准误差 D-ECE 从约 20% 压到约 10%,同时提升 mAP。

InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models

提出 InvAD,将扩散模型异常检测从"RGB 空间去噪重建"范式转变为"潜空间加噪反演"范式,通过 DDIM 反演直接推断最终潜变量并在先验分布下度量偏差来检测异常,仅需 3 步反演即达 SOTA 性能且推理速度提升约 2 倍。

Learning to Track Instance from Single Nature Language Description

SVLTrack 提出了一种完全不依赖任何边界框标注的自监督视觉-语言跟踪框架:用大型视觉-语言模型(LVLM)为视频首帧生成伪框,在弱到强一致性下做前向/后向跟踪自监督,并设计动态 token 聚合模块(DTA)把语言 token 与少数关键视觉 token 紧密对齐,最终仅凭一句自然语言描述就能跟踪任意目标,在四个 VL 跟踪基准上超越现有自监督方法。

Mind the Gap: Transferring Labels to Align Object Detection Datasets

本文提出 Label-Aligned Transfer(LAT)框架,把多个标注口径各异的检测数据集的标注,多对一地投影进某个固定目标数据集的标签空间——通过特权候选生成器 PPG(用真值+跨库伪标签替换 RPN)与语义特征融合 SFF(类别感知注意力降噪),同时解决类别语义不一致与边框风格不一致,在多个基准上最高 +8.4 AP。

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

提出 InCoM-Net,通过从 VLM 特征中为每个实例分别提取实例内、实例间和全局三层上下文特征,并通过渐进式上下文聚合与检测器特征融合,在 HICO-DET 和 V-COCO 上取得 HOI 检测 SOTA(HICO-DET Full mAP 43.96,V-COCO AP_role^S1 73.6)。

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with MLLMs

MMR-AD 构建了当前最大规模的多模态推理型工业异常检测数据集(127K 图像、188 类产品、395 种异常),并提出基于 GRPO 强化学习的 Anomaly-R1 基线模型,显著优于通用 MLLM。

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

提出 MoECLIP,将 Mixture-of-Experts 引入零样本异常检测(ZSAD),通过冻结正交特征分离(FOFS)和等角紧框架(ETF)损失实现 patch 级别的动态专家路由与特化,在14个工业/医学基准上达到 SOTA。

MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding

提出 MRD,一个 training-free 的多分辨率检索-检测融合框架,通过多分辨率语义融合缓解目标碎片化,结合开放词汇检测器抑制背景干扰,显著提升 MLLM 对高分辨率图像的理解能力。

NoOVD: Novel Category Discovery and Embedding for Open-Vocabulary Object Detection

提出NoOVD框架,在基于冻结VLM的OVD训练中通过无参数K-FPN保留CLIP知识来发现潜在新类别目标、通过自蒸馏将新类别知识嵌入检测器、通过R-RPN在推理时提升新类别召回率,在OV-LVIS/OV-COCO/Objects365上取得SOTA。

Object-Generalized Re-Identification: A Step Towards Universal Instance Perception

提出 Object-Generalized ReID(OG-ReID)新范式——用一个统一模型识别人、车、动物、船舶、建筑等异构物体的"同一实例",并设计 MGOR 框架把元学习重新诠释为"语义分布正则化",在 100+ 个未见类别上无需目标域适配就超过现有 ReID 方法。

Omni-AD: A Large-scale and Versatile Benchmark for Industrial Anomaly Detection

Omni-AD 是一个从真实产线采集、覆盖 16 个行业 150 个品类、约 3.5 万张像素级标注图像的工业异常检测(IAD)基准;它既支持传统无监督 IAD 评测,又首次为多模态大模型(MLLM)设计了「判别—分类—定位」三个递进难度的子任务,实验证明现有方法与 MLLM 在这个数据集上都远未饱和。

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

DetGain 是首个对目标检测真正有效的在线数据筛选方法:它不看不稳定的训练 loss,而是估计每张图对「数据集级 mAP」的边际扰动(marginal contribution),用师生(teacher–student)贡献差作为学习度信号在每个迭代里挑选信息量最大的样本,架构无关、即插即用,在 COCO 上为多种检测器带来最高 +2.7 mAP、在低质量数据下最高 +6.9 mAP 的稳定提升。

PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation

提出 PALM,一个统一的 VLA 框架,通过结构化的细粒度可供性预测(全局/局部/空间/动态四类)作为隐式推理锚点,结合连续子任务进度估计实现无缝任务切换,在 CALVIN ABCD 上平均完成长度达 4.48(超越前 SOTA 12.5%),LIBERO-LONG 成功率 91.8%,真实世界长时域泛化测试中达到基线 2 倍以上。

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

PaQ-DETR 提出基于共享模式的动态查询生成(内容感知权重组合共享基模式)+ 质量感知一对多分配(基于定位-分类一致性自适应选择正样本),统一解决DETR中的查询表示和监督不均衡问题,在多个backbone上稳定提升1.5%-4.2% mAP。

Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection

HSA-DINO 提出多尺度 prompt bank 从图像特征金字塔中学习层次化语义 prompt 增强文本表示,并通过语义感知路由器在推理时动态决定是否使用领域特定增强,实现了领域适配与开放词汇泛化的优越平衡(H 值在三个垂直领域数据集上均为最优)。

Parameterized Prompt for Incremental Object Detection

针对增量目标检测(IOD)中"提示池(prompts pool)"因检测场景固有的共现现象而失效的问题,本文用一个可参数化的 MLP bottleneck 取代离散提示池,配合基于任务向量的提示融合与稀疏损失,让旧任务知识被整体性地保留与更新,在 PASCAL VOC2007 与 MS COCO 上取得 SOTA。

Partial Weakly-Supervised Oriented Object Detection

本文提出"部分弱监督旋转目标检测(PWOOD)"这一新设定——只用少量弱标注(水平框或单点)+ 大量无标注数据,配合能从弱标注里学到朝向与尺度的师生学生模型(OS-Student)和基于高斯混合的类无关伪标签过滤(CPF),在 DOTA / DIOR 上以更低标注成本逼近甚至超过用旋转框的半监督方法。

PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training

PET-DINO 在 Grounding DINO 基础上构建了一个同时支持文本和视觉提示的通用目标检测器,设计了对齐友好的视觉提示生成模块(AFVPG)以及两种提示丰富化训练策略(IBP 和 DMD),在零样本检测任务上以更少的训练数据取得了有竞争力的性能。

PHAC: Promptable Human Amodal Completion

提出可提示人体非模态补全(PHAC)新任务,通过基于点的用户提示(姿态/边界框)配合 ControlNet 注入条件信号,并设计基于修复的精炼模块保留可见区域外观,实现高质量、可控的遮挡人体图像补全。

Portable Active Learning for Object Detection

PAL 提出一个只读检测器推理输出、不动模型内部和训练流程的主动学习框架:用轻量逻辑回归分类器从「pre-NMS 框数 + 置信度」两个特征估计每个检测是真/假阳性、再取熵作为实例不确定性(LIUS),叠加三路图像级信号(GUIDE)做多样性与类别均衡筛选,在 COCO / VOC / BDD100K 上比 PPAL 等基线用更少标注达到更高检测精度。

Prompt-Free Universal Region Proposal Network

PF-RPN 用可学习视觉嵌入替代文本/图像提示,通过稀疏图像感知适配器、级联自提示和中心性引导查询选择三个模块,仅用 5% COCO 数据训练即可在 19 个跨域数据集上实现 SOTA 零样本区域提案。

RARE: Learn to RAnk and REtrieve for Monocular 3D Object Detection

RARE 用"排序 + 检索"两个机制统一解决单目 3D 检测的两大顽疾:把置信度估计从回归绝对分改成学相对排序,再为每个物体构造一组 query 预测多个合理的 3D 假设、按学到的置信度检索出最优解,在 KITTI / nuScenes 上超过一众单目 SOTA。

RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation

提出 Robot-Conditioned Normalizing Flow (RC-NF),通过条件归一化流对机器人状态与物体运动轨迹的联合分布建模,实现 <100ms 实时异常检测,可作为 VLA 模型(如 π₀)的即插即用监控模块,支持任务级重规划和状态级轨迹回滚。

Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision

提出 ReAL 和 CGRO 两个模块,通过提取 MLLM 自回归推理过程中的异常相关 token 并聚合其视觉注意力来生成像素级异常图,再通过一致性引导的强化学习对齐推理与视觉证据,实现仅凭图像级监督的端到端异常检测、定位与可解释推理。

Remedying Target-Domain Astigmatism for Cross-Domain Few-Shot Object Detection

首次发现跨域少样本目标检测(CD-FSOD)中模型注意力在目标域持续分散的"散光"现象,受人类中央凹视觉系统启发,设计正向模式精化(PPR)、负向上下文调制(NCM)和文本语义对齐(TSA)三个互补模块来重塑注意力,在6个跨域基准上以显著优势达到SOTA。

RHCNet: Residual-Guided Hierarchical Calibration Network for Robust Underwater Object Detection

针对水下图像"前景背景难分、结构细节丢失、对比度低"三大顽疾,本文在 ResNet-50 上嵌入残差引导增强模块(RGFE)找回模糊区的边缘纹理,再用分层特征校准金字塔(HFCP)以"先校准再融合"的方式做跨尺度对齐,并用 K-means 聚类原型把前景从混乱背景里抠出来,最终在 DUO / UTDAC 两个水下基准上把 AP 刷到 70.53% / 53.35%,全面超过此前最好方法。

Rotation Invariant and Symmetry Aware Pixel Difference Network for Remote Sensing Object Detection

把"连续旋转不变性"和"结构对称性"两个几何先验直接焊进卷积核里,提出 RIS-PDC 算子(像素差分 + 极谐对称核 + SO(2) 八方向核旋转平均),即插即用地替换主流遥感检测器的卷积,在 DOTA-v1.0 单尺度拿到 78.53% mAP 且不增加参数量。

Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward

提出 Saliency-R1,通过基于 logit 分解的高效显著性图技术和思维链瓶颈注意力回溯,将显著性图与人工标注 bounding box 的对齐度作为 GRPO 奖励,训练 VLM 在推理时聚焦任务相关的图像区域,提升推理的可解释性和忠实性。

See What We Cannot See: A Geo-guided Reasoning Benchmark for Object Counting under Adverse Earth Observation Conditions

提出 GROC——首个面向「恶劣对地观测条件下地理引导推理计数」的大规模基准(14K 图像、1.2M 点标注,每图对齐 land use / map / DSM 三种地理模态并配套清晰-退化成对样本),通过一套可控退化 + 交互标注的数据引擎构建,并配一个以 GPT-5 为骨干、调用专家计数工具的 GROC Agent 作为基线,系统性揭示:现有计数模型一旦云雾/低光遮挡视觉线索就大幅掉点,而地理模态能提供稳定的结构与语境先验显著提升鲁棒性。

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

针对红外小目标检测中"增强高频特征会同步抬高虚警率"的痛点,本文从频域视角提出噪声抑制型特征金字塔 NS-FPN,用低频引导的特征净化模块(LFP)和螺旋感知的特征采样模块(SFS)替换 FPN 里的 1×1 卷积与上采样,在几乎不增加计算量的前提下大幅压低虚警并提升定位精度。

SFR-Net: Steering-Fusion-Refining Network in Multi-label Zero-Shot Sewer Defect Detection

SFR-Net 用「调向(RS)→ 融合(MEF)→ 精修(GR)」三段式流水线把 CLIP 改造到下水道缺陷场景,先用轻量适配器把表征引向管道域、再融合全局与局部证据出初始分、最后用 GCN 从可见类学到一套可迁移的"打分修正逻辑"补到未见类上,在 Sewer-ML 和自建 WZ-Pipe 两个数据集的多标签零样本任务上刷到 SOTA(Sewer-ML ML-ZSL mAP 12.58%,约为次优方法的两倍)。

Spike-driven Discrete Aggregation for Event-based Object Detection

针对事件相机的目标检测,本文提出"离散聚合"思路——用脉冲神经元的阈值发放机制自适应地只挑出有信息量的事件来聚合(SDA 模块 + 门控循环脉冲神经元 + 多时间尺度融合),在 Gen1 上以更少参数取得 43.4% mAP50:95,比此前全脉冲 SOTA 高 4.5%。

SpiralDiff: Spiral Diffusion with LoRA for RGB-to-RAW Conversion Across Cameras

提出 SpiralDiff,一种面向 RGB-to-RAW 转换的扩散框架,通过信号依赖的噪声加权策略适应不同像素强度区域的重建难度,并引入 CamLoRA 模块实现单一模型跨多相机的轻量适配。

SRA-Det: Learning Omni-Grained Open-Vocabulary Detection Beyond Category Names

针对开放词表检测只会按"类别名"匹配、对颜色/材质/图案等细粒度属性不敏感的问题,SRA-Det 用一组可学习检索查询从文本 token 里抽出多个语义面(facet),再用 soft-min 匹配让它们像"逻辑与"一样必须全部满足,配合一条用 LLM 自动生成属性、用 CLIP 双重核验的数据流水线扩充监督,零样本下在 FG-OVD 上拿到 54.9 mAP、在 LVIS 上保持 40.4 AP。

SL-HOI:精简化的开放词表人-物交互检测

SL-HOI 只用一个冻结的 DINOv3(dino.txt 变体)做开放词表 HOI 检测——用 backbone 做精细定位、用文本对齐的 vision head 做开放词表交互分类,并通过"把交互查询和图像 token 一起塞进冻结 vision head"来弥合两者的表征鸿沟,仅训练少量参数就在 SWiG-HOI 和 HICO-DET 上刷到 SOTA。

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

SubspaceAD 证明了在强视觉基础模型(DINOv2-G)特征上做一次 PCA 拟合就足以超越所有需要训练/记忆库/提示调优的少样本异常检测方法,1-shot 下在 MVTec-AD 上达 98.0% 图像级 AUROC 和 97.6% 像素级 AUROC。

Target-Aware Invertible Encoder with Reconstruction Guidance for Infrared Small Target Detection

InvDet 用一个可逆编码器把"下采样导致红外小目标信息丢失"这件事变成可观测、可优化的量——前向走检测、逆向重建输入,再用 TARM 把重建焦点收到目标上、用 GCTM 替代 IoU 生成像素级权重图监督重建,在 5 个红外基准上取得有竞争力的精度和很强的跨数据集泛化。

Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

Thermal-Det 用「RGB→热红外」翻译合成百万级带文本标注的热红外数据做预训练,再借助一个冻结的 RGB 开放词表检测器当老师、用框/语义/置信度三路蒸馏把开放词表能力迁到热红外学生,并通过热红外文本对齐头(TTAH)和热红外 LLM 字幕监督校正 CLIP 文本空间,做到完全无需热红外标注的零样本开放词表热成像检测,在 7 个红外基准上比 RGB 开放词表检测器提升 2–4% AP。

Toward Generalizable Whole Brain Representations with High-Resolution Light-Sheet Data

提出 CANVAS——首个大规模亚细胞分辨率光片荧光显微镜(LSFM)全脑基准数据集,涵盖 6 种细胞标记物、约 93,000 个细胞标注和公开排行榜,揭示了现有检测模型在跨标记物和跨脑区泛化上的严重不足,并探索了 3D 掩码自编码器(MAE)的自监督表示学习潜力。

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

本文提出 IB-IUMAD,把工业多模态异常检测(RGB+深度)做成「一个模型增量学新物体」的统一框架,用 Mamba 解码器解耦物体间的虚假特征耦合、用信息瓶颈融合模块滤掉融合特征里的冗余信息,从而显著缓解增量学习里的灾难性遗忘,在 MVTec 3D-AD 和 Eyecandies 上一致超过 SOTA。

Towards Persistence: Learning Topological Constraints for Event-based Small Object Detection

针对事件相机点云上小目标轨迹容易断裂的问题,本文提出 SpTopoNet,用「拓扑学习模块 + 空间一致性模块」在网络里隐式编码轨迹连通性,再用基于持续同调的 EvTopoLoss 在损失里显式约束轨迹拓扑结构,在 EV-UAV 基准上把 IoU 从 55.18% 拉到 66.62%。

Tri-Modal Fusion Transformers for UAV-based Object Detection

针对无人机在弱光、运动模糊、场景剧变下单一传感器失效的问题,本文用双流层级 MiT Transformer 把 RGB、热红外、事件三种模态在主干网络的多个分辨率层级上做门控+token 双向交换融合,配套发布了首个同步对齐的三模态无人机数据集(10,489 帧 / 24,223 个车辆框),通过 61 组消融系统回答了「三模态该在哪一层、用什么算子融合」,并把 mAP 推到 84.24%。

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

针对低空复杂背景下无人机"低对比度、弱边界、与杂乱纹理高度混淆"的检测难题,本文构建了刻意采样伪装/复杂场景的 RGB-T 数据集 UAV-CB(3,442 对图像、5 类背景),并提出在局部频域里做对齐的 LFBNet——先在频域统一两模态的幅度与相位,再用频域线索引导空间可变形配准,最终在 UAV-CB 上把 AP(0.5:0.95) 做到 54.4%,比此前最好的多模态基线 C2Former 高 5.3 个点。

UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression

提出 UniMMAD,首个用单一参数集同时处理多模态、多类别异常检测的统一框架,核心是基于 MoE 的特征解压缩机制,将通用多模态编码特征自适应分解为领域特定的单模态重建,在 9 个数据集(3 个领域、12 种模态、66 个类别)上达到 SOTA。

UniSpector: Towards Universal Open-set Defect Recognition via Spectral-Contrastive Visual Prompting

本文提出 UniSpector 开放集工业缺陷检测框架,通过频域-空域双域特征融合(SSPE)和角度间隔对比提示编码(CPE)解决了视觉提示嵌入崩塌问题,在新构建的包含 360 种缺陷类别的 Inspect Anything benchmark 上,AP50 检测和分割分别比最佳基线高 19.7% 和 15.8%。

Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection

UAVGen 用扩散模型为无人机目标检测合成带标注的训练数据:先用「视觉原型」把模糊的小目标布局条件换成高质量参考实例,再只在目标密集的「焦点区域」做生成、并用检测器回过头精修标签,在 VisDrone 上仅靠 738 张合成图就把 mAP 从 24.5 提到 25.9。

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

重新审视零样本异常检测(ZSAD)中文本分支的必要性,提出 VisualAD——一个纯视觉框架:在冻结 ViT 中插入两个可学习 token(anomaly/normal),配合 Spatial-Aware Cross-Attention 和 Self-Alignment Function,去掉文本编码器仍在 13 个工业+医学基准上取得 SOTA。

ViTPrompt: Training-Free Prompt Refinement with Visual Tokens for Open-Vocabulary Detection

针对开放词表检测在域偏移下"框歪了也没人修"的问题,ViTPrompt 把首遍检测里高置信目标的 RoI 视觉 token 拼进文本提示,再跑一遍 Grounding DINO,靠免训练的两阶段推理同时刷新边界框和分类分数,在多个 OOD 基准上拿到 SOTA。

WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

把开放词表检测彻底当成「区域 × 文本」的检索匹配问题来做:用无跨模态融合的双塔结构 WeDetect 拿到实时 SOTA 检测,再冻结它派生出通用提议生成器 WeDetect-Uni(顺带支持局部物体检索这一新任务),最后用一个把 REC 改造成「LLM 当分类器、一次前向并行打分」的 WeDetect-Ref,在 15 个 benchmark 上同时刷到高精度和高吞吐。

When Transformers Meet Mamba: A Hybrid Transformer-Mamba Network for Video Object Detection

TMambaDet 把 Transformer 和 Mamba 在视频目标检测里做了一次明确分工——帧内空间用自适应可变形 Transformer 建模、帧间时序用线性复杂度的双向 Mamba 建模、解码器把两者交织起来对齐 query 与时空特征,在 ImageNet VID 上以 ResNet-101 拿到 87.9% mAP 且单帧只要 20.6 ms。

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

YOLO-Master 把稀疏 MoE(ES-MoE 块)塞进 YOLO 的 backbone,让网络按图像复杂度动态激活不同专家,在 MS COCO 上以 1.62ms 延迟拿到 42.4% AP,比 YOLOv13-N 高 0.8% mAP 且快 18%。

YOLO-ULM: Ultra-Lightweight Models for Real-Time Object Detection

在 YOLOv12 骨架上替换两类高耗算子(特征聚合换成基于级联大核深度卷积的 D3C2f、下采样换成可重参数化的双路 RepDown),再配一个对难易样本自适应的 FoCIoU 损失,做出一个从零训练、参数和算力都更省、精度反而超过 YOLOv11/12/13 与 RT-DETR 的超轻量实时检测器。