跳转至

✂️ 语义分割

📷 CVPR2025 · 98 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (4) · 📷 CVPR2026 (103) · 🔬 ICLR2026 (11) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (48) · 📹 ICCV2025 (78)

🔥 高频主题: 语义分割 ×41 · 多模态 ×6 · 语音 ×5 · 目标检测 ×5 · 对齐/RLHF ×4

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

提出2DMamba,首个具有高效并行算法的原生2D选择性状态空间模型,通过保持2D空间连续性(而非展平为1D序列)来建模WSI中的patch间关系,在10个公共病理数据集上全面超越1D Mamba方法,并在ImageNet分类和ADE20K分割上也有提升。

A Distractor-Aware Memory for Visual Object Tracking with SAM2

提出SAM2.1++的干扰物感知记忆模型(DAM),将SAM2的记忆拆分为近期外观记忆(RAM,确保分割精度)和干扰物解析记忆(DRM,确保跟踪鲁棒性),通过内省式更新策略检测干扰物并自动存储锚帧,在7个基准上设立新SOTA。

Assessing and Learning Alignment of Unimodal Vision and Language Models (SAIL)

提出 SAIL 框架——先通过 alignment probing 评估单模态视觉和语言模型的对齐潜力(发现 k-NN 聚类质量比线性可分性更重要),再用轻量级 GLU 对齐层 + Sigmoid 损失 + 多正样本策略高效对齐 DINOv2 和预训练语言模型,仅用 6% 的 CLIP 训练数据即超越 CLIP。

SAIL: Assessing and Learning Alignment of Unimodal Vision and Language Models

Audio-Visual Instance Segmentation

G2HFNet: GeoGran-Aware Hierarchical Feature Fusion Network for Salient Object Detection in Optical Remote Sensing Images

提出 G2HFNet,通过多尺度细节增强 (MDE)、双分支几何-粒度互补 (DGC)、深层语义感知 (DSP) 和局部-全局引导融合 (LGF) 四个模块,针对不同层级特征设计差异化优化策略,在三个遥感显著性检测数据集上全面超越 SOTA。

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging

本文系统综述了脑胶质瘤 MRI 图像分割与分类中传统方法与深度学习方法的表现,通过全面对比评估得出 CNN 架构在分割精度和鲁棒性上显著优于传统技术的结论。

Condensing Action Segmentation Datasets via Generative Network Inversion

Continuous Locomotive Crowd Behavior Generation

生成连续的人群运动行为,实现轨迹和动作的联合合成,产生自然且多样的群体运动模式

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

COSMOS 提出了一种跨模态自蒸馏框架,通过文本裁剪策略和交叉注意力模块在学生-教师结构中学习细粒度的跨模态表征,在仅使用 30M 数据预训练的情况下,在零样本检索、分类和语义分割任务上全面超越 CLIP 类基线,甚至超越在数十亿数据上训练的 OpenCLIP。

CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation

提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,基于物理引导的稀疏混合专家 (MoE) 架构,构建了包含 200K 图像的训练集和 22 个子基准的评估体系,在 20/22 个跨域语义分割基准上达到 SOTA。

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

DA-VPT 提出了一种分布感知的视觉提示微调框架,通过在 ViT 深层利用度量学习构建 prompt 与视觉 token/CLS token 之间的语义度量空间,引导 prompt 作为"语义桥梁"传递图像 patch 的类特异性信息到 CLS token,在 24 个识别任务和 2 个分割任务上以极少参数显著超越标准 VPT。

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

DeCLIP 发现 CLIP 的自注意力中存在"代理 token"现象导致图像 token 无法聚合空间相关信息,提出将自注意力模块解耦为"内容"和"上下文"特征并分别用 CLIP 自蒸馏和视觉基础模型蒸馏进行优化的框架,在开放词汇目标检测和语义分割上全面超越现有方法。

DefMamba: Deformable Visual State Space Model

DefMamba 提出了一种基于可变形机制的视觉状态空间模型,通过可变形扫描策略动态调整扫描路径(参考点偏移 + 扫描顺序偏移),克服了现有 Visual Mamba 方法使用固定扫描顺序导致的空间结构信息丢失问题,在 ImageNet 分类、COCO 检测和 ADE20K 分割上达到 SOTA。

DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation

提出将深度图作为几何先验而非通过神经网络编码,设计几何自注意力(GSA)将深度距离和空间距离融合为衰减因子调制注意力权重,以约一半 FLOPs 匹配或超越双编码器 RGBD 分割方法。

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

提出 dino.txt,通过冻结 DINOv2 视觉编码器 + 从头训练文本编码器的 LiT 策略,创新性地用 [CLS]+平均池化拼接作为图像表征,结合文本+图像双模态数据平衡,仅用 50K 迭代(CLIP 训练成本的几分之一)即在零样本分类和开放词汇分割上达到 SOTA。

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation

DPSeg 提出在开放词汇语义分割中同时利用文本提示和 Stable Diffusion 生成的视觉提示来构建双提示代价体积,通过多尺度视觉代价体积引导解码器和两轮推理的语义精炼策略,在 5 个公开数据集上全面超越现有方法。

Dual-Agent Optimization framework for Cross-Domain Few-Shot Segmentation

提出 Dual-Agent Optimization (DATO) 框架,包含一致性互聚合(CMA)模块学习跨域不变特征以增强表示,以及相关性修正策略(CRS)将 support-query 匹配转移到域不敏感的特征空间,有效提升跨域小样本分割的泛化能力。

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics

DDESeg 从音频的本质特性出发,针对混合音频的特征混淆和同物体不同声音的类内变异两大问题,提出动态推导模块从混合信号中衍生独立声源表征并增强判别性,再通过动态消除模块过滤掉画外音等无关音频语义,在 AVS 所有基准上取得 SOTA。

EdgeTAM: On-Device Track Anything Model

EdgeTAM 通过详细的延迟分析发现 SAM 2 的瓶颈在记忆注意力而非图像编码器,提出 2D Spatial Perceiver 将帧级记忆从 64×64 维压缩到 ~500 个 token(保留空间结构),配合两阶段知识蒸馏,在 iPhone 15 Pro Max 上实现 16 FPS 的实时 Track Anything。

EditAR: Unified Conditional Generation with Autoregressive Models

提出 EditAR——首个将图像编辑(纹理修改、物体替换/移除、局部编辑)和图像翻译(深度/边缘/分割图到图像)统一在单一自回归框架中的方法,通过在 LlamaGen 基础上引入条件图像 token 前缀和 DINOv2 蒸馏损失,在标准 next-token prediction 范式下即可对多种条件生成任务取得与专用模型竞争的性能。

Effective SAM Combination for Open-Vocabulary Semantic Segmentation

提出 ESC-Net,一种单阶段开放词汇语义分割模型,通过从 CLIP 图像-文本相关性图中生成伪提示(pseudo prompts)并将其嵌入预训练 SAM 解码器 block 中,高效利用 SAM 的类无关分割能力来增强空间聚合,配合 Vision-Language Fusion (VLF) 模块实现精确的掩码预测,在 ADE20K、PASCAL-VOC、PASCAL-Context 上均取得 SOTA 性能。

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

提出一个高效 RGB-D 多任务场景理解网络,通过改进融合编码器利用冗余特征加速推理,引入归一化聚焦通道层 (NFCL) 和上下文特征交互层 (CFIL) 进行跨维度特征引导,并设计多任务自适应损失函数动态调整任务权重,在 NYUv2/SUN RGB-D/Cityscapes 上达到 SOTA。

Exploiting Temporal State Space Sharing for Video Semantic Segmentation

提出 TV3S(Temporal Video State Space Sharing)架构,利用 Mamba 状态空间模型实现跨视频帧的高效时序信息共享,通过独立处理空间 patch 并结合 shifted window 机制实现高度并行化计算,在 VSPW 和 Cityscapes 数据集上以良好的精度-效率平衡超越了现有的 Transformer 和 RNN 方法。

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation

ExCEL 提出利用 patch-text 对齐范式(而非传统 image-text 对齐)挖掘 CLIP 的密集知识用于弱监督语义分割,通过文本语义扩充(TSE)和视觉校准(VC)两个模块增强密集对齐能力,在仅需 3.2GB 显存和 6% 训练时间的条件下,在 PASCAL VOC 和 MS COCO 上大幅超越 SOTA。

Exploring Simple Open-Vocabulary Semantic Segmentation

本文提出 S-Seg,一个极简的开放词汇语义分割模型,不依赖 CLIP 预训练、不需要标注掩码、不使用定制分组编码器,仅用伪掩码(DINO K-Means 聚类)和图像-文本对比损失训练 MaskFormer,在 Pascal VOC、Pascal Context 和 COCO 上取得了与复杂方法相当的性能,自训练后平均 mIoU 提升 5.5%。

F-LMM: Grounding Frozen Large Multimodal Models

F-LMM 冻结现成 LMM 的所有参数,仅训练轻量 CNN mask decoder 将 LMM 注意力图中固有的词-像素对应关系翻译为分割 mask,在完全保持对话能力的同时获得 competitive 的视觉定位性能。

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

PartCATSeg 通过将物体级和部件级的图文代价体积解耦聚合、引入组合损失约束部件构成关系、并利用 DINO 特征提供结构引导,在多个开放词汇部件分割基准上将 h-IoU 提升超过 10%。

FineCaption: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

FineCaption 提出一种支持任意 mask 引用和高分辨率图像输入的视觉语言模型,结合 mask 感知 CLIP 编码器、ConvNeXT 和 SAM 高分辨率编码器,以及新构建的 CompositionCap 数据集,实现了多粒度组合式区域图像描述任务。

Foveated Instance Segmentation

FSNet 提出一种模拟人眼中央凹视觉机制的实例分割框架,通过可学习的显著性图引导非均匀下采样,在注视目标区域保持高分辨率细节、在外围降低分辨率,实现了在不同预训练分割网络上的即插即用式效率提升。

Fractal Calibration for Long-Tailed Object Detection

提出 FRACAL(FRActal CALibration),一种无需训练的后处理方法,首次将分形维数引入长尾目标检测的后校准中,通过对称校准频率轴(类别频率)和空间轴(类别位置均匀度),在 LVIS 数据集上将稀有类 mask AP 提升高达 8.6%,并在 COCO、V3Det、OpenImages 上展示泛化性。

Frequency Dynamic Convolution for Dense Image Prediction

FDConv 从频率域角度重新设计动态卷积,通过傅里叶不相交权重(FDW)在不增加参数的前提下构建频率多样的卷积核,结合核空间调制(KSM)和频带调制(FBM)实现精细的频率自适应,仅增加 3.6M 参数即超越需要 65-90M 额外参数的现有动态卷积方法。

Generative Video Propagation

提出 GenProp 框架,通过选择性内容编码器(SCE)与 I2V 生成模型的配合,将首帧编辑统一传播到整个视频,在一个模型中同时支持视频编辑、目标去除、目标插入、目标跟踪等多种视频任务。

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

提出GLUS框架,通过"上下文帧(全局推理)+ 查询帧(局部追踪)"的帧划分策略,将全局理解和局部时序一致性统一到单个MLLM中,结合端到端训练的VOS记忆库模块,在MeViS上大幅超越所有MLLM-based方法(J&F 51.3%)。

Golden Cudgel Network for Real-Time Semantic Segmentation

提出 GCNet,核心是 Golden Cudgel Block (GCBlock),训练时自膨胀(多卷积多路径)提升学习能力,推理时自收缩(重参数化为单个 3×3 卷积)加速推理,无需外部教师模型即成为"自蒸馏"方案,在 Cityscapes 上以 77.3% mIoU / 193.3 FPS 超越现有实时分割模型。

GroupMamba: Efficient Group-Based Visual State Space Model

提出 Modulated Group Mamba 层,将输入通道分为四组分别按四个方向执行单向 SSM 扫描,通过 Channel Affinity Modulation(CAM)增强跨组通道交互,配合蒸馏训练目标解决大模型不稳定问题,在 ImageNet-1K 上以 23M 参数达到 83.3% Top-1 精度。

HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation

HFP-SAM 提出分层频率提示的 SAM 框架,通过频率引导适配器(FGA)注入海洋场景信息、频率感知点选择(FPS)自动生成高质量点提示、全视图 Mamba(FVM)高效解码,在四个海洋动物分割数据集上取得 SOTA。

Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning

COCA-Net 提出基于物理紧凑性(compactness)的层级聚类注意力层,通过自底向上的层级合并策略发现物体中心,解决了 Slot Attention 在初始化敏感性、slot 数量预设和背景分割等方面的固有缺陷,在六个无监督物体发现数据集上达到 SOTA。

Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity

本文提出 Holmes-VAU,构建了包含 70k+ 多粒度标注的视频异常理解基准 HIVAU-70k,并设计异常聚焦时序采样器(ATS)让多模态 VLM 集中关注异常密集区域,在长视频异常检测和推理任务上大幅超越现有方法。

ID-Patch: Robust ID Association for Group Photo Personalization

ID-Patch 通过将同一人脸特征同时生成 ID patch(用于空间控制)和 ID embedding(用于身份相似度保持),解决了多身份图像生成中的 ID 泄漏问题,在面部相似度、ID-位置关联精度和生成效率上全面超越 baseline。

Image Quality Assessment: From Human to Machine Preference

本文首次提出面向机器视觉的图像质量评估(IQA for MVS),构建了包含 225 万细粒度标注和 3 万参考/失真图像对的 Machine Preference Database (MPD),实验证明现有 HVS-centric IQA 指标无法准确表征机器偏好,揭示了人类与机器视觉系统间的根本性差异。

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

本文提出了一种基于 4D-LLM 和 2D-to-4D 迁移学习的 4D 全景场景图生成框架,通过链式场景图推理利用 LLM 的开放词汇能力,并从丰富的 2D 场景标注中迁移维度不变特征到 4D 场景,大幅缓解数据稀缺和词汇受限问题。

Leveraging 3D Geometric Priors in 2D Rotation Symmetry Detection

本文提出了一个利用3D几何先验的旋转对称性检测模型,通过在3D空间中直接预测旋转中心和顶点并投影回2D,结合基于种子点和旋转轴的顶点重建模块,在DENDI数据集上以F1-score 33.2超越了之前基于分割的SOTA方法EquiSym (22.5)。

LiVOS: Light Video Object Segmentation with Gated Linear Matching

提出 LiVOS——首个使用门控线性注意力替代 softmax 注意力进行内存匹配的轻量 VOS 网络,将时空注意力矩阵压缩为恒定大小的 2D 状态矩阵,实现任意长视频的恒定内存占用,并在 32G 消费级 GPU 上支持 4096p 推理。

M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation

本文引入"物相"(Phase)概念到视频目标分割任务中,构建了包含479个视频、205K掩码、覆盖6种相态和23种相变的M3-VOS基准,并提出即插即用的ReVOS方法通过逆向传播精炼来改善相变物体的分割性能。

MambaOut: Do We Really Need Mamba for Vision?

本文通过概念分析指出 Mamba 的 SSM 机制适用于长序列+自回归任务,而 ImageNet 图像分类两者都不满足,因此构建了去掉 SSM 的 MambaOut(纯 Gated CNN)系列模型,在图像分类上全面超越所有视觉 Mamba 模型,有力证明了 SSM 对视觉分类是不必要的。

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

NVIDIA 提出 MambaVision——首个系统研究 Mamba 与 Transformer 混合方式的视觉骨干网络,通过重设计的 MambaVision Mixer + 在最后几层加入 self-attention 来弥补 SSM 的全局上下文不足,在 ImageNet-1K 上达到精度-吞吐量的新 Pareto 前沿,同时在检测和分割下游任务中也优于同等规模的竞争模型。

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps

本文提出 MammAlps——一个来自瑞士国家公园的多模态多视角野生哺乳动物行为监测数据集(8.5 小时稠密标注,5 个物种,11 种活动 + 19 种动作),以及两个基准任务:多模态物种+层级行为识别(B1)和首个多视角长期事件理解(B2),填补了野生动物视频行为分析在层级行为标注、多模态和多视角方面的空白。

Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation

揭示了开放词汇分割中 mask pooling 方法的性能上界瓶颈——精确 mask 往往无法获得准确分类,提出 Mask-Adapter 从 proposal mask 和 CLIP 特征中提取语义激活图来替代直接 mask pooling,以即插即用方式显著提升多种 OVS 方法的分类准确率。

MaSS13K: A Matting-level Semantic Segmentation Benchmark

构建了包含 13,348 张 4K 分辨率图像的 matting 级语义分割数据集 MaSS13K(掩码复杂度比现有数据集高 20-50 倍),并提出 MaSSFormer 模型通过双分支像素解码器(全局语义 + 局部结构)在保持计算效率的同时实现了高分辨率场景下精细边界的高质量分割。

MatAnyone: Stable Video Matting with Consistent Memory Propagation

提出 MatAnyone 框架,通过区域自适应记忆融合机制在记忆空间中实现一致性传播(核心区域保持语义稳定,边界区域捕获精细 alpha 细节),配合新数据集 VM800 和利用分割数据直接监督 matting head 的训练策略,实现了鲁棒且高质量的目标指定视频抠图。

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

提出自动化数据生成管线构建大规模3D mask-text数据集Mosaic3D-5.6M(5.6M对、30K场景),训练语言对齐3D编码器+mask decoder,实现首个单阶段开放词汇3D实例分割。

MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation

MV-SSM 首次将状态空间模型(Mamba)引入多视图 3D 人体姿态估计,通过投影状态空间块 (PSS) 和网格 token 引导的双向扫描 (GTBS) 显式建模关节空间序列,在 CMU Panoptic 上达到 93.5 AP25 且在跨相机、跨场景泛化测试中大幅超越 SOTA。

OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

提出OverLoCK,首个显式融入自顶向下注意力机制的纯卷积骨干网络,通过深层分解策略(DDS)和上下文混合动态卷积(ContMix),在ImageNet-1K上以仅1/3的FLOPs超越ConvNeXt-B,在检测和分割任务上全面领先。

Paint by Inpaint: Learning to Add Image Objects by Removing Them First

提出"Paint by Inpaint"框架,利用"添加对象是移除对象的逆过程"这一洞察,通过自动化 inpainting 管线构建包含约 100 万高质量图像对的 PIPE 数据集,训练的扩散模型在对象添加和通用编辑任务上达到 SOTA。

PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation

PicoSAM3 是一个 1.3M 参数的超轻量可提示分割模型,通过 ROI 隐式提示编码、密集 CNN 架构(无 Transformer)、SAM3 知识蒸馏和 INT8 量化,在 COCO 上达 65.45% mIoU,并实现在 Sony IMX500 视觉传感器上 11.82ms 实时推理。

POSTA: A Go-to Framework for Customized Artistic Poster Generation

提出 POSTA,一个由扩散模型和多模态大语言模型驱动的模块化艺术海报生成框架,通过背景生成、版式设计规划和艺术文字风格化三个模块实现高度可定制的专业级海报创作。

Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains

SAM FTI-FDet 提出基于轻量 SAM 的自动提示实例分割框架,通过 Transformer 解码器式的提示生成器自动产生任务相关提示、自适应特征分发器融合多尺度特征、TinyViT backbone 降低计算开销,在货运列车故障检测数据集上达 74.6 \(AP^{box}\) / 74.2 \(AP^{mask}\)

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

RDNet 针对遥感图像中目标尺度剧烈变化的问题,提出区域比例感知的动态自适应显著性检测网络,通过动态自适应细节感知模块(DAD,根据目标区域比例选择不同大小卷积核组合)、频率匹配上下文增强模块(FCE,小波域特征交互)和区域比例感知定位模块(RPL,交叉注意力+比例引导),在 EORSSD/ORSSD/ORSI-4199 三个数据集上取得 SOTA。

ResCLIP: Residual Attention for Training-free Dense Vision-language Inference

发现 CLIP 中间层的交叉相关自注意力具有定位属性,提出残差交叉相关自注意力(RCS)和语义反馈精炼(SFR)两个即插即用模块,显著提升 CLIP 在开放词汇语义分割中的密集推理能力。

Rethinking Query-Based Transformer for Continual Image Segmentation

本文深入分析了 query-based Transformer 中 built-in objectness 的产生与消亡机制,提出 SimCIS 方法通过懒惰查询预对齐(QPA)、一致选择损失(CSL)和虚拟查询(VQ)三个模块,在保持 objectness 的同时提升可塑性,在 ADE20K 上的持续全景分割和持续语义分割任务中显著超越 SOTA。

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

本文提出以视觉为中心的 Transformer(VCT)框架来解决音频-视觉分割任务,用从视觉特征衍生的 query 替代传统的音频衍生 query,配合原型提示查询生成模块(PPQG),在 AVSBench 三个子集上达到新 SOTA,尤其在最具挑战性的 AVSS 子集上取得显著提升。

RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring

RipVIS 提出首个大规模离岸流(rip current)视频实例分割基准数据集(184 视频/21 万帧),同时提出时序置信度聚合(TCA)后处理方法,通过跨帧置信度累积提升离岸流分割的稳定性和召回率,为海滩安全监测提供系统化的 CV 解决方案。

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

ZeroShape-W 提出了一个遮挡感知的单视图三维形状重建模型,通过联合回归可见掩码、遮挡掩码、深度图和相机内参来估计完整 3D 形状(包括被遮挡部分),同时设计了一个可扩展的合成数据管线来模拟多样化的前景、遮挡物和背景,以仅 194M 参数在 Pix3D 基准上大幅超越了使用 >1100M 参数的 SOTA 方法。

Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment

本文通过音频引导的模态对齐(AMA)和不确定性估计(UE)两个模块,解决音视频分割中视觉相似物体的错误关联和发声状态频繁变化导致的过/欠分割问题,在AVS-Semantic上提升4.2%。

ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting

ROCKET-1 提出了一种新的视觉时序上下文提示(visual-temporal context prompting)通信协议,通过在历史视觉观测上标注物体分割来引导策略模型与环境交互,训练了一个基于分割条件的低层策略,结合 GPT-4o、Molmo、SAM-2 构建层级智能体,在 Minecraft 中实现了 76% 的开放世界交互性能绝对提升。

ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object

ROS-SAM通过LoRA微调编码器、改进HQ解码器和重设计数据流水线,使SAM适配遥感视频运动目标的高质量交互分割任务,IoU提升13%并展现强零样本泛化能力。

RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection

提出区域引导选择性优化网络 RSONet,通过两阶段(区域引导+显著性生成)解决 RGB 与热红外图像中显著区域不一致问题,利用相似度分数自动选择信息更准确的模态主导后续融合。

SAM2-LOVE: Segment Anything Model 2 in Language-Aided Audio-Visual Scenes

SAM2-LOVE 通过设计多模态融合 Transformer 将文本、音频、视觉三模态信息压缩为可学习 token 来提示 SAM2,结合 token 传播与累积策略增强时空一致性,在 Ref-AVS 基准上以 \(\mathcal{J\&F}\) 58.5% 的成绩超越 SOTA(EEMC)8.5个百分点。

SAMWise: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

SAMWISE 通过设计跨模态时序适配器(CMT)和条件记忆编码器(CME),在不微调 SAM2 权重的前提下为其注入自然语言理解和显式时序建模能力,以流式处理方式在参考视频目标分割(RVOS)任务上取得了 SOTA 性能,仅增加不到 5M 参数。

SAP: Segment Any 4K Panorama

将 360° 全景图分割重新定义为透视视频分割问题,通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块,配合 183K 合成 4K 全景图的大规模训练,实现零样本全景分割 +17.2 mIoU 的提升。

Scale Efficient Training for Large Datasets

提出 SeTa(Scale Efficient Training),一种基于 loss 的动态样本剪枝框架,通过随机采样去冗余、loss 聚类分难度、滑动窗口渐进式课程学习三步策略,在 11 个数据集 10 类任务 14 种模型上实现最高 50% 训练成本削减且性能无损。

Scene-Centric Unsupervised Panoptic Segmentation

CUPS 是首个直接在场景中心图像(如自动驾驶场景)上训练的无监督全景分割方法,通过融合自监督视觉特征、立体深度和光流运动线索生成高质量伪标签,在 Cityscapes 上的 PQ 超越此前 SOTA U2Seg 9.4 个点。

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE 提出一个即插即用的背景引导原型富化框架,在基类训练后用类无关分割模型从背景区域挖掘伪实例建立 Instance Prototype Bank (IPB),当新类别以少样本方式出现时,通过 Contextual Prototype Retrieval (CPR) 和 Attention-Based Prototype Enrichment (APE) 融合背景原型与少样本原型,在 ScanNet/S3DIS 上新类 IoU 提升最高 6.98%。

GleSAM: Segment Any-Quality Images with Generative Latent Space Enhancement

GleSAM将预训练潜在扩散模型(LDM)的去噪能力引入SAM的隐空间,通过单步去噪增强低质量图像的特征表示,实现对任意质量图像的鲁棒分割。

Segment Any Motion in Videos

本文提出了一种结合长程点轨迹运动线索、DINO 语义特征和 SAM2 像素级掩码致密化的运动物体分割方法,通过时空轨迹注意力和运动-语义解耦嵌入,在多个基准上显著超越了基于光流的传统方法,尤其在细粒度多物体分割场景中表现出色。

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

SemLA 提出了一个无需训练的测试时域适应框架,通过构建基于 CLIP 索引的 LoRA 适配器库,在推理时根据输入图像与各域质心的嵌入距离动态检索和融合最相关的适配器,为开放词汇语义分割模型实现了即时、高效的域适应。

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

提出SGMA框架,通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合,以及模态感知采样(MAS)模块动态优先训练脆弱模态,解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。

ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

本文揭示大卷积核的有效性可解耦为"特定粒度的特征提取"和"多路径特征融合"两个因素,据此提出ShiftwiseConv(SW Conv)——一个使用标准3×3卷积通过空间移位和多路径连接来模拟大卷积核效果的即插即用CNN模块,在分类、检测、分割等任务上超越了SLaK和UniRepLKNet等大核CNN以及多种Transformer架构。

Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck Models

提出SALF-CBM,将任意视觉网络转化为空间感知的概念瓶颈模型,通过CLIP视觉提示生成空间化概念图,同时提供"在哪里"(热力图)和"是什么"(概念)的双重解释,在ImageNet上甚至超越原始backbone精度。

SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models

提出 SketchFusion,通过将 CLIP 视觉特征动态注入 Stable Diffusion 的去噪过程以互补 SD 的高频偏置和草图特征缺陷,结合自适应多尺度特征聚合,首次实现了基础模型时代的通用草图特征表示,在检索、识别、分割和对应学习四项任务上均达 SOTA。

SmartEraser: Remove Anything from Images using Masked-Region Guidance

SmartEraser 提出 Masked-Region Guidance 新范式,保留掩码区域作为引导而非丢弃,配合百万级合成 Syn4Removal 数据集,在目标移除任务上大幅超越现有 mask-and-inpaint 方法。

Soft Self-Labeling and Potts Relaxations for Weakly-Supervised Segmentation

本文提出一种基于软伪标签的自标注方法,通过系统性评估多种 Potts 松弛形式和交叉熵变体,在标准网络架构上仅使用涂鸦(3% 像素)监督就实现了接近甚至超过全像素监督的分割性能,无需任何网络结构修改。

Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation

提出 SERA 框架,在预训练视觉语言模型中引入轻量级表达感知的混合专家(MoE)精细化,分别在 backbone 层(SERA-Adapter)和融合层(SERA-Fusion)进行专家路由,仅更新 <1% 参数即在参考图像分割基准上达到 SOTA。

StoryGPT-V: Large Language Models as Consistent Story Visualizers

本文提出StoryGPT-V,通过两阶段训练——先训练角色感知的潜在扩散模型(Char-LDM)实现高质量角色生成,再将LLM输出与Char-LDM输入空间对齐实现指代消解和上下文一致性——在故事可视化任务上生成准确、高质量且时间一致的角色图像,内存消耗低。

Style-Editor: Text-driven Object-Centric Style Editing

提出 Style-Editor,利用 CLIP 空间中的 patch 级方向损失和自适应背景保持损失,实现仅通过文本描述即可对目标对象进行精确风格编辑,无需分割掩码或参考图像。

Task-driven Image Fusion with Learnable Fusion Loss

本文提出 TDFusion,通过元学习方式训练一个损失生成模块,使融合损失函数能够根据下游任务(语义分割或目标检测)自适应地调整,从而让红外-可见光融合图像在下游任务上表现最优。

The Devil is in Low-Level Features for Cross-Domain Few-Shot Segmentation

本文深入分析了 CDFSS(跨域小样本分割)中"性能在训练早期即达峰值随后骤降"的现象,发现罪魁祸首是低级特征对域偏移的脆弱性导致损失景观变尖锐,据此提出两个即插即用模块:LEM(训练时通过随机卷积+FFT 实现面向低级特征的锐度感知最小化)和 LCM(测试时利用低级查询特征直接校准分割结果),在四个目标域上以平均 3.71%/5.34% 的 MIoU 提升超越 SOTA。

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

VRS-HQ 提出分层时间 token 编码(帧级 <SEG> + 视频级 <TAK>)和基于 token 驱动的关键帧选择策略,结合 SAM2 实现端到端的视频推理分割,在 ReVOS 上超越 VISA 达 9.1%。

The Power of Context: How Multimodality Improves Image Super-Resolution

提出 MMSR,一种融合深度、语义分割、边缘和文本描述等多模态信息的扩散模型超分辨率方法,通过多模态潜在连接器和多模态 CFG 有效抑制幻觉并提升 SR 质量。

Token CropR: Faster ViTs for Quite a Few Tasks

提出 Token CropR (Cropr),一种基于交叉注意力的 ViT token 剪枝方法,通过辅助预测头端到端学习按任务相关性选择 token,训练后可移除辅助头实现接近随机剪枝器的吞吐量,在分类/语义分割/目标检测/实例分割四类任务上均实现 1.5-4× 加速且性能损失极小。

Towards Generalizable Scene Change Detection

提出首个零样本场景变化检测框架 GeSCF,利用 SAM 内部特征实现跨域泛化且时序一致的变化掩码生成,同时定义了泛化 SCD 基准。

Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video

Uni4D 提出一个多阶段优化框架,将多个预训练视觉基础模型(深度估计、点跟踪、分割等)统一为能量最小化问题,无需重新训练或微调,即可从单目随机视频中联合恢复相机位姿、静态/动态三维几何和稠密三维运动轨迹,在多个动态场景数据集上达到 SOTA。

Universal Domain Adaptation for Semantic Segmentation

首次提出语义分割的通用域适应(UniDA-SS)任务和 UniMAP 框架,通过域特定原型区分(DSPD)和基于目标的图像匹配(TIM)两个核心组件,在不需要预先知道类别配置的情况下实现从合成数据到真实数据的有效适应,显著超越现有 UDA-SS 方法。

Using Diffusion Priors for Video Amodal Segmentation

本文将视频非模态分割(video amodal segmentation)重新建模为条件生成任务,利用预训练视频扩散模型(Stable Video Diffusion)的形状先验,以模态掩码和伪深度图为条件,在遮挡区域实现高达 13% mIoU 提升的补全效果,并首次实现视频级非模态内容补全。

V-CLR: View-Consistent Learning for Open-World Instance Segmentation

v-CLR 提出视图一致性学习框架,通过将自然图像变换为深度图/风格化图等外观不变视图,并在 DETR 架构中强制跨视图 query 特征一致 + 利用无监督物体 proposal 引导匹配方向,有效克服了检测网络的纹理偏差问题,在多个开放世界分割基准上达到 SOTA。

Visual Consensus Prompting for Co-Salient Object Detection

本文首次将参数高效的提示学习范式引入共显著物体检测(CoSOD)任务,提出视觉共识提示(VCP),通过将共识提取与分散过程嵌入可学习的提示中,在冻结基础模型的条件下以极少可训练参数超越 13 个全参数微调方法。

Your ViT is Secretly an Image Segmentation Model

本文提出 Encoder-only Mask Transformer(EoMT),证明在大规模预训练与足够大的模型下,plain ViT 无需卷积适配器、像素解码器和 Transformer 解码器等任务特定组件即可完成高质量图像分割,同时速度快达 4 倍。